EduBench-RU 2026: Сравнение 22 AI-моделей для задач учителей | ФГОС, ОГЭ

Чувашский язык оказался китайской грамотой для всех 22 моделей

Учительница из Чебоксар пыталась сгенерировать упражнения на чувашском языке. Она пробовала все – от свежего GPT-5 Turbo до российского GigaChat 4 Pro. В ответ получала или татарские фразы, или случайный набор кириллических символов, или вежливый отказ. Итог: ни одна из 22 протестированных моделей не набрала больше 7% в модуле ChuvashBench.

Это не теоретическая проблема. В России 22 республики с государственными языками. Учителя чувашского, татарского, якутского остаются один на один с AI-инструментами, которые их просто не видят. Пока западные бенчмарки гоняются за рейтингами в GSM8K или MMLU, российское образование сталкивается с куда более земными проблемами.

Запрос в GPT-5: "Составь план урока чувашского языка для 5 класса на тему 'Семья' по ФГОС". Ответ: "К сожалению, я не могу создать контент на чувашском языке, так как моя подготовка не включает достаточных данных по этому языку".

Что такое EduBench-RU и почему он важен?

Исследовательская группа из МГПУ и ВШЭ в феврале 2026 года выпустила первый специализированный бенчмарк для российского образования. Три модуля, 1500 тестовых заданий, проверка по 87 критериям.

ФГОС-модуль: составление технологических карт уроков, планирование учебных результатов, проектирование метапредметных заданий. Скучно? Для учителя – ежедневная рутина на 3-4 часа.
ОГЭ-модуль: генерация заданий с учетом спецификаций ФИПИ, проверка соответствия кодификатору, создание критериев оценивания.
ChuvashBench: перевод учебных материалов, составление диалогов, проверка грамматики чувашского языка.

Методология жесткая. Как и в Lexometrica Ground Truth для права, здесь проверяют не общую эрудицию, а точное соответствие профессиональным стандартам. Один неучтенный универсальный учебный результат – минус балл. Неправильная формулировка задания ОГЭ – провал.

💡

EduBench-RU использует подход, похожий на AI-SETT – оценка по сотням микро-критериев вместо одного общего балла. Это дает понять не только КАК модель работает, но и ГДЕ именно она ломается. Подробнее о таком подходе в статье "AI-SETT: Когда 600 критериев оценки LLM оказываются важнее рейтинговых таблиц".

Таблица результатов: кто реально работает в классе?

Модель (версия на март 2026)	ФГОС-модуль	ОГЭ-модуль	ChuvashBench	Комментарий
GigaChat 4 Pro	89%	85%	6%	Лучший в ФГОС. Знает все приказы Минпроса, но стоит дорого
GPT-5 Turbo	72%	81%	3%	Путает ФГОС с американскими стандартами. Часто "галлюцинирует"
YandexGPT 3	78%	76%	7%	Бесплатный, но медленный. Пропускает региональные компоненты
Claude 3.5 Sonnet	65%	68%	2%	Пишет красиво, но не по стандартам. Лирика вместо технологической карты
Mixtral 8x22B (локально)	42%	51%	1%	Требует 120 ГБ VRAM. Результат не стоит электричества

Картина предсказуемая и грустная. Российские модели выигрывают в знании нормативной базы – они тренировались на русскоязычных образовательных документах. Западные модели пытаются импровизировать, что приводит к курьезам: GPT-5 предлагает оценивать проектную работу через "peer assessment rubrics", которых нет в ФГОС.

Но главное – все модели, от самых дорогих до open-source, показали близкие к нулю результаты в чувашском языке. Это не вопрос размера модели или архитектуры. Это вопрос данных – их просто нет. (Или они закрыты, как в случае с Yandex, у которого явно есть параллельные корпуса, но они не используются в публичных моделях).

Ошибки, которые учитель заметит сразу

Технологическая карта урока – это не эссе. Это жесткий документ с разделами "УУД", "Предметные результаты", "Формы контроля". GPT-5 регулярно забывает про метапредметные результаты. Claude путает типы уроков по ФГОС (урок открытия нового знания vs урок рефлексии).

С ОГЭ еще веселее. Модели генерируют задания, которые:

Не соответствуют кодификатору (просят знать то, чего нет в программе)
Имеют некорректные формулировки заданий ("объясните", когда нужен краткий ответ)
Предлагают критерии оценивания, противоречащие методическим рекомендациям ФИПИ

Звучит как технические мелочи? Для учителя, который готовит детей к экзамену, это критично. Одна ошибка в формулировке – и весь набор заданий в мусор.

Проблема напоминает ситуацию с юридическими LLM. Как показало исследование "Почему общие LLM проваливаются в юриспруденции", без специализированной дообучки на узком домене модели выдают правдоподобный, но профессионально некорректный текст.

Что делать учителю в 2026 году?

Первое – отказаться от иллюзий. Никакая AI-модель не заменит знание предмета и стандартов. Особенно если вы преподаете не на русском языке.

Второе – использовать модели строго по назначению:

Для черновиков технологических карт: GigaChat 4 Pro или YandexGPT 3 (бесплатный вариант). Задавать максимально конкретные промпты с указанием типа урока, УУД, планируемых результатов.
Для генерации идей заданий: GPT-5 Turbo, но с обязательной последующей проверкой по кодификатору ФИПИ. Лучше использовать специализированные промпты, которые ограничивают "творчество" модели.
Для работы с национальными языками: пока только человеческий интеллект. Все AI-инструменты бесполезны.

Третье – комбинировать. Сгенерировали карту в GigaChat – проверьте по официальным источникам. Создали задания в GPT – сверьте с последними методичками ФИПИ. Это дольше, но безопаснее.

Будущее: специализированные модели или вечная импровизация?

EduBench-RU выявил системную проблему. Западные компании не будут тренировать модели на данных ФГОС или чувашском языке – нет рынка. Российские компании сосредоточены на русскоязычном контенте, игнорируя региональные языки.

Выхода два:

1. Появление открытых специализированных моделей, дообученных на образовательных стандартах. Как локальные LLM для конкретных задач, но с фокусом на педагогику.

2. Создание государственного датасета – все технологические карты, все задания ОГЭ, все учебники на языках народов России в открытом доступе. Без этого чувашский учитель так и останется с маркером и флипчартом, пока весь мир говорит об AGI.

Ирония в том, что AI, который должен democratize education, на самом деле усиливает разрыв. Столичная школа с доступом к GigaChat и вай-фаем. Сельская школа в Чувашии, где учитель не может даже сгенерировать простой диалог для урока. Один и тот же инструмент, диаметрально противоположная реальность.

P.S. Если вы все-таки решите тестировать модели самостоятельно, не повторяйте ошибок сломанных бенчмарков. Проверяйте не то, что модель может сказать, а то, что она должна сказать по стандарту. Разница огромная.

Подписаться на канал

Ни одна модель не знает чувашский: EduBench-RU проверил 22 LLM для российских учителей