EduBench-RU 2026: Сравнение 22 AI-моделей для задач учителей | ФГОС, ОГЭ | AiManual
AiManual Logo Ai / Manual.
25 Мар 2026 Новости

Ни одна модель не знает чувашский: EduBench-RU проверил 22 LLM для российских учителей

Первый бенчмарк EduBench-RU тестирует 22 AI-модели для задач учителей: технологические карты ФГОС, задания ОГЭ, перевод на чувашский. Результаты шокируют.

Чувашский язык оказался китайской грамотой для всех 22 моделей

Учительница из Чебоксар пыталась сгенерировать упражнения на чувашском языке. Она пробовала все – от свежего GPT-5 Turbo до российского GigaChat 4 Pro. В ответ получала или татарские фразы, или случайный набор кириллических символов, или вежливый отказ. Итог: ни одна из 22 протестированных моделей не набрала больше 7% в модуле ChuvashBench.

Это не теоретическая проблема. В России 22 республики с государственными языками. Учителя чувашского, татарского, якутского остаются один на один с AI-инструментами, которые их просто не видят. Пока западные бенчмарки гоняются за рейтингами в GSM8K или MMLU, российское образование сталкивается с куда более земными проблемами.

Запрос в GPT-5: "Составь план урока чувашского языка для 5 класса на тему 'Семья' по ФГОС". Ответ: "К сожалению, я не могу создать контент на чувашском языке, так как моя подготовка не включает достаточных данных по этому языку".

Что такое EduBench-RU и почему он важен?

Исследовательская группа из МГПУ и ВШЭ в феврале 2026 года выпустила первый специализированный бенчмарк для российского образования. Три модуля, 1500 тестовых заданий, проверка по 87 критериям.

  • ФГОС-модуль: составление технологических карт уроков, планирование учебных результатов, проектирование метапредметных заданий. Скучно? Для учителя – ежедневная рутина на 3-4 часа.
  • ОГЭ-модуль: генерация заданий с учетом спецификаций ФИПИ, проверка соответствия кодификатору, создание критериев оценивания.
  • ChuvashBench: перевод учебных материалов, составление диалогов, проверка грамматики чувашского языка.

Методология жесткая. Как и в Lexometrica Ground Truth для права, здесь проверяют не общую эрудицию, а точное соответствие профессиональным стандартам. Один неучтенный универсальный учебный результат – минус балл. Неправильная формулировка задания ОГЭ – провал.

💡
EduBench-RU использует подход, похожий на AI-SETT – оценка по сотням микро-критериев вместо одного общего балла. Это дает понять не только КАК модель работает, но и ГДЕ именно она ломается. Подробнее о таком подходе в статье "AI-SETT: Когда 600 критериев оценки LLM оказываются важнее рейтинговых таблиц".

Таблица результатов: кто реально работает в классе?

Модель (версия на март 2026)ФГОС-модульОГЭ-модульChuvashBenchКомментарий
GigaChat 4 Pro89%85%6%Лучший в ФГОС. Знает все приказы Минпроса, но стоит дорого
GPT-5 Turbo72%81%3%Путает ФГОС с американскими стандартами. Часто "галлюцинирует"
YandexGPT 378%76%7%Бесплатный, но медленный. Пропускает региональные компоненты
Claude 3.5 Sonnet65%68%2%Пишет красиво, но не по стандартам. Лирика вместо технологической карты
Mixtral 8x22B (локально)42%51%1%Требует 120 ГБ VRAM. Результат не стоит электричества

Картина предсказуемая и грустная. Российские модели выигрывают в знании нормативной базы – они тренировались на русскоязычных образовательных документах. Западные модели пытаются импровизировать, что приводит к курьезам: GPT-5 предлагает оценивать проектную работу через "peer assessment rubrics", которых нет в ФГОС.

Но главное – все модели, от самых дорогих до open-source, показали близкие к нулю результаты в чувашском языке. Это не вопрос размера модели или архитектуры. Это вопрос данных – их просто нет. (Или они закрыты, как в случае с Yandex, у которого явно есть параллельные корпуса, но они не используются в публичных моделях).

Ошибки, которые учитель заметит сразу

Технологическая карта урока – это не эссе. Это жесткий документ с разделами "УУД", "Предметные результаты", "Формы контроля". GPT-5 регулярно забывает про метапредметные результаты. Claude путает типы уроков по ФГОС (урок открытия нового знания vs урок рефлексии).

С ОГЭ еще веселее. Модели генерируют задания, которые:

  • Не соответствуют кодификатору (просят знать то, чего нет в программе)
  • Имеют некорректные формулировки заданий ("объясните", когда нужен краткий ответ)
  • Предлагают критерии оценивания, противоречащие методическим рекомендациям ФИПИ

Звучит как технические мелочи? Для учителя, который готовит детей к экзамену, это критично. Одна ошибка в формулировке – и весь набор заданий в мусор.

Проблема напоминает ситуацию с юридическими LLM. Как показало исследование "Почему общие LLM проваливаются в юриспруденции", без специализированной дообучки на узком домене модели выдают правдоподобный, но профессионально некорректный текст.

Что делать учителю в 2026 году?

Первое – отказаться от иллюзий. Никакая AI-модель не заменит знание предмета и стандартов. Особенно если вы преподаете не на русском языке.

Второе – использовать модели строго по назначению:

  1. Для черновиков технологических карт: GigaChat 4 Pro или YandexGPT 3 (бесплатный вариант). Задавать максимально конкретные промпты с указанием типа урока, УУД, планируемых результатов.
  2. Для генерации идей заданий: GPT-5 Turbo, но с обязательной последующей проверкой по кодификатору ФИПИ. Лучше использовать специализированные промпты, которые ограничивают "творчество" модели.
  3. Для работы с национальными языками: пока только человеческий интеллект. Все AI-инструменты бесполезны.

Третье – комбинировать. Сгенерировали карту в GigaChat – проверьте по официальным источникам. Создали задания в GPT – сверьте с последними методичками ФИПИ. Это дольше, но безопаснее.

Будущее: специализированные модели или вечная импровизация?

EduBench-RU выявил системную проблему. Западные компании не будут тренировать модели на данных ФГОС или чувашском языке – нет рынка. Российские компании сосредоточены на русскоязычном контенте, игнорируя региональные языки.

Выхода два:

1. Появление открытых специализированных моделей, дообученных на образовательных стандартах. Как локальные LLM для конкретных задач, но с фокусом на педагогику.

2. Создание государственного датасета – все технологические карты, все задания ОГЭ, все учебники на языках народов России в открытом доступе. Без этого чувашский учитель так и останется с маркером и флипчартом, пока весь мир говорит об AGI.

Ирония в том, что AI, который должен democratize education, на самом деле усиливает разрыв. Столичная школа с доступом к GigaChat и вай-фаем. Сельская школа в Чувашии, где учитель не может даже сгенерировать простой диалог для урока. Один и тот же инструмент, диаметрально противоположная реальность.

P.S. Если вы все-таки решите тестировать модели самостоятельно, не повторяйте ошибок сломанных бенчмарков. Проверяйте не то, что модель может сказать, а то, что она должна сказать по стандарту. Разница огромная.

Подписаться на канал