Чувашский язык оказался китайской грамотой для всех 22 моделей
Учительница из Чебоксар пыталась сгенерировать упражнения на чувашском языке. Она пробовала все – от свежего GPT-5 Turbo до российского GigaChat 4 Pro. В ответ получала или татарские фразы, или случайный набор кириллических символов, или вежливый отказ. Итог: ни одна из 22 протестированных моделей не набрала больше 7% в модуле ChuvashBench.
Это не теоретическая проблема. В России 22 республики с государственными языками. Учителя чувашского, татарского, якутского остаются один на один с AI-инструментами, которые их просто не видят. Пока западные бенчмарки гоняются за рейтингами в GSM8K или MMLU, российское образование сталкивается с куда более земными проблемами.
Запрос в GPT-5: "Составь план урока чувашского языка для 5 класса на тему 'Семья' по ФГОС". Ответ: "К сожалению, я не могу создать контент на чувашском языке, так как моя подготовка не включает достаточных данных по этому языку".
Что такое EduBench-RU и почему он важен?
Исследовательская группа из МГПУ и ВШЭ в феврале 2026 года выпустила первый специализированный бенчмарк для российского образования. Три модуля, 1500 тестовых заданий, проверка по 87 критериям.
- ФГОС-модуль: составление технологических карт уроков, планирование учебных результатов, проектирование метапредметных заданий. Скучно? Для учителя – ежедневная рутина на 3-4 часа.
- ОГЭ-модуль: генерация заданий с учетом спецификаций ФИПИ, проверка соответствия кодификатору, создание критериев оценивания.
- ChuvashBench: перевод учебных материалов, составление диалогов, проверка грамматики чувашского языка.
Методология жесткая. Как и в Lexometrica Ground Truth для права, здесь проверяют не общую эрудицию, а точное соответствие профессиональным стандартам. Один неучтенный универсальный учебный результат – минус балл. Неправильная формулировка задания ОГЭ – провал.
Таблица результатов: кто реально работает в классе?
| Модель (версия на март 2026) | ФГОС-модуль | ОГЭ-модуль | ChuvashBench | Комментарий |
|---|---|---|---|---|
| GigaChat 4 Pro | 89% | 85% | 6% | Лучший в ФГОС. Знает все приказы Минпроса, но стоит дорого |
| GPT-5 Turbo | 72% | 81% | 3% | Путает ФГОС с американскими стандартами. Часто "галлюцинирует" |
| YandexGPT 3 | 78% | 76% | 7% | Бесплатный, но медленный. Пропускает региональные компоненты |
| Claude 3.5 Sonnet | 65% | 68% | 2% | Пишет красиво, но не по стандартам. Лирика вместо технологической карты |
| Mixtral 8x22B (локально) | 42% | 51% | 1% | Требует 120 ГБ VRAM. Результат не стоит электричества |
Картина предсказуемая и грустная. Российские модели выигрывают в знании нормативной базы – они тренировались на русскоязычных образовательных документах. Западные модели пытаются импровизировать, что приводит к курьезам: GPT-5 предлагает оценивать проектную работу через "peer assessment rubrics", которых нет в ФГОС.
Но главное – все модели, от самых дорогих до open-source, показали близкие к нулю результаты в чувашском языке. Это не вопрос размера модели или архитектуры. Это вопрос данных – их просто нет. (Или они закрыты, как в случае с Yandex, у которого явно есть параллельные корпуса, но они не используются в публичных моделях).
Ошибки, которые учитель заметит сразу
Технологическая карта урока – это не эссе. Это жесткий документ с разделами "УУД", "Предметные результаты", "Формы контроля". GPT-5 регулярно забывает про метапредметные результаты. Claude путает типы уроков по ФГОС (урок открытия нового знания vs урок рефлексии).
С ОГЭ еще веселее. Модели генерируют задания, которые:
- Не соответствуют кодификатору (просят знать то, чего нет в программе)
- Имеют некорректные формулировки заданий ("объясните", когда нужен краткий ответ)
- Предлагают критерии оценивания, противоречащие методическим рекомендациям ФИПИ
Звучит как технические мелочи? Для учителя, который готовит детей к экзамену, это критично. Одна ошибка в формулировке – и весь набор заданий в мусор.
Проблема напоминает ситуацию с юридическими LLM. Как показало исследование "Почему общие LLM проваливаются в юриспруденции", без специализированной дообучки на узком домене модели выдают правдоподобный, но профессионально некорректный текст.
Что делать учителю в 2026 году?
Первое – отказаться от иллюзий. Никакая AI-модель не заменит знание предмета и стандартов. Особенно если вы преподаете не на русском языке.
Второе – использовать модели строго по назначению:
- Для черновиков технологических карт: GigaChat 4 Pro или YandexGPT 3 (бесплатный вариант). Задавать максимально конкретные промпты с указанием типа урока, УУД, планируемых результатов.
- Для генерации идей заданий: GPT-5 Turbo, но с обязательной последующей проверкой по кодификатору ФИПИ. Лучше использовать специализированные промпты, которые ограничивают "творчество" модели.
- Для работы с национальными языками: пока только человеческий интеллект. Все AI-инструменты бесполезны.
Третье – комбинировать. Сгенерировали карту в GigaChat – проверьте по официальным источникам. Создали задания в GPT – сверьте с последними методичками ФИПИ. Это дольше, но безопаснее.
Будущее: специализированные модели или вечная импровизация?
EduBench-RU выявил системную проблему. Западные компании не будут тренировать модели на данных ФГОС или чувашском языке – нет рынка. Российские компании сосредоточены на русскоязычном контенте, игнорируя региональные языки.
Выхода два:
1. Появление открытых специализированных моделей, дообученных на образовательных стандартах. Как локальные LLM для конкретных задач, но с фокусом на педагогику.
2. Создание государственного датасета – все технологические карты, все задания ОГЭ, все учебники на языках народов России в открытом доступе. Без этого чувашский учитель так и останется с маркером и флипчартом, пока весь мир говорит об AGI.
Ирония в том, что AI, который должен democratize education, на самом деле усиливает разрыв. Столичная школа с доступом к GigaChat и вай-фаем. Сельская школа в Чувашии, где учитель не может даже сгенерировать простой диалог для урока. Один и тот же инструмент, диаметрально противоположная реальность.
P.S. Если вы все-таки решите тестировать модели самостоятельно, не повторяйте ошибок сломанных бенчмарков. Проверяйте не то, что модель может сказать, а то, что она должна сказать по стандарту. Разница огромная.