GLM 5 регресс в генерации текста: данные NCBench на 13.02.2026 | AiManual
AiManual Logo Ai / Manual.
13 Фев 2026 Новости

GLM 5 провалил тест: новая модель хуже GLM 4.5 на европейских языках и хинди

GLM 5 показывает худшие результаты, чем GLM 4.5, в генерации текста на английском, немецком, французском и хинди по данным бенчмарка NCBench.

Новая версия, старые проблемы

Ожидали прорыва? Получили шаг назад. GLM 5, флагманская модель от Zhipu AI, выпущенная в январе 2026 года, демонстрирует тревожный регресс в генерации текста на ключевых европейских языках и хинди. Данные свежего релиза бенчмарка NCBench (версия 3.1.2 от 10.02.2026) рисуют неожиданную картину: GLM 4.5, выпущенный в конце 2025 года, справляется лучше своего преемника.

NCBench 3.1.2 — это не просто очередной синтетический тест. Бенчмарк использует реальные пользовательские промпты, собранные с платформ вроде OpenRouter и Hugging Face, и оценивает модели по 12 метрикам, от когерентности до фактической точности. Результаты GLM 5 по сравнению с GLM 4.5 на английском, немецком, французском и хинди упали в среднем на 7.3%.

Цифры не врут: таблица провала

Вот что показывает разбор данных NCBench за последнюю неделю. Мы сравнивали GLM-5-32B (последняя доступная версия на 13.02.2026) с GLM-4.5-32B-Air.

Язык GLM 4.5 (NCBench Score) GLM 5 (NCBench Score) Регресс
Английский 88.2 82.1 -6.1
Немецкий 85.7 78.9 -6.8
Французский 84.3 77.5 -6.8
Хинди 79.8 71.2 -8.6

Хинди просел сильнее всего. Почти 9 пунктов — это не статистическая погрешность, а полноценный провал. При этом на китайском и японском GLM 5, как и ожидалось, показывает рост на 3-5%. Получается, разработчики из Zhipu AI сфокусировались на азиатских языках в ущерб остальным.

Что конкретно пошло не так?

Анализ примеров из датасета NCBench показывает паттерн. GLM 5 стал чаще галлюцинировать факты при ответах на вопросы о европейской культуре и истории. Он путает даты, имена, географические объекты. Генерация повествовательного текста на хинди стала менее плавной, с грамматическими шероховатостями, которых не было у GLM 4.5.

💡
Это классическая проблема trade-off. Увеличивая размер контекста до 128K токенов и добавляя новые возможности мультимодальности в GLM 5, инженеры, вероятно, перетренировали модель на китайскоязычных данных. Качество на других языках стало заложником этого выбора.

Любопытно, что в бытовых вопросах GLM 5 иногда обходит GPT-5.2, но в строгой оценке генерации текста на европейских языках он спотыкается. Это говорит о разной природе «интеллекта» в разных тестах.

А что с GLM 4.7? Он тоже лучше?

Да. И это делает ситуацию еще более странной. GLM-4.7, признанный лучшей opensource-моделью, в том же тесте NCBench показывает результаты на уровне GLM 4.5 по европейским языкам и даже немного превосходит его по хинди. Линейка GLM развивается нелинейно: 4.5 → 4.7 → 5. И где-то на последнем шаге что-то сломалось для некитайских пользователей.

Если ваш стек — Python и React, и вы выбирали между GLM и другими моделями, сравнение GLM 4.7 с DeepSeek и Qwen остается более релевантным, чем тесты GLM 5.

Что делать пользователям прямо сейчас?

Не спешите мигрировать на GLM 5, если ваша основная задача — генерация качественного текста на английском, немецком, французском или хинди. GLM 4.5 Air, особенно с правильными настройками скорости, пока остается более стабильным выбором.

  • Для мультиязычных проектов: Используйте GLM 4.5 или 4.7. Или посмотрите в сторону связки GLM 4.7 с Claude через CC для сложных задач.
  • Для китайскоязычных задач: GLM 5, безусловно, шаг вперед. Его новые возможности там раскрываются полностью.
  • Для экспериментов: Если хотите потестировать GLM 5, делайте это на OpenRouter, где можно быстро сравнить его с другими моделями без развертывания.

Совет от практика: перед полным переходом на любую новую модель запустите свой собственный, небольшой бенчмарк на 20-30 промптах, которые отражают вашу реальную работу. Слепая вера в номер версии — прямой путь к падению качества продукта.

Будут ли чинить?

Zhipu AI еще не прокомментировала данные NCBench. Но паттерн ясен: гонка за размерами контекста и мультимодальностью ударила по базовому качеству текста на «второстепенных» для разработчиков языках. Исправят ли это в GLM 5.1 или GLM 6 — большой вопрос. Пока что история учит: самая новая версия — не всегда самая лучшая для вашей конкретной задачи. Иногда нужно откатиться на шаг назад, чтобы двигаться вперед.

А чтобы наглядно увидеть этот регресс, попробуйте построить графики сравнения на LLMPlot.com. Картинка скажет больше тысячи слов из промпта.