Новая версия, старые проблемы
Ожидали прорыва? Получили шаг назад. GLM 5, флагманская модель от Zhipu AI, выпущенная в январе 2026 года, демонстрирует тревожный регресс в генерации текста на ключевых европейских языках и хинди. Данные свежего релиза бенчмарка NCBench (версия 3.1.2 от 10.02.2026) рисуют неожиданную картину: GLM 4.5, выпущенный в конце 2025 года, справляется лучше своего преемника.
NCBench 3.1.2 — это не просто очередной синтетический тест. Бенчмарк использует реальные пользовательские промпты, собранные с платформ вроде OpenRouter и Hugging Face, и оценивает модели по 12 метрикам, от когерентности до фактической точности. Результаты GLM 5 по сравнению с GLM 4.5 на английском, немецком, французском и хинди упали в среднем на 7.3%.
Цифры не врут: таблица провала
Вот что показывает разбор данных NCBench за последнюю неделю. Мы сравнивали GLM-5-32B (последняя доступная версия на 13.02.2026) с GLM-4.5-32B-Air.
| Язык | GLM 4.5 (NCBench Score) | GLM 5 (NCBench Score) | Регресс |
|---|---|---|---|
| Английский | 88.2 | 82.1 | -6.1 |
| Немецкий | 85.7 | 78.9 | -6.8 |
| Французский | 84.3 | 77.5 | -6.8 |
| Хинди | 79.8 | 71.2 | -8.6 |
Хинди просел сильнее всего. Почти 9 пунктов — это не статистическая погрешность, а полноценный провал. При этом на китайском и японском GLM 5, как и ожидалось, показывает рост на 3-5%. Получается, разработчики из Zhipu AI сфокусировались на азиатских языках в ущерб остальным.
Что конкретно пошло не так?
Анализ примеров из датасета NCBench показывает паттерн. GLM 5 стал чаще галлюцинировать факты при ответах на вопросы о европейской культуре и истории. Он путает даты, имена, географические объекты. Генерация повествовательного текста на хинди стала менее плавной, с грамматическими шероховатостями, которых не было у GLM 4.5.
Любопытно, что в бытовых вопросах GLM 5 иногда обходит GPT-5.2, но в строгой оценке генерации текста на европейских языках он спотыкается. Это говорит о разной природе «интеллекта» в разных тестах.
А что с GLM 4.7? Он тоже лучше?
Да. И это делает ситуацию еще более странной. GLM-4.7, признанный лучшей opensource-моделью, в том же тесте NCBench показывает результаты на уровне GLM 4.5 по европейским языкам и даже немного превосходит его по хинди. Линейка GLM развивается нелинейно: 4.5 → 4.7 → 5. И где-то на последнем шаге что-то сломалось для некитайских пользователей.
Если ваш стек — Python и React, и вы выбирали между GLM и другими моделями, сравнение GLM 4.7 с DeepSeek и Qwen остается более релевантным, чем тесты GLM 5.
Что делать пользователям прямо сейчас?
Не спешите мигрировать на GLM 5, если ваша основная задача — генерация качественного текста на английском, немецком, французском или хинди. GLM 4.5 Air, особенно с правильными настройками скорости, пока остается более стабильным выбором.
- Для мультиязычных проектов: Используйте GLM 4.5 или 4.7. Или посмотрите в сторону связки GLM 4.7 с Claude через CC для сложных задач.
- Для китайскоязычных задач: GLM 5, безусловно, шаг вперед. Его новые возможности там раскрываются полностью.
- Для экспериментов: Если хотите потестировать GLM 5, делайте это на OpenRouter, где можно быстро сравнить его с другими моделями без развертывания.
Совет от практика: перед полным переходом на любую новую модель запустите свой собственный, небольшой бенчмарк на 20-30 промптах, которые отражают вашу реальную работу. Слепая вера в номер версии — прямой путь к падению качества продукта.
Будут ли чинить?
Zhipu AI еще не прокомментировала данные NCBench. Но паттерн ясен: гонка за размерами контекста и мультимодальностью ударила по базовому качеству текста на «второстепенных» для разработчиков языках. Исправят ли это в GLM 5.1 или GLM 6 — большой вопрос. Пока что история учит: самая новая версия — не всегда самая лучшая для вашей конкретной задачи. Иногда нужно откатиться на шаг назад, чтобы двигаться вперед.
А чтобы наглядно увидеть этот регресс, попробуйте построить графики сравнения на LLMPlot.com. Картинка скажет больше тысячи слов из промпта.