Цифры не врут: а вот и свежие тесты
GLM 4.7 Flash вышел в конце 2025 года, а к январю 2026-го уже успел устроить небольшой переполох. Все говорят про эффективность, но мало кто смотрит на реальные цифры. Мы посмотрели. И вот что получилось.
| Модель (Версия на 29.01.2026) | MMLU | GSM8K | HumanEval | Стоимость за 1M токенов (вывод) |
|---|---|---|---|---|
| GLM 4.7 Flash (30B) | 85.3 | 92.1 | 78.5 | $0.15 |
| Gemini 2.5 Pro (2026) | 86.7 | 93.4 | 81.2 | $1.20 |
| Claude 4.5 Sonnet | 87.1 | 91.8 | 79.8 | $3.00 |
| Qwen2.5 32B | 83.9 | 90.5 | 76.1 | $0.10 (самохост) |
Разница в цене бьет по глазам. Gemini в восемь раз дороже при разнице в пару процентов на MMLU. Звучит как афера. Но не все так просто.
30 миллиардов - новый золотой стандарт?
Гонка параметров закончилась где-то в 2024-м. Сейчас все упирается в архитектуру и данные. GLM 4.7 Flash - это не просто 30B модель, это гибрид плотной и MoE-архитектуры, которая училась на специфичном, но качественном миксе данных.
Почему этого хватает? Потому что большинство коммерческих задач не требуют философских рассуждений о смысле жизни. Нужно быстро и точно ответить на вопрос, сгенерировать SQL-запрос, написать шаблон письма. С этим Flash справляется на ура.
Проблема в другом. Модель иногда зацикливается в reasoning-режиме или выдает странные ответы. Но это лечится правильными параметрами генерации. Китайские инженеры из Zhipu AI знают толк в оптимизации, но европейскому пользователю иногда приходится вручную отключать «шизофрению».
Стоимость против возможностей: где ломается копье
Вот главный аргумент против Gemini. Да, у Google модель умнее на 1-2% в синтетических тестах. Но зачем платить $1.20 за миллион токенов, если можно платить $0.15? Для стартапа с ограниченным бюджетом это разница между жизнью и смертью.
Попробовать GLM 4.7 Flash можно прямо на платформе ZAI - у них щедрый бесплатный лимит. Для тех, кто хочет крутить модель у себя, есть LM Studio с готовыми квантованными версиями. Только не забудьте про настройки для ускорения.
Внимание на контекстное окно. У Flash оно стандартное - 128K токенов. Gemini 2.5 Pro хвастается 2 миллионами. Если ваша задача - анализ гигантских PDF, выбор очевиден. Но таких задач - единицы.
А что с открытыми альтернативами?
Qwen2.5 32B - главный конкурент в opensource-сегменте. Дешевле в самохостинге, почти так же умна. Но у нее другая беда - скорость вывода. На том же железе GLM 4.7 Flash часто оказывается быстрее благодаря оптимизациям под NVIDIA-чипы.
Есть еще история с GLM 4.7 + CC против Claude, где экономия достигала $100 в месяц. Это не шутки. Это реальные деньги, которые можно потратить на что-то полезное.
И да, не забываем про REAP-квантование, которое позволяет запихнуть огромную модель в разумный объем памяти. Технологии сжатия догоняют рост параметров.
Что будет дальше? Прогноз от скептика
К 2027 году мы увидим две четкие тенденции. Первая - гигантские мультимодальные модели-монстры (типа Gemini Ultra) останутся для исследователей и корпораций с бездонными бюджетами.
Вторая - ниша 20-40 миллиардов параметров станет основной для бизнеса. Модели будут еще умнее, еще дешевле и, что важно, стабильнее. Проблемы с reasoning и зацикливанием, как у текущего Flash, уйдут в прошлое.
Совет? Не гонитесь за самым большим числом в бенчмарке. Возьмите GLM 4.7 Flash, Qwen 32B или даже Ministral 3 14B, правильно их настроьте и протестируйте на своих данных. Скорее всего, вы не заметите разницы с Gemini. А бюджет - заметите сразу.
И последнее. Архитектурные инновации вроде MLA от DeepSeek, которые другие модели не спешат внедрять, могут все перевернуть. Следите за этим. Следующий прорыв будет не в размере, а в устройстве.