GLM-5.2 рекорд Terminal-Bench: 80%+ для open-weights

16 июня 2026 года — день, который войдёт в историю open-source AI. Модель GLM-5.2 от Zhipu AI набрала 81.4% на Terminal-Bench, обойдя все предыдущие открытые модели и вплотную приблизившись к закрытым гигантам вроде GPT-5.2 и Claude 4.5. Для сообщества, которое привыкло видеть 70-79% как потолок, это настоящий прорыв.

Справка: Terminal-Bench — это бенчмарк, который проверяет способность LLM-агента работать в командной строке: выполнять скрипты, анализировать логи, настраивать серверы, писать и дебажить Bash-команды. До сих пор лидерами были закрытые модели — открытые не могли перешагнуть 80%. GLM-5.2 сделала это.

Что скрывается за цифрой?

Terminal-Bench состоит из 500 сценариев разной сложности — от банальных grep до многошаговых CI/CD пайплайнов. Модель должна не просто угадать команду, а спланировать последовательность действий, обработать ошибки, адаптироваться к неожиданным выводам. Именно это и проваливают большинство open-weight моделей — они либо галлюцинируют команды, либо зацикливаются на одном шаге. GLM-5.2 показала не только высокую точность, но и поразительную стабильность при повторных запусках.

Ещё в мае 2026 года тест на Pac-Man показал, что модель способна адаптироваться в реальном времени. Теперь этот навык подтверждён на серьёзном бенчмарке.

Модель	Score	Open weights
GLM-5.2	81.4%	✅
GPT-5.2	82.1%	❌
Claude 4.5 Opus	81.7%	❌
Qwen 3.5 (best open prior)	78.9%	✅

Разрыв с лучшей закрытой моделью — всего 0.7 процентного пункта. Для open-source это сродни ничьей. И это при том, что GLM-5.2 весит 70B параметров против 2T у GPT-5.2.

Как они это сделали? (спойлер: не только размер)

Архитектура GLM-5.2 — это эволюция прошлогодней GLM-5, которая уже блистала на Extended NYT Connections. Ключевое нововведение — Agentic Planning Module (APM), который вынесен в отдельный блок. Вместо того чтобы полагаться на автогрессию, модель сначала генерирует план на внутреннем языке сценариев, а затем выполняет его через sandbox-окружение. Если план проваливается — модель делает откат и пробует другой путь.

💡

В официальном блоге Zhipu AI утверждают, что APM снизил количество галлюцинаций при выполнении команд на 40% по сравнению с предыдущей версией. Но код этого модуля пока не опубликован — что вызывает вопросы у сообщества.

Другая важная фича — контекстное обучение на терминальных сессиях. Модель дообучали на миллионах реальных логов и стенограмм работы DevOps-инженеров. Как показали тесты на русскоязычных LLM, специфичные датасеты решают.

Скепсис: После громких заявлений про GLM-5, которая в бытовом вопросе обошла GPT-5.2, многие ждали валидации на серьёзных бенчмарках. Terminal-Bench — это первый по-настоящему сложный тест, и GLM-5.2 его прошла. Но без открытой методологии повтора результатов доверие остаётся ограниченным.

Что это меняет для разработчиков агентов?

Если вы пишете автономного помощника для работы с серверами — раньше у вас было два пути: либо платить за API закрытых моделей, либо мириться с 78% точностью. Теперь появилась open-weights альтернатива, которую можно запустить локально (да, потребуется GPU с 80+ GB VRAM, но это решаемо).

Уже сейчас на GitHub появились репозитории с адаптацией GLM-5.2 для:

Автоматической диагностики и починки docker-контейнеров
Генерации и выполнения сложных скриптов деплоя
Интерактивного ревью логов (модель сама пишет grep, awk, sed)

Кстати, если вы хотите сравнить производительность GLM-5.2 с другими моделями на своём железе, гайд по llama-bench с 37 моделями даст фору. Или обратите внимание на сводку тестов на Strix Halo — там GLM-5.2 развернули и прогнали.

А что же другие конкуренты?

Meta молчит: Llama 4.5 так и не вышла. Qwen 3.5 улучшается, но отстаёт. Mistral Large 3.5 показал 77.1% и уткнулся в потолок. Зато GLM-5.2, похоже, открыла новую стратегию: специализация агентных архитектур под конкретный бенчмарк. HLD Benchmark показал, что GLM-5 (предыдущая версия) уже умела проектировать системы, а не болтать. Теперь этот навык дошлифован до терминального мастерства.

Бытовой тест с китайской моделью намекал — Zhipu AI идут в своём ритме. Теперь ритм стал слышен всему миру. Следующий логический шаг: после терминала — SRE-агент? После SRE — возможно, полноценный оператор CI/CD? Границы стираются.

Но не обольщайтесь: повторить этот результат на неизвестных сценариях Terminal-Bench пока не смогла ни одна другая команда. Zhipu AI обещают выпустить полный набор данных и весов GLM-5.2 до конца июня. Если сдержат слово — рекорд перестанет быть сенсацией и станет рабочей лошадкой.

Подписаться на канал

GLM-5.2 побил рекорд Terminal-Bench: первая открытая модель с результатом выше 80%

Что скрывается за цифрой?

Как они это сделали? (спойлер: не только размер)

Что это меняет для разработчиков агентов?

А что же другие конкуренты?

Подписывайтесь на наш канал!