Июньский CLI умер. Да здравствует GLM-5
Шесть месяцев назад весь мир говорил о Codex CLI как о непобедимом инструменте для кодинга. Разработчики массово переходили с Copilot на локальные решения, а CLI от OpenAI казался золотым стандартом. Сегодня это реликвия.
Обновление SanityBoard на 12.02.2026 показывает радикальный сдвиг. GLM-5 не просто обогнал конкурентов - он их раздавил. Причем сделал это с таким отрывом, что даже китайские коллеги из MiniMax не ожидали такого результата от своего M2.5.
Важный нюанс: все тесты проводились на реальных задачах из OpenCode benchmark, а не на синтетических датасетах. Никаких HumanEval, только реальный код из реальных проектов.
Цифры не врут: GLM-5 против всех
Давайте сразу к результатам, потому что они говорят сами за себя:
| Модель + Агент | OpenCode Score | Скорость (токен/сек) | Контекст (токенов) |
|---|---|---|---|
| GLM-5 + Droid Agent | 94.7% | 87 | 128K |
| Minimax M2.5 + CLI | 89.3% | 92 | 64K |
| GPT-5.3-Codex + CLI | 87.1% | 45 | 32K |
| GLM-4.7 + Droid | 82.4% | 78 | 128K |
Разница в 5.4% между первым и вторым местом - это не просто статистическая погрешность. Это пропасть. Особенно если учесть, что M2.5 от MiniMax специально затачивали под кодинг, а GLM-5 позиционировали как универсальную модель.
Почему Droid Agent оказался убийцей CLI?
Тут все просто. CLI агент работает по принципу "запрос-ответ". Дал задачу - получил код. Droid Agent ведет себя как полноценный разработчик:
- Анализирует структуру проекта перед началом работы
- Использует поиск по документации в реальном времени
- Тестирует написанный код перед тем, как его отдать
- Умеет возвращаться и исправлять ошибки самостоятельно
CLI агент, даже в его последней версии от OpenAI, все еще слишком прямолинеен. Он генерирует код, который выглядит правильно, но часто не работает в контексте конкретного проекта. Droid же сначала изучает проект, потом пишет.
Если вы все еще используете CLI-агенты для серьезной разработки, вы буквально стреляете себе в ногу. Это все равно что нанимать junior-разработчика, который не умеет читать чужой код.
Minimax M2.5: хорош, но недостаточно хорош
MiniMax проделали огромную работу с M2.5. Модель быстрая, эффективная, отлично справляется с типовыми задачами. Но есть проблема: она слишком предсказуема.
В тестах M2.5 показывала стабильно хорошие результаты на простых задачах: CRUD операции, базовые алгоритмы, стандартные паттерны. Как только задача требовала нестандартного подхода или работы с legacy-кодом, модель начинала спотыкаться.
Интересный факт: M2.5 отлично справляется с Rust и Go, но заметно проседает на Python. Особенно когда речь идет о сложных декораторах или метаклассах.
GLM-5 в этом плане более гибкий. Он не просто генерирует код - он понимает, зачем этот код нужен. Разница примерно как между программистом, который знает синтаксис, и программистом, который понимает архитектуру.
GPT-5.3-Codex: падение гиганта
Самое болезненное зрелище - наблюдать, как OpenAI теряет позиции в той области, которую они когда-то создали. GPT-5.3-Codex технически не плох. Он просто устарел.
Проблемы Codex:
- Ограниченный контекст (32K против 128K у GLM-5)
- Медленная генерация (45 токенов/сек против 87 у GLM-5)
- Стоимость: Codex все еще дороже локальных альтернатив
- Зависимость от интернета и API лимитов
Самое смешное, что шесть месяцев назад я бы рекомендовал Codex как лучший выбор для коммерческой разработки. Сегодня это даже не второй, а третий вариант после GLM-5 и M2.5.
Практические выводы: что ставить в 2026?
Если вы выбираете инструмент прямо сейчас, вот мой личный рейтинг:
1 GLM-5 + Droid Agent
Безусловный лидер. Работает локально (если у вас есть GPU с 24GB памяти), не требует интернета, справляется со сложными задачами. Единственный минус - требует настройки. Но если вы прочитали мою статью про китайские агентские войны, то уже знаете, как это делать.
2 Minimax M2.5 + CLI
Отличный выбор для тех, у кого нет мощного железа. M2.5 работает на картах с 12GB памяти, при этом показывает достойные результаты. Особенно хорош для рутинных задач: рефакторинг, документация, тесты. Для сложной архитектуры лучше GLM-5.
3 Локальные альтернативы
Если у вас слабое железо, присмотритесь к LFM2.5 1.2B или Devstral Small. Они не дотягивают до лидеров, но для повседневных задач вполне сгодятся.
Ошибки, которые все еще совершают
После тестирования десятков конфигураций заметил несколько типичных ошибок:
- Использование одной модели для всех задач. GLM-5 хорош для сложного кода, но для простых скриптов лучше подойдет что-то полегче
- Игнорирование контекстного окна. Если ваша модель поддерживает 128K токенов, настройте агент на его использование
- Экономия на агенте. Лучшая модель с плохим агентом проиграет средней модели с хорошим агентом
- Доверие синтетическим бенчмаркам. HumanEval и ему подобные давно не отражают реальность. Используйте OpenCode или подобные датасеты
Если вы хотите глубже погрузиться в тему бенчмарков, почитайте мою статью про проблемы синтетических тестов.
Что будет дальше?
GLM-5 сегодня лидирует, но уже через полгода ситуация может измениться. Вот на что стоит обратить внимание:
- Специализированные модели для кодинга. Универсальные LLM уступают место узкоспециализированным
- Агенты становятся умнее моделей. Droid Agent - только начало. Скоро появятся агенты, которые смогут вести весь проект от начала до конца
- Локальность побеждает облака. Разработчики устали от лимитов и зависимости от API
- Китайские модели доминируют. GLM-5 и M2.5 - только первые ласточки
Мой прогноз: к концу 2026 года мы увидим модель, которая будет писать код лучше среднего разработчика. И это будет не OpenAI, а китайская компания. GLM-5 уже близок к этому.
Проверьте свои настройки. Если вы до сих пор используете GPT-4 для кодинга, вы переплачиваете в 3-4 раза за худший результат. Переходите на GLM-5 или хотя бы на M2.5.
Последний совет: не бойтесь экспериментировать. Сегодня лучшая комбинация - GLM-5 + Droid. Завтра может появиться что-то лучше. Подпишитесь на обновления SanityBoard и следите за изменениями. В этом мире стоять на месте - значит отставать.
А если хотите сравнить GLM-5 с другими моделями в реальных условиях, посмотрите мои предыдущие тесты: GLM-4.5 против M2.1 и GLM-4.7 против M2.1 на CLI задачах.
Код для воспроизведения тестов и конфигурации всех агентов я выложу в следующем посте. А пока - попробуйте GLM-5. Вы удивитесь, насколько далеко ушли локальные модели.