GLM-5 лидирует в кодинге: тесты Minimax M2.5 и лучшие комбинации 2026 | AiManual
AiManual Logo Ai / Manual.
12 Фев 2026 Гайд

GLM-5 захватывает трон: как июньский CLI проиграл китайской модели

Сравнительный анализ GLM-5, Minimax M2.5 и GPT-5.3-Codex с агентами Droid и CLI. Какая связка модель+агент сейчас лучшая для разработки.

Июньский CLI умер. Да здравствует GLM-5

Шесть месяцев назад весь мир говорил о Codex CLI как о непобедимом инструменте для кодинга. Разработчики массово переходили с Copilot на локальные решения, а CLI от OpenAI казался золотым стандартом. Сегодня это реликвия.

Обновление SanityBoard на 12.02.2026 показывает радикальный сдвиг. GLM-5 не просто обогнал конкурентов - он их раздавил. Причем сделал это с таким отрывом, что даже китайские коллеги из MiniMax не ожидали такого результата от своего M2.5.

Важный нюанс: все тесты проводились на реальных задачах из OpenCode benchmark, а не на синтетических датасетах. Никаких HumanEval, только реальный код из реальных проектов.

Цифры не врут: GLM-5 против всех

Давайте сразу к результатам, потому что они говорят сами за себя:

Модель + Агент OpenCode Score Скорость (токен/сек) Контекст (токенов)
GLM-5 + Droid Agent 94.7% 87 128K
Minimax M2.5 + CLI 89.3% 92 64K
GPT-5.3-Codex + CLI 87.1% 45 32K
GLM-4.7 + Droid 82.4% 78 128K

Разница в 5.4% между первым и вторым местом - это не просто статистическая погрешность. Это пропасть. Особенно если учесть, что M2.5 от MiniMax специально затачивали под кодинг, а GLM-5 позиционировали как универсальную модель.

💡
Контекст в 128K токенов у GLM-5 - это не маркетинг. В тестах модель действительно использовала длинные контексты для анализа сложных файлов. В отличие от многих конкурентов, которые "поддерживают" длинный контекст только на бумаге.

Почему Droid Agent оказался убийцей CLI?

Тут все просто. CLI агент работает по принципу "запрос-ответ". Дал задачу - получил код. Droid Agent ведет себя как полноценный разработчик:

  • Анализирует структуру проекта перед началом работы
  • Использует поиск по документации в реальном времени
  • Тестирует написанный код перед тем, как его отдать
  • Умеет возвращаться и исправлять ошибки самостоятельно

CLI агент, даже в его последней версии от OpenAI, все еще слишком прямолинеен. Он генерирует код, который выглядит правильно, но часто не работает в контексте конкретного проекта. Droid же сначала изучает проект, потом пишет.

Если вы все еще используете CLI-агенты для серьезной разработки, вы буквально стреляете себе в ногу. Это все равно что нанимать junior-разработчика, который не умеет читать чужой код.

Minimax M2.5: хорош, но недостаточно хорош

MiniMax проделали огромную работу с M2.5. Модель быстрая, эффективная, отлично справляется с типовыми задачами. Но есть проблема: она слишком предсказуема.

В тестах M2.5 показывала стабильно хорошие результаты на простых задачах: CRUD операции, базовые алгоритмы, стандартные паттерны. Как только задача требовала нестандартного подхода или работы с legacy-кодом, модель начинала спотыкаться.

Интересный факт: M2.5 отлично справляется с Rust и Go, но заметно проседает на Python. Особенно когда речь идет о сложных декораторах или метаклассах.

GLM-5 в этом плане более гибкий. Он не просто генерирует код - он понимает, зачем этот код нужен. Разница примерно как между программистом, который знает синтаксис, и программистом, который понимает архитектуру.

GPT-5.3-Codex: падение гиганта

Самое болезненное зрелище - наблюдать, как OpenAI теряет позиции в той области, которую они когда-то создали. GPT-5.3-Codex технически не плох. Он просто устарел.

Проблемы Codex:

  1. Ограниченный контекст (32K против 128K у GLM-5)
  2. Медленная генерация (45 токенов/сек против 87 у GLM-5)
  3. Стоимость: Codex все еще дороже локальных альтернатив
  4. Зависимость от интернета и API лимитов

Самое смешное, что шесть месяцев назад я бы рекомендовал Codex как лучший выбор для коммерческой разработки. Сегодня это даже не второй, а третий вариант после GLM-5 и M2.5.

Практические выводы: что ставить в 2026?

Если вы выбираете инструмент прямо сейчас, вот мой личный рейтинг:

1 GLM-5 + Droid Agent

Безусловный лидер. Работает локально (если у вас есть GPU с 24GB памяти), не требует интернета, справляется со сложными задачами. Единственный минус - требует настройки. Но если вы прочитали мою статью про китайские агентские войны, то уже знаете, как это делать.

2 Minimax M2.5 + CLI

Отличный выбор для тех, у кого нет мощного железа. M2.5 работает на картах с 12GB памяти, при этом показывает достойные результаты. Особенно хорош для рутинных задач: рефакторинг, документация, тесты. Для сложной архитектуры лучше GLM-5.

3 Локальные альтернативы

Если у вас слабое железо, присмотритесь к LFM2.5 1.2B или Devstral Small. Они не дотягивают до лидеров, но для повседневных задач вполне сгодятся.

💡
Не гонитесь за самым новым. GLM-4.7 все еще отличная модель, особенно в связке с Droid Agent. Разница между 4.7 и 5 есть, но для большинства задач она не критична.

Ошибки, которые все еще совершают

После тестирования десятков конфигураций заметил несколько типичных ошибок:

  • Использование одной модели для всех задач. GLM-5 хорош для сложного кода, но для простых скриптов лучше подойдет что-то полегче
  • Игнорирование контекстного окна. Если ваша модель поддерживает 128K токенов, настройте агент на его использование
  • Экономия на агенте. Лучшая модель с плохим агентом проиграет средней модели с хорошим агентом
  • Доверие синтетическим бенчмаркам. HumanEval и ему подобные давно не отражают реальность. Используйте OpenCode или подобные датасеты

Если вы хотите глубже погрузиться в тему бенчмарков, почитайте мою статью про проблемы синтетических тестов.

Что будет дальше?

GLM-5 сегодня лидирует, но уже через полгода ситуация может измениться. Вот на что стоит обратить внимание:

  1. Специализированные модели для кодинга. Универсальные LLM уступают место узкоспециализированным
  2. Агенты становятся умнее моделей. Droid Agent - только начало. Скоро появятся агенты, которые смогут вести весь проект от начала до конца
  3. Локальность побеждает облака. Разработчики устали от лимитов и зависимости от API
  4. Китайские модели доминируют. GLM-5 и M2.5 - только первые ласточки

Мой прогноз: к концу 2026 года мы увидим модель, которая будет писать код лучше среднего разработчика. И это будет не OpenAI, а китайская компания. GLM-5 уже близок к этому.

Проверьте свои настройки. Если вы до сих пор используете GPT-4 для кодинга, вы переплачиваете в 3-4 раза за худший результат. Переходите на GLM-5 или хотя бы на M2.5.

Последний совет: не бойтесь экспериментировать. Сегодня лучшая комбинация - GLM-5 + Droid. Завтра может появиться что-то лучше. Подпишитесь на обновления SanityBoard и следите за изменениями. В этом мире стоять на месте - значит отставать.

А если хотите сравнить GLM-5 с другими моделями в реальных условиях, посмотрите мои предыдущие тесты: GLM-4.5 против M2.1 и GLM-4.7 против M2.1 на CLI задачах.

Код для воспроизведения тестов и конфигурации всех агентов я выложу в следующем посте. А пока - попробуйте GLM-5. Вы удивитесь, насколько далеко ушли локальные модели.