Когда китайский гигант заставил меня пересмотреть все предубеждения

Я тестирую локальные языковые модели лет пять. За это время успел разочароваться в десятке «прорывных» релизов, которые на бумаге били GPT-4, а на практике с трудом собирали простое API. GLM-5-744B от Zhipu AI стал первым, после которого я не потянулся сразу к ChatGPT. Первым, который заставил сказать: «Черт, а это и правда работает».

Тест был простым и жестоким: заставить модель с нуля создать игру-платформер на PyGame, упаковать ее в exe и развернуть на локальном сервере. Без ручных правок, без доработок — только промпты и вера в технологии. Железо: не топовый сервер, а одна карта NVIDIA RTX 6000 Ada Generation с 48 ГБ VRAM. Софт: vLLM 0.6.0 (последняя стабильная на февраль 2026) с квантованием IQ2_M.

Важный нюанс: GLM-5-744B — это не та модель, что вы скачаете с Hugging Face в FP16. В таком виде она требует ~1.4 ТБ памяти. Реальность — это агрессивное квантование. Я использовал версию от MaziyarPanahi с интеллектуальным квантованием IQ2_M, которая ужимает модель до ~46 ГБ без катастрофической потери качества.

1Железо и магия vLLM: как запустить монстра на одной карте

RTX 6000 — это не H100, но для локальных экспериментов хватает с головой. Ключ — правильный сервинг. Ollama? Too slow. llama.cpp? Не для таких размеров. vLLM с поддержкой AWQ/IQ2 квантования — единственный вариант, который дает приемлемую скорость инференса (8-12 токенов/с) при полной загрузке контекста в 128К токенов.

Запуск выглядел так:

python -m vllm.entrypoints.openai.api_server \
  --model MaziyarPanahi/GLM-5-744B-IQ2_M \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.95 \
  --max-model-len 131072

Да, одна карта, tensor-parallel-size 1. vLLM 0.6.0 научилась эффективно распределять слои такой большой квантованной модели. Потребление VRAM после запуска — стабильные 44-45 ГБ. Первый запуск занял 4 минуты — модель загружалась и компилировала квантованные веса. Дальше — уже летает.

💡

Если ваш проект упирается в управление длинным контекстом, посмотрите мой гайд по борьбе с деградацией контекста. Там разобраны техники, которые критически важны при работе с 128К окном.

2Тест на прочность: создаем игру за 10 промптов

Я не просил «напиши hello world». Задача была: «Создай игру-платформер в стиле Celeste с механиками двойного прыжка, стенозацепа и врагами-патрульными. Используй PyGame. Код должен быть модульным, с отдельными файлами для игрока, врагов, уровней». И отправил это в OpenAI-совместимый эндпоинт vLLM.

GLM-5 ответила не просто куском кода. Она прислала полную структуру проекта:

main.py с инициализацией игры и главным циклом
player.py с классом игрока, физикой и анимациями
enemy.py с ИИ патрулирования на A* (она сама предложила использовать простую сетку)
tilemap.py для загрузки уровней из CSV
requirements.txt с актуальными версиями PyGame и numpy

Вторым промптом я попросил добавить систему сохранения прогресса и меню паузы. GLM-5 не только добавила, но и использовала контекст 128К, чтобы учесть все ранее сгенерированные файлы, не переписывая рабочий код. Третий промпт — «сгенерируй три уровня разной сложности в CSV формате». Она нарисовала их в виде сеток, объяснив логику расположения платформ и врагов.

Через 10 таких итераций у меня была рабочая игра. С багами? Конечно. Физика прыжков требовала тонкой настройки. Но каркас был настолько качественным, что я потратил на фиксы 15 минут вместо привычных двух часов. Модель понимала абстракции игрового дизайна, а не просто генерировала шаблонный код.

3Сравнение с альтернативами: Qwen-72B дрожит, GPT-OSS не дотягивает

Чтобы понять масштаб, я прогнал тот же тест на других доступных на февраль 2026 года моделях.

Модель	Размер (квант.)	Качество кода	Скорость (токен/с)	Понимание контекста
GLM-5-744B (IQ2_M)	~46 ГБ	Высокое, модульный дизайн	8-12	Отличное (128К)
Qwen2.5-72B (Q4_K_M)	~41 ГБ	Среднее, часто путает API	14-18	Хорошее (32К)
GPT-OSS-121B (IQ3_M)*	~52 ГБ	Низкое, много синтаксических ошибок	5-8	Слабое (64К, деградация)

*GPT-OSS — собирательное название открытых реплик GPT-4 от сообщества на февраль 2026. Ни одна не дотягивает до оригинала.

Qwen2.5-72B быстрее, это да. Но ее код для той же игры был монолитным, с жестко закодированными значениями. Когда я попросил добавить меню, она переписала половину main.py, сломав физику. GLM-5 действовала как опытный разработчик — вносила точечные изменения.

Где GLM-5 реально вырывается вперед — работа с длинным контекстом. 128К токенов — это не маркетинг. Она помнила, что в файле player.py уже есть метод handle_input(), и не создавала дубликат, а расширяла его. Qwen на 32К теряла нить после 5-го промпта.

💡

Для мультимодальных задач (например, если ваша игра анализирует скриншоты) посмотрите наш эксперимент с Qwen3-VL. Но для чистого кодинга GLM-5 сейчас вне конкуренции.

4Скорость — не главное? Главное — результат

8-12 токенов в секунду — это медленно. Очень. Для диалога раздражает. Но для генерации кода, где каждый токен — это осмысленная строка, а не «мм, давайте подумаем...», эта скорость терпима. Важнее, что модель практически не делает итеративных ошибок. Она не предлагает использовать устаревший API PyGame, не путает pygame.Rect с кортежами. Ее первый вариант кода часто оказывается рабочим.

Деплой игры в exe через PyInstaller она также описала без ошибок — с учетом специфики работы с актуальной версией Python 3.12 (на февраль 2026). Для сравнения, Qwen2.5 предлагала флаги, которые перестали работать еще в 2024.

Потребление памяти в процессе генерации (через vLLM API) — стабильное. Нет тех скачков, которые убивают менее оптимизированные инструменты вроде LM Studio.

Кому теперь стоит смотреть в сторону GLM-5-744B?

Эта модель — не для всех. Она требует серьезного железа (минимум 48 ГБ VRAM) и навыков настройки vLLM. Но если вы попадаете в один из профилей, игнорировать ее — ошибка.

Разработчики прототипов игр и интерактивных приложений. GLM-5 выдает не шаблоны, а архитектурно продуманный код. Она сэкономит вам дни на начальной настройке проекта.
Команды с ограниченным доступом к облачным API GPT-4. По качеству кода она приближается к GPT-4 Turbo образца начала 2025, но работает локально. Конфиденциальность и контроль — бонус.
Исследователи, работающие с длинными контекстами. 128К — это ее домен. Для анализа логов, документов или, как в нашем случае, множества файлов кода — альтернатив почти нет.

Если же у вас карта с 24 ГБ памяти или вы хотите просто поболтать с AI — даже не смотрите в эту сторону. Возьмите меньшую модель, она будет полезнее.

Прогноз на 2026 год: Китайские модели вроде GLM-5 и Qwen окончательно сместят с пьедестала европейско-американские открытые LLM в нише локального запуска. Их инвестиции в квантование и эффективность сервинга окупаются. Следующий рубеж — мультимодальность без потери качества в коде. Zhipu AI уже анонсировала GLM-5-VL на конец года.

GLM-5-744B не идеальна. Ее английский иногда выдает китайский синтаксис. Она может переусложнить простую задачу. Но впервые за долгое время я получил от локальной модели не игрушку, а инструмент. Инструмент, который на следующей неделе поможет мне прототипировать идею для новой RPG. И для этого не придется никуда отправлять код.

GLM-5-744B: первый локальный LLM, впечатливший опытного разработчика (тест на создание игры)