Когда китайский гигант заставил меня пересмотреть все предубеждения
Я тестирую локальные языковые модели лет пять. За это время успел разочароваться в десятке «прорывных» релизов, которые на бумаге били GPT-4, а на практике с трудом собирали простое API. GLM-5-744B от Zhipu AI стал первым, после которого я не потянулся сразу к ChatGPT. Первым, который заставил сказать: «Черт, а это и правда работает».
Тест был простым и жестоким: заставить модель с нуля создать игру-платформер на PyGame, упаковать ее в exe и развернуть на локальном сервере. Без ручных правок, без доработок — только промпты и вера в технологии. Железо: не топовый сервер, а одна карта NVIDIA RTX 6000 Ada Generation с 48 ГБ VRAM. Софт: vLLM 0.6.0 (последняя стабильная на февраль 2026) с квантованием IQ2_M.
Важный нюанс: GLM-5-744B — это не та модель, что вы скачаете с Hugging Face в FP16. В таком виде она требует ~1.4 ТБ памяти. Реальность — это агрессивное квантование. Я использовал версию от MaziyarPanahi с интеллектуальным квантованием IQ2_M, которая ужимает модель до ~46 ГБ без катастрофической потери качества.
1Железо и магия vLLM: как запустить монстра на одной карте
RTX 6000 — это не H100, но для локальных экспериментов хватает с головой. Ключ — правильный сервинг. Ollama? Too slow. llama.cpp? Не для таких размеров. vLLM с поддержкой AWQ/IQ2 квантования — единственный вариант, который дает приемлемую скорость инференса (8-12 токенов/с) при полной загрузке контекста в 128К токенов.
Запуск выглядел так:
python -m vllm.entrypoints.openai.api_server \
--model MaziyarPanahi/GLM-5-744B-IQ2_M \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.95 \
--max-model-len 131072
Да, одна карта, tensor-parallel-size 1. vLLM 0.6.0 научилась эффективно распределять слои такой большой квантованной модели. Потребление VRAM после запуска — стабильные 44-45 ГБ. Первый запуск занял 4 минуты — модель загружалась и компилировала квантованные веса. Дальше — уже летает.
2Тест на прочность: создаем игру за 10 промптов
Я не просил «напиши hello world». Задача была: «Создай игру-платформер в стиле Celeste с механиками двойного прыжка, стенозацепа и врагами-патрульными. Используй PyGame. Код должен быть модульным, с отдельными файлами для игрока, врагов, уровней». И отправил это в OpenAI-совместимый эндпоинт vLLM.
GLM-5 ответила не просто куском кода. Она прислала полную структуру проекта:
main.pyс инициализацией игры и главным цикломplayer.pyс классом игрока, физикой и анимациямиenemy.pyс ИИ патрулирования на A* (она сама предложила использовать простую сетку)tilemap.pyдля загрузки уровней из CSVrequirements.txtс актуальными версиями PyGame и numpy
Вторым промптом я попросил добавить систему сохранения прогресса и меню паузы. GLM-5 не только добавила, но и использовала контекст 128К, чтобы учесть все ранее сгенерированные файлы, не переписывая рабочий код. Третий промпт — «сгенерируй три уровня разной сложности в CSV формате». Она нарисовала их в виде сеток, объяснив логику расположения платформ и врагов.
Через 10 таких итераций у меня была рабочая игра. С багами? Конечно. Физика прыжков требовала тонкой настройки. Но каркас был настолько качественным, что я потратил на фиксы 15 минут вместо привычных двух часов. Модель понимала абстракции игрового дизайна, а не просто генерировала шаблонный код.
3Сравнение с альтернативами: Qwen-72B дрожит, GPT-OSS не дотягивает
Чтобы понять масштаб, я прогнал тот же тест на других доступных на февраль 2026 года моделях.
| Модель | Размер (квант.) | Качество кода | Скорость (токен/с) | Понимание контекста |
|---|---|---|---|---|
| GLM-5-744B (IQ2_M) | ~46 ГБ | Высокое, модульный дизайн | 8-12 | Отличное (128К) |
| Qwen2.5-72B (Q4_K_M) | ~41 ГБ | Среднее, часто путает API | 14-18 | Хорошее (32К) |
| GPT-OSS-121B (IQ3_M)* | ~52 ГБ | Низкое, много синтаксических ошибок | 5-8 | Слабое (64К, деградация) |
*GPT-OSS — собирательное название открытых реплик GPT-4 от сообщества на февраль 2026. Ни одна не дотягивает до оригинала.
Qwen2.5-72B быстрее, это да. Но ее код для той же игры был монолитным, с жестко закодированными значениями. Когда я попросил добавить меню, она переписала половину main.py, сломав физику. GLM-5 действовала как опытный разработчик — вносила точечные изменения.
Где GLM-5 реально вырывается вперед — работа с длинным контекстом. 128К токенов — это не маркетинг. Она помнила, что в файле player.py уже есть метод handle_input(), и не создавала дубликат, а расширяла его. Qwen на 32К теряла нить после 5-го промпта.
4Скорость — не главное? Главное — результат
8-12 токенов в секунду — это медленно. Очень. Для диалога раздражает. Но для генерации кода, где каждый токен — это осмысленная строка, а не «мм, давайте подумаем...», эта скорость терпима. Важнее, что модель практически не делает итеративных ошибок. Она не предлагает использовать устаревший API PyGame, не путает pygame.Rect с кортежами. Ее первый вариант кода часто оказывается рабочим.
Деплой игры в exe через PyInstaller она также описала без ошибок — с учетом специфики работы с актуальной версией Python 3.12 (на февраль 2026). Для сравнения, Qwen2.5 предлагала флаги, которые перестали работать еще в 2024.
Потребление памяти в процессе генерации (через vLLM API) — стабильное. Нет тех скачков, которые убивают менее оптимизированные инструменты вроде LM Studio.
Кому теперь стоит смотреть в сторону GLM-5-744B?
Эта модель — не для всех. Она требует серьезного железа (минимум 48 ГБ VRAM) и навыков настройки vLLM. Но если вы попадаете в один из профилей, игнорировать ее — ошибка.
- Разработчики прототипов игр и интерактивных приложений. GLM-5 выдает не шаблоны, а архитектурно продуманный код. Она сэкономит вам дни на начальной настройке проекта.
- Команды с ограниченным доступом к облачным API GPT-4. По качеству кода она приближается к GPT-4 Turbo образца начала 2025, но работает локально. Конфиденциальность и контроль — бонус.
- Исследователи, работающие с длинными контекстами. 128К — это ее домен. Для анализа логов, документов или, как в нашем случае, множества файлов кода — альтернатив почти нет.
Если же у вас карта с 24 ГБ памяти или вы хотите просто поболтать с AI — даже не смотрите в эту сторону. Возьмите меньшую модель, она будет полезнее.
Прогноз на 2026 год: Китайские модели вроде GLM-5 и Qwen окончательно сместят с пьедестала европейско-американские открытые LLM в нише локального запуска. Их инвестиции в квантование и эффективность сервинга окупаются. Следующий рубеж — мультимодальность без потери качества в коде. Zhipu AI уже анонсировала GLM-5-VL на конец года.
GLM-5-744B не идеальна. Ее английский иногда выдает китайский синтаксис. Она может переусложнить простую задачу. Но впервые за долгое время я получил от локальной модели не игрушку, а инструмент. Инструмент, который на следующей неделе поможет мне прототипировать идею для новой RPG. И для этого не придется никуда отправлять код.