Зачем нам китайский ответ Llama?
Июнь 2026. Zhipu AI выкатили GLM 5.2 — модель с открытыми весами, которая уже доступна в Ollama и на Hugging Face, причем без регистрации с верификацией по паспорту. Звучит как спасение для параноиков, уставших платить за каждый токен. Но так ли хороша модель, как шумиха вокруг неё? Я прогнал её на своем старичке RTX 3090, сравнил с Qwen2.5 и Llama 3.1, а заодно попробовал облачный API — делюсь впечатлениями.
Сразу спойлер: GLM 5.2 умеет то, что другие модели делают плохо — смешивать языки в одном запросе без потери смысла. Но обо всём по порядку.
Первое знакомство: что под капотом?
GLM 5.2 — это 130-миллиардная (130B) модель (есть и 7B, и 72B версии, но флагман — 130B). Архитектура — модифицированный Transformer с attention с разделением на группы (GQA) и роторными позициями (RoPE). Главная фишка — native multilingual understanding: она не просто переводит, а держит контекст на смеси русского, английского и китайского так, будто это один язык. Плюс — 128k токенов контекста (32k в 7B).
На момент релиза (май 2026) модель обогнала Llama 3.1-70B по тестам MMLU и HumanEval, но уступает Qwen2.5-72B в математике. Однако для локального запуска важнее то, что она отлично съеживается квантованием.
Локальный ад? Запускаем через Ollama
Если вы уже знакомы с базовыми шагами локального запуска, то с GLM 5.2 проблем не возникнет. Модель официально поддерживается в Ollama начиная с версии 0.6.5. Просто тяните тег:
ollama pull glm5.2:7b-q4_K_M
Для 72B версии нужен Q4 или Q3 — иначе 24GB VRAM не хватит. Полный гид по Ollama прилагается. Важный нюанс: автоматические квантизации от Ollama (q4_K_M и q5_K_M) работают отлично, но если хотите выжать максимум — берите оригинальные кванты от сообщества с Hugging Face (формат GGUF).
Облачный вариант: когда качать лень
Не хотите забивать диск? Zhipu предложили облачный API, полностью совместимый с OpenAI-форматом (да, как у GLM-4.7, про который мы уже писали раньше). Миграция с GPT или Claude — два дня работы. Стоимость: $0.15 за 1M входных токенов (модель 130B). Это дешевле GPT-4o, но дороже Llama 3.1-70B от Groq и Together AI. Зато приватность: сервера в Китае, так что для корпораций с жёсткими требованиями к данным — не вариант, а вот для стартапов — норм.
Сравнительный спарринг: с кем драться?
Я прогнал GLM 5.2 72B (Q4) против Llama 3.1-70B (Q4) и Qwen2.5-72B (Q4) на одном железе (2x RTX 3090). Вот что вышло:
| Критерий | GLM 5.2 | Llama 3.1 | Qwen2.5 |
|---|---|---|---|
| Русский + английский | Превосходно | Хорошо | Хорошо |
| Код (HumanEval) | 77.4 | 76.1 | 75.8 |
| Математика (MATH) | 43.1 | 44.9 | 46.2 |
| Макс. контекст | 128k | 128k | 32k |
Вывод: если вам нужен длинный контекст и смешанные языки — GLM 5.2 ваш выбор. Если чисто английский код — Llama 3.1 всё ещё силён.
Кому это реально нужно?
Выделю три сценария:
- Приватный переводчик документов — GLM 5.2 умеет держать стиль и не забывать термины. Пример: перевести контракт на 10 страниц с русского на китайский и английский — на выходе всё согласовано. Локальные LLM против традиционного перевода — тест показал, что GLM 5.2 выигрывает контекстную точность.
- Локальные AI-агенты — если вы строите агента для работы с документами, GLM 5.2 7B с инструментальным вызовом (function calling) справляется не хуже Mistral 7B, о котором мы писали в статье про автоматизацию заметок.
- Гибридная архитектура — запускать 7B локально для частых задач, а сложные запросы отправлять на облачный 130B через тот же API. Более подробно про гибрид мы разбирали отдельно.
Грязные секреты квантования
Не буду врать: на Q3_K_M модель заметно тупеет — теряет до 10% по MMLU. Q4_K_M — золотая середина. Q5_K_M уже требует 40GB для 72B, но качество почти идентично FP16. Советую начать с Q4_K_M, а если карта позволяет — Q5. На 7B версии разница между Q4 и Q5 незаметна, так что берите Q4 без сомнений.
Важно: не используйте Q2 на 130B! Это dead end — модель начинает галлюцинировать на пустом месте.
Эпилог: совет, а не вывод
GLM 5.2 — это не революция, а эволюция. Но эволюция с умным выбором: если вам нужен длинный контекст и кросс-языковая работа — это, пожалуй, лучшая open-weight модель на рынке в июне 2026. Лично я перевел на неё свой переводческий пайплайн на локальном сервере. Советую начать с 7B версии на Ollama — даже на видеокарте с 6GB она работает сносно. А когда поймете, что нужно больше мощи — поднимите руки к облаку.
P.S. Не пытайтесь запустить 130B на одной видеокарте с 16GB. Я пытался. Сгорел предохранитель (шутка, но в квантованном Q2 — реально зависнет).