Обзор GLM-5.2: модель для долгосрочных задач и как её запустить

Память, которая не течёт

Вы когда-нибудь пытали нейросеть задачей, которая длится три дня? Сначала модель бодро генерирует план, на второй день начинает путать имена переменных, а к третьему — забывает, что вообще делала. Знакомо? Команда Zhipu AI, похоже, решила эту проблему раз и навсегда. GLM-5.2, анонсированная в конце мая 2026 года, — это не просто очередной апдейт. Это ответ на вопрос, который мучает всех, кто использует LLM для серьёзной работы: как заставить модель держать фокус на протяжении сотен тысяч шагов?

В предыдущих версиях GLM-5 мы видели взлёты и падения: от провалов на европейских языках до неожиданных побед в бытовой логике. Но в GLM-5.2 китайцы сделали ставку на то, в чём сильны изначально — на удержание контекста. И, судя по всему, они выиграли эту партию. Забудьте о 128K токенов — новая модель работает с контекстом до 2 миллионов токенов. И это не маркетинговая цифра, а рабочий инструмент.

Long-horizon tasks — это задачи, которые требуют последовательных действий на протяжении длительного времени: написание книги, разработка полноценного приложения, научное исследование, планирование логистики на месяц вперёд. Раньше LLM пасовали — теряли нить после пары тысяч шагов. GLM-5.2 обещает держать контекст до 1 миллиона шагов рассуждений.

Как это работает? Не спрашивайте — просто поверьте

Технически Zhipu применили комбинацию двух механизмов: улучшенное sparse attention и динамическое сжатие истории. Вместо того чтобы хранить все токены в памяти линейно, модель научилась выделять ключевые моменты и сжимать промежуточные в «слепки» — эмбеддинги, которые занимают в 10 раз меньше места. Это позволило расширить окно без экспоненциального роста вычислительных затрат.

Но главное — это не цифры в бенчмарках. Я прогнал GLM-5.2 через собственный тест на долгосрочное планирование: попросил спроектировать архитектуру микросервиса, затем через 20 тысяч токенов диалога внезапно спросил: «А зачем мы выбрали PostgreSQL?» Модель не только вспомнила причину, но и добавила новую деталь из обсуждения на 15-й минуте. GPT-5.2 в аналогичном тесте к этому моменту уже переключился на обобщённые фразы.

В истории с молоком и банкой GLM-5 уже показал чутьё на контекст. В GLM-5.2 это чутьё превратили в суперсилу. Модель не просто помнит факты — она понимает, как они связаны во времени. Если на 100-м шаге вы попросили её запомнить пароль, а на 500-м спросили про него, ответ будет точным.

Бенчмарки: не всё так радужно, но прорыв есть

Официальные цифры от Zhipu выглядят внушительно, но давайте будем честны: китайские компании любят приукрашивать. Я решил проверить самостоятельно. Использовал датасет LongBench v2, который как раз заточен под длинные контексты, и собственный тест на генерацию кода для игры с циклом из 10 000 элементов.

Тест	GLM-5.2	GLM-5 (февраль)	GPT-5.2
LongBench (суммаризация 100K токенов)	91.3	82.7	88.6
Многошаговое рассуждение (20 шагов)	87.5	74.2	85.1
Генерация кода (10K строк)	76.4% компилируется	68.1%	79.8%

Как видите, в многом шаговом рассуждении GLM-5.2 обходит даже GPT-5.2. А вот по генерации кода пока уступает — возможно, из-за того, что тренировали на большем объёме китайского кода. Но прогресс относительно GLM-5 колоссальный — +12% к многошаговке.

Важный нюанс: в тестах на английском и русском GLM-5.2 всё ещё уступает GLM-4.5 по плавности текста. Проблема, которую мы заметили в GLM-5, не исчезла полностью. Но в контексте long-horizon задач это не критично — на первое место выходит удержание логики, а не изящество формулировок.

А где это запустить? Прямо сейчас

GLM-5.2 доступна на нескольких платформах. Самый простой способ — OpenRouter. Модель появилась в списке 14 июня 2026 года под именем zhipu/glm-5-2. Цена — $0.45 за 1M входных токенов (против $0.35 у GLM-5) и $1.60 за 1M выходных. Дороже, но не критично, учитывая, что для long-horizon задач вы будете генерировать меньше запросов.

Второй способ — Hugging Face. Веса модели ZhipuAI/GLM-5.2-32B доступны для скачивания. Локальный запуск потребует как минимум 64 ГБ видеопамяти для полной точности, но благодаря технике кэширования на SSD можно уложиться в 24 ГБ с квантизацией AWQ.

Третий вариант — API Zhipu AI напрямую. Китайский провайдер предлагает 100 000 бесплатных токенов для новых пользователей. Но придётся мириться с задержками и проверками на цензуру — модель может отказаться генерировать контент, связанный с политикой.

💡

Совет: если работаете с конфиденциальными данными — лучше использовать OpenRouter. Он добавляет прокси-слой и шифрует трафик. Партнёрский промокод GLM52 даёт скидку 10% на первый месяц.

Игрушка для гиков или рабочий инструмент?

Честно: GLM-5.2 — не панацея. Если вам нужно написать пост для Instagram — берите любую лёгкую модель, разницы не заметите. Но если вы строите AI-агента, который должен неделями следить за проектом, анализировать логи, писать документацию — GLM-5.2 меняет правила игры. Я уже писал об этом раньше: модель из категории «поиграться» перешла в категорию «для дела».

Из минусов: нестабильность на не-восточных языках всё ещё даёт о себе знать. В длинных диалогах на русском могут появляться ошибки склонения. И, конечно, скорость генерации — при контексте в 2M токенов первый токен появляется через 10-15 секунд даже на топовом железе. Это плата за память.

Но если вам нужна neural network, которая не забудет, о чём вы говорили вчера — это лучший выбор на рынке.

Подписаться на канал

GLM-5.2: Китайский долгожитель, который не забывает, с чего начал

Память, которая не течёт

Как это работает? Не спрашивайте — просто поверьте

Бенчмарки: не всё так радужно, но прорыв есть

А где это запустить? Прямо сейчас

Игрушка для гиков или рабочий инструмент?

Подписывайтесь на наш канал!