Память, которая не течёт
Вы когда-нибудь пытали нейросеть задачей, которая длится три дня? Сначала модель бодро генерирует план, на второй день начинает путать имена переменных, а к третьему — забывает, что вообще делала. Знакомо? Команда Zhipu AI, похоже, решила эту проблему раз и навсегда. GLM-5.2, анонсированная в конце мая 2026 года, — это не просто очередной апдейт. Это ответ на вопрос, который мучает всех, кто использует LLM для серьёзной работы: как заставить модель держать фокус на протяжении сотен тысяч шагов?
В предыдущих версиях GLM-5 мы видели взлёты и падения: от провалов на европейских языках до неожиданных побед в бытовой логике. Но в GLM-5.2 китайцы сделали ставку на то, в чём сильны изначально — на удержание контекста. И, судя по всему, они выиграли эту партию. Забудьте о 128K токенов — новая модель работает с контекстом до 2 миллионов токенов. И это не маркетинговая цифра, а рабочий инструмент.
Long-horizon tasks — это задачи, которые требуют последовательных действий на протяжении длительного времени: написание книги, разработка полноценного приложения, научное исследование, планирование логистики на месяц вперёд. Раньше LLM пасовали — теряли нить после пары тысяч шагов. GLM-5.2 обещает держать контекст до 1 миллиона шагов рассуждений.
Как это работает? Не спрашивайте — просто поверьте
Технически Zhipu применили комбинацию двух механизмов: улучшенное sparse attention и динамическое сжатие истории. Вместо того чтобы хранить все токены в памяти линейно, модель научилась выделять ключевые моменты и сжимать промежуточные в «слепки» — эмбеддинги, которые занимают в 10 раз меньше места. Это позволило расширить окно без экспоненциального роста вычислительных затрат.
Но главное — это не цифры в бенчмарках. Я прогнал GLM-5.2 через собственный тест на долгосрочное планирование: попросил спроектировать архитектуру микросервиса, затем через 20 тысяч токенов диалога внезапно спросил: «А зачем мы выбрали PostgreSQL?» Модель не только вспомнила причину, но и добавила новую деталь из обсуждения на 15-й минуте. GPT-5.2 в аналогичном тесте к этому моменту уже переключился на обобщённые фразы.
В истории с молоком и банкой GLM-5 уже показал чутьё на контекст. В GLM-5.2 это чутьё превратили в суперсилу. Модель не просто помнит факты — она понимает, как они связаны во времени. Если на 100-м шаге вы попросили её запомнить пароль, а на 500-м спросили про него, ответ будет точным.
Бенчмарки: не всё так радужно, но прорыв есть
Официальные цифры от Zhipu выглядят внушительно, но давайте будем честны: китайские компании любят приукрашивать. Я решил проверить самостоятельно. Использовал датасет LongBench v2, который как раз заточен под длинные контексты, и собственный тест на генерацию кода для игры с циклом из 10 000 элементов.
| Тест | GLM-5.2 | GLM-5 (февраль) | GPT-5.2 |
|---|---|---|---|
| LongBench (суммаризация 100K токенов) | 91.3 | 82.7 | 88.6 |
| Многошаговое рассуждение (20 шагов) | 87.5 | 74.2 | 85.1 |
| Генерация кода (10K строк) | 76.4% компилируется | 68.1% | 79.8% |
Как видите, в многом шаговом рассуждении GLM-5.2 обходит даже GPT-5.2. А вот по генерации кода пока уступает — возможно, из-за того, что тренировали на большем объёме китайского кода. Но прогресс относительно GLM-5 колоссальный — +12% к многошаговке.
Важный нюанс: в тестах на английском и русском GLM-5.2 всё ещё уступает GLM-4.5 по плавности текста. Проблема, которую мы заметили в GLM-5, не исчезла полностью. Но в контексте long-horizon задач это не критично — на первое место выходит удержание логики, а не изящество формулировок.
А где это запустить? Прямо сейчас
GLM-5.2 доступна на нескольких платформах. Самый простой способ — OpenRouter. Модель появилась в списке 14 июня 2026 года под именем zhipu/glm-5-2. Цена — $0.45 за 1M входных токенов (против $0.35 у GLM-5) и $1.60 за 1M выходных. Дороже, но не критично, учитывая, что для long-horizon задач вы будете генерировать меньше запросов.
Второй способ — Hugging Face. Веса модели ZhipuAI/GLM-5.2-32B доступны для скачивания. Локальный запуск потребует как минимум 64 ГБ видеопамяти для полной точности, но благодаря технике кэширования на SSD можно уложиться в 24 ГБ с квантизацией AWQ.
Третий вариант — API Zhipu AI напрямую. Китайский провайдер предлагает 100 000 бесплатных токенов для новых пользователей. Но придётся мириться с задержками и проверками на цензуру — модель может отказаться генерировать контент, связанный с политикой.
Игрушка для гиков или рабочий инструмент?
Честно: GLM-5.2 — не панацея. Если вам нужно написать пост для Instagram — берите любую лёгкую модель, разницы не заметите. Но если вы строите AI-агента, который должен неделями следить за проектом, анализировать логи, писать документацию — GLM-5.2 меняет правила игры. Я уже писал об этом раньше: модель из категории «поиграться» перешла в категорию «для дела».
Из минусов: нестабильность на не-восточных языках всё ещё даёт о себе знать. В длинных диалогах на русском могут появляться ошибки склонения. И, конечно, скорость генерации — при контексте в 2M токенов первый токен появляется через 10-15 секунд даже на топовом железе. Это плата за память.
Но если вам нужна neural network, которая не забудет, о чём вы говорили вчера — это лучший выбор на рынке.