23 часа размышлений: что случилось с GLM 4.7 Flash?
Вчера вечером, 28 января 2026 года, пользователь под ником @AI_Explorer опубликовал скриншот: его локальная копия GLM 4.7 Flash в Q6 квантовании обрабатывала один запрос ровно 1400 минут. Двадцать три часа. Целые сутки модель "думала" над, как выяснилось, довольно простым вопросом о оптимизации Python-кода.
На момент публикации этой статьи, процесс все еще продолжался. Видеокарта NVIDIA 3090 работала на полную, потребляя около 350 ватт, а температура ядра держалась на уровне 78°C.
Сообщество локальных LLM взорвалось: одни кричат о баге, другие - о глубокой цепочке рассуждений. Кто прав?
GLM 4.7 Flash и Q6: зачем это кому-то нужно?
GLM 4.7 Flash - это облегченная версия флагманской модели от Zhipu AI, выпущенная в конце 2025 года. Она обещает почти такую же производительность, как и базовая GLM 4.7, но с значительно меньшим размером и выше скоростью. Q6 квантование - это метод сжатия модели до 6 бит на параметр, что позволяет запускать ее на потребительском железе, вроде NVIDIA 3090 с 24 ГБ памяти.
Проблема в том, что квантование иногда приводит к артефактам. Модель начинает вести себя странно: зацикливается, генерирует бесконечный поток текста или, как в данном случае, "застревает" в процессе reasoning.
Баг или фича? Мнения разделились
Сторонники "бага" указывают на известные проблемы с остановкой генерации в GLM 4.7 Flash. В нашей предыдущей статье "GLM 4.7 Flash и проклятие бесконечного reasoning" мы подробно разбирали, как модель иногда игнорирует стоп-токены и продолжает генерировать текст, особенно на китайском языке.
Но есть и те, кто считает, что это не баг, а крайнее проявление глубины reasoning. "Модель просто очень тщательно все продумывает", - шутит один из пользователей на Reddit. Серьезно, однако, некоторые исследователи предполагают, что в определенных условиях цепочка рассуждений может стать действительно бесконечной, особенно если задача сформулирована нечетко.
Похожие случаи уже были с другими моделями. Например, в статье "GLM-4.7-Flash в LM Studio: как остановить зацикливание" мы давали практические советы по настройке параметров генерации.
Что делать, если ваша модель зависла?
Во-первых, не паниковать. 1400 минут - это экстремальный случай, но если ваша GLM 4.7 Flash (или любая другая локальная LLM) застряла в reasoning, вот что можно сделать:
- Установите лимит токенов. В большинстве инференс-движков, таких как llama.cpp или vLLM, есть опция для ограничения максимального количества генерируемых токенов. Поставьте разумный предел, скажем, 4096 токенов.
- Используйте стоп-строки. Добавьте явные стоп-строки, которые сигнализируют модели о необходимости остановки. Например, "### Ответ:" или "Конец."
- Проверьте температуру и top_p. Слишком низкая температура (близкая к 0) может заставить модель быть слишком "уверенной" и зацикливаться на одном паттерне.
- Обновите инференс-движок. Баги в llama.cpp или LM Studio часто исправляются в новых версиях. Убедитесь, что у вас последняя версия на 29.01.2026.
Если вы используете квантованные модели, как в случае с Q6, попробуйте другие методы квантования. Например, GLM-4.5-Air на 2-3 битных квантованиях может быть более стабильной, хотя и менее точной.
А что с железом? NVIDIA 3090 выдержит?
NVIDIA RTX 3090 - это рабочая лошадка для локальных LLM в 2026 году. 24 ГБ памяти достаточно для большинства квантованных моделей. Но при длительных сессиях генерации, особенно с высоким потреблением энергии, важно следить за температурой.
Рекомендуется использовать инструменты для мониторинга, такие как GPU-Z или встроенные средства NVIDIA, чтобы не перегреть видеокарту. Если температура превышает 80°C, стоит задуматься об улучшении охлаждения.
Кстати, если вы хотите выжать максимум из своей видеокарты для LLM, прочтите наше руководство "GLM-4.7 на стероидах: как выжать максимум из QuantTrio и vLLM".
Что дальше? Прогнозы на 2026 год
Инцидент с GLM 4.7 Flash Q6 - это симптом более глубокой проблемы. По мере того, как модели становятся сложнее, а цепочки рассуждений длиннее, мы будем сталкиваться с новыми формами "AI-шизофрении". Уже сейчас есть статьи о том, как отключить шизофрению в ответах GLM 4.7 Flash.
Мой прогноз: к середине 2026 года мы увидим специальные механизмы "аварийной остановки" в инференс-движках. Они будут отслеживать паттерны зацикливания и автоматически прерывать генерацию. Возможно, даже появятся модели, которые умеют рефлексировать о своем own reasoning процессе и вовремя останавливаться.
А пока - следите за своими моделями. И не оставляйте их без присмотра на ночь. Особенно если у вас дорогой счет за электричество.