Сообщество уже придумало GLM-5 Air и Flash. А Zhipu AI еще нет
Пока разработчики из Zhipu AI готовят официальный релиз GLM-5, сообщество энтузиастов уже рисует в воображении его будущие версии. Air и Flash - не официальные названия, а спекуляции на тему того, как может выглядеть следующий шаг в оптимизации больших языковых моделей. И эти спекуляции основаны не на пустом месте, а на реальных трендах 2025-2026 годов.
Почему именно Air и Flash? Потому что GLM-4 уже показал, как работает эта логика: берут большую модель, выжимают из нее максимум эффективности, получают что-то вроде GLM-4.7 Flash - компактную, быструю, но все еще умную. С GLM-5 история может повториться, только с новыми технологиями в рукаве.
На 11 февраля 2026 года официальных анонсов GLM-5 Air или Flash не существует. Все обсуждения - спекуляции сообщества, основанные на паттернах развития предыдущих моделей Zhipu AI.
Дистилляция: почему это работает, когда все говорят, что не должно
Теоретики любят повторять: нельзя обучить маленькую модель быть такой же умной, как большая. Практики из Zhipu AI и других компаний каждый раз доказывают обратное. Дистилляция знаний - это не просто сжатие весов, а передача «стиля мышления» от учителя к ученику.
Представьте, что у вас есть профессор математики (GLM-5) и его студент (GLM-5 Air). Профессор знает все доказательства теорем, все исключения из правил, все исторические контексты. Студент учится не запоминать все это, а понимать, как профессор думает. Когда появляется новая задача, студент применяет не знания профессора, а его подход к решению.
Вот почему GLM-4.7 Flash размером 30B может конкурировать с моделями в два раза больше. Не потому что она знает столько же фактов, а потому что научилась думать так же эффективно.
MXFP4: магия четырех битов, которая всех бесит
Квантование MXFP4 - это как пытаться описать картину Ван Гога, используя только 16 цветов вместо миллионов. Звучит как кощунство, но работает. На 2026 год MXFP4 стал стандартом де-факто для edge-устройств, хотя два года назад все крутили пальцем у виска при мысли о 4-битном квантовании.
Проблема в том, что MXFP4 требует совершенно другого подхода к обучению. Нельзя просто взять готовую FP16 модель и сжать ее до 4 бит - получится мусор. Нужно учить модель с самого начала думать в ограниченном пространстве. Как если бы вы учили ребенка рисовать, давая ему только 16 карандашей, а не всю палитру.
Случай с GLM-4.7 Flash Q6, зависшим на 1400 минут, показал: квантование - это не просто техническая процедура, а изменение самой природы модели. Когда у модели отнимают точность вычислений, она начинает искать обходные пути. Иногда находит гениальные. Иногда зацикливается.
Почему Air и Flash могут стать отдельными продуктами, а не просто версиями
Вот что раздражает в текущем подходе к дистиллированным моделям: их рассматривают как «бюджетные варианты». Как Renault Logan от Mercedes S-класса. Но что, если Air и Flash - не дешевые копии, а принципиально другие автомобили? Скажем, Tesla Model 3 против Ford F-150.
GLM-5 Air, если он появится, может быть оптимизирован не для общего интеллекта, а для конкретных задач. Например, для реаль-тайм перевода с сохранением контекста на 10 тысяч токенов. Или для анализа кода в IDE с минимальной задержкой. GLM-4.5 Air уже показал, как можно бороться с зацикливанием в тул-коллах - следующий шаг может быть еще радикальнее.
Flash, в свою очередь, может стать специалистом по инференсу. Не по генерации красивого текста, а по быстрому ответу на простые вопросы. Что-то вроде поисковой системы, которая понимает запрос, а не просто ищет ключевые слова.
| Потенциальная модель | Размер (предположительно) | Квантование | Целевое применение |
|---|---|---|---|
| GLM-5 Air | ~15-20B параметров | MXFP4 / INT4 | Edge-устройства, мобильные приложения |
| GLM-5 Flash | ~30-40B параметров | INT8 / FP8 | Серверный инференс, низкая задержка |
| GLM-5 (базовая) | ~100B+ параметров | BFLOAT16 / FP16 | Обучение, сложные задачи |
Архитектурные сюрпризы: что могут украсть у конкурентов
Zhipu AI всегда умела заимствовать лучшие идеи. MLA от DeepSeek, смешанные эксперты от Mixtral, спекулятивное декодирование - все это появлялось в их моделях с интересными модификациями. GLM-4.5 Flash и MLA показали, что они не боятся экспериментировать с чужими наработками.
Для GLM-5 Air и Flash могут позаимствовать:
- Блочное спекулятивное декодирование из DFlash - ускорение инференса в 2 раза без потерь качества
- Динамическую активацию нейронов - только необходимые части сети работают для каждого запроса
- Гибридное квантование - разные слои с разной точностью, как в человеческом мозге (одни области думают «примерно», другие - «точно»)
Самое интересное: PR GLM-5 в Hugging Face намекает на изменения в архитектуре внимания. Не просто улучшения, а принципиально новый подход. Если это правда, то Air и Flash могут получить эти улучшения в первую очередь - проще экспериментировать на маленьких моделях.
Почему дистилляция иногда ломает модели (и это нормально)
Все говорят о успешных случаях дистилляции. Никто не говорит о провалах. А они случаются постоянно. Модель-ученик перенимает не только сильные стороны учителя, но и его странности.
Вспомните «шизофрению» в ответах GLM-4.7 Flash. Или его же зацикливания. Это не баги - это особенности мышления, унаследованные от большой модели. Учитель мог позволить себе роскошь подумать подольше, поразмышлять, вернуться к началу. Ученик, ограниченный в ресурсах, пытается повторить этот паттерн и застревает.
Дистилляция работает не потому, что она идеальна. Она работает потому, что даже сломанная умная модель лучше, чем идеально работающая глупая.
Самый большой риск для GLM-5 Air и Flash - не технические сложности, а ожидания сообщества. Если люди будут ждать от 20B модели тех же возможностей, что от 100B, они разочаруются. Но если воспринимать их как отдельные инструменты для отдельных задач - могут удивить.
Что будет, если Air и Flash так и не появятся
Вот сценарий, о котором никто не говорит: Zhipu AI может вообще отказаться от линейки Air/Flash для GLM-5. Вместо этого они могут пойти по пути модульных моделей - собирать нужную конфигурацию под конкретную задачу.
Нужна скорость? Берем ядро GLM-5, обрезаем половину слоев, квантуем до MXFP4. Нужна точность? Берем то же ядро, добавляем экспертные слои, оставляем высокую точность. Одна архитектура, десятки вариантов исполнения.
Это сложнее технически, но элегантнее концептуально. И это объясняет, почему в FLUX.2 пошли именно по этому пути - одна архитектура, много масштабов.
Так что, возможно, мы никогда не увидим официальных GLM-5 Air или Flash. Увидим GLM-5-Mobile, GLM-5-Server, GLM-5-Code. Или просто GLM-5 с параметрами, которые можно менять на лету.
А сообщество продолжит называть их Air и Flash. Потому что люди любят простые названия для сложных вещей.