Слон в комнате размером с 70 миллиардов параметров
GLM 4.5 Flash вышел в конце 2025 года. Сразу после релиза все заговорили о двух вещах: скорости и странной архитектуре. Модель размером 32 миллиарда параметров работала как 16-миллиардная, а качество не падало. Секрет? Multi-Head Latent Attention - технология, которую DeepSeek представил еще в V3.2.
Вот в чем парадокс. MLA - не патентованная технология. DeepSeek открыл исходники, опубликовал исследования, показал графики. "Бесплатный обед", как говорят в ML. Но на январь 2026 года только Zhipu AI (создатели GLM) внедрили MLA в свои небольшие модели. Llama 3.5? Нет. Qwen 2.5 32B? Нет. Mixtral 8x22B? Тоже нет.
MLA работает так: вместо того чтобы вычислять внимание между всеми токенами, модель сначала сжимает последовательность в "латентные" токены. Эти латентные токены взаимодействуют друг с другом, а потом результаты "размазываются" обратно на всю последовательность. В 2-4 раза быстрее при той же точности.
Техническая лень или стратегический расчет?
Первая реакция: разработчики других моделей просто ленивые. Но это слишком простое объяснение. В ML ничего не делается просто так. Особенно когда речь о сотнях тысяч долларов на обучение.
Попробуем разобраться. MLA требует перестройки всей архитектуры внимания. Это не просто флаг в конфиге - это переписывание ядра, изменение механизмов кэширования, адаптация оптимизаторов. Для моделей, которые уже выпущены и работают, это как заменить двигатель в летящем самолете.
Но GLM 4.5 Flash справился. И теперь у них есть уникальное преимущество: самая быстрая 32B-модель на рынке. На тестах она обгоняет Qwen 2.5 32B на 40% по скорости инференса при сравнимом качестве.
| Модель | Архитектура | Скорость (токенов/с) | Качество (MMLU) |
|---|---|---|---|
| GLM 4.5 Flash 32B | MLA | 85 | 82.3 |
| Qwen 2.5 32B | Обычное внимание | 61 | 82.1 |
| Llama 3.5 34B | Обычное внимание | 58 | 83.0 |
Проблема совместимости: когда инновация ломает экосистему
Здесь начинается самое интересное. MLA несовместима с большинством инфраструктурных инструментов. Попробуйте запустить GLM 4.5 Flash в стандартном llama.cpp - не получится. Нужны патчи, специальные сборки, кастомные ядра.
То же самое с MLC и другими рантаймами. Разработчики вынуждены выбирать: либо поддерживать одну модель с MLA, либо десятки моделей со стандартной архитектурой. Большинство выбирает второе.
Вот что сказал мне анонимный инженер из Meta (создатели Llama): "Мы тестировали MLA в прототипах. Да, скорость растет на 30-40%. Но совместимость падает до нуля. Все наши пользователи - от исследователей до коммерческих компаний - используют стандартные инструменты. Мы не можем заставить их переписывать всю инфраструктуру".
Проблема в том, что MLA требует специальной поддержки на уровне фреймворков. Пока TensorFlow, PyTorch и JAX не добавят нативные операции для MLA, каждая имплементация будет кастомной и несовместимой.
Китайский подход: скорость важнее совместимости
Zhipu AI пошел другим путем. Они не стали ждать, когда экосистема догонит. Вместо этого они создали свою инфраструктуру с нуля. GLM 4.5 Flash работает в их собственном рантайме, с их собственными оптимизациями.
Это рискованно. Но в Китае это работает. У Zhipu есть своя экосистема: облачные сервисы, SDK, коммерческие клиенты, которые используют их стек полностью. Им не нужно совместимость с западными инструментами - у них есть свои.
Тот же подход у DeepSeek. Их V3.2 тоже использует MLA, но в масштабе 671 миллиарда параметров. И у них тоже свой стек, свои инструменты, своя экосистема.
Западные компании не могут себе этого позволить. У Meta тысячи исследователей по всему миру используют Llama с PyTorch. У Anthropic - свои клиенты с определенными требованиями. Переход на MLA означал бы разрыв с существующей базой.
А что с большими моделями?
Здесь еще интереснее. MLA дает максимальный выигрыш на моделях до 70 миллиардов параметров. На более крупных моделях преимущество сокращается. Почему?
В больших моделях (100B+) основная проблема - не вычисление внимания, а память. Параметры не помещаются в VRAM, нужно шардинг, оффлоадинг, сложная распределенная логика. MLA здесь помогает, но не решает главную проблему.
Поэтому GLM 4.7 (полноразмерная модель) использует другую оптимизацию - sparse attention. MLA осталась в линейке Flash для небольших моделей.
Что ждет нас дальше?
Ситуация меняется. В январе 2026 года уже есть слухи, что PyTorch 2.5 добавит нативную поддержку MLA. Если это произойдет - игра изменится мгновенно.
Пока что ситуация выглядит так:
- Zhipu AI и DeepSeek продолжают развивать свои стеки
- Западные компании ждут, когда экосистема догонит
- Пользователи выбирают между скоростью и совместимостью
Мой прогноз? К середине 2026 года MLA станет стандартом для всех моделей до 70B. Просто потому, что преимущества слишком очевидны, чтобы их игнорировать.
А пока - если вы запускаете GLM 4.5 Flash, не забудьте про баг с преждевременным EOS. И да, шизофрению в ответах тоже нужно отключать отдельно.
И последнее: если вы все-таки решитесь на интеграцию MLA в свой проект - начинайте с патча для llama.cpp. Это самый безболезненный способ познакомиться с архитектурой, не переписывая все с нуля.