Триллион параметров. Четыре видеокарты. И GPT-5 в слезах
Когда в декабре 2025 года Kimi анонсировала K2.5, индустрия замерла. Модель с заявленным триллионом параметров, которая умещается в четыре H100 и бьет GPT-5 в тестах на логическое мышление. Звучало как розыгрыш. Но это оказалось самым элегантным архитектурным хаком со времен трансформеров.
Как упаковать триллион в 320 ГБ VRAM
Цифры пугают: 1 000 000 000 000 параметров. Полная загрузка в память потребовала бы терабайты VRAM. Kimi пошла другим путем - нативное INT4 квантование с обучением (QAT). Не посттренировочное сжатие, а квантование, вшитое в процесс обучения с самого начала.
Если в двух словах: каждый параметр занимает 4 бита вместо стандартных 16. В четыре раза меньше памяти. Но обычное квантование убивает точность. QAT сохраняет ее, обучая модель сразу в квантованном пространстве. Детали в нашем разборе Int4 QAT против PTQ.
| Компонент | Kimi K2.5 | Традиционный подход |
|---|---|---|
| Память на параметр | 4 бита | 16 бит (FP16) |
| Объем модели | ~500 ГБ (INT4) | ~2 ТБ (FP16) |
| Загрузка в VRAM | ~320 ГБ (оптимизировано) | Невозможно на потребительском железе |
384 эксперта, один shared expert и System 2 reasoning
MoE архитектура - это не новость. Но K2.5 довела ее до абсолюта. 384 эксперта разбиты на группы: математики, лингвисты, программисты, логики. Маршрутизатор (router) определяет, какие 8 экспертов нужны для текущего токена.
А вот shared expert - фишка, которая отличает K2.5 от других MoE. Это общий эксперт, который всегда активен. Он отвечает за мета-мышление, связность текста и тот самый System 2 reasoning - медленное, логическое рассуждение, которое умеет GPT-5, но тратит на него кучу ресурсов.
Не путайте с обычными MoE, где эксперты работают изолированно. Shared expert - это клей, который связывает специалистов в единую мыслящую систему. Без него получается просто комитет узких специалистов, которые не понимают друг друга.
Почему GPT-5 проигрывает на ровном месте
GPT-5 (по данным на начало 2026) - монолит. Огромная плотная сеть, где каждый токен задействует все параметры. Это дает стабильность, но убивает эффективность. K2.5 активирует только 260 млрд параметров из триллиона для каждого токена. В 4-5 раз меньше, чем у GPT-5.
Но ключевое отличие - latency. GPT-5 думает медленно, потому что думает всем объемом. K2.5 думает быстро, потому что думает только нужными экспертами. В тестах на логические цепочки (Chain-of-Thought) K2.5 показывает в 3 раза меньшую задержку при той же или лучшей точности.
А можно запустить дома? Спойлер: почти
Четыре H100 - это не домашняя конфигурация. Но уже близко к границе consumer hardware. Для сравнения, P1-235B-A22B требует значительно больше ресурсов.
Если у вас есть бюджет на небольшую ферму, сборка из 4x H100 возможна. Но для большинства энтузиастов K2.5 останется облачной моделью. Хотя, если хочется поэкспериментировать с MoE на своем железе, посмотрите на open-source аналоги или более легкие версии Kimi.
Кому эта архитектура нужна прямо сейчас
- Исследовательские лаборатории: которые хотят экспериментировать с reasoning-моделями, не покупая кластер из тысяч GPU.
- Стартапы в области AI-ассистентов: где важна низкая задержка при сложных диалогах.
- Компании с собственными данными: которые могут дообучить экспертов под свои задачи (финансы, медицина, юриспруденция).
- Геймеры в ML: у которых уже есть мощные сборки и хочется потестировать frontier-модели.
Не обольщайтесь: для fine-tuning K2.5 все равно нужно серьезное железо. Но для инференса - 4x H100 это прорыв в доступности больших моделей.
Что будет дальше? MoE везде
Архитектура K2.5 - не конечная точка. Уже ходят слухи о K3.0 с 512 экспертами и нативным INT3 квантованием. А OpenAI, скорее всего, ответит своей версией MoE в GPT-6.
Мой прогноз: к концу 2026 года все крупные модели перейдут на MoE-архитектуры. Плотные сети останутся для нишевых задач. И да, следующая битва будет не за количество параметров, а за эффективность маршрутизации. Тот, кто сделает router умнее, выиграет следующее десятилетие.
А пока, если хотите понять, на что способны современные MoE, посмотрите на open-source аналоги GPT-5. Они слабее K2.5, но уже показывают, куда дует ветер.