Прямая линия с создателями: что скрывается за K2.5
Когда команда Kimi анонсировала AMA-сессию по модели K2.5, я ожидал стандартных маркетинговых ответов. Получил нечто другое - технический разговор без купюр. Разработчики из Open-source Frontier Lab отвечали на всё: от архитектурных решений до планов на K3. И знаете что? Некоторые ответы заставили пересмотреть моё отношение к китайским opensource-моделям.
Контекст: AMA прошёл 27 января 2026 года. Команда Kimi отвечала на вопросы сообщества в течение 3 часов. Все технические детали актуальны на 28.01.2026.
Архитектура K2.5: не просто очередной MoE
Вопрос о том, почему они выбрали именно 384 эксперта вместо стандартных 128 или 256, висел в воздухе. Ответ оказался одновременно простым и сложным.
"Мы хотели доказать, что можно масштабировать MoE без пропорционального роста латентности", - сказал ведущий архитектор. И они это сделали. Но как?
- Динамическая маршрутизация с предсказанием: вместо классического подхода "активируй N экспертов" они используют предсказание того, какие эксперты понадобятся для следующего токена. Звучит как магия, но работает. (Хотя на старте модели это добавляло +15% к TTFT).
- Квантование не всех слоёв: они признались - некоторые компоненты роутера оставили в FP16. Потому что квантовать всё подряд - путь к катастрофе.
- Специальная оптимизация для H200/H100: их код использует tensor cores не так, как это делают в большинстве фреймворков. Отсюда и странные требования к версиям CUDA.
Если вы думаете, что архитектура MoE в Kimi 2.5 - это просто ещё одна вариация Mixtral, вы ошибаетесь. Они переписали половину стандартных подходов.
"Почему вы проигрываете в некоторых бенчмарках?" - самый неудобный вопрос
Именно этот вопрос раскрыл настоящую философию команды. Они не пытаются выиграть все synthetic benchmarks. Вместо этого:
Это объясняет, почему в некоторых head-to-head сравнениях, вроде Kimi K2.5 против Claude Opus, они сознательно жертвуют некоторыми метриками ради latency и стабильности ответов.
Технические грабли, на которые они наступили
Самая ценная часть AMA - рассказ о косяках. Разработчики были удивительно откровенны:
| Проблема | Как обнаружили | Решение |
|---|---|---|
| Утечка тегов в длинных контекстах | Пользовательские жалобы на странные символы | Переписали attention mask логику |
| (no content) в vLLM | Тестирование на H200 кластере | Специальный патч для vLLM |
| TTFT до 15 секунд | Мониторинг продакшн-трафика | Оптимизация загрузки экспертов |
"Да, мы знаем про проблемы с TTFT в vLLM", - сказали они. И добавили: "Но если вы думаете, что это специфично для нашей модели, посмотрите на аналогичные MoE-решения. У всех та же беда."
Thinking Mode: гениальная функция или маркетинг?
Когда я спросил о реальной пользе Thinking Mode (режим размышлений), ответ был неожиданным:
"Это не просто 'давайте подумаем вслух'. Это структурный подход к сложным задачам. Модель буквально разбивает проблему на подзадачи, решает их, а потом синтезирует ответ."
Но самое интересное - они признали, что в сравнении с DeepSeek-R1 их подход выигрывает в детализации, но проигрывает в скорости. И это осознанный компромисс.
Важно: Thinking Mode увеличивает latency в 2-3 раза. Но для задач, где нужна точность, это оправдано. Не используйте его для простых запросов - получите только лишнее время ожидания.
Квантование: почему они всё ещё верят в Int4 QAT
Год назад они сделали ставку на Quantization-Aware Training. Сейчас, когда все вокруг переходят на более простые методы, они говорят: "Мы были правы".
"PTQ (Post-Training Quantization) - это как натянуть детскую одежду на взрослого. Работает, но некомфортно. QAT - это сшить новую одежду по меркам."
Их аргументы:
- Потеря качества при 4-битном квантовании: 1-2% против 5-8% у PTQ
- Стабильность на edge-cases (редкие комбинации токенов)
- Лучшая совместимость с их динамической маршрутизацией
Если вы хотите понять глубину их подхода, посмотрите подробный разбор их метода квантования. Это не просто технический выбор - это философия.
Что будет в K3? (Или почему они не спешат)
Самый ожидаемый вопрос: "Когда K3?" Ответ: "Когда будем уверены, что это не просто больше параметров."
Они работают над тремя направлениями:
- Multimodality: не просто картинки в текст, а真正的 понимание контекста между модальностями
- Reasoning: улучшение Thinking Mode до уровня, где модель может решать задачи в несколько этапов без подсказок
- Efficiency: цель - снизить требования к железу на 30% при том же качестве
И да, они следят за гонкой китайских LLM, но не участвуют в ней. Их цель - не выпустить модель быстрее конкурентов, а сделать её лучше для конкретных use cases.
Системный промпт: что они скрывают (и что раскрыли)
Один из разработчиков неожиданно сказал: "Системный промпт - это не магия. Это набор эвристик, которые помогают модели не сходить с ума."
Они подтвердили некоторые детали из утекшего системного промпта, но добавили важный нюанс:
"Мы динамически меняем системный промпт в зависимости от типа запроса. Для кодирования - один набор инструкций, для creative writing - другой, для анализа - третий. Пользователь этого не видит, но это происходит."
Практические советы от создателей
Вот что они реально рекомендуют делать с K2.5:
- Температура: 0.7 для creative задач, 0.3 для factual
- Top-p: 0.9 работает лучше, чем 0.95 в их тестах
- Повторная penalty: 1.1 - обязательно, иначе модель зацикливается
- Для кодирования: включайте Thinking Mode только для сложных алгоритмов
Что они не сказали (но можно было прочитать между строк)
1. Они явно недовольны текущей реализацией MoE в большинстве фреймворков. Ждите собственных инструментов от Kimi.
2. Есть внутренние разногласия по поводу open-source стратегии. Некоторые хотят открывать больше, другие - меньше.
3. Они следят за конкурентами вроде GLM-4.7, но считают, что идут другим путём.
4. Аппаратные требования - их больное место. Они хотят, чтобы модель работала на более доступном железе.
Итог: стоит ли использовать K2.5 в 2026?
Если вам нужна модель для продакшна прямо сейчас - возможно, нет. Слишком много специфичных требований к инфраструктуре.
Но если вы готовы повозиться с настройкой и вам критически важны:
- Длинный контекст (реально работающий, а не на бумаге)
- Качественное квантование без huge quality drop
- Понимание китайского контекста (да, это важно для некоторых задач)
...тогда K2.5 - один из лучших выборов на рынке. Особенно если учесть, что это полностью open-source.
И последнее: спросили ли они сами себя, зачем делают всё это? "Потому что можем", - был ответ. Иногда лучшая мотивация - чистое любопытство. И, судя по AMA, у команды Kimi его предостаточно.