Kimi K2.5: разбор AMA с разработчиками, возможности и сравнения | AiManual
AiManual Logo Ai / Manual.
28 Янв 2026 Новости

Kimi K2.5: обзор модели, возможности и ответы разработчиков из AMA-сессии

Полный разбор AMA-сессии команды Kimi про модель K2.5. Технические детали, сравнения с аналогами и планы развития на 2025-2026 год.

Прямая линия с создателями: что скрывается за K2.5

Когда команда Kimi анонсировала AMA-сессию по модели K2.5, я ожидал стандартных маркетинговых ответов. Получил нечто другое - технический разговор без купюр. Разработчики из Open-source Frontier Lab отвечали на всё: от архитектурных решений до планов на K3. И знаете что? Некоторые ответы заставили пересмотреть моё отношение к китайским opensource-моделям.

Контекст: AMA прошёл 27 января 2026 года. Команда Kimi отвечала на вопросы сообщества в течение 3 часов. Все технические детали актуальны на 28.01.2026.

Архитектура K2.5: не просто очередной MoE

Вопрос о том, почему они выбрали именно 384 эксперта вместо стандартных 128 или 256, висел в воздухе. Ответ оказался одновременно простым и сложным.

"Мы хотели доказать, что можно масштабировать MoE без пропорционального роста латентности", - сказал ведущий архитектор. И они это сделали. Но как?

  • Динамическая маршрутизация с предсказанием: вместо классического подхода "активируй N экспертов" они используют предсказание того, какие эксперты понадобятся для следующего токена. Звучит как магия, но работает. (Хотя на старте модели это добавляло +15% к TTFT).
  • Квантование не всех слоёв: они признались - некоторые компоненты роутера оставили в FP16. Потому что квантовать всё подряд - путь к катастрофе.
  • Специальная оптимизация для H200/H100: их код использует tensor cores не так, как это делают в большинстве фреймворков. Отсюда и странные требования к версиям CUDA.

Если вы думаете, что архитектура MoE в Kimi 2.5 - это просто ещё одна вариация Mixtral, вы ошибаетесь. Они переписали половину стандартных подходов.

"Почему вы проигрываете в некоторых бенчмарках?" - самый неудобный вопрос

Именно этот вопрос раскрыл настоящую философию команды. Они не пытаются выиграть все synthetic benchmarks. Вместо этого:

💡
"Мы оптимизируем под реальные пользовательские сценарии, а не под искусственные тесты. Если модель показывает 90% на MMLU, но пользователи говорят 'она тупит в диалоге' - это провал." - ответ из AMA.

Это объясняет, почему в некоторых head-to-head сравнениях, вроде Kimi K2.5 против Claude Opus, они сознательно жертвуют некоторыми метриками ради latency и стабильности ответов.

Технические грабли, на которые они наступили

Самая ценная часть AMA - рассказ о косяках. Разработчики были удивительно откровенны:

Проблема Как обнаружили Решение
Утечка тегов в длинных контекстах Пользовательские жалобы на странные символы Переписали attention mask логику
(no content) в vLLM Тестирование на H200 кластере Специальный патч для vLLM
TTFT до 15 секунд Мониторинг продакшн-трафика Оптимизация загрузки экспертов

"Да, мы знаем про проблемы с TTFT в vLLM", - сказали они. И добавили: "Но если вы думаете, что это специфично для нашей модели, посмотрите на аналогичные MoE-решения. У всех та же беда."

Thinking Mode: гениальная функция или маркетинг?

Когда я спросил о реальной пользе Thinking Mode (режим размышлений), ответ был неожиданным:

"Это не просто 'давайте подумаем вслух'. Это структурный подход к сложным задачам. Модель буквально разбивает проблему на подзадачи, решает их, а потом синтезирует ответ."

Но самое интересное - они признали, что в сравнении с DeepSeek-R1 их подход выигрывает в детализации, но проигрывает в скорости. И это осознанный компромисс.

Важно: Thinking Mode увеличивает latency в 2-3 раза. Но для задач, где нужна точность, это оправдано. Не используйте его для простых запросов - получите только лишнее время ожидания.

Квантование: почему они всё ещё верят в Int4 QAT

Год назад они сделали ставку на Quantization-Aware Training. Сейчас, когда все вокруг переходят на более простые методы, они говорят: "Мы были правы".

"PTQ (Post-Training Quantization) - это как натянуть детскую одежду на взрослого. Работает, но некомфортно. QAT - это сшить новую одежду по меркам."

Их аргументы:

  • Потеря качества при 4-битном квантовании: 1-2% против 5-8% у PTQ
  • Стабильность на edge-cases (редкие комбинации токенов)
  • Лучшая совместимость с их динамической маршрутизацией

Если вы хотите понять глубину их подхода, посмотрите подробный разбор их метода квантования. Это не просто технический выбор - это философия.

Что будет в K3? (Или почему они не спешат)

Самый ожидаемый вопрос: "Когда K3?" Ответ: "Когда будем уверены, что это не просто больше параметров."

Они работают над тремя направлениями:

  1. Multimodality: не просто картинки в текст, а真正的 понимание контекста между модальностями
  2. Reasoning: улучшение Thinking Mode до уровня, где модель может решать задачи в несколько этапов без подсказок
  3. Efficiency: цель - снизить требования к железу на 30% при том же качестве

И да, они следят за гонкой китайских LLM, но не участвуют в ней. Их цель - не выпустить модель быстрее конкурентов, а сделать её лучше для конкретных use cases.

Системный промпт: что они скрывают (и что раскрыли)

Один из разработчиков неожиданно сказал: "Системный промпт - это не магия. Это набор эвристик, которые помогают модели не сходить с ума."

Они подтвердили некоторые детали из утекшего системного промпта, но добавили важный нюанс:

"Мы динамически меняем системный промпт в зависимости от типа запроса. Для кодирования - один набор инструкций, для creative writing - другой, для анализа - третий. Пользователь этого не видит, но это происходит."

Практические советы от создателей

Вот что они реально рекомендуют делать с K2.5:

💡
"Не используйте максимальный context length просто потому что можете. После 100K токенов качество падает, а latency растёт экспоненциально. 32K-64K - sweet spot для большинства задач."
  • Температура: 0.7 для creative задач, 0.3 для factual
  • Top-p: 0.9 работает лучше, чем 0.95 в их тестах
  • Повторная penalty: 1.1 - обязательно, иначе модель зацикливается
  • Для кодирования: включайте Thinking Mode только для сложных алгоритмов

Что они не сказали (но можно было прочитать между строк)

1. Они явно недовольны текущей реализацией MoE в большинстве фреймворков. Ждите собственных инструментов от Kimi.

2. Есть внутренние разногласия по поводу open-source стратегии. Некоторые хотят открывать больше, другие - меньше.

3. Они следят за конкурентами вроде GLM-4.7, но считают, что идут другим путём.

4. Аппаратные требования - их больное место. Они хотят, чтобы модель работала на более доступном железе.

Итог: стоит ли использовать K2.5 в 2026?

Если вам нужна модель для продакшна прямо сейчас - возможно, нет. Слишком много специфичных требований к инфраструктуре.

Но если вы готовы повозиться с настройкой и вам критически важны:

  • Длинный контекст (реально работающий, а не на бумаге)
  • Качественное квантование без huge quality drop
  • Понимание китайского контекста (да, это важно для некоторых задач)

...тогда K2.5 - один из лучших выборов на рынке. Особенно если учесть, что это полностью open-source.

И последнее: спросили ли они сами себя, зачем делают всё это? "Потому что можем", - был ответ. Иногда лучшая мотивация - чистое любопытство. И, судя по AMA, у команды Kimi его предостаточно.