Цена вопроса: $15 против $1.8 за миллион токенов
Когда в январе 2026 года Kimi выпустила K2.5, цифры на прайс-листе заставили разработчиков перепроверять калькулятор. $1.8 за миллион входных токенов против $15 у Claude Opus. Разница в 8.3 раза. Слишком хорошо, чтобы быть правдой? Или китайские инженеры наконец-то сделали то, что обещали годами — открытую модель уровня топовых закрытых?
Актуальные цены на 28.01.2026: Kimi K2.5 — $1.8/М токенов вход, $3.6/М выход; Claude Opus — $15/М вход, $75/М выход. Разница в стоимости вывода — 20.8 раза.
Архитектурный дизбаланс: 1 триллион параметров против 600 миллиардов
Kimi K2.5 использует смесь экспертов (MoE) с 384 экспертами и 1 триллионом параметров. Но активирует только 37 миллиардов за запрос. Claude Opus — плотная архитектура с 600 миллиардами параметров. Теоретически плотная модель должна быть умнее. На практике — не всегда.
Секрет в том, как Kimi реализовала интеллектуальное квантование Int4 QAT. Они не просто сжали готовую модель, а обучали её сразу в квантованном виде. Результат — минимальная потеря качества при четырёхкратном сжатии.
Бенчмарк-разбор: где Opus всё ещё царь, а где K2.5 догоняет
| Тест | Claude Opus | Kimi K2.5 | Разница |
|---|---|---|---|
| HumanEval (Python) | 92.7% | 91.3% | -1.4% |
| GSM8K (математика) | 95.1% | 94.8% | -0.3% |
| MMLU (общие знания) | 88.9% | 87.2% | -1.7% |
| HellaSwag (здравый смысл) | 87.4% | 86.1% | -1.3% |
Цифры говорят сами за себя. Разрыв в 1-2 процентных пункта. На практике вы его не заметите. Если только не занимаетесь edge-case задачами, где каждый процент на счету.
Скорость ответа: где собака зарыта
Вот здесь начинается самое интересное. Среднее время первого токена (TTFT) у K2.5 — 450-600 мс. У Opus — 200-300 мс. Разница в 2-3 раза. Для чат-интерфейса это критично. Для batch-обработки — не очень.
Проблема в том, как vLLM обрабатывает MoE-архитектуру K2.5. Каждый запрос требует загрузки разных экспертов в память. Если у вас дешёвый инстанс с ограниченной VRAM — готовьтесь к тормозам.
Решение? Либо брать больше памяти (что съедает экономию), либо использовать оптимизированные инференс-движки вроде TensorRT-LLM. Но это уже отдельная история с танцами с бубном.
Thinking Mode против Chain-of-Thought: кто умнее думает?
Kimi K2.5 умеет в "режим размышлений" — аналог chain-of-thought, но с китайской спецификой. Модель сначала генерирует внутренние мысли, потом выдаёт ответ. В тестах на программировании это даёт прирост в 5-7% к точности.
Claude Opus делает то же самое, но скрыто. Вы не видите промежуточные шаги. С одной стороны — чище интерфейс. С другой — непонятно, где модель ошиблась.
Лично мне режим размышлений Kimi нравится больше. Видишь логику. Можешь отладить промпт. Но он съедает токены. Много токенов. Что возвращает нас к вопросу стоимости.
Реальная экономия: считаем на костяшках
Возьмём типичный сценарий: 10,000 запросов в день, средняя длина — 500 токенов вход, 300 токенов выход.
- Claude Opus: (10,000 × 500 × $15/1,000,000) + (10,000 × 300 × $75/1,000,000) = $75 + $225 = $300 в день
- Kimi K2.5: (10,000 × 500 × $1.8/1,000,000) + (10,000 × 300 × $3.6/1,000,000) = $9 + $10.8 = $19.8 в день
Экономия: $280.2 в день. $8,406 в месяц. $100,872 в год. Цифры, после которых начинаешь смотреть на TTFT в 600 мс более снисходительно.
Внимание: эти расчёты — для batch-обработки. Для интерактивных чатов с пользователями задержка в 600 мс может быть неприемлема. Тестируйте под свою нагрузку.
Где Opus всё ещё вне конкуренции
Есть три сценария, где я бы не советовал переходить на K2.5:
- Критически важные бизнес-логики, где ошибка стоит дороже всей экономии
- Интерактивные чаты с людьми (задержка убивает UX)
- Работа с очень специфичными доменами (юридические документы, медицинские диагнозы)
Opus тренировали на более качественных данных. Это чувствуется в сложных рассуждениях. K2.5 иногда "спотыкается" на многошаговых логических цепочках. Не часто. Но достаточно, чтобы заметить.
А что с альтернативами? GLM4.7 и другие
GLM4.7 с контекстом 128K стоит $0.7/М токенов. Вдвое дешевле K2.5. Но качество проседает на 5-8% в кодинге и математике. Для простых задач — ок. Для сложных — уже нет.
Сравнение GLM4.7 с Claude Sonnet показывает ту же картину: экономия есть, но за счёт качества. K2.5 — первый открытый модель, который сократил разрыв до 1-2%.
Из других претендентов стоит посмотреть на MiniMax M2.1 — хорош для кодинга, но слабее в рассуждениях. И DeepSeek Coder — специализирован на код, но не подходит для общего интеллекта.
Вердикт: кому переходить уже сейчас
Если вы:
- Обрабатываете большие объёмы текстов (суммаризация, классификация, извлечение сущностей)
- Делаете batch-обработку, где задержка не критична
- Хотите сэкономить 80+% на API без потери качества
- Готовы разбираться с оптимизацией vLLM под MoE
— берите K2.5. Экономия оправдает все танцы с настройкой.
Если же у вас интерактивное приложение с людьми, или каждая ошибка стоит тысяч долларов — оставайтесь на Opus. Пока.
Мой прогноз? К середине 2026 года разрыв в качестве исчезнет полностью. А цена упадёт ещё в 2-3 раза. Потому что архитектура MoE масштабируется лучше плотных моделей. И когда Kimi оптимизирует инференс — Opus придётся серьёзно подумать о скидках.
А пока — тестируйте. Запускайте A/B тесты. Сравнивайте на своих данных. Потому что все бенчмарки в мире не заменят одного реального юзкейса.