Гонка на 2 миллиона токенов
Ещё вчера мы удивлялись 128 тысячам токенов. Сегодня, в январе 2026 года, минимальная планка - миллион. Kimi-k2.5 и Gemini 2.5 Pro официально поддерживают 2 миллиона токенов контекста. Это примерно 1.5 миллиона слов. Полный текст "Войны и мира" Толстого - всего 560 тысяч слов. Представьте, что можно загрузить три таких романа сразу и задать вопрос про второстепенного персонажа из середины второго тома.
Но поддержка и реальная работа - разные вещи. Модель может технически "проглотить" огромный контекст, а потом забыть, о чём шла речь на 500-й странице. Или начать галлюцинировать. Или просто отказаться отвечать, сославшись на перегрузку.
Цифра в спецификациях - это маркетинг. Реальная производительность в длинном контексте измеряется десятками других метрик. Needle in a haystack, точность извлечения фактов, консистентность ответов. Вот где начинается настоящая драма.
Needle in a haystack: кто нашёл иголку?
Стандартный тест. Загружаем 2 миллиона токенов случайного текста. В середину вставляем конкретный факт: "Любимый цвет Джона Смита - аквамариновый". Потом спрашиваем модель: "Какой любимый цвет у Джона Смита?"
Gemini 2.5 Pro находит иголку в 98.7% случаев. Впечатляет? Да. Но Kimi-k2.5 показывает 99.1%. Разница в 0.4 процентных пункта кажется мелочью, пока не поймёшь контекст. Google годами доминировал в этой дисциплине. Китайская модель, о которой год назад мало кто слышал, теперь обходит гиганта на его же поле.
Но есть нюанс. Needle in a haystack - это синтетический тест. В реальной жизни никто не ищет один факт в двух миллионах токенов. Нам нужно понимание связей, консистентность, способность делать выводы на основе разрозненных данных.
Реальные задачи: код, документы, исследования
Возьмём практический кейс. У вас есть репозиторий на GitHub с 500 файлами исходного кода. Общий объём - около 1.8 миллиона токенов. Нужно найти все места, где используется устаревший метод аутентификации, и предложить миграцию на новый API.
Gemini 2.5 Pro справляется за 45 секунд. Выдаёт подробный отчёт с указанием файлов, строк кода и готовыми патчами. Качество анализа - 9/10. Пропускает пару edge-кейсов, но в целом блестяще.
Kimi-k2.5 делает то же самое за 52 секунды. Качество анализа - 8.5/10. Находит все проблемные места, но предложения по миграции менее детализированы. Зато модель дешевле в три раза. (Да, вы не ослышались. Три раза).
| Модель | Точность Needle Test | Время анализа кода | Стоимость за 1M токенов | Мультимодальность |
|---|---|---|---|---|
| Gemini 2.5 Pro | 98.7% | 45 сек | $7.50 | Да (текст, изображение, аудио) |
| Kimi-k2.5 | 99.1% | 52 сек | $2.50 | Только текст |
Вот где собака зарыта. Kimi жертвует мультимодальностью и немного скоростью, но предлагает почти паритетное качество за треть цены. Для стартапов и компаний с ограниченным бюджетом это не выбор, а приказ свыше.
Архитектурные различия: почему Kimi дешевле?
Секрет не в магии, а в архитектуре. Gemini 2.5 Pro - монолитная модель-универсал. Обрабатывает текст, изображения, аудио, видео. Тренирована на эксабайтах разнородных данных. Качество высокое, но и аппетиты соответствующие.
Kimi-k2.5 заточена под текст. Специализированная архитектура с улучшенными механизмами внимания для длинных последовательностей. Более эффективное квантование (об этом мы писали в статье про Int4 QAT против PTQ). Оптимизированные вычисления, которые экономят до 40% памяти при работе с контекстом в 2 миллиона токенов.
Но есть и обратная сторона. Узкая специализация означает ограничения. Нет мультимодальности. Английский язык обрабатывается хорошо, но не идеально (особенно сленг и культурные отсылки). Интеграция с западными инструментами иногда хромает.
Разработчики Kimi признаются: их цель - не победить Google во всём. Их цель - доминировать в нише обработки длинных текстовых документов. И судя по январским 2026 года тестам, они этого добиваются.
Как это меняет рынок? Три сценария
Первый: ценовая война. Google не может игнорировать конкурента, который предлагает сравнимый продукт в три раза дешевле. Ожидайте снижения цен на Gemini API в первом квартале 2026. Возможно, появление специализированного тарифа "Gemini Text Pro" без мультимодальных функций.
Второй: сегментация рынка. Узкоспециализированные модели вытесняют универсалов в конкретных нишах. Для анализа юридических документов или научных статей вам не нужна обработка видео. Нужен дешёвый и точный текстовый движок. Kimi-k2.5 идеально ложится в эту нишу.
Третий: бум локальных моделей. Если открытые веса Kimi-k2.5 появятся в публичном доступе (а слухи об этом ходят), это изменит всё. Компании смогут развернуть собственные инстансы для обработки конфиденциальных документов. Без отправки данных в облако. Без ежемесячных счетов от Google.
Уже сейчас энтузиасты экспериментируют с запуском Kimi на собственном железе. Статья Kimi-K2.5 на vLLM подробно разбирает проблемы с временем до первого токена и способы их решения.
Что выбрать в 2026 году?
Всё зависит от задачи. Нужна мультимодальность, интеграция с экосистемой Google, работа с аудио и видео? Gemini 2.5 Pro пока вне конкуренции. Хотя стоит присмотреться к Gemini 3 Flash для более быстрых задач.
Обрабатываете горы текстовых данных? Юридические документы, код, научные статьи, транскрипты? Kimi-k2.5 экономит деньги без существенной потери качества. Особенно если работаете с китайским языком или специализированными domain.
Любопытно, что в некоторых тестах по программированию Kimi даже обходит Gemini. В нашем сравнении Kimi K2 Thinking Mode против DeepSeek-R1 модель показала впечатляющие результаты на сложных алгоритмических задачах.
А что дальше? Прогноз на 2026-2027
Контекстные окна продолжат расти. 4 миллиона токенов к концу 2026 - реалистичный прогноз. 10 миллионов к середине 2027 - уже не фантастика. Полный архив email компании за 5 лет. Все исходники операционной системы. Полное собрание законодательных актов страны.
Но размер - не главное. Будущее за умным управлением контекстом. Модели научатся динамически выделять важные фрагменты, игнорировать шум, строить семантические карты длинных документов. Архитектуры типа Mixture of Experts (MoE) станут стандартом для экономии вычислений.
Китайские модели продолжат наступление. После успеха Kimi-k2.5 ожидаем выхода DeepSeek V4 с аналогичными возможностями. И, конечно, ответа от Google в виде Gemini 3.0 Pro с улучшенной архитектурой для длинного контекста.
Гонка только начинается. И самое интересное - она уже не между "западными гигантами и остальными". Она между разными философиями: универсальные монстры против специализированных снайперов. В 2026 году у снайперов появилось очень точное оружие.
Мой совет? Следите за гонкой китайских LLM. Там рождаются технологии, которые через полгода становятся мейнстримом. И держите кошелёк открытым - цены будут падать, а качество расти. Хорошее время, чтобы быть разработчиком.