Китайский тяжеловес выиграл головоломку The New York Times
На GitHub появились свежие результаты Extended NYT Connections Benchmark за февраль 2026 года. И они неожиданные. На первой строчке — не Claude 3.5 Opus, не GPT-4o, и даже не свежий Gemini 2.5 Pro. Лидером стал Kimi K2.5 Thinking, модель с открытыми весами от китайской компании Moonshot AI.
Это не просто очередная победа в таблице. Это сигнал. Extended NYT Connections быстро стал тем самым тестом, на который смотрят все, кто серьезно занимается языковыми моделями. Он проверяет не знание фактов, а способность к рассуждению и нахождению сложных связей. То, что раньше было слабым местом открытых моделей.
Контекст: Релиз Kimi K2.5 состоялся в конце 2025 года. Модель сразу привлекла внимание архитектурой с 1 триллионом параметров и эффективным квантованием. Подробнее о том, как она устроена, можно прочитать в нашем разборе внутренностей модели.
Extended NYT Connections — это не просто тест. Это интеллектуальный челлендж
Забудьте про MMLU или HellaSwag. Extended NYT Connections — это адаптация знаменитой игры-головоломки от газеты The New York Times. ИИ должен сгруппировать 16 слов по 4 категории, каждая из которых связана общей, часто неочевидной, идеей.
Пример? Пожалуйста: «Молоток», «Гвоздь», «Пила», «Доска». Категория — «Инструменты». Легко. А теперь: «Ромео», «Джульетта», «Тристан», «Изольда». Категория — «Литературные влюбленные». Уловили разницу? Второй вариант требует культурного бэкграунда и умения абстрагироваться.
Extended-версия, разработанная сообществом, включает сотни таких заданий, многие из которых специально созданы, чтобы запутать даже продвинутые модели. Здесь проверяется не память, а гибкость мышления.
| Модель | Точность (Extended NYT Connections) | Статус |
|---|---|---|
| Kimi K2.5 Thinking | 94.2% | Открытые веса |
| Claude 3.5 Opus | 92.8% | Проприетарная |
| Gemini 2.5 Pro (Preview) | 91.5% | Проприетарная |
| DeepSeek-R1 | 89.7% | Открытые веса |
| GPT-4o (2025 обновление) | 88.3% | Проприетарная |
Почему K2.5 Thinking смог? Всё дело в режиме «размышления»
Ключевое слово в названии модели — Thinking. Это не просто маркетинг. В отличие от стандартного инференса, где модель выдает ответ за один проход, Kimi в этом режиме использует внутренний «черновик». Она буквально рассуждает сама с собой, перебирает варианты, отбрасывает неверные и только потом дает финальный ответ.
На практике это выглядит так: вы задаете вопрос, а в ответ получаете не только итог, но и цепочку мыслей модели. Это дорого с точки зрения вычислений (больше токенов, выше latency), но чертовски эффективно для сложных задач. Мы уже тестировали этот подход на реальных задачах по программированию в сравнении с DeepSeek-R1.
Интересно, что сама архитектура K2.5, с ее гигантским контекстом (до 1 млн токенов в некоторых конфигурациях), тоже сыграла роль. Некоторые категории в головоломках строятся на отсылках к длинным текстам или редким культурным явлениям. Возможность «удерживать в голове» огромный объем данных дает преимущество. Недавнее сравнение Kimi K2.5 и Gemini 2.5 Pro показало, что китайская модель не уступает в работе с длинным контекстом.
Зачем вообще нужен этот бенчмарк? (И почему он лучше других)
Рынок завален бенчмарками. Большинство из них устарели. Модели их «заучили». Extended NYT Connections — свежий, сложный и постоянно обновляемый. Он проверяет именно то, что нужно для реальных приложений: умение понимать нюансы, иронию, культурный код и находить нелинейные связи.
- Против «натаскивания»: Задачи постоянно меняются, их сложно просто запомнить из обучающей выборки.
- Качественная метрика: Либо модель угадала все 4 категории верно, либо нет. Никаких частичных баллов. Жестко, но честно.
- Фокус на reasoning: Здесь не поможет простой поиск по базе знаний. Нужно думать.
Победа Kimi K2.5 Thinking здесь — это серьезный аргумент в споре «открытые vs проприетарные модели». Теперь у сообщества есть открытая модель, которая не просто догоняет, а опережает топовые коммерческие аналоги в конкретной, важной дисциплине. Это меняет баланс сил, о чем мы уже писали в обзоре китайских моделей, рвущих рынок.
Важный нюанс: Высокий результат в бенчмарке не означает, что модель идеальна во всем. У Kimi K2.5 есть свои слабые места, например, в работе с некоторыми западными культурными контекстами или в скорости ответа без Thinking Mode. Всегда смотрите на профиль задачи.
Что это значит для разработчиков и индустрии?
Во-первых, Extended NYT Connections, скорее всего, станет новым стандартом де-факто для оценки рассуждений. Если ваша модель здесь показывает слабый результат, аргумент «зато у нас низкая задержка» будет звучать все менее убедительно для сложных кейсов.
Во-вторых, успех Kimi K2.5 подтверждает эффективность подхода с открытыми весами и специализированными режимами (Thinking, Reasoning). Ожидайте, что другие игроки, включая Meta и Mistral, представят свои аналогичные «размышляющие» модели в 2026 году.
В-третьих, для инженеров, развертывающих модели, это создает новые вызовы. Режим Thinking требует больше ресурсов и грамотной оркестрации. Проблемы вроде утечек памяти или артефактов в выводе (вспомните историю с '(no content)' в vLLM) становятся критичными. Решения ищите в нашем гайде по оптимизации Kimi K2.5 в vLLM и SGLang.
Итог? Extended NYT Connections нашел своего чемпиона. А индустрия — новый ориентир. Теперь главный вопрос не «какая модель умнее», а «насколько эффективно она использует свои размышления». И похоже, Kimi K2.5 задает здесь очень высокую планку. Остальным придется не просто бежать быстрее, а думать глубже.