Kimi K2.5 Thinking лидирует в рейтинге Extended NYT Connections | Аналитика

Китайский тяжеловес выиграл головоломку The New York Times

На GitHub появились свежие результаты Extended NYT Connections Benchmark за февраль 2026 года. И они неожиданные. На первой строчке — не Claude 3.5 Opus, не GPT-4o, и даже не свежий Gemini 2.5 Pro. Лидером стал Kimi K2.5 Thinking, модель с открытыми весами от китайской компании Moonshot AI.

Это не просто очередная победа в таблице. Это сигнал. Extended NYT Connections быстро стал тем самым тестом, на который смотрят все, кто серьезно занимается языковыми моделями. Он проверяет не знание фактов, а способность к рассуждению и нахождению сложных связей. То, что раньше было слабым местом открытых моделей.

Контекст: Релиз Kimi K2.5 состоялся в конце 2025 года. Модель сразу привлекла внимание архитектурой с 1 триллионом параметров и эффективным квантованием. Подробнее о том, как она устроена, можно прочитать в нашем разборе внутренностей модели.

Extended NYT Connections — это не просто тест. Это интеллектуальный челлендж

Забудьте про MMLU или HellaSwag. Extended NYT Connections — это адаптация знаменитой игры-головоломки от газеты The New York Times. ИИ должен сгруппировать 16 слов по 4 категории, каждая из которых связана общей, часто неочевидной, идеей.

Пример? Пожалуйста: «Молоток», «Гвоздь», «Пила», «Доска». Категория — «Инструменты». Легко. А теперь: «Ромео», «Джульетта», «Тристан», «Изольда». Категория — «Литературные влюбленные». Уловили разницу? Второй вариант требует культурного бэкграунда и умения абстрагироваться.

Extended-версия, разработанная сообществом, включает сотни таких заданий, многие из которых специально созданы, чтобы запутать даже продвинутые модели. Здесь проверяется не память, а гибкость мышления.

Модель	Точность (Extended NYT Connections)	Статус
Kimi K2.5 Thinking	94.2%	Открытые веса
Claude 3.5 Opus	92.8%	Проприетарная
Gemini 2.5 Pro (Preview)	91.5%	Проприетарная
DeepSeek-R1	89.7%	Открытые веса
GPT-4o (2025 обновление)	88.3%	Проприетарная

Почему K2.5 Thinking смог? Всё дело в режиме «размышления»

Ключевое слово в названии модели — Thinking. Это не просто маркетинг. В отличие от стандартного инференса, где модель выдает ответ за один проход, Kimi в этом режиме использует внутренний «черновик». Она буквально рассуждает сама с собой, перебирает варианты, отбрасывает неверные и только потом дает финальный ответ.

На практике это выглядит так: вы задаете вопрос, а в ответ получаете не только итог, но и цепочку мыслей модели. Это дорого с точки зрения вычислений (больше токенов, выше latency), но чертовски эффективно для сложных задач. Мы уже тестировали этот подход на реальных задачах по программированию в сравнении с DeepSeek-R1.

💡

Режим Thinking — это как дать модели неограниченное время на экзамене. Она может вернуться к началу задачи, проверить свои догадки и избежать глупых ошибок по невнимательности. Именно это и нужно для головоломок вроде Connections.

Интересно, что сама архитектура K2.5, с ее гигантским контекстом (до 1 млн токенов в некоторых конфигурациях), тоже сыграла роль. Некоторые категории в головоломках строятся на отсылках к длинным текстам или редким культурным явлениям. Возможность «удерживать в голове» огромный объем данных дает преимущество. Недавнее сравнение Kimi K2.5 и Gemini 2.5 Pro показало, что китайская модель не уступает в работе с длинным контекстом.

Зачем вообще нужен этот бенчмарк? (И почему он лучше других)

Рынок завален бенчмарками. Большинство из них устарели. Модели их «заучили». Extended NYT Connections — свежий, сложный и постоянно обновляемый. Он проверяет именно то, что нужно для реальных приложений: умение понимать нюансы, иронию, культурный код и находить нелинейные связи.

Против «натаскивания»: Задачи постоянно меняются, их сложно просто запомнить из обучающей выборки.
Качественная метрика: Либо модель угадала все 4 категории верно, либо нет. Никаких частичных баллов. Жестко, но честно.
Фокус на reasoning: Здесь не поможет простой поиск по базе знаний. Нужно думать.

Победа Kimi K2.5 Thinking здесь — это серьезный аргумент в споре «открытые vs проприетарные модели». Теперь у сообщества есть открытая модель, которая не просто догоняет, а опережает топовые коммерческие аналоги в конкретной, важной дисциплине. Это меняет баланс сил, о чем мы уже писали в обзоре китайских моделей, рвущих рынок.

Важный нюанс: Высокий результат в бенчмарке не означает, что модель идеальна во всем. У Kimi K2.5 есть свои слабые места, например, в работе с некоторыми западными культурными контекстами или в скорости ответа без Thinking Mode. Всегда смотрите на профиль задачи.

Что это значит для разработчиков и индустрии?

Во-первых, Extended NYT Connections, скорее всего, станет новым стандартом де-факто для оценки рассуждений. Если ваша модель здесь показывает слабый результат, аргумент «зато у нас низкая задержка» будет звучать все менее убедительно для сложных кейсов.

Во-вторых, успех Kimi K2.5 подтверждает эффективность подхода с открытыми весами и специализированными режимами (Thinking, Reasoning). Ожидайте, что другие игроки, включая Meta и Mistral, представят свои аналогичные «размышляющие» модели в 2026 году.

В-третьих, для инженеров, развертывающих модели, это создает новые вызовы. Режим Thinking требует больше ресурсов и грамотной оркестрации. Проблемы вроде утечек памяти или артефактов в выводе (вспомните историю с '(no content)' в vLLM) становятся критичными. Решения ищите в нашем гайде по оптимизации Kimi K2.5 в vLLM и SGLang.

Итог? Extended NYT Connections нашел своего чемпиона. А индустрия — новый ориентир. Теперь главный вопрос не «какая модель умнее», а «насколько эффективно она использует свои размышления». И похоже, Kimi K2.5 задает здесь очень высокую планку. Остальным придется не просто бежать быстрее, а думать глубже.

Kimi K2.5 Thinking обгоняет всех в Extended NYT Connections. Теперь это главный тест на сообразительность

Китайский тяжеловес выиграл головоломку The New York Times

Extended NYT Connections — это не просто тест. Это интеллектуальный челлендж

Почему K2.5 Thinking смог? Всё дело в режиме «размышления»

Зачем вообще нужен этот бенчмарк? (И почему он лучше других)

Что это значит для разработчиков и индустрии?

Подписывайтесь на наш канал!