Kimi K2.5 Thinking лидирует в рейтинге Extended NYT Connections | Аналитика | AiManual
AiManual Logo Ai / Manual.
03 Фев 2026 Новости

Kimi K2.5 Thinking обгоняет всех в Extended NYT Connections. Теперь это главный тест на сообразительность

Китайская модель с открытыми весами возглавила новый бенчмарк на рассуждения. Разбираем, что такое Extended NYT Connections и почему он важен для оценки AI в 20

Китайский тяжеловес выиграл головоломку The New York Times

На GitHub появились свежие результаты Extended NYT Connections Benchmark за февраль 2026 года. И они неожиданные. На первой строчке — не Claude 3.5 Opus, не GPT-4o, и даже не свежий Gemini 2.5 Pro. Лидером стал Kimi K2.5 Thinking, модель с открытыми весами от китайской компании Moonshot AI.

Это не просто очередная победа в таблице. Это сигнал. Extended NYT Connections быстро стал тем самым тестом, на который смотрят все, кто серьезно занимается языковыми моделями. Он проверяет не знание фактов, а способность к рассуждению и нахождению сложных связей. То, что раньше было слабым местом открытых моделей.

Контекст: Релиз Kimi K2.5 состоялся в конце 2025 года. Модель сразу привлекла внимание архитектурой с 1 триллионом параметров и эффективным квантованием. Подробнее о том, как она устроена, можно прочитать в нашем разборе внутренностей модели.

Extended NYT Connections — это не просто тест. Это интеллектуальный челлендж

Забудьте про MMLU или HellaSwag. Extended NYT Connections — это адаптация знаменитой игры-головоломки от газеты The New York Times. ИИ должен сгруппировать 16 слов по 4 категории, каждая из которых связана общей, часто неочевидной, идеей.

Пример? Пожалуйста: «Молоток», «Гвоздь», «Пила», «Доска». Категория — «Инструменты». Легко. А теперь: «Ромео», «Джульетта», «Тристан», «Изольда». Категория — «Литературные влюбленные». Уловили разницу? Второй вариант требует культурного бэкграунда и умения абстрагироваться.

Extended-версия, разработанная сообществом, включает сотни таких заданий, многие из которых специально созданы, чтобы запутать даже продвинутые модели. Здесь проверяется не память, а гибкость мышления.

Модель Точность (Extended NYT Connections) Статус
Kimi K2.5 Thinking 94.2% Открытые веса
Claude 3.5 Opus 92.8% Проприетарная
Gemini 2.5 Pro (Preview) 91.5% Проприетарная
DeepSeek-R1 89.7% Открытые веса
GPT-4o (2025 обновление) 88.3% Проприетарная

Почему K2.5 Thinking смог? Всё дело в режиме «размышления»

Ключевое слово в названии модели — Thinking. Это не просто маркетинг. В отличие от стандартного инференса, где модель выдает ответ за один проход, Kimi в этом режиме использует внутренний «черновик». Она буквально рассуждает сама с собой, перебирает варианты, отбрасывает неверные и только потом дает финальный ответ.

На практике это выглядит так: вы задаете вопрос, а в ответ получаете не только итог, но и цепочку мыслей модели. Это дорого с точки зрения вычислений (больше токенов, выше latency), но чертовски эффективно для сложных задач. Мы уже тестировали этот подход на реальных задачах по программированию в сравнении с DeepSeek-R1.

💡
Режим Thinking — это как дать модели неограниченное время на экзамене. Она может вернуться к началу задачи, проверить свои догадки и избежать глупых ошибок по невнимательности. Именно это и нужно для головоломок вроде Connections.

Интересно, что сама архитектура K2.5, с ее гигантским контекстом (до 1 млн токенов в некоторых конфигурациях), тоже сыграла роль. Некоторые категории в головоломках строятся на отсылках к длинным текстам или редким культурным явлениям. Возможность «удерживать в голове» огромный объем данных дает преимущество. Недавнее сравнение Kimi K2.5 и Gemini 2.5 Pro показало, что китайская модель не уступает в работе с длинным контекстом.

Зачем вообще нужен этот бенчмарк? (И почему он лучше других)

Рынок завален бенчмарками. Большинство из них устарели. Модели их «заучили». Extended NYT Connections — свежий, сложный и постоянно обновляемый. Он проверяет именно то, что нужно для реальных приложений: умение понимать нюансы, иронию, культурный код и находить нелинейные связи.

  • Против «натаскивания»: Задачи постоянно меняются, их сложно просто запомнить из обучающей выборки.
  • Качественная метрика: Либо модель угадала все 4 категории верно, либо нет. Никаких частичных баллов. Жестко, но честно.
  • Фокус на reasoning: Здесь не поможет простой поиск по базе знаний. Нужно думать.

Победа Kimi K2.5 Thinking здесь — это серьезный аргумент в споре «открытые vs проприетарные модели». Теперь у сообщества есть открытая модель, которая не просто догоняет, а опережает топовые коммерческие аналоги в конкретной, важной дисциплине. Это меняет баланс сил, о чем мы уже писали в обзоре китайских моделей, рвущих рынок.

Важный нюанс: Высокий результат в бенчмарке не означает, что модель идеальна во всем. У Kimi K2.5 есть свои слабые места, например, в работе с некоторыми западными культурными контекстами или в скорости ответа без Thinking Mode. Всегда смотрите на профиль задачи.

Что это значит для разработчиков и индустрии?

Во-первых, Extended NYT Connections, скорее всего, станет новым стандартом де-факто для оценки рассуждений. Если ваша модель здесь показывает слабый результат, аргумент «зато у нас низкая задержка» будет звучать все менее убедительно для сложных кейсов.

Во-вторых, успех Kimi K2.5 подтверждает эффективность подхода с открытыми весами и специализированными режимами (Thinking, Reasoning). Ожидайте, что другие игроки, включая Meta и Mistral, представят свои аналогичные «размышляющие» модели в 2026 году.

В-третьих, для инженеров, развертывающих модели, это создает новые вызовы. Режим Thinking требует больше ресурсов и грамотной оркестрации. Проблемы вроде утечек памяти или артефактов в выводе (вспомните историю с '(no content)' в vLLM) становятся критичными. Решения ищите в нашем гайде по оптимизации Kimi K2.5 в vLLM и SGLang.

Итог? Extended NYT Connections нашел своего чемпиона. А индустрия — новый ориентир. Теперь главный вопрос не «какая модель умнее», а «насколько эффективно она использует свои размышления». И похоже, Kimi K2.5 задает здесь очень высокую планку. Остальным придется не просто бежать быстрее, а думать глубже.