GLM-5 лидирует в Extended NYT Connections бенчмарке | AiManual
AiManual Logo Ai / Manual.
23 Фев 2026 Новости

GLM-5 возглавляет бенчмарк Extended NYT Connections: анализ результатов и последствия для open-weights моделей

GLM-5 обходит конкурентов в тесте на рассуждения Extended NYT Connections. Что это значит для open-source моделей и как изменится рынок в 2026 году.

GLM-5 выигрывает там, где другие спотыкаются

Новый лидер появился в нишевом, но жестоком бенчмарке Extended NYT Connections. GLM-5, китайская модель от Zhipu AI, обошла всех конкурентов, включая фаворита последних месяцев - Kimi K2.5 Thinking. Результаты, опубликованные 22 февраля 2026 года, показывают: open-weights модели научились не просто рассуждать, а делать это изящно.

Extended NYT Connections - это расширенная версия популярной игры от New York Times, адаптированная для тестирования языковых моделей. Моделям дают набор слов и просят найти связи между ними, группируя по четырем категориям. Задача кажется простой, но требует глубокого понимания контекста, культурных отсылок и способности к абстрактному мышлению.

GLM-5 набрала 94.3% в последнем раунде тестов. Kimi K2.5 - 92.1%. GPT-5.2 - 89.7%. Разрыв небольшой, но значимый. Особенно если учесть, что GLM-5 - модель с открытыми весами, которую можно запустить на своем железе.

Таблица результатов (Топ-5, февраль 2026)

МодельТипТочность, %Примечание
GLM-5Open-weights94.3Лидер
Kimi K2.5 ThinkingПроприетарная92.1Бывший лидер
GPT-5.2Проприетарная89.7Сильный игрок
Claude 4.5 SonnetПроприетарная88.5Стабильный
GLM-4.7Open-weights86.2Предыдущая версия

Интересно, что GLM-5 еще в декабре 2025 проваливал тесты на европейских языках. Но команда Zhipu AI быстро исправила ошибки. Теперь модель не только догнала, но и перегнала западных конкурентов в задачах на рассуждение.

Почему Extended NYT Connections так важен?

Это не просто игра. Бенчмарк проверяет способность модели к lateral thinking - боковому мышлению. Нужно увидеть связи, которые не очевидны. Например, слова "apple", "blackberry", "orange", "pineapple" можно сгруппировать как "фрукты", но также как "компании" (Apple, BlackBerry) или "цвета". Модель должна понять контекст и выбрать правильную категорию.

Extended версия включает более сложные наборы слов с культурными отсылками, научными терминами и историческими событиями. Это головоломка для ИИ.

💡
GitHub-репозиторий с деталями бенчмарка и кодом для воспроизведения результатов доступен по ссылке: Extended NYT Connections Benchmark. Там же можно найти датасет и инструкции по запуску.

Как GLM-5 этого добился?

Секрет не только в архитектуре. GLM-5 использует улучшенный механизм внимания и тренировался на разнообразных данных, включая китайские и западные источники. Но ключевое - это системный промпт, который меняет поведение модели. Zhipu AI научились настраивать модель под конкретные задачи, обходя ограничения.

Кроме того, GLM-5 показал себя хорошо в бытовых вопросах против GPT-5.2. А теперь и в сложных логических тестах.

Что это значит для open-weights сообщества?

Раньше открытые модели всегда отставали. Теперь они выигрывают в отдельных дисциплинах. GLM-4.7 уже был признан лучшей opensource-моделью. GLM-5 идет дальше.

Но не все так радужно. GLM-5 все еще может называть реальные новости фейком из-за особенностей тренировки. И его производительность на языках, отличных от английского и китайского, может хромать.

Стоит ли переходить на GLM-5?

Если вам нужна модель для задач на рассуждение - да. GLM-5 доступен на OpenRouter и через Hugging Face. Для экономии, как показано в сравнении GLM4.7 с Claude 4.5, open-weights модели могут сэкономить сотни долларов.

Но помните: GLM-5 не панацея. В других бенчмарках, например, Nonobench с японскими кроссвордами, GPT-5.2 все еще лидирует.

Что будет дальше?

Битва за бенчмарки стала войной на истощение. Каждая новая модель пытается обойти предыдущую в каких-то тестах. GLM-5 победил в Extended NYT Connections, но это только один бенчмарк.

Мой прогноз: к середине 2026 года мы увидим, как open-weights модели догонят проприетарные по большинству метрик. Но проприетарные ответят новыми архитектурами. Гонка продолжается.

Совет для разработчиков: не гонитесь за единичными победами в бенчмарках. Тестируйте модели на своих данных. GLM-5 может блестяще решать Connections, но провалиться в вашей конкретной задаче. Скачайте модель, запустите локально или через API, и проверьте сами.

А для тех, кто хочет копнуть глубже, рекомендую изучить PR GLM-5 на Hugging Face, где разработчики делятся техническими деталями.

И да, если вы до сих пор считаете, что открытые модели всегда хуже, пора пересмотреть взгляды. GLM-5 это доказал.

Подписаться на канал