GLM-5 выигрывает там, где другие спотыкаются
Новый лидер появился в нишевом, но жестоком бенчмарке Extended NYT Connections. GLM-5, китайская модель от Zhipu AI, обошла всех конкурентов, включая фаворита последних месяцев - Kimi K2.5 Thinking. Результаты, опубликованные 22 февраля 2026 года, показывают: open-weights модели научились не просто рассуждать, а делать это изящно.
Extended NYT Connections - это расширенная версия популярной игры от New York Times, адаптированная для тестирования языковых моделей. Моделям дают набор слов и просят найти связи между ними, группируя по четырем категориям. Задача кажется простой, но требует глубокого понимания контекста, культурных отсылок и способности к абстрактному мышлению.
GLM-5 набрала 94.3% в последнем раунде тестов. Kimi K2.5 - 92.1%. GPT-5.2 - 89.7%. Разрыв небольшой, но значимый. Особенно если учесть, что GLM-5 - модель с открытыми весами, которую можно запустить на своем железе.
Таблица результатов (Топ-5, февраль 2026)
| Модель | Тип | Точность, % | Примечание |
|---|---|---|---|
| GLM-5 | Open-weights | 94.3 | Лидер |
| Kimi K2.5 Thinking | Проприетарная | 92.1 | Бывший лидер |
| GPT-5.2 | Проприетарная | 89.7 | Сильный игрок |
| Claude 4.5 Sonnet | Проприетарная | 88.5 | Стабильный |
| GLM-4.7 | Open-weights | 86.2 | Предыдущая версия |
Интересно, что GLM-5 еще в декабре 2025 проваливал тесты на европейских языках. Но команда Zhipu AI быстро исправила ошибки. Теперь модель не только догнала, но и перегнала западных конкурентов в задачах на рассуждение.
Почему Extended NYT Connections так важен?
Это не просто игра. Бенчмарк проверяет способность модели к lateral thinking - боковому мышлению. Нужно увидеть связи, которые не очевидны. Например, слова "apple", "blackberry", "orange", "pineapple" можно сгруппировать как "фрукты", но также как "компании" (Apple, BlackBerry) или "цвета". Модель должна понять контекст и выбрать правильную категорию.
Extended версия включает более сложные наборы слов с культурными отсылками, научными терминами и историческими событиями. Это головоломка для ИИ.
Как GLM-5 этого добился?
Секрет не только в архитектуре. GLM-5 использует улучшенный механизм внимания и тренировался на разнообразных данных, включая китайские и западные источники. Но ключевое - это системный промпт, который меняет поведение модели. Zhipu AI научились настраивать модель под конкретные задачи, обходя ограничения.
Кроме того, GLM-5 показал себя хорошо в бытовых вопросах против GPT-5.2. А теперь и в сложных логических тестах.
Что это значит для open-weights сообщества?
Раньше открытые модели всегда отставали. Теперь они выигрывают в отдельных дисциплинах. GLM-4.7 уже был признан лучшей opensource-моделью. GLM-5 идет дальше.
Но не все так радужно. GLM-5 все еще может называть реальные новости фейком из-за особенностей тренировки. И его производительность на языках, отличных от английского и китайского, может хромать.
Стоит ли переходить на GLM-5?
Если вам нужна модель для задач на рассуждение - да. GLM-5 доступен на OpenRouter и через Hugging Face. Для экономии, как показано в сравнении GLM4.7 с Claude 4.5, open-weights модели могут сэкономить сотни долларов.
Но помните: GLM-5 не панацея. В других бенчмарках, например, Nonobench с японскими кроссвордами, GPT-5.2 все еще лидирует.
Что будет дальше?
Битва за бенчмарки стала войной на истощение. Каждая новая модель пытается обойти предыдущую в каких-то тестах. GLM-5 победил в Extended NYT Connections, но это только один бенчмарк.
Мой прогноз: к середине 2026 года мы увидим, как open-weights модели догонят проприетарные по большинству метрик. Но проприетарные ответят новыми архитектурами. Гонка продолжается.
Совет для разработчиков: не гонитесь за единичными победами в бенчмарках. Тестируйте модели на своих данных. GLM-5 может блестяще решать Connections, но провалиться в вашей конкретной задаче. Скачайте модель, запустите локально или через API, и проверьте сами.
А для тех, кто хочет копнуть глубже, рекомендую изучить PR GLM-5 на Hugging Face, где разработчики делятся техническими деталями.
И да, если вы до сих пор считаете, что открытые модели всегда хуже, пора пересмотреть взгляды. GLM-5 это доказал.