На этой неделе команда исследователей из нескольких университетов опубликовала результаты нового бенчмарка для оценки агентных способностей LLM. Бенчмарк проверяет, насколько хорошо модели справляются с задачами, где нужно не просто отвечать на вопросы, а действовать: вызывать API, работать с файловой системой, выполнять многошаговые планы. Итоги неожиданные, но укладывающиеся в тренд: Claude Fable от Anthropic — абсолютный лидер среди закрытых моделей, а GLM 5.2 от Zhipu AI — лучший в категории open-source/open-weights. Что это вообще такое и почему вам не всё равно?
Что за зверь и с чем его едят
Новый бенчмарк (пока без звучного названия, но в сообществе его уже окрестили «AgentArena») состоит из 150 задач, разбитых на 6 доменов: веб-автоматизация, работа с базами данных, написание и отладка кода, управление файлами, взаимодействие с внешними API и планирование. Каждая задача — это симуляция реального сценария. Модель получает описание цели и набор инструментов. Оценивается не только успешность, но и количество шагов, эффективность использования инструментов и устойчивость к ошибкам.
Важный нюанс: разработчики бенчмарка сознательно убрали из тестов задачи, которые можно решить простым копированием из обучающей выборки. Каждый сценарий — уникальная комбинация, так что «заучивание» не прокатит.
Цифры, от которых взрывается мозг
Результаты сведены в таблицу, которая уже разошлась по AI-комьюнити. Вот ключевые показатели (общий балл по 100-балльной шкале и отдельно по домену «Программирование»):
| Модель | Категория | Общий балл | Программирование | Веб-автоматизация |
|---|---|---|---|---|
| Claude Fable | Закрытая (Anthropic) | 91.2 | 89.5 | 93.0 |
| GPT-5 Omni | Закрытая (OpenAI) | 87.4 | 85.1 | 86.8 |
| Gemini Ultra 2.0 | Закрытая (Google) | 85.6 | 82.3 | 88.1 |
| GLM 5.2 | Открытая (Zhipu) | 82.1 | 80.6 | 84.3 |
| Qwen 3.5 | Открытая (Alibaba) | 79.8 | 77.2 | 80.5 |
| Llama 5 Agent | Открытая (Meta) | 76.3 | 74.0 | 78.9 |
Claude Fable вырвался вперёд сразу на 4 пункта, оставив GPT-5 Omni и Gemini Ultra 2.0 пылиться в хвосте. Самое обидное для OpenAI — провал в веб-автоматизации: модель часто теряла нить последовательности действий. А вот GLM 5.2 снова подтверждает статус короля открытых моделей. Причём с большим отрывом от Qwen 3.5 и Llama 5 Agent.
Бенчмарк не идеален — это признают даже его создатели. Например, задачи на управление файлами оказались слишком лёгкими для всех топ-моделей, а домен «Планирование» — наоборот, слишком сложным. Но общая картина ясна.
Что это значит для разработчика, который прямо сейчас выбирает модель
Два принципиально разных пути.
Claude Fable — если деньги не пахнут и нужен максимум
Claude Fable доступен только через Anthropic API. Цена кусается: ~$30 за миллион токенов input и $90 за output (по слухам, официальные прайсы ещё не вышли). Зато он не просто выполняет команды — он пытается «думать» над задачей, переформулировать цель, если что-то пошло не так. Разработчики, которые уже интегрировали Fable в свои агентные пайплайны, в один голос твердят: «Он реже зависает в бесконечных циклах, чем GPT-5». Если ваш сервис обрабатывает тысячи запросов в час и каждый сбой стоит денег — Fable может окупить цену.
GLM 5.2 — свобода, контроль и вменяемый чек
С другой стороны, GLM 5.2 недавно побил рекорд Terminal-Bench, став первой открытой моделью с результатом выше 80%. Теперь ещё и новое достижение. Модель распространяется под коммерческой лицензией, весит около 70 млрд параметров (квантованная версия — 35 млрд) и спокойно запускается на двух A100. Это значит, вы можете развернуть её у себя, не отправляя данные на чужие сервера. Китайский регулятор? Да, есть нюанс, но через OpenRouter или собственный инстанс — без проблем. Мы уже писали, как GLM 5 появился на OpenRouter и показал неожиданно хорошую производительность для закрытых задач. GLM 5.2 — существенный шаг вперёд.
Почему это не случайность — контекст побед GLM
Zhipu AI последовательно улучшает свою модель. Ещё месяц назад GLM-5 возглавил бенчмарк Extended NYT Connections, обойдя Claude Opus на 2%. Тогда это казалось случайностью — просто удачный набор задач. Теперь, с новым бенчмарком и рекордом Terminal-Bench, становится ясно: это системная работа. Инженеры Zhipu явно сделали упор на агентные сценарии: улучшили планирование, научили модель перезапрашивать уточнения, если задача неоднозначна. Интересно, что в тесте на «личность» (анализ поведения через системный промпт) GLM 5.2 показал схожие с Claude паттерны — как мы и обсуждали в статье про GLM 5 и «личность Клода».
При этом GLM 5 уже показывал неожиданные результаты в тестах веб-разработки против Claude Code, обходя его в ряде сценариев. Теперь же GLM 5.2 окончательно закрепляет статус лучшей открытой модели для агентов.
Что дальше? (спойлер: не гонитесь за топ-1)
Да, Claude Fable — король. Да, GLM 5.2 — лучший open-source. Но бенчмарк — это не вся правда. Для типовых задач вроде «отправь email» или «добавь запись в базу» даже Llama 5 Agent справится с вероятностью 95%. Главное — не переплачивать за лишние 5 процентных пунктов.
Мой совет: возьмите GLM 5.2, если у вас есть GPU или вы готовы арендовать инстанс. Он дешевле, приватнее и достаточно умён. Если ваш проект — высоконагруженный агент с критическими сценариями (финансовые операции, медицинские рекомендации) — имеет смысл посмотреть в сторону Claude Fable. Но помните: Anthropic может в любой момент изменить цены или политику использования. Открытая модель — это ваша территория.
И ещё: следите за новыми версиями GLM. Если Zhipu продолжит так же быстро обновлять модель, то разрыв между закрытыми и открытыми агентами может исчезнуть уже к концу года. А пока — тестируйте на своих сценариях и не верьте бенчмаркам на слово.