Новый агентный бенчмарк: Claude Fable и GLM 5.2 — лидеры

На этой неделе команда исследователей из нескольких университетов опубликовала результаты нового бенчмарка для оценки агентных способностей LLM. Бенчмарк проверяет, насколько хорошо модели справляются с задачами, где нужно не просто отвечать на вопросы, а действовать: вызывать API, работать с файловой системой, выполнять многошаговые планы. Итоги неожиданные, но укладывающиеся в тренд: Claude Fable от Anthropic — абсолютный лидер среди закрытых моделей, а GLM 5.2 от Zhipu AI — лучший в категории open-source/open-weights. Что это вообще такое и почему вам не всё равно?

Что за зверь и с чем его едят

Новый бенчмарк (пока без звучного названия, но в сообществе его уже окрестили «AgentArena») состоит из 150 задач, разбитых на 6 доменов: веб-автоматизация, работа с базами данных, написание и отладка кода, управление файлами, взаимодействие с внешними API и планирование. Каждая задача — это симуляция реального сценария. Модель получает описание цели и набор инструментов. Оценивается не только успешность, но и количество шагов, эффективность использования инструментов и устойчивость к ошибкам.

Важный нюанс: разработчики бенчмарка сознательно убрали из тестов задачи, которые можно решить простым копированием из обучающей выборки. Каждый сценарий — уникальная комбинация, так что «заучивание» не прокатит.

Цифры, от которых взрывается мозг

Результаты сведены в таблицу, которая уже разошлась по AI-комьюнити. Вот ключевые показатели (общий балл по 100-балльной шкале и отдельно по домену «Программирование»):

Модель	Категория	Общий балл	Программирование	Веб-автоматизация
Claude Fable	Закрытая (Anthropic)	91.2	89.5	93.0
GPT-5 Omni	Закрытая (OpenAI)	87.4	85.1	86.8
Gemini Ultra 2.0	Закрытая (Google)	85.6	82.3	88.1
GLM 5.2	Открытая (Zhipu)	82.1	80.6	84.3
Qwen 3.5	Открытая (Alibaba)	79.8	77.2	80.5
Llama 5 Agent	Открытая (Meta)	76.3	74.0	78.9

Claude Fable вырвался вперёд сразу на 4 пункта, оставив GPT-5 Omni и Gemini Ultra 2.0 пылиться в хвосте. Самое обидное для OpenAI — провал в веб-автоматизации: модель часто теряла нить последовательности действий. А вот GLM 5.2 снова подтверждает статус короля открытых моделей. Причём с большим отрывом от Qwen 3.5 и Llama 5 Agent.

Бенчмарк не идеален — это признают даже его создатели. Например, задачи на управление файлами оказались слишком лёгкими для всех топ-моделей, а домен «Планирование» — наоборот, слишком сложным. Но общая картина ясна.

Что это значит для разработчика, который прямо сейчас выбирает модель

Два принципиально разных пути.

Claude Fable — если деньги не пахнут и нужен максимум

Claude Fable доступен только через Anthropic API. Цена кусается: ~$30 за миллион токенов input и $90 за output (по слухам, официальные прайсы ещё не вышли). Зато он не просто выполняет команды — он пытается «думать» над задачей, переформулировать цель, если что-то пошло не так. Разработчики, которые уже интегрировали Fable в свои агентные пайплайны, в один голос твердят: «Он реже зависает в бесконечных циклах, чем GPT-5». Если ваш сервис обрабатывает тысячи запросов в час и каждый сбой стоит денег — Fable может окупить цену.

GLM 5.2 — свобода, контроль и вменяемый чек

С другой стороны, GLM 5.2 недавно побил рекорд Terminal-Bench, став первой открытой моделью с результатом выше 80%. Теперь ещё и новое достижение. Модель распространяется под коммерческой лицензией, весит около 70 млрд параметров (квантованная версия — 35 млрд) и спокойно запускается на двух A100. Это значит, вы можете развернуть её у себя, не отправляя данные на чужие сервера. Китайский регулятор? Да, есть нюанс, но через OpenRouter или собственный инстанс — без проблем. Мы уже писали, как GLM 5 появился на OpenRouter и показал неожиданно хорошую производительность для закрытых задач. GLM 5.2 — существенный шаг вперёд.

💡

На практике разработчики уже используют GLM 5.2 в своих агентных фреймворках — например, в LangChain и CrewAI. Отзывы: модель реже «галлюцинирует» при вызове API и лучше держит контекст длинных диалогов. Но есть жалобы на скорость генерации — она примерно на 15% медленнее, чем у Llama 5 Agent того же размера.

Почему это не случайность — контекст побед GLM

Zhipu AI последовательно улучшает свою модель. Ещё месяц назад GLM-5 возглавил бенчмарк Extended NYT Connections, обойдя Claude Opus на 2%. Тогда это казалось случайностью — просто удачный набор задач. Теперь, с новым бенчмарком и рекордом Terminal-Bench, становится ясно: это системная работа. Инженеры Zhipu явно сделали упор на агентные сценарии: улучшили планирование, научили модель перезапрашивать уточнения, если задача неоднозначна. Интересно, что в тесте на «личность» (анализ поведения через системный промпт) GLM 5.2 показал схожие с Claude паттерны — как мы и обсуждали в статье про GLM 5 и «личность Клода».

При этом GLM 5 уже показывал неожиданные результаты в тестах веб-разработки против Claude Code, обходя его в ряде сценариев. Теперь же GLM 5.2 окончательно закрепляет статус лучшей открытой модели для агентов.

Что дальше? (спойлер: не гонитесь за топ-1)

Да, Claude Fable — король. Да, GLM 5.2 — лучший open-source. Но бенчмарк — это не вся правда. Для типовых задач вроде «отправь email» или «добавь запись в базу» даже Llama 5 Agent справится с вероятностью 95%. Главное — не переплачивать за лишние 5 процентных пунктов.

Мой совет: возьмите GLM 5.2, если у вас есть GPU или вы готовы арендовать инстанс. Он дешевле, приватнее и достаточно умён. Если ваш проект — высоконагруженный агент с критическими сценариями (финансовые операции, медицинские рекомендации) — имеет смысл посмотреть в сторону Claude Fable. Но помните: Anthropic может в любой момент изменить цены или политику использования. Открытая модель — это ваша территория.

И ещё: следите за новыми версиями GLM. Если Zhipu продолжит так же быстро обновлять модель, то разрыв между закрытыми и открытыми агентами может исчезнуть уже к концу года. А пока — тестируйте на своих сценариях и не верьте бенчмаркам на слово.

Подписаться на канал

Новый агентный бенчмарк: Claude Fable и GLM 5.2 лидируют в своих категориях — что это значит для разработчиков