ITBench-AA: топ-модели провалили SRE-бенчмарк ниже 50%

Представьте: вы инженер, упал прод, а агент смотрит на логи и разводит руками

Звучит как сценарий плохого фильма? Нет, это реальность мая 2026. IBM Research совместно с платформой Artificial Analysis (той самой, что гоняет open-source модели через сито) выпустили обновление бенчмарка ITBench — на этот раз для агентных (AA) задач. Задачи — реальные инциденты в Kubernetes-кластерах: упал etcd, перегружен Ingress, слетели поды с сертификатами. Агент должен сам разобраться в проблеме, починить и проверить результат.

Итог: ни одна модель не набрала 50% успешных решений. Лучший — Claude Opus 4.7 (45%), следом GPT-5.5 (42%), затем Gemini 2.0 Ultra (38%). Остальные — ещё ниже. Это не просто провал, это холодный душ для тех, кто собирался заменить SRE-инженера AI-агентом.

Для контекста: предыдущие версии ITBench (без агентов) модели проходили на 60-70%. Агентный режим добавил Multi-Step Reasoning, работу с kubectl, чтение логов и динамическое принятие решений. Именно эти «человеческие» скилы и завалили ИИ.

Что именно измеряли и где споткнулись LLM

ITBench-AA состоит из 50 сценариев — каждый имитирует реальный SRE-инцидент. Агент получает цель (например, «восстановить доступ к базе данных») и shell-доступ к кластеру. Оценивается не только конечный результат, но и корректность последовательности действий, отсутствие лишних манипуляций, правильная интерпретация ошибок.

Категории ошибок — те же, что мы разбирали в статье о таксономии MAST. Чаще всего агенты валились на Action-ошибках (не те команды) и State-ошибках (неверное понимание текущего состояния кластера). Например, GPT-5.5 после падения etcd почему-то решил переустановить Kubernetes целиком, хотя достаточно было перезапустить компонент. Claude Opus 4.7 ушёл в бесконечный цикл чтения логов, так и не применив фикс.

Модель	Accuracy	Среднее число шагов	Типичная ошибка
Claude Opus 4.7	45%	12	Неверная диагностика
GPT-5.5	42%	15	Избыточные действия
Gemini 2.0 Ultra	38%	10	Потеря контекста
DeepSeek-R2	34%	18	Зацикливание на неудаче
Qwen 4.5 Max	29%	20	Игнорирование ошибок

Почему это не «ещё один бенчмарк», а красная лампочка для enterprise

В 2026 году рынок кишит стартапами, обещающими «AI-агента для DevOps». ITBench-AA — это, по сути, экзамен на профпригодность для этих обещаний. И он показал: даже с лучшими моделями агенты не справляются с рутинными задачами SRE. Напомню, что в бенчмарке ABC-Bench та же проблема — настройка окружения проваливается у 70% агентов. А VAKRA показал, что длинные цепочки действий — ахиллесова пята LLM.

Но есть нюанс: в ITBench-AA модели не просто тупят — они активно галлюцинируют при работе с kubectl. Например, Gemini 2.0 Ultra четыре раза попытался применить несуществующий флаг — и только на пятый запросил help. Это не ошибка знания, это поведенческий дефект. Сейчас это не страшно, потому что за агентом следит инженер. Но когда мы говорим об автономных AI-агентах в production — такие баги приводят к простою за простоем.

💡

Авторы ITBench-AA (среди которых — исследователи IBM, уже публиковавшие AssetOpsBench) отмечают: самая сложная часть для агентов — это передача контекста между шагами. Они забывают, что уже сделали, и начинают заново.

Кто виноват и что делать? Методология, а не модели

Оптимисты скажут: «подождём GPT-6». Реалисты — почешут затылок и пойдут дорабатывать архитектуру агента. ITBench-AA чётко показал: даже самая умная модель проваливается, если она не умеет верифицировать свои действия, спрашивать себя «а что пошло не так?» и возвращаться на шаг назад. Это те самые навыки, которым учат на курсах SRE — но LLM их не освоили.

В прошлых статьях мы уже обсуждали Food Truck Benchmark, где выжили модели с «рефлексией». Здесь то же самое: у Claude Opus 4.7 есть встроенный механизм самопроверки — и это дало ему 45%. Без рефлексии не взлетит.

Вывод разработчикам: не гонитесь за самой большой моделью. Сначала постройте цикл обратной связи (ошибка -> анализ -> корректировка). Добавьте агенту ability «попросить помощи у человека», если задача выходит за рамки его вероятностей. И обязательно используйте ITBench-AA как тест для вашего пайплайна — это дешевле, чем потерять прод.

У Artificial Analysis есть открытый дашборд с результатами — можно посмотреть, как разные модели ведут себя на каждой задаче, и даже развернуть свой тест. Хотя, если верить их же предупреждению, полагаться на один бенчмарк — опасная стратегия. Используйте ITBench-AA как один из артефактов в вашем тестовом сете.

И последнее: не стоит ждать, что через год агенты вдруг поумнеют. Агентные способности моделей растут медленнее, чем их знание фактов. SRE — это не викторина, это ремесло. А ремесло требует тысячи мелких правильных движений, которые LLM пока не осилили. Так что если ваш CTO предлагает уволить дежурную смену и отдать всё ИИ — покажите ему результаты ITBench-AA. И предложите подстраховаться.

Подписаться на канал

ITBench-AA: новый бенчмарк для агентных IT-задач — все ведущие модели провалились (ниже 50%)

Представьте: вы инженер, упал прод, а агент смотрит на логи и разводит руками

Что именно измеряли и где споткнулись LLM

Почему это не «ещё один бенчмарк», а красная лампочка для enterprise

Кто виноват и что делать? Методология, а не модели

Подписывайтесь на наш канал!