Представьте: вы инженер, упал прод, а агент смотрит на логи и разводит руками
Звучит как сценарий плохого фильма? Нет, это реальность мая 2026. IBM Research совместно с платформой Artificial Analysis (той самой, что гоняет open-source модели через сито) выпустили обновление бенчмарка ITBench — на этот раз для агентных (AA) задач. Задачи — реальные инциденты в Kubernetes-кластерах: упал etcd, перегружен Ingress, слетели поды с сертификатами. Агент должен сам разобраться в проблеме, починить и проверить результат.
Итог: ни одна модель не набрала 50% успешных решений. Лучший — Claude Opus 4.7 (45%), следом GPT-5.5 (42%), затем Gemini 2.0 Ultra (38%). Остальные — ещё ниже. Это не просто провал, это холодный душ для тех, кто собирался заменить SRE-инженера AI-агентом.
Для контекста: предыдущие версии ITBench (без агентов) модели проходили на 60-70%. Агентный режим добавил Multi-Step Reasoning, работу с kubectl, чтение логов и динамическое принятие решений. Именно эти «человеческие» скилы и завалили ИИ.
Что именно измеряли и где споткнулись LLM
ITBench-AA состоит из 50 сценариев — каждый имитирует реальный SRE-инцидент. Агент получает цель (например, «восстановить доступ к базе данных») и shell-доступ к кластеру. Оценивается не только конечный результат, но и корректность последовательности действий, отсутствие лишних манипуляций, правильная интерпретация ошибок.
Категории ошибок — те же, что мы разбирали в статье о таксономии MAST. Чаще всего агенты валились на Action-ошибках (не те команды) и State-ошибках (неверное понимание текущего состояния кластера). Например, GPT-5.5 после падения etcd почему-то решил переустановить Kubernetes целиком, хотя достаточно было перезапустить компонент. Claude Opus 4.7 ушёл в бесконечный цикл чтения логов, так и не применив фикс.
| Модель | Accuracy | Среднее число шагов | Типичная ошибка |
|---|---|---|---|
| Claude Opus 4.7 | 45% | 12 | Неверная диагностика |
| GPT-5.5 | 42% | 15 | Избыточные действия |
| Gemini 2.0 Ultra | 38% | 10 | Потеря контекста |
| DeepSeek-R2 | 34% | 18 | Зацикливание на неудаче |
| Qwen 4.5 Max | 29% | 20 | Игнорирование ошибок |
Почему это не «ещё один бенчмарк», а красная лампочка для enterprise
В 2026 году рынок кишит стартапами, обещающими «AI-агента для DevOps». ITBench-AA — это, по сути, экзамен на профпригодность для этих обещаний. И он показал: даже с лучшими моделями агенты не справляются с рутинными задачами SRE. Напомню, что в бенчмарке ABC-Bench та же проблема — настройка окружения проваливается у 70% агентов. А VAKRA показал, что длинные цепочки действий — ахиллесова пята LLM.
Но есть нюанс: в ITBench-AA модели не просто тупят — они активно галлюцинируют при работе с kubectl. Например, Gemini 2.0 Ultra четыре раза попытался применить несуществующий флаг — и только на пятый запросил help. Это не ошибка знания, это поведенческий дефект. Сейчас это не страшно, потому что за агентом следит инженер. Но когда мы говорим об автономных AI-агентах в production — такие баги приводят к простою за простоем.
Кто виноват и что делать? Методология, а не модели
Оптимисты скажут: «подождём GPT-6». Реалисты — почешут затылок и пойдут дорабатывать архитектуру агента. ITBench-AA чётко показал: даже самая умная модель проваливается, если она не умеет верифицировать свои действия, спрашивать себя «а что пошло не так?» и возвращаться на шаг назад. Это те самые навыки, которым учат на курсах SRE — но LLM их не освоили.
В прошлых статьях мы уже обсуждали Food Truck Benchmark, где выжили модели с «рефлексией». Здесь то же самое: у Claude Opus 4.7 есть встроенный механизм самопроверки — и это дало ему 45%. Без рефлексии не взлетит.
Вывод разработчикам: не гонитесь за самой большой моделью. Сначала постройте цикл обратной связи (ошибка -> анализ -> корректировка). Добавьте агенту ability «попросить помощи у человека», если задача выходит за рамки его вероятностей. И обязательно используйте ITBench-AA как тест для вашего пайплайна — это дешевле, чем потерять прод.
У Artificial Analysis есть открытый дашборд с результатами — можно посмотреть, как разные модели ведут себя на каждой задаче, и даже развернуть свой тест. Хотя, если верить их же предупреждению, полагаться на один бенчмарк — опасная стратегия. Используйте ITBench-AA как один из артефактов в вашем тестовом сете.
И последнее: не стоит ждать, что через год агенты вдруг поумнеют. Агентные способности моделей растут медленнее, чем их знание фактов. SRE — это не викторина, это ремесло. А ремесло требует тысячи мелких правильных движений, которые LLM пока не осилили. Так что если ваш CTO предлагает уволить дежурную смену и отдать всё ИИ — покажите ему результаты ITBench-AA. И предложите подстраховаться.