ABC-Bench: AI-агенты терпят крах на Docker, Claude Sonnet 4.5 лидирует

Dockerfile - это ад, а pip install - чистилище

Все говорят, что AI-агенты скоро заменят разработчиков. Но есть одна проблема: они не умеют работать с окружением. Совсем. Новый бенчмарк ABC-Bench, опубликованный 20 января 2026 года, показал это со всей ясностью.

Представьте: агент пишет идеальный код. Красивый, чистый, эффективный. А потом пытается запустить его в Docker-контейнере и... всё ломается. Потому что забыл про volume, неправильно указал рабочую директорию или установил не ту версию Python.

Результаты шокируют: средний успех по всем моделям - 23%. Это не про код. Это про умение работать в реальном мире.

Что такое ABC-Bench и почему он больнее SWE-bench

Если SWE-bench проверял умение исправлять баги в существующем коде, то ABC-Bench - это полный цикл разработки. От пустой папки до работающего сервиса.

Задачи выглядят так:

Создать Dockerfile с правильной базой образа
Настроить docker-compose.yml с зависимостями
Установить Python-пакеты с версионными ограничениями
Настроить переменные окружения
Запустить миграции базы данных
Проверить, что сервис отвечает на запросы

Звучит просто? Для человека - да. Для AI-агента - нет.

Топ-5 моделей на 25.01.2026: разрыв как между небом и землей

Модель	Успешных задач	Среднее время	Ключевая ошибка
Claude Sonnet 4.5	68%	14 мин	Пропуск healthcheck
GPT-5 (январь 2026)	42%	22 мин	Неправильные volume
Gemini Ultra 2.5	31%	28 мин	Конфликты версий Python
Claude Opus 4	29%	31 мин	Забытые зависимости
DeepSeek Coder 3	18%	45 мин	Неправильные порты

Claude Sonnet 4.5 не просто лидирует. Он доминирует. Разрыв в 26 процентных пунктов между первым и вторым местом - это не разница в качестве. Это разница в подходе.

Почему Sonnet 4.5 справляется, а другие нет

Анализ логов показывает интересную картину. Большинство моделей работают линейно: "сначала Dockerfile, потом requirements.txt, потом docker-compose". И когда что-то ломается, они не возвращаются назад.

Claude Sonnet 4.5 делает иначе. Он работает циклически:

Создает минимальную структуру
Пытается собрать образ
Анализирует ошибки сборки
Исправляет конкретную проблему
Повторяет с шага 2

Это тот же подход, который используют опытные разработчики. Не идеальный план с первого раза, а итеративное исправление ошибок.

💡

Интересный факт: в 37% случаев Sonnet 4.5 специально использует более старые, но стабильные версии пакетов, чтобы избежать конфликтов. Другие модели всегда выбирают последние версии.

Типичные ошибки, которые сводят с ума

Вот что ломает большинство агентов:

1 Копирование кода без копирования зависимостей

Агент создает красивый Dockerfile, копирует app.py... и забывает про requirements.txt. Или копирует requirements.txt, но не запускает pip install. Базовая ошибка, которая встречается в 64% проваленных задач.

2 Магия относительных путей

"COPY . /app" в Dockerfile и "WORKDIR /app" - это стандарт. Но потом в docker-compose.yml они пишут "./data:/app/data" и удивляются, почему volume не работает. Потому что внутри контейнера нет каталога ./data относительно чего? Относительно чего угодно, только не того, что нужно.

3 Игнорирование healthcheck

Даже Claude Sonnet 4.5 грешит этим. Он запускает сервис, проверяет, что он отвечает... и забывает добавить healthcheck в docker-compose. В продакшене это гарантированный дежурный вызов в 3 часа ночи.

Что это значит для будущего AI-разработки

Результаты ABC-Bench показывают очевидную вещь: текущие AI-агенты хороши для изолированных задач, но беспомощны в комплексных процессах. Они не понимают контекст, не умеют работать с системами, не видят картину целиком.

Это объясняет, почему оркестраторы вроде AgentCommander становятся необходимостью. Один агент не справляется - нужна команда.

Но есть и хорошие новости. Claude Sonnet 4.5 демонстрирует, что прогресс есть. Его подход к итеративной разработке - это именно то, что нужно. Не идеальный код с первого раза, а умение исправлять ошибки.

Практический совет: если тестируете AI-агентов для реальных задач, обязательно включайте задачи на настройку окружения. Код - это только половина работы.

Где взять ABC-Bench и как его использовать

Платформа открыта. Код на GitHub, датасет на Hugging Face. Можно запустить локально и протестировать свои модели. Или использовать как основу для собственных бенчмарков.

Что интересно: создатели специально включили задачи с "грязными" зависимостями. Где пакет A требует версию X пакета B, а пакет C требует версию Y того же пакета B. Такие ситуации в реальных проектах встречаются постоянно, и AI-агенты с ними не справляются.

Если вы работаете с оркестраторами кода, ABC-Bench - обязательный тест. Потому что если агент не может настроить окружение, вся остальная работа бессмысленна.

Что будет дальше

Anthropic явно что-то знает. Успех Claude Sonnet 4.5 в ABC-Bench совпадает с их фокусом на практической разработке. Они не просто улучшают генерацию кода - они учат модели работать в реальной среде.

Мой прогноз: к середине 2026 года мы увидим специализированные модели для DevOps-задач. Не общие LLM, а именно обученные на Docker, Kubernetes, облачных конфигурациях. Потому что текущий подход "одна модель на всё" не работает.

А пока - тестируйте своих агентов на ABC-Bench. И не удивляйтесь, если они провалятся. Это нормально. Ненормально - доверять им продакшен без проверки.

P.S. Если ваш AI-агент проходит ABC-Bench на 50% и выше - напишите мне. У меня для вас есть работа. Серьезно.

ABC-Bench: почему AI-агенты проваливаются в настройке окружения и как Claude Sonnet 4.5 стал лучшим