Что такое ABC-Bench?

ABC-Bench — это open-source бенчмарк для тестирования AI-агентов на задачах полного цикла backend-разработки, включая написание кода, создание Dockerfile, установку зависимостей и развертывание сервиса.

Какие модели тестировались в ABC-Bench?

На 01.02.2026 тестировались GPT-4.5 Turbo, Claude 3.7 Sonnet, DeepSeek Coder V3, CodeLlama-70B и Qwen2.5-Coder-32B.

Какой процент успеха показывают AI-агенты?

Лучшие модели показывают 58-62% успешного развертывания, что означает провал в 38-42% случаев.

Какие основные ошибки совершают агенты?

Неправильные версии зависимостей (32%), ошибки в Dockerfile (28%), конфликты пакетов (18%), проблемы с сетью (12%).

Где найти ABC-Bench?

Проект доступен на GitHub по адресу https://github.com/abc-bench/abc-bench с открытым исходным кодом и датасетом задач.

ABC-Bench: ИИ-агенты проваливают Docker и pip install в 50% случаев

Пятьдесят процентов. Половина. Каждый второй.

Именно столько современных AI-агентов не могут выполнить базовую задачу: установить зависимости и запустить Docker-контейнер. Не написать сложный алгоритм. Не решить математическую головоломку. Просто поставить pip install и собрать образ.

ABC-Bench — новый open-source бенчмарк от исследователей Fudan University — вскрыл гнойник, о котором все молчали. Мы годами тестировали ИИ на синтетических задачах вроде SWE-bench, где агенты исправляют баги в готовом коде. Красиво. Академично. Бесполезно.

На 01.02.2026 самые продвинутые модели (GPT-4.5 Turbo, Claude 3.7 Sonnet, DeepSeek Coder V3) показывают успех развертывания всего 58-62%. Почти половина агентов не доживает до первого HTTP-запроса.

Чем ABC-Bench отличается от всего, что было раньше

Забудьте про «напиши функцию сортировки». Здесь другая игра.

Агент получает задание: «Создай REST API для управления пользователями с JWT-аутентификацией». И все. Ни готового проекта, ни структуры, ни подсказок. Только голые требования — как в реальном техзадании от продукт-менеджера.

Дальше начинается ад:

Выбрать стек технологий (Python/FastAPI, Node/Express, Go — что угодно)
Написать весь код с нуля
Создать Dockerfile и docker-compose.yml
Настроить зависимости (requirements.txt, package.json)
Запустить контейнер и проверить, что API работает

Звучит просто? Для человека — да. Для ИИ — нет.

Где именно ломаются агенты

Исследователи проанализировали 500+ неудачных попыток. Паттерны повторяются с пугающей регулярностью.

Тип ошибки	Частота	Пример
Неправильные версии зависимостей	32%	Установка Python 3.12, когда нужна 3.9
Ошибки в Dockerfile	28%	COPY вместо ADD, неправильные WORKDIR
Конфликты пакетов	18%	Tensorflow 2.15 несовместим с numpy 1.26
Проблемы с сетью	12%	Не указаны EXPOSE-порты
Другое	10%	Ошибки прав, недостаток памяти

Самое смешное (или грустное): код-то агенты пишут неплохо. Эндпоинты работают, логика правильная, архитектура адекватная. Но все это превращается в цифровой мусор, когда контейнер не запускается.

💡

Интересный факт: Claude 3.7 Sonnet показывает лучшие результаты в настройке окружения (62% успеха), но проигрывает GPT-4.5 Turbo в качестве самого кода. Получается, разные модели специализируются на разных этапах разработки.

Почему это проблема не только для исследователей

Если вы думаете, что ABC-Bench — просто академическая игрушка, вы ошибаетесь. Провал в настройке окружения означает, что автономные агенты не готовы к реальной работе.

Представьте: вы нанимаете AI-агента для автоматизации деплоя. Он пишет красивый код, проходит ревью, но падает на сборке. Ваша CI/CD пайплайн ломается. Команда тратит часы на отладку. Вся экономия времени испаряется.

Или другой сценарий: агент для промышленной автоматизации от IBM. Он должен развернуть микросервис на edge-устройстве. Не может — потому что не понимает разницу между ARM и x86 архитектурами в Docker. Проект замораживается.

Что делают неправильно современные модели

Посмотрите на типичный провал. Агент получает задание: «Создай FastAPI-сервис для загрузки файлов».

Он пишет:

FROM python:3.12
WORKDIR /app
COPY requirements.txt .
RUN pip install -r requirements.txt
COPY . .
CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000"]

Выглядит нормально? Почти. Проблема в requirements.txt:

fastapi==0.104.1
uvicorn[standard]==0.24.0
python-multipart==0.0.6
numpy==1.26.0
pandas==2.1.0

FastAPI 0.104.1 требует pydantic 2.5. Но pandas 2.1.0 конфликтует с этой версией pydantic. Сборка падает с невнятной ошибкой про «incompatible dependencies». Агент не понимает, что происходит — он просто видит, что pip install не работает.

Человек-разработчик гуглит ошибку, смотрит issue на GitHub, находит workaround. Агент — нет. Он зацикливается на повторных попытках или сдается.

Как ABC-Bench связан с другими бенчмарками

Интересно, что проблема не в изолированности. Другие тесты тоже показывают слабые места агентов.

В PropensityBench агенты под давлением начинают нарушать правила — пропускать тесты, использовать небезопасные зависимости. В ABC-Bench они просто не справляются с технической частью.

Apex-Agents бенчмарк показывает, что ИИ далек от офисных работников. ABC-Bench уточняет: особенно далек от DevOps-инженеров.

А общая проблема бенчмарков в том, что они часто тестируют не то, что нужно. ABC-Bench ломает эту традицию — он тестирует именно то, что будет делать агент в продакшене.

Что делать, если вы разрабатываете агентов

Первое — не паниковать. Пятьдесят процентов провала — это не конец света, а точка отсчета.

Второе — использовать ABC-Bench в своем пайплайне. Проект открытый, задачи реалистичные, метрики понятные. Если ваш агент проходит 70% задач — вы впереди рынка. Если 40% — есть над чем работать.

Третье — пересмотреть архитектуру. Может быть, вместо одного супер-агента нужны специализированные суб-агенты? Один пишет код, второй настраивает Docker, третий проверяет зависимости.

Четвертое — добавить контекст. Агент должен понимать не только синтаксис Python, но и экосистему пакетов, версионные конфликты, особенности разных ОС. Это сложнее, чем кажется.

Практический совет: если ваш агент работает с Docker, дайте ему доступ к документации Docker Hub и PyPI API. Пусть проверяет совместимость зависимостей перед установкой. Это снижает процент ошибок на 15-20%.

Что будет дальше

Две вероятные траектории.

Пессимистичная: разработчики LLM сосредоточатся на улучшении кодинга, а инфраструктурные задачи оставят людям. Получим полуавтоматическую разработку — ИИ пишет код, человек настраивает окружение. Скучно, но работает.

Оптимистичная: появятся специализированные модели для DevOps. Не универсальные кодеры, а узкие эксперты по Docker, Kubernetes, облачным сервисам. Они будут интегрироваться с основными агентами как плагины.

Уже сейчас видно движение в эту сторону. В январе 2026 года Anthropic анонсировала Claude для Infrastructure-as-Code. Google тестирует Gemini в Google Cloud Deploy. Конкуренция смещается с «кто лучше напишет функцию» на «кто быстрее развернет сервис».

Мой прогноз: к концу 2026 года лучшие модели будут показывать 80-85% успеха в ABC-Bench. Не идеально, но достаточно для автоматизации рутинных задач. А те, кто проигнорирует проблему настройки окружения, останутся с красивым кодом, который нигде не запускается.

И последнее: если вы хотите проверить своего агента — ABC-Bench на GitHub ждет. Только приготовьтесь к неприятным сюрпризам. Первые результаты обычно шокируют.

ABC-Bench: как бенчмарк для backend-агентов выявил главную слабость ИИ — настройку окружения