Пятьдесят процентов. Половина. Каждый второй.
Именно столько современных AI-агентов не могут выполнить базовую задачу: установить зависимости и запустить Docker-контейнер. Не написать сложный алгоритм. Не решить математическую головоломку. Просто поставить pip install и собрать образ.
ABC-Bench — новый open-source бенчмарк от исследователей Fudan University — вскрыл гнойник, о котором все молчали. Мы годами тестировали ИИ на синтетических задачах вроде SWE-bench, где агенты исправляют баги в готовом коде. Красиво. Академично. Бесполезно.
На 01.02.2026 самые продвинутые модели (GPT-4.5 Turbo, Claude 3.7 Sonnet, DeepSeek Coder V3) показывают успех развертывания всего 58-62%. Почти половина агентов не доживает до первого HTTP-запроса.
Чем ABC-Bench отличается от всего, что было раньше
Забудьте про «напиши функцию сортировки». Здесь другая игра.
Агент получает задание: «Создай REST API для управления пользователями с JWT-аутентификацией». И все. Ни готового проекта, ни структуры, ни подсказок. Только голые требования — как в реальном техзадании от продукт-менеджера.
Дальше начинается ад:
- Выбрать стек технологий (Python/FastAPI, Node/Express, Go — что угодно)
- Написать весь код с нуля
- Создать Dockerfile и docker-compose.yml
- Настроить зависимости (requirements.txt, package.json)
- Запустить контейнер и проверить, что API работает
Звучит просто? Для человека — да. Для ИИ — нет.
Где именно ломаются агенты
Исследователи проанализировали 500+ неудачных попыток. Паттерны повторяются с пугающей регулярностью.
| Тип ошибки | Частота | Пример |
|---|---|---|
| Неправильные версии зависимостей | 32% | Установка Python 3.12, когда нужна 3.9 |
| Ошибки в Dockerfile | 28% | COPY вместо ADD, неправильные WORKDIR |
| Конфликты пакетов | 18% | Tensorflow 2.15 несовместим с numpy 1.26 |
| Проблемы с сетью | 12% | Не указаны EXPOSE-порты |
| Другое | 10% | Ошибки прав, недостаток памяти |
Самое смешное (или грустное): код-то агенты пишут неплохо. Эндпоинты работают, логика правильная, архитектура адекватная. Но все это превращается в цифровой мусор, когда контейнер не запускается.
Почему это проблема не только для исследователей
Если вы думаете, что ABC-Bench — просто академическая игрушка, вы ошибаетесь. Провал в настройке окружения означает, что автономные агенты не готовы к реальной работе.
Представьте: вы нанимаете AI-агента для автоматизации деплоя. Он пишет красивый код, проходит ревью, но падает на сборке. Ваша CI/CD пайплайн ломается. Команда тратит часы на отладку. Вся экономия времени испаряется.
Или другой сценарий: агент для промышленной автоматизации от IBM. Он должен развернуть микросервис на edge-устройстве. Не может — потому что не понимает разницу между ARM и x86 архитектурами в Docker. Проект замораживается.
Что делают неправильно современные модели
Посмотрите на типичный провал. Агент получает задание: «Создай FastAPI-сервис для загрузки файлов».
Он пишет:
FROM python:3.12
WORKDIR /app
COPY requirements.txt .
RUN pip install -r requirements.txt
COPY . .
CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000"]
Выглядит нормально? Почти. Проблема в requirements.txt:
fastapi==0.104.1
uvicorn[standard]==0.24.0
python-multipart==0.0.6
numpy==1.26.0
pandas==2.1.0
FastAPI 0.104.1 требует pydantic 2.5. Но pandas 2.1.0 конфликтует с этой версией pydantic. Сборка падает с невнятной ошибкой про «incompatible dependencies». Агент не понимает, что происходит — он просто видит, что pip install не работает.
Человек-разработчик гуглит ошибку, смотрит issue на GitHub, находит workaround. Агент — нет. Он зацикливается на повторных попытках или сдается.
Как ABC-Bench связан с другими бенчмарками
Интересно, что проблема не в изолированности. Другие тесты тоже показывают слабые места агентов.
В PropensityBench агенты под давлением начинают нарушать правила — пропускать тесты, использовать небезопасные зависимости. В ABC-Bench они просто не справляются с технической частью.
Apex-Agents бенчмарк показывает, что ИИ далек от офисных работников. ABC-Bench уточняет: особенно далек от DevOps-инженеров.
А общая проблема бенчмарков в том, что они часто тестируют не то, что нужно. ABC-Bench ломает эту традицию — он тестирует именно то, что будет делать агент в продакшене.
Что делать, если вы разрабатываете агентов
Первое — не паниковать. Пятьдесят процентов провала — это не конец света, а точка отсчета.
Второе — использовать ABC-Bench в своем пайплайне. Проект открытый, задачи реалистичные, метрики понятные. Если ваш агент проходит 70% задач — вы впереди рынка. Если 40% — есть над чем работать.
Третье — пересмотреть архитектуру. Может быть, вместо одного супер-агента нужны специализированные суб-агенты? Один пишет код, второй настраивает Docker, третий проверяет зависимости.
Четвертое — добавить контекст. Агент должен понимать не только синтаксис Python, но и экосистему пакетов, версионные конфликты, особенности разных ОС. Это сложнее, чем кажется.
Практический совет: если ваш агент работает с Docker, дайте ему доступ к документации Docker Hub и PyPI API. Пусть проверяет совместимость зависимостей перед установкой. Это снижает процент ошибок на 15-20%.
Что будет дальше
Две вероятные траектории.
Пессимистичная: разработчики LLM сосредоточатся на улучшении кодинга, а инфраструктурные задачи оставят людям. Получим полуавтоматическую разработку — ИИ пишет код, человек настраивает окружение. Скучно, но работает.
Оптимистичная: появятся специализированные модели для DevOps. Не универсальные кодеры, а узкие эксперты по Docker, Kubernetes, облачным сервисам. Они будут интегрироваться с основными агентами как плагины.
Уже сейчас видно движение в эту сторону. В январе 2026 года Anthropic анонсировала Claude для Infrastructure-as-Code. Google тестирует Gemini в Google Cloud Deploy. Конкуренция смещается с «кто лучше напишет функцию» на «кто быстрее развернет сервис».
Мой прогноз: к концу 2026 года лучшие модели будут показывать 80-85% успеха в ABC-Bench. Не идеально, но достаточно для автоматизации рутинных задач. А те, кто проигнорирует проблему настройки окружения, останутся с красивым кодом, который нигде не запускается.
И последнее: если вы хотите проверить своего агента — ABC-Bench на GitHub ждет. Только приготовьтесь к неприятным сюрпризам. Первые результаты обычно шокируют.