Dockerfile - это ад, а pip install - чистилище
Все говорят, что AI-агенты скоро заменят разработчиков. Но есть одна проблема: они не умеют работать с окружением. Совсем. Новый бенчмарк ABC-Bench, опубликованный 20 января 2026 года, показал это со всей ясностью.
Представьте: агент пишет идеальный код. Красивый, чистый, эффективный. А потом пытается запустить его в Docker-контейнере и... всё ломается. Потому что забыл про volume, неправильно указал рабочую директорию или установил не ту версию Python.
Результаты шокируют: средний успех по всем моделям - 23%. Это не про код. Это про умение работать в реальном мире.
Что такое ABC-Bench и почему он больнее SWE-bench
Если SWE-bench проверял умение исправлять баги в существующем коде, то ABC-Bench - это полный цикл разработки. От пустой папки до работающего сервиса.
Задачи выглядят так:
- Создать Dockerfile с правильной базой образа
- Настроить docker-compose.yml с зависимостями
- Установить Python-пакеты с версионными ограничениями
- Настроить переменные окружения
- Запустить миграции базы данных
- Проверить, что сервис отвечает на запросы
Звучит просто? Для человека - да. Для AI-агента - нет.
Топ-5 моделей на 25.01.2026: разрыв как между небом и землей
| Модель | Успешных задач | Среднее время | Ключевая ошибка |
|---|---|---|---|
| Claude Sonnet 4.5 | 68% | 14 мин | Пропуск healthcheck |
| GPT-5 (январь 2026) | 42% | 22 мин | Неправильные volume |
| Gemini Ultra 2.5 | 31% | 28 мин | Конфликты версий Python |
| Claude Opus 4 | 29% | 31 мин | Забытые зависимости |
| DeepSeek Coder 3 | 18% | 45 мин | Неправильные порты |
Claude Sonnet 4.5 не просто лидирует. Он доминирует. Разрыв в 26 процентных пунктов между первым и вторым местом - это не разница в качестве. Это разница в подходе.
Почему Sonnet 4.5 справляется, а другие нет
Анализ логов показывает интересную картину. Большинство моделей работают линейно: "сначала Dockerfile, потом requirements.txt, потом docker-compose". И когда что-то ломается, они не возвращаются назад.
Claude Sonnet 4.5 делает иначе. Он работает циклически:
- Создает минимальную структуру
- Пытается собрать образ
- Анализирует ошибки сборки
- Исправляет конкретную проблему
- Повторяет с шага 2
Это тот же подход, который используют опытные разработчики. Не идеальный план с первого раза, а итеративное исправление ошибок.
Типичные ошибки, которые сводят с ума
Вот что ломает большинство агентов:
1 Копирование кода без копирования зависимостей
Агент создает красивый Dockerfile, копирует app.py... и забывает про requirements.txt. Или копирует requirements.txt, но не запускает pip install. Базовая ошибка, которая встречается в 64% проваленных задач.
2 Магия относительных путей
"COPY . /app" в Dockerfile и "WORKDIR /app" - это стандарт. Но потом в docker-compose.yml они пишут "./data:/app/data" и удивляются, почему volume не работает. Потому что внутри контейнера нет каталога ./data относительно чего? Относительно чего угодно, только не того, что нужно.
3 Игнорирование healthcheck
Даже Claude Sonnet 4.5 грешит этим. Он запускает сервис, проверяет, что он отвечает... и забывает добавить healthcheck в docker-compose. В продакшене это гарантированный дежурный вызов в 3 часа ночи.
Что это значит для будущего AI-разработки
Результаты ABC-Bench показывают очевидную вещь: текущие AI-агенты хороши для изолированных задач, но беспомощны в комплексных процессах. Они не понимают контекст, не умеют работать с системами, не видят картину целиком.
Это объясняет, почему оркестраторы вроде AgentCommander становятся необходимостью. Один агент не справляется - нужна команда.
Но есть и хорошие новости. Claude Sonnet 4.5 демонстрирует, что прогресс есть. Его подход к итеративной разработке - это именно то, что нужно. Не идеальный код с первого раза, а умение исправлять ошибки.
Практический совет: если тестируете AI-агентов для реальных задач, обязательно включайте задачи на настройку окружения. Код - это только половина работы.
Где взять ABC-Bench и как его использовать
Платформа открыта. Код на GitHub, датасет на Hugging Face. Можно запустить локально и протестировать свои модели. Или использовать как основу для собственных бенчмарков.
Что интересно: создатели специально включили задачи с "грязными" зависимостями. Где пакет A требует версию X пакета B, а пакет C требует версию Y того же пакета B. Такие ситуации в реальных проектах встречаются постоянно, и AI-агенты с ними не справляются.
Если вы работаете с оркестраторами кода, ABC-Bench - обязательный тест. Потому что если агент не может настроить окружение, вся остальная работа бессмысленна.
Что будет дальше
Anthropic явно что-то знает. Успех Claude Sonnet 4.5 в ABC-Bench совпадает с их фокусом на практической разработке. Они не просто улучшают генерацию кода - они учат модели работать в реальной среде.
Мой прогноз: к середине 2026 года мы увидим специализированные модели для DevOps-задач. Не общие LLM, а именно обученные на Docker, Kubernetes, облачных конфигурациях. Потому что текущий подход "одна модель на всё" не работает.
А пока - тестируйте своих агентов на ABC-Bench. И не удивляйтесь, если они провалятся. Это нормально. Ненормально - доверять им продакшен без проверки.
P.S. Если ваш AI-агент проходит ABC-Bench на 50% и выше - напишите мне. У меня для вас есть работа. Серьезно.