Маркетинг против науки: когда больше агентов — не значит лучше
Представьте: вы запускаете три AI-агента одновременно. Один пишет фронтенд, другой — бэкенд, третий — тесты. В теории вы получаете тройную производительность. На практике — код, который не собирается, противоречивые архитектурные решения и полный хаос в репозитории.
Исследователи из Stanford только что опубликовали CooperBench — первый серьезный бенчмарк для параллельных AI-агентов. Результаты шокируют: при переходе от одного агента к нескольким эффективность падает на 50%. Не на 30%, не на 40% — на половину.
Что такое CooperBench и почему ему можно верить
CooperBench — это не очередной синтетический тест. Команда Stanford взяла 247 реальных задач из GitHub, каждая с четкими требованиями и тестами. Агенты получают задачу, доступ к файловой системе, возможность запускать код. И главное — они работают параллельно, как в реальных инструментах типа Cursor Antigravity.
| Количество агентов | Успешное выполнение | Время выполнения | Качество кода |
|---|---|---|---|
| 1 агент | 68% | 1x (база) | Высокое |
| 2 агента | 52% | 1.8x | Среднее |
| 3 агента | 34% | 2.5x | Низкое |
Цифры не лгут. Два агента работают почти в два раза дольше и решают на 16% меньше задач. Три агента — катастрофа: падение эффективности на 34 процентных пункта.
Проклятие координации: почему агенты мешают друг другу
Проблема не в том, что агенты глупые. Проблема в том, что они слишком умные — каждый пытается оптимизировать свою часть системы, не понимая общей картины.
Три главные проблемы параллельных агентов
- Конфликт зависимостей: первый агент устанавливает библиотеку версии 2.0, второй — 1.5, потому что "она стабильнее". Результат — конфликт, который ни один агент не видит целиком.
- Архитектурный диссонанс: один агент создает REST API, другой — GraphQL, третий — gRPC. Каждый считает свой подход оптимальным. Вместо единой архитектуры получается Frankenstein.
- Дублирование кода: агенты не знают, что уже сделали коллеги. Один пишет функцию validateUser, второй — checkUserValidity, третий — userValidation. Три одинаковые функции, три разных бага.
Как работают реальные инструменты: Cursor Antigravity под микроскопом
Возьмем самый разрекламированный пример — Cursor с режимом Antigravity. Маркетинг обещает: "Запустите несколько агентов, и они параллельно решат сложную задачу". Реальность из исследования Stanford:
- Агенты начинают с общего плана (в теории)
- Каждый получает свою подзадачу
- Работают независимо
- Пытаются собрать результаты воедино
- На этапе 4 все ломается
Почему? Потому что у агентов нет общей памяти в реальном времени. Они не знают, что изменил коллега пять минут назад. Они работают с устаревшим контекстом. Представьте, что вы пишете код, а ваш коллега постоянно меняет базовые классы, не предупреждая вас. Именно это и происходит.
Практические выводы: когда использовать параллельных агентов (а когда нет)
Исследование Stanford не говорит "никогда не используйте параллельных агентов". Оно говорит "используйте их с умом". Вот когда они действительно работают:
1 Полностью независимые задачи
Два агента пишут документацию к разным модулям. Три агента генерируют тестовые данные для независимых таблиц БД. Ключевое слово — независимые. Если задачи не пересекаются, агенты не будут мешать друг другу.
2 Последовательная цепочка
Первый агент проектирует API, второй — реализует его, третий — пишет тесты. Важно: каждый следующий агент начинает только после того, как предыдущий завершил работу и зафиксировал изменения. Никакого параллелизма — только четкая последовательность.
3 Экспериментальные подходы
Запустить трех агентов с разными промптами для решения одной задачи, а потом выбрать лучший результат. Это не параллельная работа — это A/B тестирование подходов. Только один результат пойдет в прод.
Главный урок: если ваши агенты должны общаться друг с другом или работать с общими ресурсами — запускайте их последовательно. Параллелизм убивает качество.
Что делать прямо сейчас: альтернативы параллельным агентам
Вместо того чтобы гнаться за модным параллелизмом, используйте проверенные подходы:
- Иерархические агенты: главный агент планирует, подчиненные выполняют. Как в AgentCommander, где есть четкая иерархия и контроль.
- Stateful memory: агенты с общей памятью, как в современных архитектурах. Они знают, что сделали коллеги.
- Специализированные инструменты: вместо трех универсальных агентов — один специализированный, как DeepAgents CLI для терминала.
Будущее параллельных агентов: есть ли свет в конце туннеля?
Исследователи Stanford не только выявили проблему, но и наметили пути решения. Самые перспективные направления на 2026 год:
- Динамическое планирование: агенты не получают фиксированные задачи, а постоянно перераспределяют работу на основе прогресса.
- Консенсус-механизмы: прежде чем изменить общий файл, агенты "голосуют" или ищут консенсус. Медленно, но стабильно.
- Контроль версий в реальном времени: каждый агент работает в своей ветке, система автоматически мержит изменения, разрешая конфликты.
Но пока эти технологии не готовы для продакшена. Самый циничный вывод из исследования: текущие реализации параллельных агентов — это маркетинговый ход, а не технологический прорыв. Они создают иллюзию скорости ценой качества.
Ваш следующий шаг (если вы все еще хотите попробовать)
Если после всего прочитанного вы решили "а я все равно попробую", вот минимальный чеклист:
- Начинайте с двух агентов, не с трех или пяти
- Четко разделяйте зоны ответственности (файлы, модули, функции)
- Установите лимит времени — если за 30 минут нет прогресса, останавливайте
- Всегда проверяйте результат вручную перед коммитом
- Имейте план отката — возможность быстро все переписать одним агентом
И помните главную цифру: 50%. Каждый дополнительный агент снижает ваши шансы на успех вдвое. Иногда меньше — значит лучше.
Параллельные AI-агенты — как спортивный автомобиль на грунтовой дороге. Технически он может ехать быстрее, но на практике вы тратите больше времени на ремонт, чем выигрываете в скорости. Иногда лучше взять надежный внедорожник и доехать без приключений.