Больше не значит лучше. Иногда больше значит "сломать все"
Последний год в AI-сообществе только и говорят о мультиагентных системах. Кажется, каждый второй стартап хвастается своей "командой ИИ-агентов", которые "работают слаженнее людей". Исследование из Стэнфорда и MIT разбивает этот миф вдребезги.
Оказывается, в 37% случаев команды ИИ-агентов принимают решения хуже, чем один агент. Не просто немного ошибаются - они производят катастрофически неверные результаты, которые одиночный агент никогда бы не допустил.
Парадокс коллективного тупизма: чем больше ИИ-агентов в команде, тем выше вероятность, что они договорятся до полной ерунды.
Как исследователи ломали ИИ-команды
Ученые взяли три типа задач: анализ кода, планирование проекта и логические головоломки. Для каждой задачи создали три сценария: один агент, команда из трех агентов и команда из пяти агентов. Все агенты - GPT-4, одинаково настроенные.
| Тип задачи | Один агент | 3 агента | 5 агентов |
|---|---|---|---|
| Анализ кода | 87% правильных | 74% правильных | 52% правильных |
| Планирование | 91% правильных | 82% правильных | 61% правильных |
| Логические задачи | 79% правильных | 65% правильных | 43% правильных |
Цифры говорят сами за себя. Каждый дополнительный агент увеличивает шанс на провал. Неужели ИИ-агенты глупеют в коллективе?
Почему команды ИИ-агентов тупеют вместе
Исследователи выделили три главные причины:
- Эхо-камера ошибок: один агент делает небольшую ошибку. Второй ее не замечает (потому что тоже ИИ, а не человек-рецензент). Третий принимает как факт. К пятому агенту первоначальная ошибка превращается в фундаментальную истину системы.
- Консенсус через упрощение: чтобы договориться, агенты ищут общий знаменатель. Вместо сложного правильного решения выбирают простое неправильное. Потому что проще согласиться на ерунду, чем спорить.
- Потеря ответственности: как в реальных командах - когда все отвечают, никто не отвечает. Агенты начинают перекладывать сложные части задачи друг на друга. В итоге эти части остаются нерешенными.
"Мы ожидали, что команды будут лучше справляться со сложными задачами," - говорит один из авторов исследования. "Вместо этого получили эффект обратный. Чем сложнее задача, тем хуже работают команды. Они не дополняют друг друга - они умножают ошибки."
Проблема с README для команд
Отдельное исследование провели по инструкциям. Казалось бы: напиши четкие README для ИИ-агентов, и все будет работать. В командах это не помогает.
Проблема в интерпретации. Каждый агент понимает инструкции по-своему. Когда они начинают обсуждать задачу, возникает спор о том, как правильно понять требования. Вместо решения задачи агенты спорят о семантике.
# Пример: инструкция "проверь код на уязвимости"
# Агент 1 понимает как: проверь SQL-инъекции
# Агент 2 понимает как: проверь XSS
# Агент 3 понимает как: проверь конфигурацию сервера
# В итоге: каждый делает свою часть, но полной проверки нетИсследователи провели тест: дали команде из трех агентов задачу с неоднозначной инструкцией. 68% времени агенты потратили на обсуждение того, что значит инструкция. 32% - на собственно решение. И это в лучшем случае.
Когда команды все-таки работают
Не все так плохо. Исследование показало, что есть два сценария, где команды ИИ-агентов действительно эффективнее одиночек:
- Параллельные независимые задачи: когда каждый агент делает свою часть, и эти части не пересекаются. Например: один пишет фронтенд, другой - бэкенд, третий - тесты. Главное - не давать им обсуждать архитектуру.
- Простые задачи с четким workflow: когда есть пошаговый процесс, и каждый агент отвечает за свой шаг. Как конвейер. Но даже здесь нужен жесткий контроль - иначе агенты начинают "оптимизировать" процесс друг за друга.
Проблема в том, что большинство стартапов продают именно "интеллектуальные команды", которые "совместно решают сложные задачи". Исследование говорит: это маркетинг. Такие команды чаще ломают, чем чинят.
Что делать разработчикам
Если вы все еще хотите использовать команды ИИ-агентов после этого исследования (а многие захотят, потому что это модно), вот что советуют авторы:
Создайте "арбитра" - отдельного агента, который не участвует в обсуждении, а только оценивает результат. Его задача - сказать: "Ребята, вы договорились до ерунды, начинайте сначала."
Еще один совет: используйте Agent Skills не для всех агентов одинаково. Специализируйте. Один агент - эксперт по безопасности, другой - по производительности. Но никогда не давайте им одинаковые роли.
И главное: тестируйте. Сравнивайте результаты команды и одиночного агента на одних и тех же задачах. Если команда показывает результат хуже на 15% и более - зачем она нужна?
Маркетинг против реальности
Индустрия ИИ-агентов сейчас напоминает золотую лихорадку. Каждый второй продукт обещает "команду экспертных ИИ-агентов". Исследование ставит под сомнение саму концепцию.
"Мы не говорим, что команды ИИ-агентов бесполезны," - уточняют авторы. "Мы говорим, что их полезность сильно преувеличена. И что в большинстве случаев вы получаете более сложную, более дорогую и менее надежную систему."
Это особенно важно для таких областей, как DevOps для ИИ, где ошибки стоят дорого. Хотите, чтобы пять ИИ-агентов "совместно" чинили вашу продовлайновую инфраструктуру? После этого исследования такое желание выглядит как форма суицида.
Что будет дальше
Исследование уже вызвало волну в академическом сообществе. Многие разработчики признаются: "Мы тоже заметили, но боялись сказать вслух. Все вокруг так восторгаются командами."
Ожидайте две реакции от индустрии:
- Одни начнут совершенствовать архитектуру команд, пытаясь решить проблемы, которые выявило исследование.
- Другие будут игнорировать и продолжать продавать "волшебные команды", пока не грянет скандал. Как с Solar-100B или IQuest-Coder-V1.
Мой прогноз: через год мы увидим новый тренд. Не "больше агентов", а "умнее архитектура". Возможно, даже возврат к проверенному подходу: один умный агент с хорошими инструментами вместо пяти глупых, которые мешают друг другу.
А пока - если видите продукт, который хвастается "командой из 10 ИИ-агентов", спросите у разработчиков: а тестировали ли вы, не тупеют ли они вместе? Большинство промолчит. Потому что не тестировали.