Мы не можем измерить то, что создаем
Представьте, что вы строите самолет, но у вас нет аэродинамической трубы. Вы запускаете его с обрыва и смотрите - упал или полетел. Примерно так выглядит оценка AI-агентов в 2026 году.
Каждая компания хвастается своим агентом. "Наш агент решает 87% задач!" "Наш - 92%!" Цифры красивые, но если копнуть глубже - все они измеряют разное. И почти всегда - неправильно.
Проблема не в том, что агенты плохие. Проблема в том, что мы не знаем, какие из них хорошие. И насколько хорошие.
Три фундаментальные ошибки в оценке агентов
1 Синтетические данные - это самообман в квадрате
Вот как это работает сейчас:
- Берем GPT-5 (или Claude 3.5, или Gemini Ultra 2.0)
- Просим его сгенерировать 1000 "реалистичных" задач для агента
- Этими же задачами тестируем агентов
- Удивляемся, почему результаты не коррелируют с реальным миром
Это как готовиться к экзамену, списывая ответы у самого умного ученика, а потом удивляться, почему на реальном экзамене проваливаешься.
2 Стохастичность убивает воспроизводимость
Запустите одного и того же агента на одной и той же задаче 10 раз. Получите 10 разных результатов. Иногда блестящих, иногда катастрофических.
Почему это проблема для оценки?
- Метрики становятся случайными величинами
- Нельзя сравнивать агентов - разница может быть просто удачей
- Улучшения в архитектуре тонут в шуме
В инженерии это называют "неконтролируемой переменной". В AI-индустрии это называют "особенностью технологии".
3 Субъективные метрики - это мнение, а не измерение
"Качество ответа оценивается по шкале от 1 до 5 тремя асессорами" - звучит научно. На практике это выглядит так:
| Асессор | Оценка | Комментарий |
|---|---|---|
| Анна | 5 | Ответ полный и структурированный |
| Борис | 3 | Можно было ответить короче |
| Виктор | 4 | Хорошо, но нет ссылок на источники |
Разброс в 40% по субъективному мнению трех человек. И это считается "надежной метрикой".
Почему это тормозит всю индустрию
Без нормальной оценки невозможно:
- Сравнивать разные подходы
- Измерять прогресс
- Принимать инженерные решения на основе данных
- Доверять агентам реальные задачи
Это создает эффект колеи. Компании инвестируют в то, что хорошо выглядит на синтетических бенчмарках, а не в то, что работает в реальности. Как в статье про провал топ-моделей в Apex-Agents - лучшие модели на бумаге оказались бесполезными на реальных задачах.
Что не работает (и почему все это делают)
Автоматическая оценка другими LLM
"Давайте использовать GPT-4.5 для оценки ответов GPT-4.5!" Гениально. Круговая порука в чистом виде.
LLM оценивают ответы по тем же паттернам, по которым их обучали. Они находят знакомые структуры и ставят высокие баллы. Незнакомые, но правильные решения - занижают.
Сложные композитные метрики
"Наша метрика учитывает точность, полноту, связность, креативность и этичность!" Чем больше факторов, тем больше шума. И тем проще подогнать результат.
Хорошая метрика должна быть простой, измеримой и коррелировать с реальной полезностью. Если для объяснения метрики нужна презентация на 20 слайдов - это плохая метрика.
Бенчмарки с известными ответами
HumanEval, GSM8K, MMLU - все это задачи с правильными ответами. Но реальные задачи агентов не имеют "правильных" ответов. Есть более или менее эффективные решения.
Как оценить, насколько хорош агент для планирования маркетинговой кампании? Нет правильного ответа. Есть результат - рост продаж на X%.
Что может сработать (но никто не хочет делать)
1 Реальные задачи с реальными последствиями
Вместо синтетических данных - реальные бизнес-задачи. Вместо субъективных оценок - измеримые результаты.
Примеры:
- Агент для поддержки клиентов - метрика: процент решенных проблем без эскалации к человеку
- Агент для анализа данных - метрика: время от запроса до инсайта
- Агент для написания кода - метрика: процент тестов, прошедших с первого раза
Как в кейсе из статьи про AI-сотрудников 2025 - там измеряли реальную эффективность, а не баллы на синтетических тестах.
2 Контролируемая стохастичность
Вместо борьбы со случайностью - ее учет и контроль.
Как это может выглядеть:
- Запускать каждого агента на каждой задаче N раз
- Считать не средний балл, а распределение результатов
- Оценивать не только качество, но и стабильность
Агент, который 9 раз из 10 дает отличный результат, лучше агента, который 1 раз из 10 генерирует шедевр, а в остальное время - мусор.
3 А/B тестирование в реальных условиях
Единственный способ понять, какой агент лучше - дать им реальную работу и сравнить результаты.
Это дорого. Это медленно. Это требует инфраструктуры. Но это работает.
Пример из практики: компания тестировала двух агентов для обработки заявок. На синтетических данных разница была 2% в пользу агента А. В реальном A/B тесте агент Б увеличил конверсию на 15%. Потому что он лучше понимал контекст реальных запросов.
Особые сложности с мультиагентными системами
Если оценка одного агента - это головная боль, то оценка команды агентов - это мигрень с осложнениями.
Проблемы, о которых я писал в статье про мультиагентные AI-команды, только усугубляются при попытке их измерить:
- Как отделить вклад каждого агента от синергии команды?
- Как измерить качество коммуникации между агентами?
- Как оценить, насколько хорошо агенты распределяют роли?
Стандартный подход - оценивать только конечный результат. Но это как оценивать футбольную команду только по счету матча. Непонятно, кто играл хорошо, а кто провалился.
Почему индустрия закрывает глаза на проблему
Три простые причины:
- Деньги - синтетические данные дешевле реальных в 100 раз
- Скорость - запустить бенчмарк на синтетике можно за день, реальное тестирование занимает недели
- Результаты - на синтетике всегда можно получить красивые цифры для инвесторов
Это тот же эффект, что и с AI Alignment - проще делать вид, что проблема решена, чем реально ее решать.
Что будет, если ничего не изменится
Сценарий 2027-2028 годов:
- Компании будут тратить миллионы на разработку агентов, которые не работают
- Инвесторы будут вкладывать в технологии, которые нельзя адекватно оценить
- Пользователи будут разочаровываться в AI после первых же реальных задач
- Весь прогресс замедлится, потому что нельзя улучшать то, что нельзя измерить
Это уже происходит. Взгляните на кризис бенчмарков - даже DeepMind признает, что текущие подходы к измерению не работают.
Что делать прямо сейчас (практические шаги)
Если вы разрабатываете агентов:
1 Собирайте реальные данные с первого дня
Каждый раз, когда агент решает реальную задачу - сохраняйте:
- Исходный запрос (как есть, без редактирования)
- Контекст (что происходило до этого)
- Ответ агента
- Результат (что произошло после)
Через месяц у вас будет датасет лучше любого синтетического.
2 Определите 1-2 ключевые метрики успеха
Не 10. Не 5. Одна или две. Которые:
- Понятны бизнесу (деньги, время, удовлетворенность)
- Измеряются автоматически
- Коррелируют с реальной ценностью
3 Тестируйте в продакшене (осторожно)
Начните с малого: 1% трафика, простые задачи, полный контроль. Как описано в статье про суб-агентов - постепенное внедрение с контролем.
Сравнивайте не с идеалом, а с текущим процессом (человеком или старой системой).
Самая опасная ошибка - пытаться измерить всё. Измеряйте только то, что действительно важно. И измеряйте это в реальных условиях.
Будущее оценки агентов (если мы его доживем)
К 2030 году появятся:
- Стандартизированные датасеты реальных задач (как ImageNet для агентов)
- Метрики, учитывающие не только результат, но и процесс
- Инструменты для A/B тестирования агентов как стандартная практика
- Сертификация агентов по реальным компетенциям (как вождение автомобиля)
Но это произойдет только если мы перестанем обманывать себя синтетическими данными и субъективными оценками.
Пока же мы в ситуации, описанной в статье про фреймворки для оркестрации - много инструментов, но мало понимания, какие из них действительно работают.
Мой прогноз: первые, кто научится адекватно оценивать своих агентов, захватят рынок. Потому что они будут строить то, что работает. А не то, что хорошо выглядит на синтетических тестах.
Остальные продолжат играть в метрики, пока их не обойдут те, кто играет на результат.