Eval Problem AI-агентов: синтетические данные и субъективные метрики | AiManual
AiManual Logo Ai / Manual.
24 Янв 2026 Гайд

Проблема оценки AI-агентов: почему синтетические данные и субъективные метрики тормозят индустрию

Почему оценка AI-агентов сломана в 2026 году. Синтетические данные, стохастичность LLM и субъективные метрики мешают реальному прогрессу.

Мы не можем измерить то, что создаем

Представьте, что вы строите самолет, но у вас нет аэродинамической трубы. Вы запускаете его с обрыва и смотрите - упал или полетел. Примерно так выглядит оценка AI-агентов в 2026 году.

Каждая компания хвастается своим агентом. "Наш агент решает 87% задач!" "Наш - 92%!" Цифры красивые, но если копнуть глубже - все они измеряют разное. И почти всегда - неправильно.

Проблема не в том, что агенты плохие. Проблема в том, что мы не знаем, какие из них хорошие. И насколько хорошие.

Три фундаментальные ошибки в оценке агентов

1 Синтетические данные - это самообман в квадрате

Вот как это работает сейчас:

  1. Берем GPT-5 (или Claude 3.5, или Gemini Ultra 2.0)
  2. Просим его сгенерировать 1000 "реалистичных" задач для агента
  3. Этими же задачами тестируем агентов
  4. Удивляемся, почему результаты не коррелируют с реальным миром

Это как готовиться к экзамену, списывая ответы у самого умного ученика, а потом удивляться, почему на реальном экзамене проваливаешься.

💡
Синтетические данные работают только для узких, хорошо определенных задач. Для агентов, которые должны работать в открытом мире, они создают иллюзию компетентности.

2 Стохастичность убивает воспроизводимость

Запустите одного и того же агента на одной и той же задаче 10 раз. Получите 10 разных результатов. Иногда блестящих, иногда катастрофических.

Почему это проблема для оценки?

  • Метрики становятся случайными величинами
  • Нельзя сравнивать агентов - разница может быть просто удачей
  • Улучшения в архитектуре тонут в шуме

В инженерии это называют "неконтролируемой переменной". В AI-индустрии это называют "особенностью технологии".

3 Субъективные метрики - это мнение, а не измерение

"Качество ответа оценивается по шкале от 1 до 5 тремя асессорами" - звучит научно. На практике это выглядит так:

Асессор Оценка Комментарий
Анна 5 Ответ полный и структурированный
Борис 3 Можно было ответить короче
Виктор 4 Хорошо, но нет ссылок на источники

Разброс в 40% по субъективному мнению трех человек. И это считается "надежной метрикой".

Почему это тормозит всю индустрию

Без нормальной оценки невозможно:

  • Сравнивать разные подходы
  • Измерять прогресс
  • Принимать инженерные решения на основе данных
  • Доверять агентам реальные задачи

Это создает эффект колеи. Компании инвестируют в то, что хорошо выглядит на синтетических бенчмарках, а не в то, что работает в реальности. Как в статье про провал топ-моделей в Apex-Agents - лучшие модели на бумаге оказались бесполезными на реальных задачах.

Что не работает (и почему все это делают)

Автоматическая оценка другими LLM

"Давайте использовать GPT-4.5 для оценки ответов GPT-4.5!" Гениально. Круговая порука в чистом виде.

LLM оценивают ответы по тем же паттернам, по которым их обучали. Они находят знакомые структуры и ставят высокие баллы. Незнакомые, но правильные решения - занижают.

Сложные композитные метрики

"Наша метрика учитывает точность, полноту, связность, креативность и этичность!" Чем больше факторов, тем больше шума. И тем проще подогнать результат.

Хорошая метрика должна быть простой, измеримой и коррелировать с реальной полезностью. Если для объяснения метрики нужна презентация на 20 слайдов - это плохая метрика.

Бенчмарки с известными ответами

HumanEval, GSM8K, MMLU - все это задачи с правильными ответами. Но реальные задачи агентов не имеют "правильных" ответов. Есть более или менее эффективные решения.

Как оценить, насколько хорош агент для планирования маркетинговой кампании? Нет правильного ответа. Есть результат - рост продаж на X%.

Что может сработать (но никто не хочет делать)

1 Реальные задачи с реальными последствиями

Вместо синтетических данных - реальные бизнес-задачи. Вместо субъективных оценок - измеримые результаты.

Примеры:

  • Агент для поддержки клиентов - метрика: процент решенных проблем без эскалации к человеку
  • Агент для анализа данных - метрика: время от запроса до инсайта
  • Агент для написания кода - метрика: процент тестов, прошедших с первого раза

Как в кейсе из статьи про AI-сотрудников 2025 - там измеряли реальную эффективность, а не баллы на синтетических тестах.

2 Контролируемая стохастичность

Вместо борьбы со случайностью - ее учет и контроль.

Как это может выглядеть:

  • Запускать каждого агента на каждой задаче N раз
  • Считать не средний балл, а распределение результатов
  • Оценивать не только качество, но и стабильность

Агент, который 9 раз из 10 дает отличный результат, лучше агента, который 1 раз из 10 генерирует шедевр, а в остальное время - мусор.

3 А/B тестирование в реальных условиях

Единственный способ понять, какой агент лучше - дать им реальную работу и сравнить результаты.

Это дорого. Это медленно. Это требует инфраструктуры. Но это работает.

Пример из практики: компания тестировала двух агентов для обработки заявок. На синтетических данных разница была 2% в пользу агента А. В реальном A/B тесте агент Б увеличил конверсию на 15%. Потому что он лучше понимал контекст реальных запросов.

Особые сложности с мультиагентными системами

Если оценка одного агента - это головная боль, то оценка команды агентов - это мигрень с осложнениями.

Проблемы, о которых я писал в статье про мультиагентные AI-команды, только усугубляются при попытке их измерить:

  • Как отделить вклад каждого агента от синергии команды?
  • Как измерить качество коммуникации между агентами?
  • Как оценить, насколько хорошо агенты распределяют роли?

Стандартный подход - оценивать только конечный результат. Но это как оценивать футбольную команду только по счету матча. Непонятно, кто играл хорошо, а кто провалился.

Почему индустрия закрывает глаза на проблему

Три простые причины:

  1. Деньги - синтетические данные дешевле реальных в 100 раз
  2. Скорость - запустить бенчмарк на синтетике можно за день, реальное тестирование занимает недели
  3. Результаты - на синтетике всегда можно получить красивые цифры для инвесторов

Это тот же эффект, что и с AI Alignment - проще делать вид, что проблема решена, чем реально ее решать.

Что будет, если ничего не изменится

Сценарий 2027-2028 годов:

  • Компании будут тратить миллионы на разработку агентов, которые не работают
  • Инвесторы будут вкладывать в технологии, которые нельзя адекватно оценить
  • Пользователи будут разочаровываться в AI после первых же реальных задач
  • Весь прогресс замедлится, потому что нельзя улучшать то, что нельзя измерить

Это уже происходит. Взгляните на кризис бенчмарков - даже DeepMind признает, что текущие подходы к измерению не работают.

Что делать прямо сейчас (практические шаги)

Если вы разрабатываете агентов:

1 Собирайте реальные данные с первого дня

Каждый раз, когда агент решает реальную задачу - сохраняйте:

  • Исходный запрос (как есть, без редактирования)
  • Контекст (что происходило до этого)
  • Ответ агента
  • Результат (что произошло после)

Через месяц у вас будет датасет лучше любого синтетического.

2 Определите 1-2 ключевые метрики успеха

Не 10. Не 5. Одна или две. Которые:

  • Понятны бизнесу (деньги, время, удовлетворенность)
  • Измеряются автоматически
  • Коррелируют с реальной ценностью

3 Тестируйте в продакшене (осторожно)

Начните с малого: 1% трафика, простые задачи, полный контроль. Как описано в статье про суб-агентов - постепенное внедрение с контролем.

Сравнивайте не с идеалом, а с текущим процессом (человеком или старой системой).

Самая опасная ошибка - пытаться измерить всё. Измеряйте только то, что действительно важно. И измеряйте это в реальных условиях.

Будущее оценки агентов (если мы его доживем)

К 2030 году появятся:

  • Стандартизированные датасеты реальных задач (как ImageNet для агентов)
  • Метрики, учитывающие не только результат, но и процесс
  • Инструменты для A/B тестирования агентов как стандартная практика
  • Сертификация агентов по реальным компетенциям (как вождение автомобиля)

Но это произойдет только если мы перестанем обманывать себя синтетическими данными и субъективными оценками.

Пока же мы в ситуации, описанной в статье про фреймворки для оркестрации - много инструментов, но мало понимания, какие из них действительно работают.

Мой прогноз: первые, кто научится адекватно оценивать своих агентов, захватят рынок. Потому что они будут строить то, что работает. А не то, что хорошо выглядит на синтетических тестах.

Остальные продолжат играть в метрики, пока их не обойдут те, кто играет на результат.