Бенчмарки сломались. Все это знают, но никто не говорит

Ваша модель набирает 98% на MMLU. Ваш код-генерирующий агент бьет рекорды на HumanEval. Ваш маркетинговый ассистент проходит все синтетические тесты. А в реальности он генерирует тексты, которые смеются в курилке, код, который ломает продакшен, и советы, которые ведут к увольнениям. Знакомо? Это не ваша проблема. Это системный кризис оценки искусственного интеллекта, и он достиг пика к 2026 году.

Типичная картина: команда выбирает модель по топу на paperswithcode.com. Внедряет ее в рабочий процесс аналитиков. А через месяц выясняет, что 40% ее ответов — это элегантно упакованные галлюцинации, которые люди пропускают из-за усталости. Цена ошибки — не метрика, а репутация и деньги.

Проблема не в моделях. Проблема в том, как мы их измеряем. Статические бенчмарки типа MMLU, GLUE или даже новые HOLMES — это синтетические полосы препятствий, которые давно стали частью тренировочных данных. Модели учатся проходить тесты, а не решать задачи. Это как готовиться к экзамену, зная все билеты. Результат впечатляет, но к реальному миру отношения не имеет.

Почему синтетические метрики врут? Три фундаментальные ловушки

Ловушка статичности: Бенчмарк — это снимок мира на дату создания. Мир меняется. Новые тренды, мемы, финансовые инструменты, политические скандалы. Модель, обученная на данных до 2024 года, может блестяще рассуждать о событиях 2023-го и полнейший ноль в 2026. Но метрика этого не покажет.
Ловушка узкой специализации: Точность на датасете по квантовой физике не говорит ни о чем, кроме способности модели запомнить факты по квантовой физике. А вам нужен помощник, который может в понедельник разобраться с SQL-запросом, во вторник — написать презентацию для совета директоров, а в среду — успокоить разгневанного клиента в чате. И где бенчмарк на это?
Ловушка игрового баланса: Исследователи специально «подкручивают» бенчмарки, чтобы модели не могли их обойти просто запомнив ответы. Получается изощренная, но абсолютно искусственная игра. Победа в этой игре не гарантирует победу в реальности. Подробнее об этой дилемме писал DeepMind в материале про переосмысление измерения интеллекта.

1 Откажитесь от религии единого числа

Первое, что нужно сделать — выбросить из дашбордов эту магическую цифру «Общий Score». Ее не существует. Интеллект многомерен. Производительность модели в вашем контексте — тоже.

Вместо одного числа создайте карту компетенций. Что именно должна уметь модель в вашем случае? Например, для AI-ассистента в поддержку:

Компетенция	Как измерить (не синтетически)	Целевой показатель
Точность ответа по продукту А	% случаев, когда эксперт из отдела продукта согласен с ответом	>95%
Скорость разрешения тикета	Среднее время от первого ответа AI до закрытия тикета (A/B тест)	Сократить на 30%
Эмпатия и тон	Оценка удовлетворенности клиента (CSAT) в диалогах с участием AI	Не ниже, чем у человека-оператора

Видите разницу? Никаких абстрактных "понимания естественного языка". Только конкретные, измеримые в поле вещи. Это основа человеко-центричной оценки.

💡

Кстати, именно из-за слепого доверия к агрегированным метрикам проваливаются многие AI-проекты. В модели зрелости от Сколково первый уровень — это как раз хаос от отсутствия конкретных, привязанных к бизнесу KPI для AI.

2 Встройте динамическое тестирование в CI/CD пайплайн

DevOps-инженеры давно автоматизировали тестирование кода. Пришло время сделать то же самое с интеллектом моделей. Но не статичными юнит-тестами, а динамическими сценариями, которые имитируют реальное использование.

Как это выглядит на практике? Вместо того чтобы тестировать новую версию Claude 3.7 на датасете из 1000 вопросов, вы разворачиваете ее в изолированном стенде и запускаете против нее ваших внутренних экспертов.

# Пример псевдокода для динамического теста AI-ассистента
def run_dynamic_assessment(pipeline, model_version, expert_pool):
    # 1. Берем реальные, анонимизированные тикеты из прошлой недели
    real_tickets = load_recent_tickets(days=7)
    
    # 2. Для каждого тикета модель генерирует ответ
    model_answers = pipeline.generate(model_version, real_tickets)
    
    # 3. Ответы отправляются на оценку экспертам (через API внутренней системы)
    scores = []
    for ticket, answer in zip(real_tickets, model_answers):
        # Эксперт оценивает по 3 критериям: точность, полнота, полезность
        expert_score = call_expert_review_api(ticket['id'], answer)
        scores.append(expert_score)
        
        # Важно: если по критическому критерию (например, безопасность) оценка ниже порога — пайплайн падает
        if expert_score.safety < SAFETY_THRESHOLD:
            fail_pipeline("Критическое нарушение безопасности в ответе")
    
    # 4. Агрегируем результаты и сравниваем с предыдущей версией модели
    avg_score = aggregate_scores(scores)
    report = compare_with_baseline(avg_score, get_baseline())
    
    # 5. Если новая модель хуже по ключевым метрикам — не даем ей идти в продакшен
    if report.is_regression():
        fail_pipeline(f"Регрессия по ключевым метрикам: {report.regression_fields}")

Да, это дороже, чем прогнать MMLU. Да, это требует инфраструктуры и вовлечения людей. Но это единственный способ поймать те ошибки, которые проскальзывают в синтетике. Например, странную склонность модели к подхалимству и изменению ответов в зависимости от тона пользователя.

3 Замеряйте системное воздействие, а не точечную точность

Самая большая ошибка — оценивать модель в вакууме. AI-сотрудник (а в 2026 году это уже не метафора, читайте про реальные кейсы замены) работает в системе. С коллегами-людьми, с legacy-софтом, под давлением дедлайнов.

Поэтому ключевой вопрос: как внедрение модели меняет всю систему рабочих процессов?

Сокращается ли время цикла выполнения задачи (от запроса до результата)?
Увеличивается ли когнитивная нагрузка на людей, которые теперь должны проверять вывод AI? (Парадокс: иногда внедрение AI замедляет работу, потому что люди тратят больше времени на валидацию).
Снижается ли количество эскалаций на второй уровень поддержки?
Меняется ли качество принимаемых бизнес-решений? (Вот где пригодится навык HR-аналитика, чтобы оценить влияние на команду).

Эти метрики нельзя получить в лаборатории. Только в поле. Запускайте пилоты. Делите команды на контрольную и тестовую группы. Измеряйте impact на протяжении минимум одного полного бизнес-цикла.

Предупреждение: Не используйте для этой оценки субъективные опросники "нравится/не нравится". Люди склонны либо демонизировать новую технологию, либо переоценивать ее из-за эффекта новизны. Только объективные данные: время, количество ошибок, финансовые результаты. Проблема субъективных метрик хорошо раскрыта в статье про торможение индустрии из-за синтетических данных.

Чего точно не делать: три смертельных антипаттерна

Доверять внутренним оценкам команды разработчиков. Они бессознательно тестируют модель на тех сценариях, которые она умеет решать. Нужны внешние эксперты, которые не знают, как устроена модель. Именно поэтому Anthropic меняет свои собеседования — они поняли, что их же модели мешают объективно оценивать людей.
Игнорировать долгосрочную деградацию. Модель сегодня работает хорошо. А через три месяца, после сотни минорных обновлений контекста и тонкой настройки под запросы бизнеса, начинает выдавать странные результаты. Нужен непрерывный мониторинг, а не разовая оценка при внедрении.
Оценивать только среднее, а не хвосты распределения. 95% ответов могут быть гениальны. Но 5% — катастрофически опасны (дискриминация, утечка данных, вредоносные инструкции). Системный риск живет в хвостах. Ищите не среднюю точность, а наихудший сценарий. Об этом кричат исследователи, даже если часть их деятельности — это продажа продуктов под видом спасения человечества.

Что дальше? Бенчмарки умрут, но оценка останется

К 2027 году я предсказываю смерть публичных leaderboard'ов в их текущем виде. Они превратятся в маркетинговый инструмент, как некогда тесты производительности процессоров. Настоящая оценка будет происходить внутри компаний, на их уникальных данных и процессах. Появятся специализированные провайдеры human-in-the-loop тестирования, которые будут предоставлять доступ к пулам экспертов разных областей для динамической оценки.

Ваша задача — не ждать этого будущего, а строить его сейчас. Начните с малого. Выберите один рабочий процесс, один критерий успеха, который действительно важен для бизнеса (не "точность", а "сокращение операционных издержек на 10%") и проведите первый человеко-центричный эксперимент. Перестаньте смотреть на графики с бесполезными дашбордами. Спросите у своих коллег-людей, стал ли их рабочий день проще, а решения — лучше. Это и есть единственный значимый бенчмарк.

Подписаться на канал

Кризис бенчмарков AI: как перейти к человеко-центричным методам оценки