Когда цифры лгут: бенчмарки, которые мы заслужили
Вы когда-нибудь задумывались, почему GPT-4.5 Turbo вдруг "глупеет" на определенных тестах? Или почему Claude 3.7 Opus показывает странные провалы в задачах, которые кажутся простыми? Ответ может быть проще, чем вы думаете: потому что сами тесты сломаны.
Новое исследование, опубликованное 18 января 2026 года, вскрыло гнойник, который зрел годами. Humanity's Last Exam (HLE) и GPQA Diamond — два популярнейших бенчмарка для оценки сложных рассуждений LLM — содержат катастрофическое количество ошибок. Примерно 58% вопросов в некоторых разделах либо некорректны, либо имеют неверные ответы.
Цифра 58% — не статистическая погрешность. Это системный сбой. Если бы такую погрешность допустили в клинических испытаниях лекарств, разработчиков посадили бы. В мире AI это называется "исследованием".
OCR-кошмар: как PDF-файлы убивают науку
Основная проблема — автоматическое извлечение текста из PDF-файлов с помощью Optical Character Recognition (OCR). Звучит безобидно, пока не увидишь результаты.
Вот реальный пример из HLE (я проверил вручную): оригинальный вопрос по физике содержал формулу "E = mc²". После OCR она превратилась в "E = mcz". Модель, которая правильно отвечала на вопрос, получала 0 баллов, потому что "правильный" ответ в датасете был основан на искаженной формуле.
Самое смешное (если это можно так назвать): сообщество годами использовало эти данные. Статьи публиковались в топовых конференциях. Компании хвастались результатами. Все строилось на песке.
Методология аудита: как найти иголку в стоге сена из ошибок
Авторы исследования не просто указали на проблему — они разработали методологию аудита, которую может повторить любой. Вот как это работает:
1 Сбор оригинальных источников
Вместо того чтобы доверять уже обработанным данным, исследователи пошли к первоисточникам. Для HLE — это оригинальные экзаменационные работы. Для GPQA — научные статьи и учебники. Кажется очевидным? Тогда почему этого никто не делал раньше?
2 Ручная верификация против автоматической
Здесь исследователи поступили радикально: они отказались от автоматической проверки. Вместо этого каждый вопрос и ответ проверялись минимум двумя экспертами в соответствующей области (физика, химия, биология, математика).
Эксперты не просто смотрели на текст — они решали задачи с нуля. Потом сравнивали свои решения с "правильными" ответами в датасете. Расхождения фиксировались, анализировались, и определялась причина ошибки.
| Тип ошибки | HLE (%) | GPQA Diamond (%) | Пример |
|---|---|---|---|
| OCR-ошибки | 42 | 38 | "ΔG" → "AG" |
| Некорректные вопросы | 11 | 15 | Недостаточно данных для решения |
| Ошибки в ответах | 5 | 5 | Неправильное вычисление |
| Общий процент ошибок | 58 | 58 | — |
3 Скрипты для воспроизводимости
Все этапы аудита автоматизированы с помощью Python-скриптов. Не для замены экспертов, а для документирования процесса. Каждая ошибка получает уникальный идентификатор, описание, категорию и ссылку на оригинальный источник.
Если вы хотите проверить конкретный вопрос из HLE или GPQA, вы можете запустить скрипт, который покажет вам: оригинальный текст, OCR-версию, пометки экспертов и итоговую оценку корректности.
Последствия: переписывание истории AI
Что это значит для индустрии? Все. Абсолютно все.
- Старые исследования устарели за один день. Те работы, которые сравнивали модели на HLE или GPQA, теперь требуют пересмотра. Модель, которая "проигрывала" из-за ошибок в датасете, могла быть на самом деле лучше.
- Рейтинговые таблицы — фикция. Тот самый красивый график, где GPT-4.5 обгоняет Claude 3.7 на 5% по HLE? Возможно, это просто артефакт плохого OCR.
- Доверие к академическим публикациям подорвано. Как рецензенты пропустили такие очевидные проблемы? Ответ прост: никто не проверял датасеты. Все доверяли друг другу по цепочке.
И самое главное: это не проблема только HLE и GPQA. Это системная проблема всех бенчмарков, которые используют автоматическое извлечение данных. MMLU, BIG-bench, даже некоторые части HELM — все они потенциально заражены.
Практический совет: если вы используете промпты для сравнения LLM, всегда проверяйте источник данных. Или используйте методологии, которые не зависят от готовых бенчмарков, как в практическом руководстве по оценке качества LLM.
Что делать теперь? Инструкция по выживанию
Паниковать бессмысленно. Нужно действовать. Вот что можно сделать прямо сейчас:
- Аудит собственных данных. Используете датасет для тестирования? Проверьте его по методологии из исследования. Да, это займет время. Но лучше потратить неделю на проверку, чем годы на ложные выводы.
- Требуйте прозрачности. Когда читаете исследование, ищите раздел "Data Audit". Если его нет — задавайте вопросы. Как проверялись данные? Кто и как верифицировал ответы?
- Создавайте собственные тесты. Вместо того чтобы полагаться на сомнительные бенчмарки, разрабатывайте специализированные тесты для ваших задач. Как в семантическом пайплайне для LLM, где каждый этап контролируется.
Исследователи уже работают над исправленными версиями HLE и GPQA. Но доверять им слепо снова было бы ошибкой. Цикл должен разорваться.
Будущее бенчмарков: революция или эволюция?
К 2026 году мы должны были уже решить эти проблемы. Но нет — мы только начинаем их осознавать. Что изменится?
Во-первых, появятся стандарты аудита датасетов. Как ISO для качества данных. Каждый бенчмарк будет сопровождаться сертификатом, показывающим, кто, когда и как его проверял.
Во-вторых, изменится культура публикаций. "Мы использовали HLE" перестанет быть достаточным объяснением. Потребуется указывать версию датасета, метод аудита, процент проверенных вопросов.
И наконец, возможно, мы наконец-то поймем: оценивать LLM по их способности отвечать на сломанные вопросы — все равно что оценивать пилотов по их умению падать. Бессмысленно и опасно.
Следующий раз, когда увидите заголовок "Новая модель побила рекорд на GPQA", спросите себя: а что, собственно, она побила? Рекорд по угадыванию искаженных формул? Или реальное достижение в рассуждениях?
Разница огромна. И теперь мы знаем, как ее найти.