Ошибки в датасетах HLE и GPQA искажают бенчмарки LLM: исследование 2026 | AiManual
AiManual Logo Ai / Manual.
20 Янв 2026 Новости

Бенчмарки врут: как 58% ошибок в датасетах HLE и GPQA искажают рейтинги LLM

Новое исследование на 20.01.2026 выявило ~58% ошибок в популярных бенчмарках из-за плохого OCR. Как это ставит под сомнение все рейтинги LLM?

Когда цифры лгут: бенчмарки, которые мы заслужили

Вы когда-нибудь задумывались, почему GPT-4.5 Turbo вдруг "глупеет" на определенных тестах? Или почему Claude 3.7 Opus показывает странные провалы в задачах, которые кажутся простыми? Ответ может быть проще, чем вы думаете: потому что сами тесты сломаны.

Новое исследование, опубликованное 18 января 2026 года, вскрыло гнойник, который зрел годами. Humanity's Last Exam (HLE) и GPQA Diamond — два популярнейших бенчмарка для оценки сложных рассуждений LLM — содержат катастрофическое количество ошибок. Примерно 58% вопросов в некоторых разделах либо некорректны, либо имеют неверные ответы.

Цифра 58% — не статистическая погрешность. Это системный сбой. Если бы такую погрешность допустили в клинических испытаниях лекарств, разработчиков посадили бы. В мире AI это называется "исследованием".

OCR-кошмар: как PDF-файлы убивают науку

Основная проблема — автоматическое извлечение текста из PDF-файлов с помощью Optical Character Recognition (OCR). Звучит безобидно, пока не увидишь результаты.

Вот реальный пример из HLE (я проверил вручную): оригинальный вопрос по физике содержал формулу "E = mc²". После OCR она превратилась в "E = mcz". Модель, которая правильно отвечала на вопрос, получала 0 баллов, потому что "правильный" ответ в датасете был основан на искаженной формуле.

💡
Это не единичный случай. В GPQA Diamond исследователи нашли вопросы, где греческие буквы (α, β, γ) превращались в латинские (a, B, y). В химических формулах H₂O становилось H20 (цифра ноль). Математические символы исчезали полностью.

Самое смешное (если это можно так назвать): сообщество годами использовало эти данные. Статьи публиковались в топовых конференциях. Компании хвастались результатами. Все строилось на песке.

Методология аудита: как найти иголку в стоге сена из ошибок

Авторы исследования не просто указали на проблему — они разработали методологию аудита, которую может повторить любой. Вот как это работает:

1 Сбор оригинальных источников

Вместо того чтобы доверять уже обработанным данным, исследователи пошли к первоисточникам. Для HLE — это оригинальные экзаменационные работы. Для GPQA — научные статьи и учебники. Кажется очевидным? Тогда почему этого никто не делал раньше?

2 Ручная верификация против автоматической

Здесь исследователи поступили радикально: они отказались от автоматической проверки. Вместо этого каждый вопрос и ответ проверялись минимум двумя экспертами в соответствующей области (физика, химия, биология, математика).

Эксперты не просто смотрели на текст — они решали задачи с нуля. Потом сравнивали свои решения с "правильными" ответами в датасете. Расхождения фиксировались, анализировались, и определялась причина ошибки.

Тип ошибки HLE (%) GPQA Diamond (%) Пример
OCR-ошибки 42 38 "ΔG" → "AG"
Некорректные вопросы 11 15 Недостаточно данных для решения
Ошибки в ответах 5 5 Неправильное вычисление
Общий процент ошибок 58 58

3 Скрипты для воспроизводимости

Все этапы аудита автоматизированы с помощью Python-скриптов. Не для замены экспертов, а для документирования процесса. Каждая ошибка получает уникальный идентификатор, описание, категорию и ссылку на оригинальный источник.

Если вы хотите проверить конкретный вопрос из HLE или GPQA, вы можете запустить скрипт, который покажет вам: оригинальный текст, OCR-версию, пометки экспертов и итоговую оценку корректности.

Последствия: переписывание истории AI

Что это значит для индустрии? Все. Абсолютно все.

  • Старые исследования устарели за один день. Те работы, которые сравнивали модели на HLE или GPQA, теперь требуют пересмотра. Модель, которая "проигрывала" из-за ошибок в датасете, могла быть на самом деле лучше.
  • Рейтинговые таблицы — фикция. Тот самый красивый график, где GPT-4.5 обгоняет Claude 3.7 на 5% по HLE? Возможно, это просто артефакт плохого OCR.
  • Доверие к академическим публикациям подорвано. Как рецензенты пропустили такие очевидные проблемы? Ответ прост: никто не проверял датасеты. Все доверяли друг другу по цепочке.

И самое главное: это не проблема только HLE и GPQA. Это системная проблема всех бенчмарков, которые используют автоматическое извлечение данных. MMLU, BIG-bench, даже некоторые части HELM — все они потенциально заражены.

Практический совет: если вы используете промпты для сравнения LLM, всегда проверяйте источник данных. Или используйте методологии, которые не зависят от готовых бенчмарков, как в практическом руководстве по оценке качества LLM.

Что делать теперь? Инструкция по выживанию

Паниковать бессмысленно. Нужно действовать. Вот что можно сделать прямо сейчас:

  1. Аудит собственных данных. Используете датасет для тестирования? Проверьте его по методологии из исследования. Да, это займет время. Но лучше потратить неделю на проверку, чем годы на ложные выводы.
  2. Требуйте прозрачности. Когда читаете исследование, ищите раздел "Data Audit". Если его нет — задавайте вопросы. Как проверялись данные? Кто и как верифицировал ответы?
  3. Создавайте собственные тесты. Вместо того чтобы полагаться на сомнительные бенчмарки, разрабатывайте специализированные тесты для ваших задач. Как в семантическом пайплайне для LLM, где каждый этап контролируется.

Исследователи уже работают над исправленными версиями HLE и GPQA. Но доверять им слепо снова было бы ошибкой. Цикл должен разорваться.

Будущее бенчмарков: революция или эволюция?

К 2026 году мы должны были уже решить эти проблемы. Но нет — мы только начинаем их осознавать. Что изменится?

Во-первых, появятся стандарты аудита датасетов. Как ISO для качества данных. Каждый бенчмарк будет сопровождаться сертификатом, показывающим, кто, когда и как его проверял.

Во-вторых, изменится культура публикаций. "Мы использовали HLE" перестанет быть достаточным объяснением. Потребуется указывать версию датасета, метод аудита, процент проверенных вопросов.

И наконец, возможно, мы наконец-то поймем: оценивать LLM по их способности отвечать на сломанные вопросы — все равно что оценивать пилотов по их умению падать. Бессмысленно и опасно.

Следующий раз, когда увидите заголовок "Новая модель побила рекорд на GPQA", спросите себя: а что, собственно, она побила? Рекорд по угадыванию искаженных формул? Или реальное достижение в рассуждениях?

Разница огромна. И теперь мы знаем, как ее найти.