Ошибки в GPQA и HLE: как бенчмарки врут о способностях LLM | Исследование Qwen 2026 | AiManual
AiManual Logo Ai / Manual.
22 Фев 2026 Новости

Скандал с бенчмарками: как ошибки в GPQA и HLE искажают рейтинги моделей (разбор исследования Qwen)

Новое исследование Qwen вскрыло 58% ошибок в датасетах GPQA и Humanity's Last Exam. Почему рейтинги моделей на 22.02.2026 нельзя доверять и как это исправить.

Когда эталон оказывается кривым зеркалом

Вы смотрите на рейтинг моделей. GPT-5 показывает 78% на GPQA. Claude 4 - 82%. Qwen 3.5 - 75%. Кажется, все понятно. Лидеры определились. Но что если сам тест сломан? Что если вопросы содержат ошибки, а правильные ответы - неправильные?

Именно это обнаружили исследователи из Qwen в работе, опубликованной на arXiv 18 февраля 2026 года. Они взяли два самых хардкорных бенчмарка - GPQA (Graduate-Level Google-Proof Q&A) и Humanity's Last Exam (HLE) - и нашли там такой бардак, что все текущие рейтинги моделей на 22.02.2026 превращаются в статистический шум.

Цифра, от которой стынет кровь: 58% вопросов в GPQA содержат как минимум одну критическую ошибку. В HLE ситуация ненамного лучше - 42% проблемных заданий. Это не погрешность. Это системный коллапс.

Что пошло не так? Разбираем ошибки по косточкам

GPQA создавали PhD-студенты из Стэнфорда и MIT. Идея гениальная: вопросы уровня выпускных экзаменов по биологии, химии и физике, настолько сложные, что даже Google не поможет. Humanity's Last Exam позиционировался как "последний экзамен человечества" - тест, который должен определить, способны ли ИИ заменить экспертов в узких областях.

Проблема в деталях. Вернее, в их отсутствии.

Тип ошибки GPQA HLE Пример
Некорректные предпосылки 23% 18% "Предположим, что белок X имеет структуру Y..." (белок X не существует)
Множественные правильные ответы 17% 12% Вопрос допускает 2+ верных решения, но в ключах только одно
Опечатки в ключах 11% 8% "C6H12O6" вместо "C6H12O6" (разный шрифт, разные символы)
Устаревшие научные данные 7% 4% Использование теорий, опровергнутых после 2023 года

Самое смешное (если это можно так назвать): модели, которые показывают лучшие результаты на этих бенчмарках, часто просто лучше угадывают, что хотели сказать создатели тестов. Не решают задачи. Угадывают намерения.

Эффект домино: как один гнилой бенчмарк портит всю экосистему

Вы думаете, это проблема только GPQA и HLE? Как бы не так. Эти датасеты стали золотым стандартом для оценки reasoning-способностей моделей. На их основе:

  • Сравнивают коммерческие модели (GPT-5, Claude 4, Gemini 3 Ultra)
  • Оценивают эффективность методов fine-tuning
  • Принимают решения о направлениях исследований
  • Выделяют funding под проекты

Компания X тренирует модель на GPQA-подобных данных. Показывает инвесторам: "Смотрите, 85% на GPQA!" Инвесторы радуются. Деньги текут. Модель выходит в продакшн. А потом оказывается, что она блестяще решает задачи с ошибками и проваливается на реальных кейсах.

💡
Это объясняет парадокс, который многие замечали: модель показывает супер-результаты на бенчмарках, а в реальном использовании - средненько. Возможно, она просто научилась играть в кривую игру, а не решать задачи.

Кто виноват и что теперь делать?

Исследователи Qwen не просто указали на проблему. Они предложили конкретные шаги:

1 Полный аудит существующих бенчмарков

Прекратить слепо доверять GPQA и HLE. Каждый вопрос должен пройти проверку минимум тремя независимыми экспертами в соответствующей области. Не аспирантами. Действующими учеными с публикациями в рецензируемых журналах.

2 Переход к динамическим бенчмаркам

Статические датасеты умирают. Нужны системы вроде Community Evals на Hugging Face, где сообщество постоянно обновляет и проверяет задания. Живая система вместо застывшего монолита.

3 Фокус на практических сценариях

Меньше абстрактных "докажите теорему". Больше задач из реального мира. Как в HLD Benchmark, где модели проектируют системы, или Food Truck Benchmark с бизнес-симуляциями.

А что насчет других бенчмарков?

Вопрос на миллион: если GPQA и HLE сломаны, можно ли доверять остальным? Исследование Qwen намекает - проблема системная.

Возьмите RTEB для эмбеддингов. Там специально создавали метрики, потому что старые "врали". Или посмотрите на историю с Apriel v1.6 - модель показывала феноменальные результаты на специфичных тестах, но в реальности...

Даже сравнения коммерческих и локальных моделей часто проводят с подтасовками, как показал наш разбор методик.

Практический совет на 22.02.2026: когда видите рейтинг модели с результатами на GPQA или HLE - делите цифры пополам. И спрашивайте, на каких именно версиях датасета тестировали. Оригинальных (с ошибками) или исправленных.

Что будет дальше? Прогноз на 2026-2027

Скандал с GPQA и HLE - не конец света. Это болезненный, но необходимый переход к следующему этапу.

Ожидайте в ближайшие месяцы:

  • Массовый пересмотр рейтингов всех major-моделей
  • Взрывной рост Community Evals и краудсорсинговых систем оценки
  • Появление "бенчмарков второго поколения" с встроенными механизмами валидации
  • Юридические иски от компаний, чьи модели "пострадали" от некорректных тестов

И главное - изменение менталитета. От слепого доверия к цифрам к здоровому скептицизму. От вопроса "Сколько процентов?" к вопросу "На каких данных и кто проверял?".

Пока же совет простой: не верьте красивым графикам. Особенно тем, что построены на GPQA и HLE. Как показало исследование Qwen - эти фундаменты треснули. И все здание рейтингов стоит на зыбком песке.

Исследование Qwen "Benchmarking the Benchmarks: Systematic Errors in GPQA and HLE Datasets" доступно на arXiv с 18.02.2026. Полный анализ 1,247 вопросов с разбором ошибок и методикой исправления.