Какие именно ошибки нашли в GPQA и HLE?

Исследование Qwen выявило четыре основных типа ошибок: некорректные научные предпосылки (23% в GPQA), множественные правильные ответы при одном ключе (17%), опечатки в ключах ответов (11%) и устаревшие научные данные (7%).

Как это влияет на текущие рейтинги моделей на 22.02.2026?

Все рейтинги, основанные на GPQA и HLE, становятся статистически ненадежными. Модели могут показывать высокие результаты, просто научившись угадывать намерения создателей тестов, а не решая реальные задачи.

Какие модели больше всего пострадали от некорректных бенчмарков?

Прямого ответа в исследовании нет, но логично предположить, что модели, оптимизированные specifically под GPQA и HLE, покажут наибольшее падение производительности при переходе на исправленные версии датасетов.

Что предлагают исследователи для исправления ситуации?

Трехэтапный план: 1) Полный аудит существующих бенчмарков независимыми экспертами, 2) Переход к динамическим системам оценки типа Community Evals, 3) Фокус на практических, а не абстрактных задачах.

Ошибки в GPQA и HLE: как бенчмарки врут о способностях LLM | Исследование Qwen 2026

Когда эталон оказывается кривым зеркалом

Вы смотрите на рейтинг моделей. GPT-5 показывает 78% на GPQA. Claude 4 - 82%. Qwen 3.5 - 75%. Кажется, все понятно. Лидеры определились. Но что если сам тест сломан? Что если вопросы содержат ошибки, а правильные ответы - неправильные?

Именно это обнаружили исследователи из Qwen в работе, опубликованной на arXiv 18 февраля 2026 года. Они взяли два самых хардкорных бенчмарка - GPQA (Graduate-Level Google-Proof Q&A) и Humanity's Last Exam (HLE) - и нашли там такой бардак, что все текущие рейтинги моделей на 22.02.2026 превращаются в статистический шум.

Цифра, от которой стынет кровь: 58% вопросов в GPQA содержат как минимум одну критическую ошибку. В HLE ситуация ненамного лучше - 42% проблемных заданий. Это не погрешность. Это системный коллапс.

Что пошло не так? Разбираем ошибки по косточкам

GPQA создавали PhD-студенты из Стэнфорда и MIT. Идея гениальная: вопросы уровня выпускных экзаменов по биологии, химии и физике, настолько сложные, что даже Google не поможет. Humanity's Last Exam позиционировался как "последний экзамен человечества" - тест, который должен определить, способны ли ИИ заменить экспертов в узких областях.

Проблема в деталях. Вернее, в их отсутствии.

Тип ошибки	GPQA	HLE	Пример
Некорректные предпосылки	23%	18%	"Предположим, что белок X имеет структуру Y..." (белок X не существует)
Множественные правильные ответы	17%	12%	Вопрос допускает 2+ верных решения, но в ключах только одно
Опечатки в ключах	11%	8%	"C6H12O6" вместо "C6H12O6" (разный шрифт, разные символы)
Устаревшие научные данные	7%	4%	Использование теорий, опровергнутых после 2023 года

Самое смешное (если это можно так назвать): модели, которые показывают лучшие результаты на этих бенчмарках, часто просто лучше угадывают, что хотели сказать создатели тестов. Не решают задачи. Угадывают намерения.

Эффект домино: как один гнилой бенчмарк портит всю экосистему

Вы думаете, это проблема только GPQA и HLE? Как бы не так. Эти датасеты стали золотым стандартом для оценки reasoning-способностей моделей. На их основе:

Сравнивают коммерческие модели (GPT-5, Claude 4, Gemini 3 Ultra)
Оценивают эффективность методов fine-tuning
Принимают решения о направлениях исследований
Выделяют funding под проекты

Компания X тренирует модель на GPQA-подобных данных. Показывает инвесторам: "Смотрите, 85% на GPQA!" Инвесторы радуются. Деньги текут. Модель выходит в продакшн. А потом оказывается, что она блестяще решает задачи с ошибками и проваливается на реальных кейсах.

💡

Это объясняет парадокс, который многие замечали: модель показывает супер-результаты на бенчмарках, а в реальном использовании - средненько. Возможно, она просто научилась играть в кривую игру, а не решать задачи.

Кто виноват и что теперь делать?

Исследователи Qwen не просто указали на проблему. Они предложили конкретные шаги:

1 Полный аудит существующих бенчмарков

Прекратить слепо доверять GPQA и HLE. Каждый вопрос должен пройти проверку минимум тремя независимыми экспертами в соответствующей области. Не аспирантами. Действующими учеными с публикациями в рецензируемых журналах.

2 Переход к динамическим бенчмаркам

Статические датасеты умирают. Нужны системы вроде Community Evals на Hugging Face, где сообщество постоянно обновляет и проверяет задания. Живая система вместо застывшего монолита.

3 Фокус на практических сценариях

Меньше абстрактных "докажите теорему". Больше задач из реального мира. Как в HLD Benchmark, где модели проектируют системы, или Food Truck Benchmark с бизнес-симуляциями.

А что насчет других бенчмарков?

Вопрос на миллион: если GPQA и HLE сломаны, можно ли доверять остальным? Исследование Qwen намекает - проблема системная.

Возьмите RTEB для эмбеддингов. Там специально создавали метрики, потому что старые "врали". Или посмотрите на историю с Apriel v1.6 - модель показывала феноменальные результаты на специфичных тестах, но в реальности...

Даже сравнения коммерческих и локальных моделей часто проводят с подтасовками, как показал наш разбор методик.

Практический совет на 22.02.2026: когда видите рейтинг модели с результатами на GPQA или HLE - делите цифры пополам. И спрашивайте, на каких именно версиях датасета тестировали. Оригинальных (с ошибками) или исправленных.

Что будет дальше? Прогноз на 2026-2027

Скандал с GPQA и HLE - не конец света. Это болезненный, но необходимый переход к следующему этапу.

Ожидайте в ближайшие месяцы:

Массовый пересмотр рейтингов всех major-моделей
Взрывной рост Community Evals и краудсорсинговых систем оценки
Появление "бенчмарков второго поколения" с встроенными механизмами валидации
Юридические иски от компаний, чьи модели "пострадали" от некорректных тестов

И главное - изменение менталитета. От слепого доверия к цифрам к здоровому скептицизму. От вопроса "Сколько процентов?" к вопросу "На каких данных и кто проверял?".

Пока же совет простой: не верьте красивым графикам. Особенно тем, что построены на GPQA и HLE. Как показало исследование Qwen - эти фундаменты треснули. И все здание рейтингов стоит на зыбком песке.

Исследование Qwen "Benchmarking the Benchmarks: Systematic Errors in GPQA and HLE Datasets" доступно на arXiv с 18.02.2026. Полный анализ 1,247 вопросов с разбором ошибок и методикой исправления.

Скандал с бенчмарками: как ошибки в GPQA и HLE искажают рейтинги моделей (разбор исследования Qwen)