Когда эталон оказывается кривым зеркалом
Вы смотрите на рейтинг моделей. GPT-5 показывает 78% на GPQA. Claude 4 - 82%. Qwen 3.5 - 75%. Кажется, все понятно. Лидеры определились. Но что если сам тест сломан? Что если вопросы содержат ошибки, а правильные ответы - неправильные?
Именно это обнаружили исследователи из Qwen в работе, опубликованной на arXiv 18 февраля 2026 года. Они взяли два самых хардкорных бенчмарка - GPQA (Graduate-Level Google-Proof Q&A) и Humanity's Last Exam (HLE) - и нашли там такой бардак, что все текущие рейтинги моделей на 22.02.2026 превращаются в статистический шум.
Цифра, от которой стынет кровь: 58% вопросов в GPQA содержат как минимум одну критическую ошибку. В HLE ситуация ненамного лучше - 42% проблемных заданий. Это не погрешность. Это системный коллапс.
Что пошло не так? Разбираем ошибки по косточкам
GPQA создавали PhD-студенты из Стэнфорда и MIT. Идея гениальная: вопросы уровня выпускных экзаменов по биологии, химии и физике, настолько сложные, что даже Google не поможет. Humanity's Last Exam позиционировался как "последний экзамен человечества" - тест, который должен определить, способны ли ИИ заменить экспертов в узких областях.
Проблема в деталях. Вернее, в их отсутствии.
| Тип ошибки | GPQA | HLE | Пример |
|---|---|---|---|
| Некорректные предпосылки | 23% | 18% | "Предположим, что белок X имеет структуру Y..." (белок X не существует) |
| Множественные правильные ответы | 17% | 12% | Вопрос допускает 2+ верных решения, но в ключах только одно |
| Опечатки в ключах | 11% | 8% | "C6H12O6" вместо "C6H12O6" (разный шрифт, разные символы) |
| Устаревшие научные данные | 7% | 4% | Использование теорий, опровергнутых после 2023 года |
Самое смешное (если это можно так назвать): модели, которые показывают лучшие результаты на этих бенчмарках, часто просто лучше угадывают, что хотели сказать создатели тестов. Не решают задачи. Угадывают намерения.
Эффект домино: как один гнилой бенчмарк портит всю экосистему
Вы думаете, это проблема только GPQA и HLE? Как бы не так. Эти датасеты стали золотым стандартом для оценки reasoning-способностей моделей. На их основе:
- Сравнивают коммерческие модели (GPT-5, Claude 4, Gemini 3 Ultra)
- Оценивают эффективность методов fine-tuning
- Принимают решения о направлениях исследований
- Выделяют funding под проекты
Компания X тренирует модель на GPQA-подобных данных. Показывает инвесторам: "Смотрите, 85% на GPQA!" Инвесторы радуются. Деньги текут. Модель выходит в продакшн. А потом оказывается, что она блестяще решает задачи с ошибками и проваливается на реальных кейсах.
Кто виноват и что теперь делать?
Исследователи Qwen не просто указали на проблему. Они предложили конкретные шаги:
1 Полный аудит существующих бенчмарков
Прекратить слепо доверять GPQA и HLE. Каждый вопрос должен пройти проверку минимум тремя независимыми экспертами в соответствующей области. Не аспирантами. Действующими учеными с публикациями в рецензируемых журналах.
2 Переход к динамическим бенчмаркам
Статические датасеты умирают. Нужны системы вроде Community Evals на Hugging Face, где сообщество постоянно обновляет и проверяет задания. Живая система вместо застывшего монолита.
3 Фокус на практических сценариях
Меньше абстрактных "докажите теорему". Больше задач из реального мира. Как в HLD Benchmark, где модели проектируют системы, или Food Truck Benchmark с бизнес-симуляциями.
А что насчет других бенчмарков?
Вопрос на миллион: если GPQA и HLE сломаны, можно ли доверять остальным? Исследование Qwen намекает - проблема системная.
Возьмите RTEB для эмбеддингов. Там специально создавали метрики, потому что старые "врали". Или посмотрите на историю с Apriel v1.6 - модель показывала феноменальные результаты на специфичных тестах, но в реальности...
Даже сравнения коммерческих и локальных моделей часто проводят с подтасовками, как показал наш разбор методик.
Практический совет на 22.02.2026: когда видите рейтинг модели с результатами на GPQA или HLE - делите цифры пополам. И спрашивайте, на каких именно версиях датасета тестировали. Оригинальных (с ошибками) или исправленных.
Что будет дальше? Прогноз на 2026-2027
Скандал с GPQA и HLE - не конец света. Это болезненный, но необходимый переход к следующему этапу.
Ожидайте в ближайшие месяцы:
- Массовый пересмотр рейтингов всех major-моделей
- Взрывной рост Community Evals и краудсорсинговых систем оценки
- Появление "бенчмарков второго поколения" с встроенными механизмами валидации
- Юридические иски от компаний, чьи модели "пострадали" от некорректных тестов
И главное - изменение менталитета. От слепого доверия к цифрам к здоровому скептицизму. От вопроса "Сколько процентов?" к вопросу "На каких данных и кто проверял?".
Пока же совет простой: не верьте красивым графикам. Особенно тем, что построены на GPQA и HLE. Как показало исследование Qwen - эти фундаменты треснули. И все здание рейтингов стоит на зыбком песке.
Исследование Qwen "Benchmarking the Benchmarks: Systematic Errors in GPQA and HLE Datasets" доступно на arXiv с 18.02.2026. Полный анализ 1,247 вопросов с разбором ошибок и методикой исправления.