Почему старые бенчмарки для арабских LLM ненадёжны?

Они либо плохо переведены (машинный перевод ломает идиомы), либо содержат утечки данных — фрагменты тестовых наборов попадают в обучающие данные моделей.

Как QIMMA проверяет бенчмарки?

Использует n-gram overlap analysis и детектор утечек на основе BERT. Если более 5% примеров имеют совпадения с публичными корпусами — бенчмарк компрометируется.

QIMMA лидерборд: валидация бенчмарков арабских LLM — обзор 2026

До 2025 года арабский NLP выглядел как Дикий Запад. Модели хвастались «лучшими показателями» на MMLU, но стоило копнуть глубже — выяснялось, что тесты засорены англицизмами, диалектами или просто утекли в обучающую выборку. В апреле 2026 ситуация кардинально изменилась: команда исследователей запустила QIMMA — лидерборд, который сначала проверяет сами бенчмарки на честность, а потом уже ранжирует модели. Разбираемся, что это за зверь и почему он перевернул рынок арабских LLM.

QIMMA (Quality Indicators for Multilingual Model Assessment) — открытый лидерборд на Hugging Face, который оценивает арабские LLM не по сырым скоррам, а по качеству бенчмарков. Каждый датасет проходит валидацию на data leakage и cross-contamination.

Почему MMLU и HellaSwag провалились для арабского?

Начнём с главного: стандартные бенчмарки для оценки LLM — MMLU, ARC, HellaSwag — созданы в англоцентричном мире. Их адаптация под арабский часто выглядит как прямой машинный перевод, ломающий идиомы. Результат: модель может «угадать» правильный ответ, опираясь на формальные признаки, а не на понимание контекста.

Но есть и вторая, более грязная проблема — data leakage. Обучающие данные многих открытых арабских моделей (например, AceGPT, Jais, Arabic LLaMA) включают фрагменты из тестовых наборов. Модель не понимает арабский — она просто подглядела ответы. QIMMA нацелился на это. Как именно?

Валидация бенчмарков: как проверяют честность датасета

QIMMA использует методику n-gram overlap analysis плюс обучение детектора утечек на основе BERT. Вкратце:

Датасет проверяют на пересечение с публичными корпусами (OSCAR, CC100, Wikipedia).
Если более 5% примеров имеют 13-граммовые совпадения — бенчмарк помечается как «скомпрометированный».
Модели, обученные на тех же корпусах, не получают баллов за этот тест — или их скорр корректируется вниз.

Такой подход перекликается с тем, что недавно обсуждалось в контексте LoCoMo — там тоже выяснилось, что бенчмарк памяти был «сломан» из-за утечки. В арабском случае масштаб похожий: по предварительным данным QIMMA, до 30% популярных бенчмарков для диалектного арабского заражены.

💡

QIMMA не просто убирает «грязные» тесты — он выдаёт три метрики: Raw Score (сырой балл), Weighted Score (с учётом валидности бенчмарка) и Leakage Indicator (процент утечки).

Как QIMMA перекроил топ-5 арабских LLM

До появления QIMMA лидеры гонки арабских LLM выглядели примерно так: Jais-70B (от G42 и MBZUAI) на первом месте, затем AceGPT 70B (от SDAIA и KAUST) и Arabic LLaMA-2 13B. Но QIMMA показал совсем другую картину.

Например, Jais-70B показал отличные результаты на переведённом MMLU, но при проверке выяснилось, что 15% его обучающих данных пересеклись с тестовым набором. После коррекции модель опустилась на третье место. В то же время модель AceGPT 7B, обученная на специально очищенном корпусе, без пересечений, неожиданно взлетела на первое место в категории «лёгкие задачи» (HellaSwag, OpenBookQA).

А вот Baichuan-M3-235B, хоть и превзошла GPT в медицинских тестах, в арабском контексте провалилась — её бенчмарки не прошли валидацию из-за использования малоизвестных переводных наборов. История Baichuan показывает, что даже сильные техники снижения галлюцинаций не спасают от некачественных тестов.

Валидация на уровне диалектов: тест на «понимание» египетского, магрибского и заливского

Отдельная «фишка» QIMMA — разделение арабского на 5 диалектных групп: египетский, левантийский, заливский, магрибский и MSA (Modern Standard Arabic). Бенчмарки валидируются отдельно для каждой группы. Оказалось, что почти все модели, которые блестяще справлялись с MSA, на диалектах показывают убогие результаты. Например, расхождение между скорром на MSA и магрибском у той же Jais достигало 40%.

Это важный урок: общие LLM проваливаются в узких доменах — в юриспруденции, медицине, а теперь ещё и в диалектах. QIMMA это наглядно демонстрирует.

Что дальше? Прогноз на 2026–2027

Эффект QIMMA уже заметен: исследователи арабских LLM начали перепроверять свои датасеты. Некоторые команды (например, разработчики AceGPT) публично пообещали переобучить модели на очищенных корпусах. Более того, сама методология QIMMA теперь внедряется в основной рейтинг Hugging Face для арабских LLM.

Мой прогноз: к концу 2026 года около половины текущих лидеров сменятся. В выигрыше останутся те, кто либо использовал синтетические диалектные данные с контролируемой чистотой, либо дообучал модели на специальных отфильтрованных корпусах. А ещё QIMMA может стать основой для стандартизации оценки в multilingual NLP — аналогично тому, как LabourLawLLM сделал для юридической сферы.

«QIMMA — это не просто лидерборд. Это зеркало, в которое придётся посмотреть каждой модели. Если ваш бенчмарк не прошёл валидацию — ваши цифры ничего не стоят» — комментирует один из соавторов проекта.

Совет NLP-специалистам: не берите первый попавшийся датасет с Hugging Face для арабского языка. Проверьте его на QIMMA, прогоните через n-gram анализ. Или ещё лучше — используйте их открытый пайплайн с открытым кодом (ссылки на GitHub в описании лидерборда). Иначе рискуете получить красивые цифры, которые не имеют ничего общего с реальным пониманием арабской речи.

Подписаться на канал

QIMMA: Лидерборд, который валидирует бенчмарки арабских LLM — почему старые рейтинги больше не работают

Почему MMLU и HellaSwag провалились для арабского?

Валидация бенчмарков: как проверяют честность датасета

Как QIMMA перекроил топ-5 арабских LLM

Валидация на уровне диалектов: тест на «понимание» египетского, магрибского и заливского

Что дальше? Прогноз на 2026–2027

Подписывайтесь на наш канал!