Вы когда-нибудь пытались заставить нейросеть рассказать, кто выиграл ЧМ-2018 по хоккею, и получали в ответ рассуждение о пользе командной работы? Я — да. И это бесит.
Общие бенчмарки вроде MMLU или HumanEval — отличная вещь, но они меряют температуру по больнице. А когда тебе нужно, чтобы модель понимала российский спорт, а не только английский футбол и баскетбол из NBA, всё становится сложнее.
В мае 2026 года я решил покончить с гаданием. Собрал открытый бенчмарк из 655 вопросов по спорту на русском языке, прогнал через 7 популярных open-source моделей и получил результаты, которые переворачивают представление о том, как выбирать LLM для RAG.
Почему спорт? И почему не MMLU?
Спорт — это ад для LLM. Огромное количество имен, дат, сокращений (КХЛ, РФПЛ, ВХЛ), топонимов и двусмысленностей ("Спартак" — это хоккей или футбол?). Модели, которые отлично проходят MMLU, тут валятся в лужу, потому что их тренировали на смеси языков, где русский спорт — капля в море.
Я взял за основу методику, похожую на ту, что используется в реалистичных бенчмарках с длинным контекстом: каждый вопрос сопровождается кратким контекстом (чтобы модель могла извлечь ответ, как в RAG). Без контекста — это тест на память, а мы проверяем применимость в реальных системах.
Методология: как мы не дали моделям сжульничать
Проблема любого бенчмарка — data leakage. Модели могли видеть эти вопросы в интернете во время обучения. Чтобы этого избежать, я:
- Собрал вопросы из новостей за последние 3 месяца (февраль–май 2026) — Кубок Гагарина, ЧМ по биатлону, Евро-2026 (да, футбол), Олимпиада-2026 в Милане.
- Добавил выдуманные комбинации (например, "Кто забил победный гол в финале вымышленного турнира 'Кубок Байкала'?") — чтобы поймать модели на галлюцинациях.
- Заставил каждую модель отвечать в строгом формате JSON:
{"answer": "...", "confidence": 0.0-1.0}. Если ответ невалидный JSON — ошибка.
Это важно, ведь в продакшене вы не хотите разбирать простыню текста, когда от модели нужен чёткий факт.
Участники забега: 7 моделей в клетке
| Модель | Размер (B) | Тип |
|---|---|---|
| Gemma 4 31B (Google, 2026) | 31 | Dense + MoE |
| Qwen 3.5-32B (Alibaba, 2026) | 32 | Dense |
| DeepSeek V4-32B (DeepSeek, 2026) | 32 | MoE |
| YandexGPT 4 Lite (Yandex, 2026) | 7 | Dense (prop.) |
| Saiga Mistral 7B v3 (Ilya Gusev, 2025) | 7 | Dense |
| Llama 4 8B (Meta, 2025) | 8 | Dense |
| Mistral Small 24B (Mistral AI, 2025) | 24 | Dense |
Все модели запускались локально через llama.cpp с квантизацией Q4_K_M на двух A100 (80GB). Температура=0,0 — никакой креативности, только детерминизм.
Результаты: кто выиграл золото?
Жду вашего «ага!». Поехали.
| Модель | Точность (Acc) | Галлюцинации (ложных ответов) | Средняя уверенность |
|---|---|---|---|
| Gemma 4 31B | 87.2% | 4% | 0.94 |
| DeepSeek V4-32B | 82.5% | 7% | 0.91 |
| Qwen 3.5-32B | 78.9% | 9% | 0.88 |
| Mistral Small 24B | 74.1% | 14% | 0.85 |
| YandexGPT 4 Lite | 72.9% | 11% | 0.79 |
| Llama 4 8B | 65.3% | 21% | 0.82 |
| Saiga Mistral 7B v3 | 62.8% | 27% | 0.76 |
Внимание: YandexGPT 4 Lite — это облегчённая версия. Полная версия (недоступна в open-source) может показывать другие результаты. Но мы тестируем только то, что можно запустить локально.
Gemma 4 31B уделала всех с отрывом в 4.7% от второго места. Причём у неё самая низкая доля галлюцинаций — всего 4%. Это критично для RAG: если модель придумывает факты, вы получаете toxic output, который подрывает доверие к системе.
А вот Saiga Mistral 7B, которую многие хвалят за русский язык, провалилась — 27% галлюцинаций. Она просто "договаривает" то, чего нет в контексте. Печально, но ожидаемо — маленькая модель не умеет удерживать длинные контексты.
Почему Gemma 4 31B — идеальная модель для RAG?
Давайте разберёмся. RAG (Retrieval-Augmented Generation) — это когда вы даёте модели фрагмент текста и просите ответить строго по нему. Gemma 4 31B от Google в 2026 году получила архитектуру с Mixture of Experts (MoE), но при этом 31B параметров — это не гигантская модель. Она легко помещается на одну A100 в 4-битной квантизации и показывает скорость 30 токенов/с.
Её фишка — способность игнорировать шум. В наших вопросах контекст часто содержал отвлекающую информацию (например, проигрыш в групповом этапе, но вопрос про финал). Gemma 4 не поддавалась — брала именно релевантные факты. У DeepSeek V4 и Qwen 3.5 были проблемы с многозадачностью в контексте.
Это перекликается с выводами бенчмарка Legal RAG Bench, где показали, что для извлечения фактов (retrieval) важнее качество модели, чем усложнение пайплайна. Gemma 4 — король retrieval.
Как собрать бенчмарк самому? (бесплатно)
Я выложил датасет на Hugging Face: axon-ai/sports-ru-655. Он в формате JSONL, где каждый объект — вопрос, контекст и правильный ответ. Можете повторить тест на своих моделях. Инструкция:
- Скачайте датасет через
datasets.load_dataset("axon-ai/sports-ru-655"). - Прогоните модель с тем же промптом:
"Ответь на вопрос, используя только данный контекст. Выдай JSON: {{"answer": "...", "confidence": ...}}". - Сравните ответы с golden answers (они есть в датасете).
Не хотите возиться с инференсом? Воспользуйтесь облачным GPU-кластером — там уже есть образы с llama.cpp и всеми моделями. У них, кстати, бесплатный триал на 2 часа — за глаза.
А что насчёт RAG-пайплайна?
Выбор модели — только половина дела. Я протестировал Gemma 4 31B в связке с Chroma DB (семантический поиск) и получил прирост точности до 91.3% на том же датасете. Ретривер находил правильный контекст, модель извлекала ответ. Но когда ретривер ошибался (топ-3 не содержал ответа), модель не галлюцинировала — честно писала "Нет информации в контексте". Это поведение — редкое среди моделей такого размера.
Если вы строите RAG для русскоязычных данных (спорт, право, медицина) — присмотритесь к Gemma 4 31B. Для сравнения: рейтинг Reddit 2025 ставил на первое место Qwen-2.5 и Mistral, но в 2026 году расклад изменился.
Кстати, для дополнения промптов и тестовых сценариев советую глянуть коллекцию промптов — она сэкономит вам часы.
Чего не сделали и что надо улучшить
Честно: мой бенчмарк заточен только на спорт. Переносить выводы на другие предметные области можно только с оговорками. Спорт — это факты, даты, имена. А если вам нужно юридическое обоснование — смотрите в сторону Lexometrica Ground Truth.
Ещё я не тестировал скорость инференса под нагрузкой — для RAG это критично. Но для простого QA 30 токен/с хватает с запасом. Если у вас высокие требования, берите VLLM-хостинг с пакетным режимом — там Gemma 4 выдаёт до 150 токен/с при batch size 8.
Последний совет: не гонитесь за новизной
Видели заголовки "Qwen 3.5 с 1M контекстом"? Контекст — да, здорово. Но если модель не умеет из него извлекать факты без галлюцинаций — этот мегаконтекст бесполезен. Gemma 4 31B доказывает: качество > количество параметров и длина контекста.
Когда аутсорс-команда предлагает вам взять Llama 4 "потому что все так делают" — покажите им эту таблицу. Спортивные факты не прощают ошибок. И ваши пользователи тоже.