Почему спорт, а не общий тест?

Спорт — сложный домен для LLM: много имен, дат, сокращений. Модели, отлично проходящие MMLU, здесь проваливаются из-за отсутствия русскоязычного контекста.

Какая модель показала лучший результат?

Gemma 4 31B от Google — 87.2% точности и всего 4% галлюцинаций.

Можно ли повторить бенчмарк?

Да, датасет axon-ai/sports-ru-655 открыт на Hugging Face.

Сравнение русских LLM: бенчмарк спорта 2026 — Gemma 4 31B против Qwen 3.5

Вы когда-нибудь пытались заставить нейросеть рассказать, кто выиграл ЧМ-2018 по хоккею, и получали в ответ рассуждение о пользе командной работы? Я — да. И это бесит.

Общие бенчмарки вроде MMLU или HumanEval — отличная вещь, но они меряют температуру по больнице. А когда тебе нужно, чтобы модель понимала российский спорт, а не только английский футбол и баскетбол из NBA, всё становится сложнее.

В мае 2026 года я решил покончить с гаданием. Собрал открытый бенчмарк из 655 вопросов по спорту на русском языке, прогнал через 7 популярных open-source моделей и получил результаты, которые переворачивают представление о том, как выбирать LLM для RAG.

💡

Суть эксперимента: мы не просто спрашивали модели "Кто чемпион?". Мы имитировали реальный сценарий RAG — давали контекст (описание события) и требовали точного фактологического ответа. Это жёстче, чем обычный QA.

Почему спорт? И почему не MMLU?

Спорт — это ад для LLM. Огромное количество имен, дат, сокращений (КХЛ, РФПЛ, ВХЛ), топонимов и двусмысленностей ("Спартак" — это хоккей или футбол?). Модели, которые отлично проходят MMLU, тут валятся в лужу, потому что их тренировали на смеси языков, где русский спорт — капля в море.

Я взял за основу методику, похожую на ту, что используется в реалистичных бенчмарках с длинным контекстом: каждый вопрос сопровождается кратким контекстом (чтобы модель могла извлечь ответ, как в RAG). Без контекста — это тест на память, а мы проверяем применимость в реальных системах.

Методология: как мы не дали моделям сжульничать

Проблема любого бенчмарка — data leakage. Модели могли видеть эти вопросы в интернете во время обучения. Чтобы этого избежать, я:

Собрал вопросы из новостей за последние 3 месяца (февраль–май 2026) — Кубок Гагарина, ЧМ по биатлону, Евро-2026 (да, футбол), Олимпиада-2026 в Милане.
Добавил выдуманные комбинации (например, "Кто забил победный гол в финале вымышленного турнира 'Кубок Байкала'?") — чтобы поймать модели на галлюцинациях.
Заставил каждую модель отвечать в строгом формате JSON: {"answer": "...", "confidence": 0.0-1.0}. Если ответ невалидный JSON — ошибка.

Это важно, ведь в продакшене вы не хотите разбирать простыню текста, когда от модели нужен чёткий факт.

Участники забега: 7 моделей в клетке

Модель	Размер (B)	Тип
Gemma 4 31B (Google, 2026)	31	Dense + MoE
Qwen 3.5-32B (Alibaba, 2026)	32	Dense
DeepSeek V4-32B (DeepSeek, 2026)	32	MoE
YandexGPT 4 Lite (Yandex, 2026)	7	Dense (prop.)
Saiga Mistral 7B v3 (Ilya Gusev, 2025)	7	Dense
Llama 4 8B (Meta, 2025)	8	Dense
Mistral Small 24B (Mistral AI, 2025)	24	Dense

Все модели запускались локально через llama.cpp с квантизацией Q4_K_M на двух A100 (80GB). Температура=0,0 — никакой креативности, только детерминизм.

Результаты: кто выиграл золото?

Жду вашего «ага!». Поехали.

Модель	Точность (Acc)	Галлюцинации (ложных ответов)	Средняя уверенность
Gemma 4 31B	87.2%	4%	0.94
DeepSeek V4-32B	82.5%	7%	0.91
Qwen 3.5-32B	78.9%	9%	0.88
Mistral Small 24B	74.1%	14%	0.85
YandexGPT 4 Lite	72.9%	11%	0.79
Llama 4 8B	65.3%	21%	0.82
Saiga Mistral 7B v3	62.8%	27%	0.76

Внимание: YandexGPT 4 Lite — это облегчённая версия. Полная версия (недоступна в open-source) может показывать другие результаты. Но мы тестируем только то, что можно запустить локально.

Gemma 4 31B уделала всех с отрывом в 4.7% от второго места. Причём у неё самая низкая доля галлюцинаций — всего 4%. Это критично для RAG: если модель придумывает факты, вы получаете toxic output, который подрывает доверие к системе.

А вот Saiga Mistral 7B, которую многие хвалят за русский язык, провалилась — 27% галлюцинаций. Она просто "договаривает" то, чего нет в контексте. Печально, но ожидаемо — маленькая модель не умеет удерживать длинные контексты.

Почему Gemma 4 31B — идеальная модель для RAG?

Давайте разберёмся. RAG (Retrieval-Augmented Generation) — это когда вы даёте модели фрагмент текста и просите ответить строго по нему. Gemma 4 31B от Google в 2026 году получила архитектуру с Mixture of Experts (MoE), но при этом 31B параметров — это не гигантская модель. Она легко помещается на одну A100 в 4-битной квантизации и показывает скорость 30 токенов/с.

Её фишка — способность игнорировать шум. В наших вопросах контекст часто содержал отвлекающую информацию (например, проигрыш в групповом этапе, но вопрос про финал). Gemma 4 не поддавалась — брала именно релевантные факты. У DeepSeek V4 и Qwen 3.5 были проблемы с многозадачностью в контексте.

Это перекликается с выводами бенчмарка Legal RAG Bench, где показали, что для извлечения фактов (retrieval) важнее качество модели, чем усложнение пайплайна. Gemma 4 — король retrieval.

Как собрать бенчмарк самому? (бесплатно)

Я выложил датасет на Hugging Face: axon-ai/sports-ru-655. Он в формате JSONL, где каждый объект — вопрос, контекст и правильный ответ. Можете повторить тест на своих моделях. Инструкция:

Скачайте датасет через datasets.load_dataset("axon-ai/sports-ru-655").
Прогоните модель с тем же промптом: "Ответь на вопрос, используя только данный контекст. Выдай JSON: {{"answer": "...", "confidence": ...}}".
Сравните ответы с golden answers (они есть в датасете).

Не хотите возиться с инференсом? Воспользуйтесь облачным GPU-кластером — там уже есть образы с llama.cpp и всеми моделями. У них, кстати, бесплатный триал на 2 часа — за глаза.

А что насчёт RAG-пайплайна?

Выбор модели — только половина дела. Я протестировал Gemma 4 31B в связке с Chroma DB (семантический поиск) и получил прирост точности до 91.3% на том же датасете. Ретривер находил правильный контекст, модель извлекала ответ. Но когда ретривер ошибался (топ-3 не содержал ответа), модель не галлюцинировала — честно писала "Нет информации в контексте". Это поведение — редкое среди моделей такого размера.

Если вы строите RAG для русскоязычных данных (спорт, право, медицина) — присмотритесь к Gemma 4 31B. Для сравнения: рейтинг Reddit 2025 ставил на первое место Qwen-2.5 и Mistral, но в 2026 году расклад изменился.

Кстати, для дополнения промптов и тестовых сценариев советую глянуть коллекцию промптов — она сэкономит вам часы.

Чего не сделали и что надо улучшить

Честно: мой бенчмарк заточен только на спорт. Переносить выводы на другие предметные области можно только с оговорками. Спорт — это факты, даты, имена. А если вам нужно юридическое обоснование — смотрите в сторону Lexometrica Ground Truth.

Ещё я не тестировал скорость инференса под нагрузкой — для RAG это критично. Но для простого QA 30 токен/с хватает с запасом. Если у вас высокие требования, берите VLLM-хостинг с пакетным режимом — там Gemma 4 выдаёт до 150 токен/с при batch size 8.

Последний совет: не гонитесь за новизной

Видели заголовки "Qwen 3.5 с 1M контекстом"? Контекст — да, здорово. Но если модель не умеет из него извлекать факты без галлюцинаций — этот мегаконтекст бесполезен. Gemma 4 31B доказывает: качество > количество параметров и длина контекста.

Когда аутсорс-команда предлагает вам взять Llama 4 "потому что все так делают" — покажите им эту таблицу. Спортивные факты не прощают ошибок. И ваши пользователи тоже.

Подписаться на канал

Сравнение русскоязычных LLM: бенчмарк спортивных знаний и выбор лучшей модели для RAG