Судья, который понимает по-русски

Допустим, вы натренировали свою русскую языковую модель. Она пишет связные тексты, отвечает на вопросы, пересказывает «Войну и мир». Как понять: она хороша или просто болтает? BLEU, ROUGE, BERTScore — классические метрики, но они часто не ловят смысл. Они сравнивают n-граммы или эмбеддинги, но не улавливают, что ответ может быть правильным по сути, но отличаться по форме. А если модель сгенерировала фактологически верный, но стилистически корявый ответ — BERTScore может дать низкую оценку. В реальных сценариях это бесит.

Тут на сцену выходит Pollux — LLM-судья от Sber AI, который специально заточен на русский язык. Он не считает совпадения токенов, а читает ответ как человек: оценивает релевантность, фактологичность, полноту и безопасность. И всё это в открытом коде. На май 2026 года это, пожалуй, самый зрелый инструмент для русскоязычного LLM-as-a-judge.

Pollux построен на основе одной из моделей семейства Llama, дообученной на русских данных с разметкой качества. Это значит, что он понимает нюансы языка: иронию, канцелярит, разговорные обороты.

Чем он лучше BERTScore и GPT-4 как судьи?

Возьмём BERTScore. Он считает попарное сходство эмбеддингов эталонного и сгенерированного ответов. Если модель переформулировала мысль другими словами — BERTScore может показать высокий балл. Но если в ответе появилась ложная фактологическая деталь (например, «Москва основана в 1156 году» вместо 1147), BERTScore её не заметит. Pollux же — судья, он обучен отличать факты от вымысла. Он смотрит на ответ целиком и выдаёт вердикт по нескольким шкалам.

Другой конкурент — использование GPT-4 как судьи. Это популярный подход, как описано в статье про пайплайн автоматической оценки. Но у GPT-4 есть проблема: он сильно дороже, а главное — он плохо чувствует русский. Он может принять занудный канцелярит за «высокое качество», а живую речь — за «неформат». Pollux решает эту проблему на уровне модели.

Метрика / Инструмент	Что оценивает	Русский язык	Стоимость	Открытый код
BERTScore	Семантическое сходство	Средне (зависит от модели)	Бесплатно	Да
GPT-4 как судья	Комплексная оценка	Плохо (смещение на англ.)	Платно (API)	Нет
Pollux	Факты, релевантность, полнота, безопасность	Отлично (специализация)	Бесплатно	Да

Вот почему Pollux — не просто «ещё одна метрика», а полноценный арбитр. Особенно если вы разрабатываете продукт для русскоязычных пользователей и хотите автоматизировать QA, как описано в практическом гайде от Senior Staff AI-QA.

Быстрый старт: как запустить Pollux за 5 минут

Звучит красиво, но работает ли? Давайте проверим. Нам понадобится Python 3.10+ и немного терпения (GPU не обязателен, но с ним быстрее).

1Установка

pip install pollux-llm-judge

Если хотите самую свежую версию на май 2026 года — ставьте из репозитория:

pip install git+https://github.com/RussianNLP/Pollux.git

2Загрузка модели-судьи

Pollux использует дообученный чекпойнт, который весит около 7 ГБ. Загружается один раз:

from pollux import Judge

judge = Judge(model_name='RussianNLP/pollux-7b')

Если хотите модель полегче (для CPU) — есть вариант на базе Llama-3-8B, но он требует больше памяти.

3Оценка ответа модели

Допустим, у нас есть вопрос и ответ, сгенерированный какой-то русской LLM. Хотим узнать, насколько ответ фактологичен и релевантен.

question = 'Какой год основания Москвы?'
answer = 'Москва была основана в 1147 году.'
reference = 'Первое упоминание о Москве в летописи датируется 1147 годом.'

result = judge.evaluate(
    question=question,
    answer=answer,
    reference=reference
)
print(result)
# {'relevance': 0.95, 'factuality': 1.0, 'completeness': 0.88, 'safety': 1.0}

Pollux возвращает оценки от 0 до 1 по нескольким шкалам. Если ответ — откровенный бред, оценки упадут. Если ответ содержит халлюцинацию, фактология будет около нуля. Это не BERTScore, который даст 0.8 за перефразированный бред.

Важно: не используйте Pollux как единственный критерий, если ваша модель генерирует слишком длинные ответы. Судья может дать высокую оценку за полноту, но при этом ответ может быть многословным. Комбинируйте с другими метриками.

Где Pollux реально нужен, а где — избыточен

Pollux — не серебряная пуля. Если вам нужно быстро прикинуть качество модели на тысячах примеров, запускать каждый раз LLM-судью дорого. Тут выручают лёгкие метрики вроде BERTScore или даже BLEU. Но если вы готовите модель к продакшену и хотите отловить фактические ошибки — Pollux незаменим.

Особенно рекомендую его для оценки RAG-систем (Retrieval-Augmented Generation). Когда модель отвечает на основе извлечённых документов, Pollux отлично ловит случаи, когда ответ использует верные факты, но не отвечает на вопрос напрямую. Такое часто встречается в чат-ботах поддержки, где модель пересказывает кусок инструкции, а не даёт прямого ответа. В создании AI-репетитора такой судья спасёт от ситуаций, когда ученик получает нерелевантный ответ.

Также Pollux полезен для обнаружения систематических смещений (bias). ChatGPT считает вас менее умным: как языковые модели судят по диалекту — эта проблема касается и судей. Pollux, обученный на русских данных, менее подвержен диалектным смещениям, но всё равно стоит прогонять тесты на разных стилях текста.

Кому стоит установить Pollux прямо сейчас?

Разработчикам русскоязычных LLM, которые хотят объективно сравнивать чекпойнты (не полагаясь на human evaluation каждую неделю).
AI-QA инженерам, автоматизирующим тестирование продуктов — как шаг за рамки LLMPlot.com для визуализации результатов.
Исследователям, изучающим влияние bias-факторов на оценки — Pollux позволяет получить численные метрики, с которыми можно работать статистически.
Всем, кто устал верить онлайн-лидербордам. QIMMA: лидерборд, который разоблачает лжецов-бенчмарков — для арабского языка, а Pollux — ваш инструмент для русского.

Одна деталь: Pollux пока не умеет оценивать диалоги — только пары вопрос-ответ или инструкция-ответ. Если вам нужно оценить чат с историей, придётся склеивать контекст в один запрос, и это не всегда корректно. Sber AI обещал в следующих версиях поддержку мульти-тур оценки, но на май 2026 года её ещё нет.

Вместо шаблонного вывода — неочевидный совет: не гоняйтесь за идеальной корреляцией с human evaluation. Pollux — судья, а не человек. Его оценки консистентны, но могут расходиться с мнением асессора в 10-15% случаев. Используйте его как фильтр: пусть он отсекает заведомо плохие ответы, а сомнительные отправляет на ручную проверку. Это сэкономит часы и нервы.

Подписаться на канал

Как использовать Pollux: LLM-судья для оценки русских языковых моделей [открытый код от Sber AI]