Pollux: LLM-судья для оценки русских моделей от Sber AI | AiManual
AiManual Logo Ai / Manual.
19 Май 2026 Инструмент

Как использовать Pollux: LLM-судья для оценки русских языковых моделей [открытый код от Sber AI]

Открытый инструмент Pollux от Sber AI для объективной оценки русскоязычных LLM. Разбор возможностей, примеры кода и сравнение с альтернативами.

Судья, который понимает по-русски

Допустим, вы натренировали свою русскую языковую модель. Она пишет связные тексты, отвечает на вопросы, пересказывает «Войну и мир». Как понять: она хороша или просто болтает? BLEU, ROUGE, BERTScore — классические метрики, но они часто не ловят смысл. Они сравнивают n-граммы или эмбеддинги, но не улавливают, что ответ может быть правильным по сути, но отличаться по форме. А если модель сгенерировала фактологически верный, но стилистически корявый ответ — BERTScore может дать низкую оценку. В реальных сценариях это бесит.

Тут на сцену выходит Pollux — LLM-судья от Sber AI, который специально заточен на русский язык. Он не считает совпадения токенов, а читает ответ как человек: оценивает релевантность, фактологичность, полноту и безопасность. И всё это в открытом коде. На май 2026 года это, пожалуй, самый зрелый инструмент для русскоязычного LLM-as-a-judge.

Pollux построен на основе одной из моделей семейства Llama, дообученной на русских данных с разметкой качества. Это значит, что он понимает нюансы языка: иронию, канцелярит, разговорные обороты.

Чем он лучше BERTScore и GPT-4 как судьи?

Возьмём BERTScore. Он считает попарное сходство эмбеддингов эталонного и сгенерированного ответов. Если модель переформулировала мысль другими словами — BERTScore может показать высокий балл. Но если в ответе появилась ложная фактологическая деталь (например, «Москва основана в 1156 году» вместо 1147), BERTScore её не заметит. Pollux же — судья, он обучен отличать факты от вымысла. Он смотрит на ответ целиком и выдаёт вердикт по нескольким шкалам.

Другой конкурент — использование GPT-4 как судьи. Это популярный подход, как описано в статье про пайплайн автоматической оценки. Но у GPT-4 есть проблема: он сильно дороже, а главное — он плохо чувствует русский. Он может принять занудный канцелярит за «высокое качество», а живую речь — за «неформат». Pollux решает эту проблему на уровне модели.

Метрика / ИнструментЧто оцениваетРусский языкСтоимостьОткрытый код
BERTScoreСемантическое сходствоСредне (зависит от модели)БесплатноДа
GPT-4 как судьяКомплексная оценкаПлохо (смещение на англ.)Платно (API)Нет
PolluxФакты, релевантность, полнота, безопасностьОтлично (специализация)БесплатноДа

Вот почему Pollux — не просто «ещё одна метрика», а полноценный арбитр. Особенно если вы разрабатываете продукт для русскоязычных пользователей и хотите автоматизировать QA, как описано в практическом гайде от Senior Staff AI-QA.

Быстрый старт: как запустить Pollux за 5 минут

Звучит красиво, но работает ли? Давайте проверим. Нам понадобится Python 3.10+ и немного терпения (GPU не обязателен, но с ним быстрее).

1Установка

pip install pollux-llm-judge

Если хотите самую свежую версию на май 2026 года — ставьте из репозитория:

pip install git+https://github.com/RussianNLP/Pollux.git

2Загрузка модели-судьи

Pollux использует дообученный чекпойнт, который весит около 7 ГБ. Загружается один раз:

from pollux import Judge

judge = Judge(model_name='RussianNLP/pollux-7b')

Если хотите модель полегче (для CPU) — есть вариант на базе Llama-3-8B, но он требует больше памяти.

3Оценка ответа модели

Допустим, у нас есть вопрос и ответ, сгенерированный какой-то русской LLM. Хотим узнать, насколько ответ фактологичен и релевантен.

question = 'Какой год основания Москвы?'
answer = 'Москва была основана в 1147 году.'
reference = 'Первое упоминание о Москве в летописи датируется 1147 годом.'

result = judge.evaluate(
    question=question,
    answer=answer,
    reference=reference
)
print(result)
# {'relevance': 0.95, 'factuality': 1.0, 'completeness': 0.88, 'safety': 1.0}

Pollux возвращает оценки от 0 до 1 по нескольким шкалам. Если ответ — откровенный бред, оценки упадут. Если ответ содержит халлюцинацию, фактология будет около нуля. Это не BERTScore, который даст 0.8 за перефразированный бред.

Важно: не используйте Pollux как единственный критерий, если ваша модель генерирует слишком длинные ответы. Судья может дать высокую оценку за полноту, но при этом ответ может быть многословным. Комбинируйте с другими метриками.

Где Pollux реально нужен, а где — избыточен

Pollux — не серебряная пуля. Если вам нужно быстро прикинуть качество модели на тысячах примеров, запускать каждый раз LLM-судью дорого. Тут выручают лёгкие метрики вроде BERTScore или даже BLEU. Но если вы готовите модель к продакшену и хотите отловить фактические ошибки — Pollux незаменим.

Особенно рекомендую его для оценки RAG-систем (Retrieval-Augmented Generation). Когда модель отвечает на основе извлечённых документов, Pollux отлично ловит случаи, когда ответ использует верные факты, но не отвечает на вопрос напрямую. Такое часто встречается в чат-ботах поддержки, где модель пересказывает кусок инструкции, а не даёт прямого ответа. В создании AI-репетитора такой судья спасёт от ситуаций, когда ученик получает нерелевантный ответ.

Также Pollux полезен для обнаружения систематических смещений (bias). ChatGPT считает вас менее умным: как языковые модели судят по диалекту — эта проблема касается и судей. Pollux, обученный на русских данных, менее подвержен диалектным смещениям, но всё равно стоит прогонять тесты на разных стилях текста.

Кому стоит установить Pollux прямо сейчас?

  • Разработчикам русскоязычных LLM, которые хотят объективно сравнивать чекпойнты (не полагаясь на human evaluation каждую неделю).
  • AI-QA инженерам, автоматизирующим тестирование продуктов — как шаг за рамки LLMPlot.com для визуализации результатов.
  • Исследователям, изучающим влияние bias-факторов на оценки — Pollux позволяет получить численные метрики, с которыми можно работать статистически.
  • Всем, кто устал верить онлайн-лидербордам. QIMMA: лидерборд, который разоблачает лжецов-бенчмарков — для арабского языка, а Pollux — ваш инструмент для русского.

Одна деталь: Pollux пока не умеет оценивать диалоги — только пары вопрос-ответ или инструкция-ответ. Если вам нужно оценить чат с историей, придётся склеивать контекст в один запрос, и это не всегда корректно. Sber AI обещал в следующих версиях поддержку мульти-тур оценки, но на май 2026 года её ещё нет.

Вместо шаблонного вывода — неочевидный совет: не гоняйтесь за идеальной корреляцией с human evaluation. Pollux — судья, а не человек. Его оценки консистентны, но могут расходиться с мнением асессора в 10-15% случаев. Используйте его как фильтр: пусть он отсекает заведомо плохие ответы, а сомнительные отправляет на ручную проверку. Это сэкономит часы и нервы.

Подписаться на канал