Вы доверяете автоматическим рейтингам LLM? Зря. Особенно если судья и подсудимый — из одного семейства. Новое открытое исследование (с полным кодом и данными на GitHub) подтвердило: модели Qwen систематически завышают оценки ответам других Qwen. И это не баг, а фича их обучения.
Что накопали исследователи
Напомню: недавно мы уже разбирали системную предвзятость LLM-судей. Теперь — фокус на конкретном семействе. 55 моделей, 22 000 суждений, полная прозрачность. Масштаб, при котором случайностью не отмахнешься.
Судья не видел автора ответов — слепой тест с перестановкой порядка. И всё равно Qwen-модели (от крошечных 1B до 180B) стабильно предпочитали своих. Среднее смещение — от 8 до 15% в зависимости от задачи. Mistral тоже грешит, но меньше (5–7%). Llama — почти паинька (3–4%).
| Семейство модели-судьи | Предвзятость к своим (среднее) | Штраф к чужим (среднее) |
|---|---|---|
| Qwen (3.x, 2.5 и др.) | +12% | -9% |
| Mistral (Large, 8x22B, Nemo) | +6% | -5% |
| Llama (3.x) | +3% | -2% |
Цифры не шум — p < 0.001. Настоящий сигнал.
Почему Qwen так выделяется
Причина — в крови. Модели одного семейства тренируются на похожих датасетах, используют сходные токенизацыю и архитектурные решения. Для судьи ответ «своего» выглядит более гладким, логичным — он узнаёт стиль, обороты, даже типичные ошибки. А чужой кажется чужеродным, и его оценивают строже. Это как если бы вы просили профессора из МГУ оценивать дипломы только своих студентов — объективности не жди.
Интересно, что проблема не только у Qwen. Слепые тесты для юридических задач тоже показывали расхождения между автоматической оценкой и мнением экспертов. А Lexometrica Ground Truth как раз учит избегать data leakage — другой формы предвзятости.
Последствия для бенчмарков
Теперь каждый раз, глядя на лидерборды с автоматической оценкой, спрашивай себя: кто судья? Если это Qwen — будь готов, что модели того же семейства получат фору. Проект QIMMA уже показал, как старые рейтинги трещат по швам, если внедрить объективную валидацию.
Не стоит использовать Qwen как судью для моделей той же семьи, если вам нужна объективность. Лучше брать судью из другого семейства или, ещё лучше, привлекать людей.
Конечно, можно попробовать ансамбль судей — как в AI-SETT с 600 критериями — но это не решит проблему, если все судьи из одной семьи.
Что делать практикам
Если ты разрабатываешь или выбираешь LLM для рабочих задач — не верь циферкам на слово. Используй бенчмарки с объективной проверкой (например, с точными ответами, как QIMMA), или проводи свои слепые тесты с коллекцией промптов. И помни: даже самый продвинутый LLM-судья (например, GPT-5.2, Claude 4.6 или Gemini 3.1) может быть предвзят, если оценивает модель своего разработчика.
Кстати, специализированные модели тоже не застрахованы — их предвзятость просто маскируется под экспертизу.
Так что в следующий раз, когда увидите блестящие цифры в бенчмарках, задумайтесь: может, это просто семейственность? И вместо того чтобы слепо верить Qwen, который оценивает Qwen, лучше устроить настоящий слепой тест с людьми. Или хотя бы взять судью из конкурирующего лагеря — пусть будет строг, но справедлив.