Судьи, которые не знают, что они слепы
Оценка качества сгенерированного видео — это ад. Не тот ад, где всё горит, а тот, где вы смотрите на 10 роликов и не можете понять, какой из них «реалистичнее». LLM-судьи (вроде MLLM-as-a-Judge evaluator из Strands Evals) якобы решают проблему, но на деле они «уверены» в своей оценке с точностью до наоборот. Смещение калибровки — вот что реально бесит.
В 2026 году вы не можете просто скормить видеомодель (хоть LLaVA-OV-2, хоть LTX-2 из обзора LTX-2 против Kling/Veo3) и надеяться, что оценщик не ошибётся. DiffuJudge-AV — это попытка выбить из судейства систематическую ошибку через диффузионный процесс. Звучит сложно? На практике — элегантно и до зубовного скрежета практично.
DiffuJudge-AV использует Tweedie posterior mean для «очтщения» уверенности LLM-судьи от шума, возникающего из-за неоднозначности видео. Вместо того чтобы выдавать «5/10» с одной и той же интонацией, модель учится говорить: «Я на 70% уверена, что это 8/10, а на 30% — что 4/10».
Как работает эта магия (спойлер: никакой магии, только байесовский вывод)
Идея фреймворка кристально прозрачна. Обычный LLM-судья (например, тот же LingoQA) генерирует одну оценку — и всё. DiffuJudge-AV добавляет второй слой: после получения эмбеддингов видео и текстового запроса, фреймворк пропускает их через обратный диффузионный процесс (Tweedie-денойзинг). Зачем? Чтобы восстановить апостериорное среднее распределения оценок, а не одно точечное значение.
Звучит логично, но есть нюанс: Tweedie posterior mean требует знания дисперсии шума. DiffuJudge-AV аппроксимирует её через ансамбль лёгких моделей — это меньше 100 млн параметров. Сравните с Reka Edge 7B, которая решает другую задачу, но тоже на грани возможностей edge-устройств. DiffuJudge-AV можно запустить на паре видеокарт серии A100 — не фонтан, но терпимо.
Бенчмарки и сравнения — от LingoQA до реальных тестов с автономным вождением
Разработчики из Пекинского университета авиации и космонавтики (да, они занимаются не только самолётами) опубликовали результаты на двух датасетах: DriveLM (сцены вождения) и LingoQA (общие вопросы по видео). DiffuJudge-AV превзошёл стандартные методы калибровки вроде плат-скорринга и изотонической регрессии на 12-18% по метрике Expected Calibration Error. При этом корреляция с человеческими суждениями (Spearman ρ) поднялась с 0.68 до 0.81 — серьёзный скачок.
Особенно интересен кейс с автономным вождением. Video Reality Test показал, что ASMR-видео — идеальный полигон для тестирования реализма, но для сцен вождения важна не столько реалистичность, сколько согласованность движений объектов. DiffuJudge-AV, анализируя распределения, научился отсеивать ролики, где пешеход «телепортируется» через дорогу, хотя визуально всё выглядит плавно.
Внимание: не путайте DiffuJudge-AV с эпистемической калибровкой DeepSeek. Там борются с переобученностью модели-ответчика, а здесь — с шумом в оценке со стороны судьи. Разные вещи.
Пример использования: как НЕ надо оценивать видео
Допустим, вы тестируете генеративную модель (скажем, LTX-2) и хотите понять, насколько её выходы лучше, чем у Kling. Стандартный подход — попросить LLM-судью (Claude 4, Gemini 3.5, да хоть LLaVA-OV-2) выставить баллы от 1 до 10. Что получите? Судья начнёт завышать оценки за яркие цвета и занижать за тёмные сцены — это известное смещение «контрастности».
DiffuJudge-AV предлагает другой путь. Вы передаёте фреймворку 1000 пар (видео, текстовый запрос). Он запускает диффузионный процесс и возвращает не средний балл, а калиброванную кривую уверенности. Например: «Видео А с вероятностью 85% получает 7/10, с 12% — 6/10, с 3% — 4/10». Теперь вы видите, что уверенность судьи не абсолютна. Если модель-генератор выдаёт высокую оценку, но с разбросом — это звоночек, что качество нестабильно.
Не советую так делать, если не хотите увидеть, что ваш «любимый» evaluator на 40% уверен в неправильной оценке. Пример: в тесте с DeepEyesV2 (где картинки ищутся по голосу) DiffuJudge-AV показал, что стандартные судьи в 30% случаев неверно оценивают соответствие видео и аудиопромпта — просто потому, что их калибровка сбита.
Кому это вообще нужно (и кому — не стоит)
DiffuJudge-AV — инструмент для разработчиков, которым плевать на «среднюю температуру по больнице». Если вы делаете Edit Mind — детектив для видеоархивов, то вам важна точность, а не скорость. А вот если вы запускаете real-time плеер вроде Ray AI Media Player, то диффузионный оверхед (дополнительные 2-3 секунды на каждое видео) может быть неприемлем.
Фреймворк особенно хорош для:
- Бенчмаркинга генеративных моделей (LTX-2, Kling, Veo3, Sora 2.0).
- Настройки систем автономного вождения.
- Оценки моделей, которые работают с длинными видео (больше 30 секунд), где человеческая оценка дорога.
Альтернативы есть, но они либо дороги (ручная оценка с помощью асессоров), либо грубы (LingoQA без калибровки). DiffuJudge-AV — это «золотая середина»: точность почти как у человека, но скорость автоматизированного решения.
В 2026 году, когда каждая новая видео-модель выходит с помпой (хоть RealRestorer для фото, хоть что-то ещё), умение не просто оценить, а правильно оценить — решающий фактор. DiffuJudge-AV не панацея, но он хотя бы признаёт: «я не уверен». А это уже больше, чем делают 90% современных evaluator'ов.