Публикация AiManual

DiffuJudge-AV: калиброванная оценка видеомоделей через Tweedie-денойзинг

Обзор DiffuJudge-AV — фреймворка для калибровки LLM-судей при оценке видео. Методология Tweedie posterior mean, сравнение с LingoQA, примеры использования.

4 мин чтения 31.05.2026

Коротко

Что будет в материале

01
Судьи, которые не знают, что они слепы
02
Как работает эта магия (спойлер: никакой магии, только байесовский вывод)
03
Бенчмарки и сравнения — от LingoQA до реальных тестов с автономным вождением
04
Пример использования: как НЕ надо оценивать видео

Судьи, которые не знают, что они слепы

Оценка качества сгенерированного видео — это ад. Не тот ад, где всё горит, а тот, где вы смотрите на 10 роликов и не можете понять, какой из них «реалистичнее». LLM-судьи (вроде MLLM-as-a-Judge evaluator из Strands Evals) якобы решают проблему, но на деле они «уверены» в своей оценке с точностью до наоборот. Смещение калибровки — вот что реально бесит.

В 2026 году вы не можете просто скормить видеомодель (хоть LLaVA-OV-2, хоть LTX-2 из обзора LTX-2 против Kling/Veo3) и надеяться, что оценщик не ошибётся. DiffuJudge-AV — это попытка выбить из судейства систематическую ошибку через диффузионный процесс. Звучит сложно? На практике — элегантно и до зубовного скрежета практично.

DiffuJudge-AV использует Tweedie posterior mean для «очтщения» уверенности LLM-судьи от шума, возникающего из-за неоднозначности видео. Вместо того чтобы выдавать «5/10» с одной и той же интонацией, модель учится говорить: «Я на 70% уверена, что это 8/10, а на 30% — что 4/10».

Как работает эта магия (спойлер: никакой магии, только байесовский вывод)

Идея фреймворка кристально прозрачна. Обычный LLM-судья (например, тот же LingoQA) генерирует одну оценку — и всё. DiffuJudge-AV добавляет второй слой: после получения эмбеддингов видео и текстового запроса, фреймворк пропускает их через обратный диффузионный процесс (Tweedie-денойзинг). Зачем? Чтобы восстановить апостериорное среднее распределения оценок, а не одно точечное значение.

Звучит логично, но есть нюанс: Tweedie posterior mean требует знания дисперсии шума. DiffuJudge-AV аппроксимирует её через ансамбль лёгких моделей — это меньше 100 млн параметров. Сравните с Reka Edge 7B, которая решает другую задачу, но тоже на грани возможностей edge-устройств. DiffuJudge-AV можно запустить на паре видеокарт серии A100 — не фонтан, но терпимо.

💡

Ключевой момент: анализ смещений в DiffuJudge-AV проводится не на уровне финальных оценок, а на уровне распределений. Это позволяет отличить «случайную ошибку» от «систематического занижения».

Бенчмарки и сравнения — от LingoQA до реальных тестов с автономным вождением

Разработчики из Пекинского университета авиации и космонавтики (да, они занимаются не только самолётами) опубликовали результаты на двух датасетах: DriveLM (сцены вождения) и LingoQA (общие вопросы по видео). DiffuJudge-AV превзошёл стандартные методы калибровки вроде плат-скорринга и изотонической регрессии на 12-18% по метрике Expected Calibration Error. При этом корреляция с человеческими суждениями (Spearman ρ) поднялась с 0.68 до 0.81 — серьёзный скачок.

Особенно интересен кейс с автономным вождением. Video Reality Test показал, что ASMR-видео — идеальный полигон для тестирования реализма, но для сцен вождения важна не столько реалистичность, сколько согласованность движений объектов. DiffuJudge-AV, анализируя распределения, научился отсеивать ролики, где пешеход «телепортируется» через дорогу, хотя визуально всё выглядит плавно.

Внимание: не путайте DiffuJudge-AV с эпистемической калибровкой DeepSeek. Там борются с переобученностью модели-ответчика, а здесь — с шумом в оценке со стороны судьи. Разные вещи.

Пример использования: как НЕ надо оценивать видео

Допустим, вы тестируете генеративную модель (скажем, LTX-2) и хотите понять, насколько её выходы лучше, чем у Kling. Стандартный подход — попросить LLM-судью (Claude 4, Gemini 3.5, да хоть LLaVA-OV-2) выставить баллы от 1 до 10. Что получите? Судья начнёт завышать оценки за яркие цвета и занижать за тёмные сцены — это известное смещение «контрастности».

DiffuJudge-AV предлагает другой путь. Вы передаёте фреймворку 1000 пар (видео, текстовый запрос). Он запускает диффузионный процесс и возвращает не средний балл, а калиброванную кривую уверенности. Например: «Видео А с вероятностью 85% получает 7/10, с 12% — 6/10, с 3% — 4/10». Теперь вы видите, что уверенность судьи не абсолютна. Если модель-генератор выдаёт высокую оценку, но с разбросом — это звоночек, что качество нестабильно.

Не советую так делать, если не хотите увидеть, что ваш «любимый» evaluator на 40% уверен в неправильной оценке. Пример: в тесте с DeepEyesV2 (где картинки ищутся по голосу) DiffuJudge-AV показал, что стандартные судьи в 30% случаев неверно оценивают соответствие видео и аудиопромпта — просто потому, что их калибровка сбита.

Кому это вообще нужно (и кому — не стоит)

DiffuJudge-AV — инструмент для разработчиков, которым плевать на «среднюю температуру по больнице». Если вы делаете Edit Mind — детектив для видеоархивов, то вам важна точность, а не скорость. А вот если вы запускаете real-time плеер вроде Ray AI Media Player, то диффузионный оверхед (дополнительные 2-3 секунды на каждое видео) может быть неприемлем.

Фреймворк особенно хорош для:

Бенчмаркинга генеративных моделей (LTX-2, Kling, Veo3, Sora 2.0).
Настройки систем автономного вождения.
Оценки моделей, которые работают с длинными видео (больше 30 секунд), где человеческая оценка дорога.

Альтернативы есть, но они либо дороги (ручная оценка с помощью асессоров), либо грубы (LingoQA без калибровки). DiffuJudge-AV — это «золотая середина»: точность почти как у человека, но скорость автоматизированного решения.

В 2026 году, когда каждая новая видео-модель выходит с помпой (хоть RealRestorer для фото, хоть что-то ещё), умение не просто оценить, а правильно оценить — решающий фактор. DiffuJudge-AV не панацея, но он хотя бы признаёт: «я не уверен». А это уже больше, чем делают 90% современных evaluator'ов.

Подписаться на канал