Судьи, которые видят
Оценка качества генерации текста по картинке — та ещё головная боль. Ручная разметка? Дорого. BLEU / ROUGE? Не улавливают смысл. До недавнего времени разработчики мультимодальных систем либо полагались на crowdsourcing, либо использовали грубые автоматические метрики, которые одинаково оценивают «кошка сидит на коврике» и «на коврике сидит кошка» — по сути одно и то же, но для человека порядок слов не критичен, а для BLEU — катастрофа.
Strands Evals SDK (свежий релиз весны 2026) добавил четыре новых MLLM-as-a-Judge evaluator, которые решают эту проблему. Теперь можно скормить модели картинку и сгенерированный подпись, а специальный мультимодальный судья (GPT-4o, Claude 3.5 Sonnet, Gemini 2.5 Pro) выдаст числовую оценку и развёрнутый комментарий. Без слёз, без человеческой разметки, с интеграцией в CI-пайплайн.
Если вы ещё не знакомы с концепцией LLM-as-a-Judge, советую начать с гайда по построению пайплайна автоматической оценки локальных моделей. Там описаны те же принципы, но для текстовых сценариев — а теперь всё то же самое стало доступно и для изображений.