InfoVis: фреймворк оценки информационного содержания изображений | CVPR 2026

Ваша камера врет вам. И вот почему

Вы купили топовый смартфон с 200-мегапиксельной камерой, а ночные фото все равно размытые? Дело не в мегапикселях. Дело в том, что производители меряют качество с помощью метрик, которые ничего не знают о содержании сцены. PSNR, SSIM, LPIPS — они сравнивают пиксели, но не отвечают на вопрос: «Сколько полезной информации я реально получил?»

На июньской конференции CVPR 2026 группа исследователей из MIT и Google Research представила фреймворк InfoVis — первый инструмент, который оценивает изображение не по картинке, а по количеству переданной информации. Звучит как магия? На самом деле — чистая теория Шеннона, завёрнутая в современный deep learning.

Суть InfoVis: вместо сравнения с эталоном (которого часто нет) фреймворк вычисляет энтропию распределения признаков, которые способна извлечь система визуализации из реальной сцены. Чем больше уникальной информации — тем лучше дизайн.

Как это работает (без скучных формул)

InfoVis использует легковесную нейросеть-оценщик, обученную на сотнях тысяч пар «сцена-изображение» из датасета ImageNet-X (расширенная версия с аннотациями информационной значимости). Модель прогнозирует, сколько бит информации о сцене сохранилось после прохождения через оптическую систему и сенсор.

На тестах фреймворк показал 94% корреляцию с экспертными оценками фотографов — против 62% у SSIM. Особенно впечатляет работа в сложных условиях: высокий динамический диапазон, слабое освещение, рассеянные среды.

💡

InfoVis можно использовать не только для камер, но и для проектирования систем компьютерного зрения: например, подбирать оптимальную апертуру и выдержку для детекции объектов в реальном времени. Это прямой путь к «меньше пикселей — больше смысла».

Почему это прорыв, а не очередная метрика

Большинство современных методов оценки (вроде того же DiffuJudge-AV для видео) завязаны на сравнение с оригиналом. Но в реальном мире у нас нет «оригинала». Мы не знаем, как на самом деле выглядела сцена с точки зрения фотонов.

InfoVis решает эту проблему, вводя понятие информационной пропускной способности системы. Вы подаёте на вход фреймворка сырой RAF-файл (или даже виртуальную модель оптики), а он говорит: «Эта линза передаёт 12.7 бит на пиксель, а эта — 9.3, но зато у неё меньше хроматических аберраций».

Для инженеров это gold rush. Вместо того чтобы бесконечно крутить симуляции Zemax и ждать субъективных оценок, можно оптимизировать напрямую через InfoVis. Команда разработчиков уже адаптировала его для популярного инструмента OpticaStudio 2026.

Но есть нюанс (всегда есть)

Фреймворк требует калибровки под конкретный тип сенсора и условия съёмки. Если вы снимете на камеру с одним байеровским фильтром, а модель обучалась на другом — результаты поплывут. Исследователи обещают выпустить предобученные веса для 50 популярных матриц, но пока доступны только для Sony IMX989 и Samsung GN2.

Ещё одна тонкость: InfoVis считает информацию относительно сцены, но не учитывает, нужна ли она наблюдателю. Например, текстура асфальта может быть высокоинформативной, но для автофокуса на лице она бесполезна. Впрочем, ребята уже работают над версией с целевыми масками внимания.

Кстати, похожая проблема — с оценкой эмбеддингов — недавно поднималась в статье Embedding Evaluator: когда ваши векторы сходят с ума. Там тоже пытались измерить «информационность» латентного пространства, но для NLP. А здесь — для пикселей.

Кому это нужно прямо сейчас

Разработчикам камер для автономных автомобилей. В условиях дождя или тумана каждая единица информации на счету. InfoVis помогает выбрать линзу, которая пропустит максимум, а не просто даст яркую картинку.
Производителям мобильных фотомодулей. С его помощью можно объяснить маркетологам, почему 48 Мп с умным пиксель-бинингом лучше, чем 108 Мп без оного.
Исследователям в области вычислительной фотографии. Когда вы складываете 10 кадров в один HDR, сколько бит вы теряете? InfoVis подсчитает.

Некоторые уже интегрируют InfoVis в пайплайны для оценки качества генерации. Например, для MLLM-as-a-Judge evaluator в Strands Evals — чтобы понять, насколько хорошо модель описала изображение не с точки зрения текста, а с точки зрения содержания.

Неочевидный совет от авторов

Не пытайтесь сразу считать абсолютные значения. Начните с относительного сравнения: спроектируйте два варианта оптической схемы, прогоните их через InfoVis и посмотрите, какой сохраняет больше информации. Разница в 5% может означать либо невидимый глазом шум, либо потерю критических для CV-алгоритма деталей.

А ещё — не забывайте про теорему Котельникова. InfoVis не спасёт, если вы уже проредили сигнал ниже частоты Найквиста. Про это мы писали в статье про проектирование камер по Шеннону.

Подписаться на канал

Информационно-ориентированное проектирование систем визуализации: новый фреймворк оценки