Забудьте про "что на картинке". Спросите "кто это"
В мире VLM-тестов появился новый игрок, и он играет в другую игру. Пока все измеряют, насколько хорошо модель рассуждает о картинке, команда Kimi выпустила WorldVQA — бенчмарк, который проверяет совсем другое: что модель уже знает.
Не "опиши сцену". Не "придумай историю". А "назови этого политика", "определи марку автомобиля", "узнай архитектурный стиль". 3500 пар вопрос-ответ, 9 категорий от знаменитостей до научных приборов. Все вопросы требуют фактов, которые должны быть в памяти.
Почему старые бенчмарки нас обманывали
Открываете отчет по GLM-Image или любой другой — везде одни и те же метрики: точность ответов на вопросы о содержании изображения. Модель видит кошку на диване и говорит "кошка на диване" — отлично, 100%.
Но что, если спросить: "Какая это порода кошки?" Или "Диван в каком стиле?" Или "Как называется картина на стене?" Вот тут начинается веселье.
Большинство VLM, даже крутые вроде SenseNova-MARS (о нем мы писали здесь), тренированы на общих задачах. Они учатся связывать пиксели с текстом, но не обязательно запоминать конкретные факты о мире. Они могут описать форму Эйфелевой башни, но не скажут год постройки с первого раза.
Проблема в том, что высокий балл на стандартных бенчмарках создает иллюзию компетентности. Модель кажется умной, потому что хорошо рассуждает, но на деле у нее может быть дырявая память. WorldVQA эту иллюзию разбивает.
Что внутри WorldVQA и почему это больно
Набор данных разбит на 9 категорий, каждая бьет по разным видам знаний:
- Знаменитости и публичные лица — от актеров до ученых. Модель должна узнать лицо, а не просто сказать "мужчина в очках".
- Логотипы и бренды — проверка на коммерческую грамотность.
- Достопримечательности — не просто "большое здание", а "Собор Парижской Богоматери".
- Произведения искусства — картины, скульптуры. Здесь уже нужна культурная база.
- Флаги и символы — геополитика в чистом виде.
- Виды животных и растений — биология вместо простого "цветок".
- Модели автомобилей и техники — для автолюбителей и гиков.
- Архитектурные стили — барокко, модерн, хай-тек.
- Научные приборы и инструменты — микроскопы, телескопы, хроматографы.
Каждый вопрос в WorldVQA — это проверка на конкретное знание. Никаких пространных рассуждений. Либо знаешь, либо нет. И да, вопросы на разных языках — потому что знание должно быть лингвистически независимым.
Первые результаты: кто знает мир, а кто только догадывается
Хотя полный официальный рейтинг моделей на WorldVQA еще формируется, ранние эксперименты показывают тревожную картину. Модели, которые блистают в общих бенчмарках, здесь спотыкаются на элементарном.
Оказывается, многие VLM отлично описывают то, что видят, но плохо помнят то, что должны были выучить. Они могут сказать, что на картинке "старинный автомобиль", но не назовут "Ford Model T 1927 года". Увидят здание с колоннами и скажут "классическая архитектура", пропустив "дорический ордер".
| Категория WorldVQA | Типичная ошибка VLM | Что нужно вместо этого |
|---|---|---|
| Знаменитости | "Молодой мужчина в костюме" | "Илон Маск на презентации Tesla Cybertruck" |
| Произведения искусства | "Картина с звездной ночью" | "Звездная ночь" Винсента Ван Гога, 1889" |
| Научные приборы | "Лабораторное оборудование" | "Спектрофотометр для УФ-Видимого диапазона" |
Это напоминает ситуацию с проблемой чтения текста на сканах — когда модель видит буквы, но не понимает их смысла. Здесь она видит объект, но не помнит о нем ключевых фактов.
Что это значит для разработчиков VLM
WorldVQA не просто еще один тест. Это сигнал о смене приоритетов. Последние два года вся индустрия гналась за способностью к рассуждению, за цепочками мыслей, за логическими выводами. Kimi напоминает: сначала нужно выучить таблицу умножения, а уже потом решать дифференциальные уравнения.
Для тренировки моделей теперь нужны не только миллиарды пар "изображение-описание", но и структурированные базы знаний, которые можно привязать к визуальным представлениям. Нужно учить модели не только "что это", но и "кто это", "когда создано", "кем изобретено".
Это также ставит под вопрос эффективность некоторых методов обучения. Если модель показывает хорошие результаты на WorldVQA, значит, ее архитектура или данные обучения действительно позволяют накапливать и извлекать фактические знания. Если нет — вся ее "умность" может оказаться фасадом.
Будущее: специализированные VLM вместо универсальных гениев
WorldVQA, скорее всего, ускорит тенденцию к специализации. Мы уже видим это в текстовых моделях — WeDLM от Tencent заточена под математику, другие под код, третьи под медицину.
С VLM будет то же самое. Появятся модели, специально обученные на художественных произведениях (будут знать все картины и стили). Модели для истории (узнают любую достопримечательность и ее контекст). Модели для биологии (определят не просто "птица", а "сапсан, самый быстрый хищник в мире").
Универсальная VLM, знающая всё, может оказаться мифом. Или, по крайней мере, очень дорогой игрушкой. WorldVQA дает инструмент, чтобы это проверить.
Так что в следующий раз, когда будете выбирать VLM для своего проекта, спросите не только про её результаты на стандартных тестах. Спросите, как она справляется с WorldVQA. Потому что модель, которая не знает базовых фактов о мире, вряд ли сможет помочь вам в чём-то сложном. Она может красиво рассуждать о том, чего не понимает. А это, согласитесь, не самый полезный навык.