Текст вместо геометрии: фундаментальный обман VLM
Представьте, что вы просите ребенка посчитать квадраты на картинке. Он смотрит, видит фигуры, считает их. Теперь попросите GPT-4V или Gemini 2.0 сделать то же самое. Модель смотрит на изображение и... читает текстовые метки, если они есть. Не считает. Не анализирует геометрию. Просто сканирует текст.
Исследование, опубликованное на arXiv в феврале 2026 года, вскрыло грязный секрет Vision-Language моделей. То, что мы считали пространственным пониманием, оказалось банальным OCR с последующей языковой обработкой. Модели не видят мир - они читают подписи к нему.
Ключевой вывод исследования: современные VLM (Vision-Language Models) демонстрируют высокие результаты на тестах пространственного мышления только когда в изображениях присутствуют текстовые метки. Уберите текст - и производительность падает до уровня случайного угадывания.
Эксперимент, который все меняет
Исследователи из Стэнфорда и MIT создали простой, но убийственный тест. Две группы изображений:
- Группа А: геометрические фигуры (квадраты, круги, треугольники) без каких-либо подписей
- Группа Б: те же фигуры, но с текстовыми метками "square", "circle", "triangle"
Задача для моделей: посчитать количество объектов определенного типа, определить их взаимное расположение, ответить на вопросы о пространственных отношениях.
| Модель | Точность с текстом | Точность без текста | Падение |
|---|---|---|---|
| GPT-4V (2025 версия) | 94.2% | 31.7% | 62.5% |
| Gemini 2.0 Ultra | 92.8% | 28.4% | 64.4% |
| Claude 3.5 Vision | 89.5% | 25.1% | 64.4% |
| Qwen2.5-VL-32B | 87.3% | 22.9% | 64.4% |
Цифры говорят сами за себя. Разница в 60+ процентных пунктов - это не погрешность. Это системная ошибка архитектуры.
Почему так происходит? Архитектурный изъян
Большинство современных VLM построены по схеме "encoder-decoder". Vision encoder (обычно ViT или его производные) преобразует изображение в эмбеддинги. Language decoder (трансформер) генерирует текст на основе этих эмбеддингов.
Проблема в том, что vision encoder обучается на датасетах, где изображения часто содержат текст. Модель быстро понимает: текстовые метки - самый надежный источник информации. Зачем учиться распознавать сложные паттерны, если можно просто прочитать подпись?
Исследователи провели ablation study: отключали разные компоненты моделей. Оказалось, что если заблокировать доступ к текстовым признакам в vision encoder, пространственные способности падают катастрофически. Но языковая часть при этом почти не страдает.
Последствия для разработчиков
Вы используете VLM для анализа медицинских снимков? Проверки качества на производстве? Автономного вождения? Если в ваших данных нет текстовых меток - готовьтесь к сюрпризам.
Типичный сценарий провала:
- Разработчик тестирует модель на датасете с аннотациями
- Модель показывает 95% точности
- Разработчик радуется и внедряет систему в production
- На реальных данных (без текстовых меток) точность падает до 30%
- Команда месяц ищет баг, не понимая, что проблема в фундаментальном ограничении модели
Это не гипотетический сценарий. В исследовании приводятся кейсы из медицинской диагностики и промышленного контроля качества.
Как тестировать VLM правильно
Если вы оцениваете мультимодальные модели, забудьте о стандартных бенчмарках. Большинство из них содержат текстовые подсказки в изображениях.
1 Создавайте "чистые" тестовые наборы
Удаляйте все текстовые метки из изображений. Используйте синтетические данные без текста. Проверяйте, как модель работает на реальных фотографиях без аннотаций.
2 Тестируйте пространственные задачи отдельно
Создавайте специальные тесты:
- Подсчет объектов без текстовых меток
- Определение взаимного расположения ("Что находится слева от X?")
- Анализ перспективы и масштаба
- Распознавание частично скрытых объектов
3 Используйте контролируемые промпты
Избегайте подсказок в формулировках. Вместо "Сколько квадратов на картинке?" используйте "Опиши геометрические фигуры и их количество". Заставляйте модель демонстрировать понимание, а не просто извлекать текст.
Что делать, если вам нужны настоящие пространственные способности
Плохие новости: большинство готовых VLM на рынке в 2026 году страдают этой проблемой. Хорошие новости: есть обходные пути.
Во-первых, рассмотрите специализированные архитектуры. Некоторые исследовательские модели (например, варианты с явным 3D пониманием) показывают лучшие результаты на чистых пространственных задачах. Но они обычно хуже в языковой части.
Во-вторых, используйте ансамбли. Комбинируйте VLM с классическими компьютерно-зрительными моделями. Например, детектор объектов YOLOv9 + языковая модель. Да, это сложнее. Зато работает.
В-третьих, если вы работаете с мультимодальным RAG, обязательно проверяйте, как система обрабатывает изображения без текста. Добавляйте этап явного пространственного анализа.
Совет от практика: перед внедрением любой VLM в продакшн проведите "стресс-тест" на полностью немаркированных данных. Если падение точности больше 20% - пересматривайте архитектуру решения.
Будущее VLM: исправление или обход?
Исследователи предлагают два пути решения проблемы:
- Архитектурные изменения: создание моделей с явным разделением текстовых и визуальных потоков. Что-то вроде двухканального vision encoder - один для текста, другой для геометрии.
- Обучение на чистых данных: создание датасетов без текстовых меток. Принудительное обучение пространственному пониманию.
Но есть и более радикальная точка зрения. Может быть, VLM вообще не должны заниматься пространственным анализом? Может быть, это задача для специализированных CV-моделей, а VLM должны фокусироваться на семантическом понимании?
Лично я склоняюсь ко второму варианту. Попытки создать "универсального солдата" обычно заканчиваются созданием посредственности во всем. Лучше иметь две отличные специализированные модели, чем одну среднюю универсальную.
Что это значит для индустрии AI
Исследование вскрыло фундаментальную проблему, о которой многие подозревали, но не могли доказать. Теперь доказательства есть.
Ожидайте волну:
- Новых бенчмарков без текстовых подсказок
- Специализированных моделей для пространственных задач
- Пересмотра архитектур существующих VLM
- Судебных исков от компаний, которые пострадали из-за некорректной оценки возможностей моделей
Если вы инвестируете в AI-стартапы, спросите у основателей: "Как ваша VLM обрабатывает изображения без текста?" Если ответа нет - бегите.
Для разработчиков это означает необходимость более глубокого тестирования. Не доверяйте рекламным заявлениям. Не доверяйте даже академическим статьям. Тестируйте сами. На своих данных. В своих сценариях.
Практические шаги на сегодня
Что делать прямо сейчас, если вы работаете с VLM:
- Проведите аудит своих тестовых наборов. Удалите все изображения с текстом.
- Протестируйте свои промпты. Уберите подсказки из формулировок.
- Если используете VLM для критических задач (медицина, безопасность), добавьте этап проверки пространственного понимания.
- Рассмотрите гибридные архитектуры для задач, требующих настоящего пространственного анализа.
И помните: если модель отлично работает на ваших тестовых данных, но в них есть текст - вы не тестировали модель. Вы тестировали ее OCR-компонент.
Это исследование - не конец VLM. Это начало их взросления. Теперь мы знаем об ограничениях. Теперь можем строить системы, которые их учитывают. Или обходят.
Как сказал один из авторов исследования: "Мы не открыли, что VLM глупы. Мы открыли, что они хитры. Они нашли лазейку в наших тестах. Теперь нам нужно создавать тесты без лазеек."
Следующий шаг - проверьте свою модель. Прямо сейчас. Возьмите картинку без текста. Задайте пространственный вопрос. И приготовьтесь к неожиданностям.