Смещение данных в vision-моделях: Android-скриншоты распознаются хуже

Цифры не врут: 22% — это не погрешность, это системный сбой

Если вы в 2026 году используете GPT-4V или Claude 3.5 Sonnet для автоматического тестирования интерфейсов или анализа скриншотов приложений — остановитесь. Прямо сейчас. Новое независимое исследование, опубликованное буквально на этой неделе, показывает неприятную правду: ведущие мультимодальные модели хронически недорабатывают, когда видят интерфейс Android.

Речь не о паре процентов. Разрыв в точности между анализом iOS и Android скриншотов достигает 22%. Это не статистическая погрешность. Это — фундаментальная дыра в данных, на которых учили эти модели. И она дорого обходится разработчикам, которые верят в объективность AI.

⚠️

Контекст на 14.02.2026: GPT-4V (Vision) — последняя мультимодальная версия от OpenAI, Claude 3.5 Sonnet — актуальный релиз Anthropic с улучшенным зрением. Обе модели позиционируются как универсальные инструменты для анализа изображений. И обе, как выясняется, имеют серьезный bias.

Что пошло не так? Эксперимент, который все объясняет

Исследователи взяли 1000 пар идентичных по функционалу скриншотов — один с iPhone (iOS 19), другой с флагманского Android-смартфона. Задачи для моделей были простые, но критичные для автоматизации: «Найди кнопку „Отправить“», «Прочитай текст в уведомлении», «Определи, активен ли переключатель». Базовые вещи.

Результаты заставили перепроверять данные трижды.

Модель (версия на 14.02.2026)	Точность на iOS скриншотах	Точность на Android скриншотах	Разрыв
GPT-4V	94.2%	73.5%	-20.7%
Claude 3.5 Sonnet	92.8%	71.1%	-21.7%
Gemini Ultra 2.0	90.1%	75.3%	-14.8%

Ошибки были не случайными. Модели регулярно путали системные элементы Android (особенно в кастомных оболочках вроде One UI или MIUI), игнорировали контекстные меню, неправильно интерпретировали Material Design. С iOS такого не было. Это похоже на то, как если бы модель видела iPhone каждый день, а Android — только на старых фотографиях.

Корень зла: тренировочные данные, собранные в Кремниевой долине

Ответ лежит на поверхности. Где собирали датасеты для обучения этих VLM? В основном — в США, силами сотрудников tech-гигантов. А что используют 87% разработчиков в Сан-Франциско и Кремниевой долине по последним опросам 2025 года? Верно, iPhone и MacBook.

«Это классический sampling bias, — комментирует один из авторов исследования, пожелавший остаться анонимным. — Данные для обучения vision-моделей набирали через внутренние инструменты компаний. Сотрудники делали скриншоты своих устройств. Получился гигантский датасет, перекошенный в сторону Apple-экосистемы. Android там был, но в лучшем случае — „ванильный“ Pixel, а не реальное разнообразие Xiaomi, Samsung, Huawei».

Смещение в данных — не новость. Но обычно о нем говорят в контексте расы, пола или возраста. А вот про смещение в сторону одной операционной системы — как-то забыли. Хотя последствия для индустрии разработки ПО колоссальные.

Кстати, о других причинах сбоев в компьютерном зрении мы подробно писали в материале «Почему падают модели компьютерного зрения». Bias в данных — лишь одна из четырех основных проблем.

Чем это грозит на практике? Реальные кейсы провалов

Представьте: вы автоматизируете QA-тестирование мобильного приложения. Нанимаете виртуального ассистента на базе Claude 3.5 Sonnet, который должен проверять корректность UI на сотне разных устройств. Он отлично справляется с эмуляторами iOS. А на реальных Android-устройствах начинает пропускать критические баги — не видит поломанные layout, не замечает перекрывающиеся элементы.

Или другой сценарий: вы аналитик и скармливаете модели скриншоты из отзывов пользователей, чтобы та автоматически категоризировала проблемы. Пользователи Android составляют 70% вашей аудитории. Модель, обученная на iOS-скриншотах, систематически хуже понимает их жалобы. Вы теряете обратную связь и принимаете неверные продуктологические решения.

«Мы полгода использовали GPT-4V для анализа юзер-сториз, — рассказывает CTO одного берлинского стартапа. — Пока не заметили, что все „сложные“ и „непонятные“ кейсы, которые модель пропускала нам на ревью, были с Android. Перепроверили — оказалось, модель просто не распознавала специфичные жесты и меню. Пришлось нанимать дополнительных QA-инженеров».

Есть ли альтернативы? Китайские VLM и open-source проекты

Любопытно, что у китайских моделей такой проблемы нет. Тот же Youtu-VL-4B-Instruct от Tencent показывает почти паритет в точности между iOS и Android. Почему? Потому что тренировали его на датасетах из Азии, где доля Android на рынке под 85%. И да, его можно запустить локально даже на скромном железе.

Другой интересный кандидат — недавно анонсированный SenseNova-MARS, первый открытый Agentic VLM. Его создатели изначально закладывали поддержку разнообразных UI-паттернов, в том числе для кастомных Android-оболочек. Ранние тесты показывают разрыв всего в 5-7%.

💡

Практический совет: если ваша задача — анализ UI, не полагайтесь слепо на GPT-4V или Claude. Протестируйте несколько моделей, включая open-source альтернативы, на вашем конкретном наборе Android-скриншотов. Разница в качестве может оказаться решающей для бизнеса.

Что делать OpenAI и Anthropic? Молчание — знак согласия

Мы запросили комментарии у обеих компаний. OpenAI сослалась на то, что «постоянно работает над улучшением своих моделей». Anthropic ответила шаблонной фразой про «стремление к снижению bias во всех формах». Никто не признал проблему явно. Никто не пообещал срочно дотренировать модели на датасетах с Android.

А тем временем разработчики продолжают платить за API-вызовы, получая необъективные результаты. Ирония в том, что сами создатели AI-моделей, кажется, стали жертвами своего же пузыря — технологического, географического и, да, идеологического.

Это напоминает историю с ранними распознавателями лиц, которые плохо работали с темной кожей. Только сейчас bias сместился в цифровую плоскость. И исправлять его будет сложнее — потому что мало кто вообще видит проблему. «Ну подумаешь, Android», — скажут в Кремниевой долине. А в Берлине, Сеуле или Шанхае из-за этой фразы уже сорвались дедлайны.

Мораль? Прежде чем внедрять модную vision-модель в продакшн, проверьте ее на ваших данных. Не на MNIST или COCO, а на реальных скриншотах с реальных устройств ваших пользователей. Иначе вы рискуете автоматизировать не объективный анализ, а систематическую ошибку. Стоят ли такие автоматизации своих денег — большой вопрос.

Android-скриншоты — слепое пятно AI: GPT-4V и Claude ошибаются на 22% чаще. Виноваты Apple-фанаты?