Цифры не врут: 22% — это не погрешность, это системный сбой
Если вы в 2026 году используете GPT-4V или Claude 3.5 Sonnet для автоматического тестирования интерфейсов или анализа скриншотов приложений — остановитесь. Прямо сейчас. Новое независимое исследование, опубликованное буквально на этой неделе, показывает неприятную правду: ведущие мультимодальные модели хронически недорабатывают, когда видят интерфейс Android.
Речь не о паре процентов. Разрыв в точности между анализом iOS и Android скриншотов достигает 22%. Это не статистическая погрешность. Это — фундаментальная дыра в данных, на которых учили эти модели. И она дорого обходится разработчикам, которые верят в объективность AI.
Что пошло не так? Эксперимент, который все объясняет
Исследователи взяли 1000 пар идентичных по функционалу скриншотов — один с iPhone (iOS 19), другой с флагманского Android-смартфона. Задачи для моделей были простые, но критичные для автоматизации: «Найди кнопку „Отправить“», «Прочитай текст в уведомлении», «Определи, активен ли переключатель». Базовые вещи.
Результаты заставили перепроверять данные трижды.
| Модель (версия на 14.02.2026) | Точность на iOS скриншотах | Точность на Android скриншотах | Разрыв |
|---|---|---|---|
| GPT-4V | 94.2% | 73.5% | -20.7% |
| Claude 3.5 Sonnet | 92.8% | 71.1% | -21.7% |
| Gemini Ultra 2.0 | 90.1% | 75.3% | -14.8% |
Ошибки были не случайными. Модели регулярно путали системные элементы Android (особенно в кастомных оболочках вроде One UI или MIUI), игнорировали контекстные меню, неправильно интерпретировали Material Design. С iOS такого не было. Это похоже на то, как если бы модель видела iPhone каждый день, а Android — только на старых фотографиях.
Корень зла: тренировочные данные, собранные в Кремниевой долине
Ответ лежит на поверхности. Где собирали датасеты для обучения этих VLM? В основном — в США, силами сотрудников tech-гигантов. А что используют 87% разработчиков в Сан-Франциско и Кремниевой долине по последним опросам 2025 года? Верно, iPhone и MacBook.
«Это классический sampling bias, — комментирует один из авторов исследования, пожелавший остаться анонимным. — Данные для обучения vision-моделей набирали через внутренние инструменты компаний. Сотрудники делали скриншоты своих устройств. Получился гигантский датасет, перекошенный в сторону Apple-экосистемы. Android там был, но в лучшем случае — „ванильный“ Pixel, а не реальное разнообразие Xiaomi, Samsung, Huawei».
Смещение в данных — не новость. Но обычно о нем говорят в контексте расы, пола или возраста. А вот про смещение в сторону одной операционной системы — как-то забыли. Хотя последствия для индустрии разработки ПО колоссальные.
Кстати, о других причинах сбоев в компьютерном зрении мы подробно писали в материале «Почему падают модели компьютерного зрения». Bias в данных — лишь одна из четырех основных проблем.
Чем это грозит на практике? Реальные кейсы провалов
Представьте: вы автоматизируете QA-тестирование мобильного приложения. Нанимаете виртуального ассистента на базе Claude 3.5 Sonnet, который должен проверять корректность UI на сотне разных устройств. Он отлично справляется с эмуляторами iOS. А на реальных Android-устройствах начинает пропускать критические баги — не видит поломанные layout, не замечает перекрывающиеся элементы.
Или другой сценарий: вы аналитик и скармливаете модели скриншоты из отзывов пользователей, чтобы та автоматически категоризировала проблемы. Пользователи Android составляют 70% вашей аудитории. Модель, обученная на iOS-скриншотах, систематически хуже понимает их жалобы. Вы теряете обратную связь и принимаете неверные продуктологические решения.
«Мы полгода использовали GPT-4V для анализа юзер-сториз, — рассказывает CTO одного берлинского стартапа. — Пока не заметили, что все „сложные“ и „непонятные“ кейсы, которые модель пропускала нам на ревью, были с Android. Перепроверили — оказалось, модель просто не распознавала специфичные жесты и меню. Пришлось нанимать дополнительных QA-инженеров».
Есть ли альтернативы? Китайские VLM и open-source проекты
Любопытно, что у китайских моделей такой проблемы нет. Тот же Youtu-VL-4B-Instruct от Tencent показывает почти паритет в точности между iOS и Android. Почему? Потому что тренировали его на датасетах из Азии, где доля Android на рынке под 85%. И да, его можно запустить локально даже на скромном железе.
Другой интересный кандидат — недавно анонсированный SenseNova-MARS, первый открытый Agentic VLM. Его создатели изначально закладывали поддержку разнообразных UI-паттернов, в том числе для кастомных Android-оболочек. Ранние тесты показывают разрыв всего в 5-7%.
Что делать OpenAI и Anthropic? Молчание — знак согласия
Мы запросили комментарии у обеих компаний. OpenAI сослалась на то, что «постоянно работает над улучшением своих моделей». Anthropic ответила шаблонной фразой про «стремление к снижению bias во всех формах». Никто не признал проблему явно. Никто не пообещал срочно дотренировать модели на датасетах с Android.
А тем временем разработчики продолжают платить за API-вызовы, получая необъективные результаты. Ирония в том, что сами создатели AI-моделей, кажется, стали жертвами своего же пузыря — технологического, географического и, да, идеологического.
Это напоминает историю с ранними распознавателями лиц, которые плохо работали с темной кожей. Только сейчас bias сместился в цифровую плоскость. И исправлять его будет сложнее — потому что мало кто вообще видит проблему. «Ну подумаешь, Android», — скажут в Кремниевой долине. А в Берлине, Сеуле или Шанхае из-за этой фразы уже сорвались дедлайны.
Мораль? Прежде чем внедрять модную vision-модель в продакшн, проверьте ее на ваших данных. Не на MNIST или COCO, а на реальных скриншотах с реальных устройств ваших пользователей. Иначе вы рискуете автоматизировать не объективный анализ, а систематическую ошибку. Стоят ли такие автоматизации своих денег — большой вопрос.