78.5% на ScreenSpot-Pro: что за магия в этой цифре?
Цифры в мире ML часто говорят сами за себя, но иногда одна цифра переворачивает всю игру. 78.5% точности на бенчмарке ScreenSpot-Pro для задачи GUI grounding – это именно такой случай. Для контекста: предыдущие модели вроде Vision-LLM 2025 года едва переваливали за 60-65%, а тут почти восемьдесят.
Holo2-235B-A22B, релиз которой состоялся в конце января 2026 года на Hugging Face, не просто улучшила показатели. Она изменила подход. Вместо одноразового предсказания «вот кнопка, вот поле ввода» модель использует то, что авторы назвали «агентной локализацией» (Agentic Localization).
Как работает итеративное уточнение? От хаоса к точности
Представьте, что вы пытаетесь найти на скриншоте кнопку «Отправить». Старая модель смотрела на картинку целиком, выделяла регион и говорила: «Вот она». Проблема в том, что если кнопка частично перекрыта другим элементом или имеет нестандартную форму, точность падала катастрофически.
Holo2 поступает иначе. Её внутренний механизм работает в три этапа:
- Глобальный обзор: Модель быстро сканирует весь интерфейс в высоком разрешении (поддержка до 4K – одна из ключевых фич 2026 года) и создает «карту внимания».
- Гипотеза и проверка: На основе этой карты выдвигается несколько гипотез о расположении целевого элемента. Не одну, а несколько. Это критически важно для сложных интерфейсов.
- Агентный цикл уточнения: Здесь начинается магия. Модель входит в цикл, где каждая итерация – это микро-действие по коррекции границ. Она буквально «обводит» элемент, проверяя согласованность пикселей, текстуры, соседних элементов и семантического контекста. Этот процесс напоминает работу продвинутого GUI-агента, но происходит полностью внутри модели за миллисекунды.
Результат? Точность bounding box'ов вырастает на 10-20% для сложных случаев: перекрытые элементы, кастомные контролы, элементы с градиентным фоном. Там, где раньше модель «промахивалась» на 10-15 пикселей, теперь отклонение редко превышает 2-3 пикселя.
С чем сравнивать? Альтернативы 2026 года выглядят бледно
Ландшафт инструментов для GUI grounding на начало 2026 года довольно оживленный, но Holo2-A22B задает новую планку.
| Модель / Инструмент | ScreenSpot-Pro (Accuracy) | Ключевая особенность | Ограничение |
|---|---|---|---|
| Holo2-235B-A22B (02.2026) | 78.5% | Агентная локализация, 4K вход | Требует значительных ресурсов (рекомендуется A100/H100) |
| UI-Grounding-VL (12.2025) | 66.2% | Хорошая скорость, умеренные требования | Теряет точность на сложных/плотных интерфейсах |
| ScreenAgent-7B (11.2025) | ~58% (оценка) | Малая модель, можно запускать локально | Низкая точность для production-задач |
| Кастомные решения на HF-skills | Зависит от реализации | Полная гибкость, интеграция в пайплайны | Требует глубокой настройки и ML-экспертизы |
Главный конкурент – это кастомные пайплайны, собранные вручную. Но даже они проигрывают в скорости разработки. Загрузил Holo2 с Hugging Face, написал 20 строк кода – и у тебя state-of-the-art система. Попробуй повторить это с нуля, даже используя фреймворки вроде принципы Agent Engineering – уйдут месяцы.
Кому и зачем это нужно? Реальные use-cases
«Распознавание кнопочек» звучит как академическая задача. На практике это фундамент для целого слоя автоматизации.
- Автоматическое тестирование UI (QA Automation): Агенты, которые сами находят элементы и кликают по ним, перестают «слепнуть» при каждом редизайне. Точная локализация – это спасение от хрупких селекторов вроде XPath, которые ломаются от любого чиха.
- RPA для legacy-систем: Старые десктопные приложения без API, веб-интерфейсы 2000-х годов. Holo2 может «видеть» и взаимодействовать с ними так же, как человек. Это прямой путь к интеграции таких систем в современные on-prem AI стеки.
- Accessibility-инструменты: Точное определение границ элементов – первый шаг для скринридеров нового поколения, которые смогут описывать интерфейс не просто как «ссылка», а как «кнопка «Сохранить» в правом верхнем углу панели инструментов».
- Обучение AI-агентов: Чтобы создать по-настоящему автономного браузерного агента, ему нужно дать «глаза». Holo2 – это именно такие глаза с почти человеческой точностью восприятия пространства интерфейса.
Не обольщайтесь: 78.5% – это не 100%. Модель всё ещё может ошибаться на экранах с экстремальной плотностью информации (например, дашборды в 20+ виджетов) или с сильными визуальными артефактами (сжатие JPEG с потерями). Всегда нужен fallback-механизм или человеческая проверка для критически важных операций.
Что под капотом? Технические детали для любопытных
Модель основана на гибридной архитектуре Vision-Language с 235 миллиардами параметров (отсюда и название). Ключевое отличие от предшественников – это не один, а два скоординированных модуля внимания: один работает с глобальным контекстом экрана, второй – фокусируется на регионе-кандидате и итеративно его «шлифует».
Обучение проводилось на датасете ScreenSpot-Pro Extended (2025), который включает не только скриншоты, но и симуляции частичных перекрытий, изменения освещения, разные разрешения. Именно это позволяет модели быть устойчивой в реальных условиях.
Интеграция проста: модель доступна на Hugging Face под лицензией, разрешающей коммерческое использование с атрибуцией. Для запуска потребуется серьезное железо – авторы рекомендуют GPU с минимум 80GB VRAM (A100, H100) для работы в полном разрешении. Есть облегченный режим для 1080p, но там и точность будет ниже.
Стоит ли переходить сейчас? Мой вердикт
Если ваша задача – исследование или прототип, берите Holo2-A22B без раздумий. Это текущий максимум на рынке, и он доступен здесь и сейчас.
Если у вас уже работает пайплайн на чем-то другом, вопрос сложнее. Прирост в 10+ процентных пунктов – это огромно. Но нужно оценить стоимость перехода: новые требования к железу, адаптация кода. Для высокоинтенсивных задач, где каждый процент точности конвертируется в деньги (например, массовая автоматизация тестирования), переход оправдан почти всегда.
Главный вывод? Агентная локализация – это не трюк, а новая парадигма. Ожидайте, что в течение 2026 года этот подход станет стандартом для всех задач, связанных с точным позиционированием в визуальном пространстве. И не только для UI. Те же принципы можно применить в ритейл-аналитике для поиска конкретного товара на полке или в медицинской визуализации.
Мой прогноз: к концу 2026 года мы увидим «облегченные» версии этой архитектуры, которые можно будет запускать на более доступном железе, и они окончательно похоронят старые методы одноэтапного детектирования. А пока Holo2-235B-A22B – это король горы. Несовершенный, требовательный, но король.