Пока все кидаются миллиардами параметров, Nvidia тихо перепридумала, как VLM модели должны искать объекты на картинках. Не последовательно, не токен за токеном, а сразу — одним мощным залпом. Встречайте LocateAnything: три миллиарда параметров, десять крат ускорения относительно Qwen3-VL и полный open source. Звучит как хайп? Возможно. Но за этим стоит вполне конкретная инженерная идея, которую стоит разобрать.
Важный дисклеймер: модель вышла в мае 2026 года, веса на HuggingFace, код на GitHub. Все ссылки — в официальных репозиториях Nvidia. Никакого эксклюзива, только железобетонный opensource.
В чем соль? Почему grounding наконец перестанет тормозить
Классический подход к vision-language grounding — это авторегрессивная генерация координат bounding box. VLM получает картинку и запрос "найди желтый мяч", потом предсказывает один токен за другим: "0.1", "0.2", "0.3"... Каждый шаг требует отдельного forward pass. На одну коробку уходит 4-8 проходов через трансформер. А если нужно сегментировать? А если объектов несколько? Время растет линейно.
LocateAnything использует другой принцип — параллельное декодирование на базе фреймворка Eagle. Вместо того чтобы гадать по токенам, модель предсказывает все четыре координаты одновременно. Звучит как магия, но на самом деле — это грамотная организация голов attention и специальное обучение с маскированием. Nvidia заявляет, что на задаче RefCOCO/+/g модель работает в 8-12 раз быстрее Qwen3-VL при сопоставимой точности. У нас нет возможности настучать по карте каждым бенчмарком, но исследования разработчиков выглядят убедительно.
Что под капотом? Eagle и 3B
LocateAnything — это не какая-то монструозная 70B. Всего 3 миллиарда параметров, что позволяет запускать модель на картах с 8-12 ГБ VRAM. Архитектура — гибрид vision transformer и обычного LLaMA-like декодера. Но ключевая фишка — это Eagle: набор механизмов для параллельного предсказания групп токенов, связанных с пространственными координатами. Вместо четырёх последовательных шагов модель делает один. И никакого чуда: просто использование заранее заготовленных эмбеддингов позиций и обучение с teacher-forcing на правильных координатах.
Вот так выглядит драматическое отличие от классического подхода:
| Модель | Параметры | Подход | Скорость (ms/bbox) | Точность (RefCOCO val) |
|---|---|---|---|---|
| Qwen3-VL (7B) | 7B | авторегрессия | ~120 | ~87.5% |
| Youtu-VL-4B-Instruct | 4B | авторегрессия | ~90 | ~84.0% |
| LocateAnything | 3B | параллельное декодирование (Eagle) | ~10 | ~86.9% |
Разница — в разы. Китайский Youtu-VL-4B-Instruct от Tencent тоже старается, но он использует классический авторегрессивный декодер и заметно уступает в скорости. Зато у него ещё и поддержка видео есть (хоть и урезанная).
Кому это нафиг нужно? Примеры, от которых подгорают стандартные VLM
LocateAnything не умеет болтать о погоде или писать стихи. Он создан для одной цели: быстро и точно найти объект на картинке. Никаких чатов, только bounding boxes, маски и ключевые точки. Зато это делает его идеальным для:
- Систем умного дома — камера видит "кота на диване", модель выдает коробку. В реальном времени. На Jetson или небольшой RTX.
- Промышленной автоматизации — поиск бракованных деталей по текстовому описанию. Если раньше VLM тупила 2 секунды, теперь 200 мс.
- Робототехники — робот получает задачу "возьми красную кружку", grounding отрабатывает за 15 мс, дальше планирование тректории.
- Дата-аннотации — пакетная обработка тысяч изображений, построение grounding для каждого.
Пока другие VLM перебирают токены, LocateAnything уже вернул результат. Если ваше приложение требует субсекундного ответа на каждое изображение и не юзает сложные диалоги — это та самая модель.
Как запустить LocateAnything на своем железе (даже на 8 ГБ)
Nvidia выложила код в открытый доступ. Никаких регистраций, только репозиторий и HuggingFace. Собрали процесс в три команды.
1 Клонируем репозиторий
git clone https://github.com/NVIDIA/LocateAnything.git
cd LocateAnything
2 Ставим зависимости и скачиваем веса
pip install -r requirements.txt
# Веса автоматически подтянутся из HuggingFace при первом запуске
# Но можно и вручную:
# git lfs install
# git clone https://huggingface.co/nvidia/LocateAnything-3B
3 Запускаем инференс
python run.py --image_path sample.jpg --prompt "a yellow ball"
На выходе — изображение с bounding box плюс консольный вывод координат. Всё. Если картинка большая — модель сама её ресайзит до 448x448 (можно изменить в конфиге).
Совет: Для экономии памяти используйте FP16 (включено по умолчанию). На RTX 3060 12GB модель ест ~7 ГБ VRAM. Если у вас меньше — есть квантованные версии от сообщества. Читайте гайд по минимальным требованиям VRAM, чтобы прикинуть, потянет ли ваш GPU.
Обратите внимание: это не чат-модель. Не пытайтесь её попросить "расскажи анекдот". Она обучена на датасетах с координатами (RefCOCO, Flickr30k Entities, Visual Genome). Весь промпт выглядит как простой запрос на английском. Кстати, если не хотите наступать на грабли, советую практический гайд по избеганию ошибок при запуске LLM — большая часть советов применима и для VLM.
Насколько это надежно? Подводные камни
LocateAnything не лишён недостатков. Во-первых, он оптимизирован для английских запросов. Русский текст работает хуже — иногда модель путает 'стол' и 'стул' (потому что английские 'table' и 'chair' незначительно отличаются в эмбеддингах). Если ваша задача — обрабатывать русскоязычные сцены, лучше дообучить модель на своих данных (инструкции в репозитории есть).
Во-вторых, точность на некоторых специфичных категориях (например, редкие животные или механизмы) ниже, чем у Qwen3-VL. Компенсируется скоростью, но для критической документации стоит перепроверять.
В-третьих, поддержка batch inference в оригинальном коде не полная — придется допиливать, если нужно гнать пачки изображений. Сообщество уже форкнуло репозиторий с апдейтами.
А что насчет будущего?
LocateAnything — не последняя модель на Eagle. Nvidia уже анонсировала, что фреймворк будет портирован на более крупные VLM (Llava-Next, InternVL). Если все пойдет как задумано, к концу 2026 года параллельное декодирование станет стандартом для grounding задач. Слишком уж разительный прирост скорости, чтобы его игнорировать. А пока — берите модель, гоняйте на своих данных и наслаждайтесь тем, что VLM наконец-то перестала тормозить.