Пока все кидаются миллиардами параметров, Nvidia тихо перепридумала, как VLM модели должны искать объекты на картинках. Не последовательно, не токен за токеном, а сразу — одним мощным залпом. Встречайте LocateAnything: три миллиарда параметров, десять крат ускорения относительно Qwen3-VL и полный open source. Звучит как хайп? Возможно. Но за этим стоит вполне конкретная инженерная идея, которую стоит разобрать.

Важный дисклеймер: модель вышла в мае 2026 года, веса на HuggingFace, код на GitHub. Все ссылки — в официальных репозиториях Nvidia. Никакого эксклюзива, только железобетонный opensource.

В чем соль? Почему grounding наконец перестанет тормозить

Классический подход к vision-language grounding — это авторегрессивная генерация координат bounding box. VLM получает картинку и запрос "найди желтый мяч", потом предсказывает один токен за другим: "0.1", "0.2", "0.3"... Каждый шаг требует отдельного forward pass. На одну коробку уходит 4-8 проходов через трансформер. А если нужно сегментировать? А если объектов несколько? Время растет линейно.

LocateAnything использует другой принцип — параллельное декодирование на базе фреймворка Eagle. Вместо того чтобы гадать по токенам, модель предсказывает все четыре координаты одновременно. Звучит как магия, но на самом деле — это грамотная организация голов attention и специальное обучение с маскированием. Nvidia заявляет, что на задаче RefCOCO/+/g модель работает в 8-12 раз быстрее Qwen3-VL при сопоставимой точности. У нас нет возможности настучать по карте каждым бенчмарком, но исследования разработчиков выглядят убедительно.

Что под капотом? Eagle и 3B

LocateAnything — это не какая-то монструозная 70B. Всего 3 миллиарда параметров, что позволяет запускать модель на картах с 8-12 ГБ VRAM. Архитектура — гибрид vision transformer и обычного LLaMA-like декодера. Но ключевая фишка — это Eagle: набор механизмов для параллельного предсказания групп токенов, связанных с пространственными координатами. Вместо четырёх последовательных шагов модель делает один. И никакого чуда: просто использование заранее заготовленных эмбеддингов позиций и обучение с teacher-forcing на правильных координатах.

Вот так выглядит драматическое отличие от классического подхода:

Модель	Параметры	Подход	Скорость (ms/bbox)	Точность (RefCOCO val)
Qwen3-VL (7B)	7B	авторегрессия	~120	~87.5%
Youtu-VL-4B-Instruct	4B	авторегрессия	~90	~84.0%
LocateAnything	3B	параллельное декодирование (Eagle)	~10	~86.9%

Разница — в разы. Китайский Youtu-VL-4B-Instruct от Tencent тоже старается, но он использует классический авторегрессивный декодер и заметно уступает в скорости. Зато у него ещё и поддержка видео есть (хоть и урезанная).

Кому это нафиг нужно? Примеры, от которых подгорают стандартные VLM

LocateAnything не умеет болтать о погоде или писать стихи. Он создан для одной цели: быстро и точно найти объект на картинке. Никаких чатов, только bounding boxes, маски и ключевые точки. Зато это делает его идеальным для:

Систем умного дома — камера видит "кота на диване", модель выдает коробку. В реальном времени. На Jetson или небольшой RTX.
Промышленной автоматизации — поиск бракованных деталей по текстовому описанию. Если раньше VLM тупила 2 секунды, теперь 200 мс.
Робототехники — робот получает задачу "возьми красную кружку", grounding отрабатывает за 15 мс, дальше планирование тректории.
Дата-аннотации — пакетная обработка тысяч изображений, построение grounding для каждого.

Пока другие VLM перебирают токены, LocateAnything уже вернул результат. Если ваше приложение требует субсекундного ответа на каждое изображение и не юзает сложные диалоги — это та самая модель.

Как запустить LocateAnything на своем железе (даже на 8 ГБ)

Nvidia выложила код в открытый доступ. Никаких регистраций, только репозиторий и HuggingFace. Собрали процесс в три команды.

1 Клонируем репозиторий

git clone https://github.com/NVIDIA/LocateAnything.git
cd LocateAnything

2 Ставим зависимости и скачиваем веса

pip install -r requirements.txt
# Веса автоматически подтянутся из HuggingFace при первом запуске
# Но можно и вручную:
# git lfs install
# git clone https://huggingface.co/nvidia/LocateAnything-3B

3 Запускаем инференс

python run.py --image_path sample.jpg --prompt "a yellow ball"

На выходе — изображение с bounding box плюс консольный вывод координат. Всё. Если картинка большая — модель сама её ресайзит до 448x448 (можно изменить в конфиге).

Совет: Для экономии памяти используйте FP16 (включено по умолчанию). На RTX 3060 12GB модель ест ~7 ГБ VRAM. Если у вас меньше — есть квантованные версии от сообщества. Читайте гайд по минимальным требованиям VRAM, чтобы прикинуть, потянет ли ваш GPU.

Обратите внимание: это не чат-модель. Не пытайтесь её попросить "расскажи анекдот". Она обучена на датасетах с координатами (RefCOCO, Flickr30k Entities, Visual Genome). Весь промпт выглядит как простой запрос на английском. Кстати, если не хотите наступать на грабли, советую практический гайд по избеганию ошибок при запуске LLM — большая часть советов применима и для VLM.

Насколько это надежно? Подводные камни

LocateAnything не лишён недостатков. Во-первых, он оптимизирован для английских запросов. Русский текст работает хуже — иногда модель путает 'стол' и 'стул' (потому что английские 'table' и 'chair' незначительно отличаются в эмбеддингах). Если ваша задача — обрабатывать русскоязычные сцены, лучше дообучить модель на своих данных (инструкции в репозитории есть).

Во-вторых, точность на некоторых специфичных категориях (например, редкие животные или механизмы) ниже, чем у Qwen3-VL. Компенсируется скоростью, но для критической документации стоит перепроверять.

В-третьих, поддержка batch inference в оригинальном коде не полная — придется допиливать, если нужно гнать пачки изображений. Сообщество уже форкнуло репозиторий с апдейтами.

💡

Лайфхак: если модель не уверена, можно запустить её 3-4 раза и усреднить координаты. Благодаря скорости это занимает меньше времени, чем один вызов Qwen3-VL.

А что насчет будущего?

LocateAnything — не последняя модель на Eagle. Nvidia уже анонсировала, что фреймворк будет портирован на более крупные VLM (Llava-Next, InternVL). Если все пойдет как задумано, к концу 2026 года параллельное декодирование станет стандартом для grounding задач. Слишком уж разительный прирост скорости, чтобы его игнорировать. А пока — берите модель, гоняйте на своих данных и наслаждайтесь тем, что VLM наконец-то перестала тормозить.

Подписаться на канал

Nvidia LocateAnything: ускорение vision-language grounding в 10 раз — обзор модели и как запустить локально