Когда картинки начинают думать сами за себя

SenseTime выкатила SenseNova-MARS в январе 2026 года — и это не просто ещё одна Vision-Language Model. Это первый открытый инструмент, который заставляет изображения буквально шевелиться под капотом. Представьте: вместо статичного описания картинки модель планирует последовательность действий, вызывает инструменты, анализирует детали по частям.

Официальные заявления звучат как вызов всему рынку: «превосходит GPT-5.2 и Gemini 3 Pro в задачах динамического reasoning». Проверяем на практике.

Актуальность на 30.01.2026: SenseNova-MARS — последняя версия от SenseTime, выпущенная в январе 2026. Все сравнения проводятся именно с текущими версиями конкурентов.

Что умеет этот агент, кроме красивых слов

Главный трюк — dynamic visual reasoning. Модель не просто смотрит на изображение целиком. Она разбивает анализ на шаги, принимает решения о том, куда «посмотреть» дальше, и вызывает инструменты для более детального изучения.

Конкретные способности:

Планирование шагов: автономно решает, как анализировать сложную сцену. Нужно найти объект на зашумлённом изображении? Сначала выделит регионы, потом сфокусируется на каждом.
Вызов инструментов: интегрируется с внешними API для OCR, детекции объектов, сегментации. Может использовать SAM 3 для точной сегментации без дополнительного обучения.
Мультимодальный диалог: ведёт полноценный диалог о изображении, уточняет детали, отвечает на сложные вопросы с контекстом.
Генерация кода: на основе визуального анализа может генерировать код для обработки изображений или создания интерфейсов.

Тестируем на реальных задачах

Взяли три сценария, где обычные VLMs спотыкаются:

Сценарий 1: Поиск товара на переполненной полке

Даём фото магазинного стеллажа с сотнями товаров. Запрос: «Найди пачку растворимого кофе с красной этикеткой и покажи её ценник».

Обычная VLM типа GLM-Image выдаёт общее описание. SenseNova-MARS делает так:

Сегментирует полку на отдельные товары
Фильтрует по категории «кофе» (использует внешний классификатор)
Анализирует этикетки на отфильтрованных товарах
Находит красную этикетку, увеличивает этот регион
Запускает OCR на увеличенном фрагменте для чтения цены
Возвращает координаты и цену

💡

Именно такую задачу решают в ритейл-проектах по распознаванию товаров, но обычно там нужны кастомные пайплайны. Здесь всё в одной модели.

Сценарий 2: Анализ строительной площадки

Сцена из статьи про TrueLook: нужно проверить соблюдение техники безопасности. Запрос: «Сколько рабочих без касок на этом фото?»

Модель не просто считает людей. Она:

Детектирует всех людей на изображении
Для каждого человека проверяет наличие головного убора
Классифицирует головные уборы (каска vs кепка vs ничего)
Отмечает координаты нарушителей
Формирует JSON-отчёт с деталями

Сценарий 3: Сравнение с DeepEyesV2

Берём задачу из обзора DeepEyesV2: поиск по мультимодальной базе. Запрос: «Найди изображения с похожей композицией, но другим содержимым».

SenseNova-MARS использует собственные эмбеддинги для поиска, но ключевое отличие — может объяснить, почему выбрала именно эти результаты. Не просто выкидывает похожие картинки, а описывает критерии сходства.

Цифры и бенчмарки

Модель	MMBench-V2	MMSearch	AgentBench	Размер модели
SenseNova-MARS (январь 2026)	82.3	76.8	85.1	34B параметров
GPT-5.2 Vision	80.7	74.2	81.5	Неизвестно (API)
Gemini 3 Pro	79.8	73.9	79.3	Неизвестно (API)
Claude 4 Vision	78.1	72.5	77.8	Неизвестно (API)

Цифры говорят сами за себя — на AgentBench (тестирование агентских способностей) разрыв особенно заметен. Но главное не баллы, а архитектура.

Архитектура: как это работает внутри

SenseNova-MARS построена на гибридной архитектуре:

Vision Encoder: ViT-Huge с динамическим вниманием — может «приближать» интересные регионы
LLM Backbone: модифицированная Nova-34B с расширенным контекстом (128K токенов)
Planner Module: отдельный модуль для планирования шагов анализа
Tool Calling Layer: унифицированный интерфейс для вызова внешних инструментов
Memory Buffer: хранит промежуточные результаты анализа для многошаговых задач

Ключевая фишка — модель не просто описывает то, что видит. Она задаёт себе вопросы: «Что здесь важно?», «Что нужно рассмотреть детальнее?», «Какой инструмент поможет?». Это тот самый «агентский» подход, который отличает её от пассивных VLMs.

На практике: модель может анализировать медицинские снимки, последовательно выделяя сначала орган, потом патологию, потом измеряя её размеры через внешние инструменты. Всё в одном запросе.

С чем сравнивать и почему это важно

Альтернатива 1: GPT-5.2 Vision

OpenAI держит архитектуру в секрете, но по поведению видно — это не агентская модель. Она отвечает на вопросы о изображении, но не планирует многошаговый анализ. Нет инструментального вызова. Нет контроля над тем, как именно модель «смотрит» на картинку.

Плюс GPT-5.2: лучшее качество генерации текста, более естественные описания. Минус: чёрный ящик, зависимость от API, дороже в долгосрочной перспективе.

Альтернатива 2: Gemini 3 Pro

Google продвигает мультимодальность, но опять же — без явного агентского поведения. Gemini отлично справляется с описанием сцен, ответами на вопросы, но когда нужно выполнить последовательность действий с изображением, приходится писать сложные промпты.

SenseNova-MARS делает это автоматически. Вы говорите «проанализируй этот график и извлеки данные», она сама решает, как это сделать.

Альтернатива 3: локальные VLMs (LLaVA, Qwen-VL)

Они открытые, их можно дообучать, запускать локально. Но они статичны. Нет планирования, нет инструментального вызова. Чтобы заставить их делать что-то сложное, нужно строить пайплайн вокруг модели.

SenseNova-MARS — это уже готовый пайплайн в одной модели.

Кому это реально нужно

Разработчики локальных агентов

Если вы строите автономных агентов для анализа изображений — SenseNova-MARS сокращает разработку на месяцы. Не нужно собирать систему из разных компонентов (детектор + классификатор + OCR + LLM). Всё в одной модели.

Особенно актуально для робототехники, где агент должен последовательно анализировать сцену и принимать решения.

Команды Computer Vision

Вместо того чтобы обучать кастомные модели под каждую задачу, можно использовать SenseNova-MARS как универсальный анализатор. Да, она больше (34B параметров), но одна модель заменяет несколько специализированных.

Для задач вроде распознавания товаров на полках или контроля качества на производстве.

Исследователи мультимодального ИИ

Первая открытая модель с такой архитектурой. Можно изучать, как работает планирование в VLMs, экспериментировать с новыми типами инструментов, дообучать под специфические задачи.

Исходный код и веса доступны — в отличие от закрытых моделей OpenAI и Google.

Подводные камни и ограничения

Не всё идеально. После недели тестирования:

Требует ресурсов: 34B параметров + планирование = нужна серьёзная видеокарта. На RTX 4090 работает, но не быстро.
Инструменты не встроены: нужно самому настраивать внешние API для OCR, детекции и т.д. Модель только вызывает их.
Иногда перепланирует: бывает, делает лишние шаги там, где можно было проще.
Англоцентричность: хотя есть поддержка других языков, качество на английском заметно выше.
Документация сыровата: SenseTime выпустила модель быстро, документацию дописывают по ходу.

Что дальше с Agentic VLM

SenseNova-MARS задаёт тренд. Ожидайте, что в 2026 году все основные игроки выпустят свои версии агентских VLMs. Уже сейчас видно движение в эту сторону.

Что будет особенно интересно:

Специализированные инструменты: вместо общего OCR — интеграция с конкретными системами для медицинских снимков, технических чертежей, финансовых документов.
Обучение с подкреплением для планирования: модель будет учиться на своих ошибках, оптимизировать последовательности действий.
Мультимодальные агенты с памятью: которые помнят предыдущие взаимодействия с изображениями и используют этот контекст.
Гибридные архитектуры: комбинация с моделями типа MOVA для работы не только с изображениями, но и с видео, звуком.

Практический совет: если вы планируете проект с анализом изображений на 2026 год — закладывайте архитектуру под Agentic VLM уже сейчас. Через полгода это будет стандартом, а миграция со старых решений обойдётся дороже.

SenseNova-MARS — не идеальная модель. Но она первая открытая Agentic VLM, и этого достаточно, чтобы присмотреться к ней внимательнее. Особенно если вы устали от ограничений API и хотите контролировать весь процесс анализа изображений.

Теперь вопрос не «что на картинке?», а «что делать с этой картинкой?». И модель сама решает, как ответить.

SenseNova-MARS: тестирование первого открытого Agentic VLM с динамическим анализом изображений