Когда opensource обгоняет Google

Представьте, что вы собираете мобильного робота-манипулятора за 20 000 рублей. ROS2 стоит, китайские моторы куплены, а вот с мозгом проблема. Платные API кусаются, а бесплатные модели тупят в пространственных задачах. До вчерашнего дня так и было.

SenseNova-SI 1.3 - это китайский ответ всем, кто думал, что пространственный интеллект останется прерогативой гигантов вроде Google. Модель от компании SenseTime (да, тех самых) выложили в opensource 5 февраля 2026 года. И она не просто доступна - она на втором месте в EASI leaderboard, обгоняя Gemini 3 Ultra.

💡

EASI (Embodied AI Spatial Intelligence) - основной бенчмарк для оценки пространственного интеллекта моделей. Тестирует понимание 3D-сцен, навигацию, манипуляцию объектами и предсказание физических взаимодействий.

Что умеет эта штука на самом деле?

SenseNova-SI 1.3 - это Vision-Language-Action (VLA) модель с 7 миллиардами параметров. Цифра скромная, если сравнивать с тем же HyperNova-60B, но здесь параметры не главное.

Модель заточена под три ключевые задачи:

Понимание 3D-сцен: смотрит на видео с камер робота и понимает, где что находится в пространстве. Не просто "видит стол", а знает, что чашка стоит в 30 см от края, а стул можно подвинуть на 50 см вправо.
Навигация в неизвестной среде: дает роботу команды типа "обойди препятствие слева" или "подъезжай к розетке под углом 45 градусов".
Физическое прогнозирование: предсказывает, что случится, если робот толкнет объект. Критично для домашних помощников, которые не должны ронять ваши вазы (в отличие от некоторых моделей, о которых мы писали в обзоре NEO от 1X).

Техническая кухня: почему она работает

Архитектура - гибридная. Берет Vision Transformer для обработки изображений, дорабатывает его специальными attention-механизмами для 3D-признаков, и все это стыкует с языковой моделью через новый модуль Spatial Reasoning Bridge.

Модель	EASI Score	Параметры	Лицензия
GPT-4o (2026 версия)	89.7	~1.8T	Проприетарная
SenseNova-SI 1.3	87.2	7B	Apache 2.0
Gemini 3 Ultra	86.8	~120B	Проприетарная
Claude 4 Sonnet	85.1	~80B	Проприетарная

Самое интересное - эффективность. 7 миллиардов параметров против 120 миллиардов у Gemini 3, а результат лучше. SenseTime явно нашли какую-то архитектурную магию. (Или просто лучше обучили на релевантных данных - в их датасете 5 миллионов помеченных 3D-сцен против общих датасетов Google).

С чем сравнить? Альтернативы в 2026

Если не SenseNova-SI, то что?

NVIDIA Cosmos Reason 2: специализирован на физическом моделировании. Не просто понимает сцену, а вычисляет физические взаимодействия. Дороже в развертывании, требует серьезного железа. Мы подробно разбирали его в статье про роботов, которые думают физикой.
PhysicalAgent: подход, который пытается заставить обычные VLA-модели управлять роботами без переобучения. Работает через специальные промпты и симуляции. Менее точный, но более гибкий. Наш разбор здесь.
Helix 02 от Figure AI: коммерческое решение для промышленных роботов. Не opensource, зато интегрировано с железом Figure. Про то, как они ушли от ChatGPT-подобных архитектур, мы писали здесь.

Важный нюанс: SenseNova-SI 1.3 требует нормального железа. Минимум - Jetson Orin NX 16GB для edge-развертывания. Для серьезных задач смотрите в сторону Jetson Thor T5000 с его 2070 TFLOPS.

Кому это реально нужно?

Не всем. Если вы делаете чат-бота - проходите мимо. SenseNova-SI для конкретных сценариев:

Стартапы в робототехнике: когда нет миллионов на лицензии NVIDIA или Google, но нужен современный пространственный интеллект. Модель свободно встраивается в свои продукты.
Исследовательские лаборатории: Apache 2.0 позволяет модифицировать, доучивать, публиковать производные работы. Идеально для академических проектов.
Производители дронов и автономной техники: для навигации в сложных средах. Особенно актуально после того, как проблемы с сенсорами и балансом стали главной темой 2025-2026.
Образовательные проекты: студенты могут развернуть модель на своем ноутбуке (с GPU, конечно) и экспериментировать с робототехникой без облачных API.

Где подводные камни?

Китайское происхождение модели некоторых напрягает. Документация сначала вышла на китайском, английская версия появилась через день. Сообщество пока небольшое - issues в GitHub решаются не мгновенно.

Еще момент: модель обучена преимущественно на азиатских датасетах. Интерьеры, уличные сцены, объекты - все с китайским/японским/корейским уклоном. Для западного рынка可能需要 дообучение.

И да, это все еще исследовательский проект. SenseTime выложили модель, но не готовы предоставлять коммерческую поддержку. Если что-то сломалось в production - разбирайтесь сами или ищите контрактора.

Что дальше?

SenseTime анонсировали SenseNova-SI 2.0 на конец 2026 года. Обещают многомодальность (не только видео, но и лидар, радар, тепловизоры) и интеграцию с симуляторами типа NVIDIA Isaac.

Мой прогноз: через год подобные специализированные opensource-модели станут стандартом для бюджетной робототехники. Гиганты вроде Google и NVIDIA сосредоточатся на премиум-сегменте (вспомните Atlas + Gemini 2026 с их 2000 TFLOPS), а нишевые задачи займут community-проекты.

Попробовать SenseNova-SI 1.3 можно на GitHub. Docker-образы есть, веса скачиваются через Hugging Face. Первый запуск займет минут 20 (модель весит 14 ГБ), зато потом получите state-of-the-art пространственный интеллект бесплатно.

И последнее: если собираетесь использовать модель в коммерческом продукте, проверьте лицензию Apache 2.0 вдоль и поперек. Китайские компании иногда добавляют сюрпризы в мелкий шрифт.

SenseNova-SI 1.3: китайская opensource-модель бьет Gemini 3 в пространственном интеллекте