Когда opensource обгоняет Google
Представьте, что вы собираете мобильного робота-манипулятора за 20 000 рублей. ROS2 стоит, китайские моторы куплены, а вот с мозгом проблема. Платные API кусаются, а бесплатные модели тупят в пространственных задачах. До вчерашнего дня так и было.
SenseNova-SI 1.3 - это китайский ответ всем, кто думал, что пространственный интеллект останется прерогативой гигантов вроде Google. Модель от компании SenseTime (да, тех самых) выложили в opensource 5 февраля 2026 года. И она не просто доступна - она на втором месте в EASI leaderboard, обгоняя Gemini 3 Ultra.
Что умеет эта штука на самом деле?
SenseNova-SI 1.3 - это Vision-Language-Action (VLA) модель с 7 миллиардами параметров. Цифра скромная, если сравнивать с тем же HyperNova-60B, но здесь параметры не главное.
Модель заточена под три ключевые задачи:
- Понимание 3D-сцен: смотрит на видео с камер робота и понимает, где что находится в пространстве. Не просто "видит стол", а знает, что чашка стоит в 30 см от края, а стул можно подвинуть на 50 см вправо.
- Навигация в неизвестной среде: дает роботу команды типа "обойди препятствие слева" или "подъезжай к розетке под углом 45 градусов".
- Физическое прогнозирование: предсказывает, что случится, если робот толкнет объект. Критично для домашних помощников, которые не должны ронять ваши вазы (в отличие от некоторых моделей, о которых мы писали в обзоре NEO от 1X).
Техническая кухня: почему она работает
Архитектура - гибридная. Берет Vision Transformer для обработки изображений, дорабатывает его специальными attention-механизмами для 3D-признаков, и все это стыкует с языковой моделью через новый модуль Spatial Reasoning Bridge.
| Модель | EASI Score | Параметры | Лицензия |
|---|---|---|---|
| GPT-4o (2026 версия) | 89.7 | ~1.8T | Проприетарная |
| SenseNova-SI 1.3 | 87.2 | 7B | Apache 2.0 |
| Gemini 3 Ultra | 86.8 | ~120B | Проприетарная |
| Claude 4 Sonnet | 85.1 | ~80B | Проприетарная |
Самое интересное - эффективность. 7 миллиардов параметров против 120 миллиардов у Gemini 3, а результат лучше. SenseTime явно нашли какую-то архитектурную магию. (Или просто лучше обучили на релевантных данных - в их датасете 5 миллионов помеченных 3D-сцен против общих датасетов Google).
С чем сравнить? Альтернативы в 2026
Если не SenseNova-SI, то что?
- NVIDIA Cosmos Reason 2: специализирован на физическом моделировании. Не просто понимает сцену, а вычисляет физические взаимодействия. Дороже в развертывании, требует серьезного железа. Мы подробно разбирали его в статье про роботов, которые думают физикой.
- PhysicalAgent: подход, который пытается заставить обычные VLA-модели управлять роботами без переобучения. Работает через специальные промпты и симуляции. Менее точный, но более гибкий. Наш разбор здесь.
- Helix 02 от Figure AI: коммерческое решение для промышленных роботов. Не opensource, зато интегрировано с железом Figure. Про то, как они ушли от ChatGPT-подобных архитектур, мы писали здесь.
Важный нюанс: SenseNova-SI 1.3 требует нормального железа. Минимум - Jetson Orin NX 16GB для edge-развертывания. Для серьезных задач смотрите в сторону Jetson Thor T5000 с его 2070 TFLOPS.
Кому это реально нужно?
Не всем. Если вы делаете чат-бота - проходите мимо. SenseNova-SI для конкретных сценариев:
- Стартапы в робототехнике: когда нет миллионов на лицензии NVIDIA или Google, но нужен современный пространственный интеллект. Модель свободно встраивается в свои продукты.
- Исследовательские лаборатории: Apache 2.0 позволяет модифицировать, доучивать, публиковать производные работы. Идеально для академических проектов.
- Производители дронов и автономной техники: для навигации в сложных средах. Особенно актуально после того, как проблемы с сенсорами и балансом стали главной темой 2025-2026.
- Образовательные проекты: студенты могут развернуть модель на своем ноутбуке (с GPU, конечно) и экспериментировать с робототехникой без облачных API.
Где подводные камни?
Китайское происхождение модели некоторых напрягает. Документация сначала вышла на китайском, английская версия появилась через день. Сообщество пока небольшое - issues в GitHub решаются не мгновенно.
Еще момент: модель обучена преимущественно на азиатских датасетах. Интерьеры, уличные сцены, объекты - все с китайским/японским/корейским уклоном. Для западного рынка可能需要 дообучение.
И да, это все еще исследовательский проект. SenseTime выложили модель, но не готовы предоставлять коммерческую поддержку. Если что-то сломалось в production - разбирайтесь сами или ищите контрактора.
Что дальше?
SenseTime анонсировали SenseNova-SI 2.0 на конец 2026 года. Обещают многомодальность (не только видео, но и лидар, радар, тепловизоры) и интеграцию с симуляторами типа NVIDIA Isaac.
Мой прогноз: через год подобные специализированные opensource-модели станут стандартом для бюджетной робототехники. Гиганты вроде Google и NVIDIA сосредоточатся на премиум-сегменте (вспомните Atlas + Gemini 2026 с их 2000 TFLOPS), а нишевые задачи займут community-проекты.
Попробовать SenseNova-SI 1.3 можно на GitHub. Docker-образы есть, веса скачиваются через Hugging Face. Первый запуск займет минут 20 (модель весит 14 ГБ), зато потом получите state-of-the-art пространственный интеллект бесплатно.
И последнее: если собираетесь использовать модель в коммерческом продукте, проверьте лицензию Apache 2.0 вдоль и поперек. Китайские компании иногда добавляют сюрпризы в мелкий шрифт.