Роботы научились думать телом. Наконец-то
До 2025 года научить робота открыть дверь было сложнее, чем объяснить бабушке, как работает Tor. Тысячи строк кода, месяцы обучения в симуляторе, а в реальности — стукнулся о ручку и замер. NVIDIA устала от этого цирка и выпустила Cosmos Policy. Это не очередной фреймворк, а принципиально иной способ заставить ИИ управлять железом.
Что разбили, чтобы построить Cosmos Policy
Традиционный подход — это обучение с подкреплением (RL). Робот тыкался в среду, получал награду за успех и миллион лет спустя что-то делал. Потом появились модели вроде Cosmos Reason 2, которые думают физикой. Но они лишь планировали, а выполнять план приходилось старыми методами.
Cosmos Policy убивает разделение на «понимание» и «действие». Модель обучается напрямую кодировать действия (joint positions, усилия gripper) из представления мира. Это как если бы ChatGPT вместо текста генерировал мышечные импульсы для твоей руки.
Под капотом: мир как контекст, действие как токен
Архитектура проста до гениальности. World foundation model (например, Cosmos Predict версии 2026) принимает на вход многомодальные данные: RGB-D изображение, данные с датчиков силы, maybe даже с Jetson Thor. Внутри — трансформер, который выучил физические законы на петабайтах симуляций.
Затем идет фаза пост-обучения. Не надо переучивать всю модель с нуля. Достаточно небольшого датасета демонстраций задачи. Модель адаптирует свои внутренние представления, чтобы предсказывать не следующее состояние мира, а следующее действие робота. Ключевой трюк — представление действий как последовательности токенов, как в языковой модели.
| Подход | Нужно демо-данных | Обобщение на новые объекты | Время развертывания |
|---|---|---|---|
| Классическое RL (2024) | Миллионы шагов в симуляции | Почти нулевое | Месяцы |
| Vision-Language Action модели | Тысячи текстовых инструкций | Среднее (путает контекст) | Недели |
| NVIDIA Cosmos Policy (2026) | Менее 100 демонстраций | Высокое (благодаря world model) | Часы-дни |
Цифры, которые заставляют конкурентов нервно курить
Вся эта теория ничего не стоит без бенчмарков. NVIDIA проверила Cosmos Policy на LIBERO-SP и RoboCasa-Mani. Результаты на январь 2026:
- LIBERO (манипуляция с объектами): 89.2% успешных задач против 67.5% у лучшего RL-метода. Модель справляется с unseen объектами, потому что world model понимает «чашку» как концепт, а не как набор пикселей.
- RoboCasa (бытовые сценарии): На 40% быстрее достигает того же уровня мастерства, что и методы на основе Isaac Lab-Arena. И это без тонкой настройки под каждую кухню.
Почему так быстро? Потому что модель не учит мир с нуля. Она уже знает, что предметы падают, жидкости проливаются, а дверцы шкафов открываются на петлях. Пост-обучение лишь связывает это знание с моторикой конкретного манипулятора.
Не обольщайся. Cosmos Policy — не волшебная таблетка. Она жрет вычислительные ресурсы как Dojo Илона Маска. Инференс в реальном времени требует либо облачного кластера, либо бортового компьютера уровня Jetson AGX Thor. Для простых повторяющихся задач на заводе — overkill.
Кому сейчас бежать скачивать код?
Этот инструмент — не для всех.
- Исследовательские лаборатории по embodied AI. Cosmos Policy — готовый фундамент для экспериментов. Можно изучать transfer learning между разными роботами или смотреть, как world model обобщает знания.
- Стартапы, делающие универсальных домашних роботов. Если твоя цель — робот, который и полы помоет, и посуду расставит, а не пугающий людей Грин от Сбера, то этот подход сократит разработку на годы.
- Крупные индустриальные игроки. Не для конвейера с одной задачей, а для гибких производственных ячеек, где сегодня собирают деталь, а завтра — упаковывают продукт. Адаптация за часы, а не месяцы.
Если же ты калибруешь одного сварщика на одной линии, тебе хватит и классического программирования. Не усложняй.
А что дальше? Слияние разума и тела
Cosmos Policy — это шаг к тому, что в NVIDIA называют «Cognitive Embodiment». Следующая логичная ступень — интеграция с моделями рассуждений, такими как Cosmos Reason. Представь: робот не просто берет чашку, а видит разлитый кофе, понимает, что это проблема, ищет тряпку в памяти мира и убирает. Полный цикл восприятие-рассуждение-действие.
Это также ставит интересный вопрос: а не окажется ли, что истинный интеллект рождается не в чистом разуме, а в постоянном взаимодействии с физическим миром? Может, проблема действительно в нас, и чтобы создать разумного агента, его нужно сначала наделить телом, которое умеет действовать. Cosmos Policy — первый уверенный шаг в эту сторону. Остальное — дело времени и терафлопсов.