NVIDIA Cosmos Policy: world foundation models для роботов в 2026 | AiManual
AiManual Logo Ai / Manual.
29 Янв 2026 Инструмент

NVIDIA Cosmos Policy: как новый подход к управлению роботами меняет архитектуру ИИ

Обзор NVIDIA Cosmos Policy — метода пост-обучения world foundation models для прямого кодирования действий робота. Сравнение с альтернативами, результаты на LIB

Роботы научились думать телом. Наконец-то

До 2025 года научить робота открыть дверь было сложнее, чем объяснить бабушке, как работает Tor. Тысячи строк кода, месяцы обучения в симуляторе, а в реальности — стукнулся о ручку и замер. NVIDIA устала от этого цирка и выпустила Cosmos Policy. Это не очередной фреймворк, а принципиально иной способ заставить ИИ управлять железом.

💡
Суть Cosmos Policy в двух словах: берешь огромную world foundation model (она понимает физику мира), быстро дообучаешь ее на конкретную задачу вроде «возьми чашку», и она сразу выдает последовательность действий для робота. Без промежуточных шагов.

Что разбили, чтобы построить Cosmos Policy

Традиционный подход — это обучение с подкреплением (RL). Робот тыкался в среду, получал награду за успех и миллион лет спустя что-то делал. Потом появились модели вроде Cosmos Reason 2, которые думают физикой. Но они лишь планировали, а выполнять план приходилось старыми методами.

Cosmos Policy убивает разделение на «понимание» и «действие». Модель обучается напрямую кодировать действия (joint positions, усилия gripper) из представления мира. Это как если бы ChatGPT вместо текста генерировал мышечные импульсы для твоей руки.

Под капотом: мир как контекст, действие как токен

Архитектура проста до гениальности. World foundation model (например, Cosmos Predict версии 2026) принимает на вход многомодальные данные: RGB-D изображение, данные с датчиков силы, maybe даже с Jetson Thor. Внутри — трансформер, который выучил физические законы на петабайтах симуляций.

Затем идет фаза пост-обучения. Не надо переучивать всю модель с нуля. Достаточно небольшого датасета демонстраций задачи. Модель адаптирует свои внутренние представления, чтобы предсказывать не следующее состояние мира, а следующее действие робота. Ключевой трюк — представление действий как последовательности токенов, как в языковой модели.

Подход Нужно демо-данных Обобщение на новые объекты Время развертывания
Классическое RL (2024) Миллионы шагов в симуляции Почти нулевое Месяцы
Vision-Language Action модели Тысячи текстовых инструкций Среднее (путает контекст) Недели
NVIDIA Cosmos Policy (2026) Менее 100 демонстраций Высокое (благодаря world model) Часы-дни

Цифры, которые заставляют конкурентов нервно курить

Вся эта теория ничего не стоит без бенчмарков. NVIDIA проверила Cosmos Policy на LIBERO-SP и RoboCasa-Mani. Результаты на январь 2026:

  • LIBERO (манипуляция с объектами): 89.2% успешных задач против 67.5% у лучшего RL-метода. Модель справляется с unseen объектами, потому что world model понимает «чашку» как концепт, а не как набор пикселей.
  • RoboCasa (бытовые сценарии): На 40% быстрее достигает того же уровня мастерства, что и методы на основе Isaac Lab-Arena. И это без тонкой настройки под каждую кухню.

Почему так быстро? Потому что модель не учит мир с нуля. Она уже знает, что предметы падают, жидкости проливаются, а дверцы шкафов открываются на петлях. Пост-обучение лишь связывает это знание с моторикой конкретного манипулятора.

Не обольщайся. Cosmos Policy — не волшебная таблетка. Она жрет вычислительные ресурсы как Dojo Илона Маска. Инференс в реальном времени требует либо облачного кластера, либо бортового компьютера уровня Jetson AGX Thor. Для простых повторяющихся задач на заводе — overkill.

Кому сейчас бежать скачивать код?

Этот инструмент — не для всех.

  1. Исследовательские лаборатории по embodied AI. Cosmos Policy — готовый фундамент для экспериментов. Можно изучать transfer learning между разными роботами или смотреть, как world model обобщает знания.
  2. Стартапы, делающие универсальных домашних роботов. Если твоя цель — робот, который и полы помоет, и посуду расставит, а не пугающий людей Грин от Сбера, то этот подход сократит разработку на годы.
  3. Крупные индустриальные игроки. Не для конвейера с одной задачей, а для гибких производственных ячеек, где сегодня собирают деталь, а завтра — упаковывают продукт. Адаптация за часы, а не месяцы.

Если же ты калибруешь одного сварщика на одной линии, тебе хватит и классического программирования. Не усложняй.

А что дальше? Слияние разума и тела

Cosmos Policy — это шаг к тому, что в NVIDIA называют «Cognitive Embodiment». Следующая логичная ступень — интеграция с моделями рассуждений, такими как Cosmos Reason. Представь: робот не просто берет чашку, а видит разлитый кофе, понимает, что это проблема, ищет тряпку в памяти мира и убирает. Полный цикл восприятие-рассуждение-действие.

Это также ставит интересный вопрос: а не окажется ли, что истинный интеллект рождается не в чистом разуме, а в постоянном взаимодействии с физическим миром? Может, проблема действительно в нас, и чтобы создать разумного агента, его нужно сначала наделить телом, которое умеет действовать. Cosmos Policy — первый уверенный шаг в эту сторону. Остальное — дело времени и терафлопсов.