Публикация AiManual

GRASP: как ИИ научили планировать на 1000 шагов вперед без потери градиентов

Новый метод GRASP решает проблему плохой обусловленности градиентов в world models. Позволяет планировать на тысячи шагов в робототехнике и RL. Разбор подхода.

4 мин чтения 31.05.2026

Коротко

Что будет в материале

01
Проклятие длинного горизонта
02
Что не так с обычным градиентным планированием?
03
Как GRASP переворачивает игру
04
Почему это важно прямо сейчас

Проклятие длинного горизонта

Когда вы обучаете робота собирать стул на складе, вы не можете просто сказать ему: "поверни локтевой сустав на 15 градусов". Нужно предвидеть последствия каждого движения на сотни шагов вперед. Классические world модели — они же обученные симуляторы — отлично предсказывают следующий кадр. Но попробуйте развернуть градиенты через 500 шагов — и они либо взрываются, либо затухают до нуля. Это проблема плохой обусловленности (ill-conditioning).

Именно ее решает GRASP — градиентный планировщик, который недавно (май 2026) представила исследовательская группа из MIT и Berkeley. Название расшифровывается как Gradient-based Receding-horizon Action Scheduler with Preconditioning. Звучит сложно. На деле — элегантный трюк, который заставляет world модели работать там, где раньше они пасовали.

Что не так с обычным градиентным планированием?

В типичном подходе вы берете world модель (скажем, NeuralODE или Transformer, как в World Models от Runway), дифференцируете функцию потерь по последовательности действий и делаете шаг градиентного спуска. Но матрица Гессе (вторая производная) такой задачи оказывается экстремально вытянутой: одни собственные значения на порядки больше других. Градиентный спуск начинает дергаться, как пьяный маятник. На коротких горизонтах (до 20 шагов) это еще терпимо. На длинных — катастрофа.

Проблема давно известна. Еще в 2024 году команда DeepMind показывала, что без preconditioning градиентное планирование на горизонте 50 шагов в 70% случаев сходится к локальному минимуму, где робот просто стоит на месте. Техники типа GRPO из Unsloth помогают обучать политику, но не планировать онлайн.

Как GRASP переворачивает игру

Авторы GRASP предлагают не изобретать новый оптимизатор, а изменить саму постановку задачи. Вместо того чтобы минимизировать сумму потерь по всей траектории, они разбивают горизонт на окна, внутри которых решают локальную задачу с динамическим предобуславливанием.

Суть трюка: на каждом шаге GRASP вычисляет не просто градиент, а приближенную обратную матрицу Гессе (используя low-rank аппроксимацию через L-BFGS). Это превращает хаотичный ландшафт в почти параболический — градиентный спуск сходится за 5-10 итераций вместо 200.

Но самое интересное — GRASP использует репараметризацию действий. Вместо того чтобы планировать сырые моторные команды, он ищет коэффициенты для набора базовых примитивов ("схватить", "повернуть", "передвинуть"). Это снижает размерность пространства поиска и автоматически сглаживает градиенты.

Результаты на бенчмарках впечатляют: на задаче манипуляции в среде DMControl (горизонт 500 шагов) GRASP находит успешные траектории в 94% случаев, тогда как vanilla gradient descent — в 12%. Навигация в лабиринте (2000 шагов) — 87% против 3%.

Почему это важно прямо сейчас

World модели переживают ренессанс. Недавно мы писали, что world models — следующий прорыв, который заставит LLM выглядеть как калькулятор. И это правда: модели, которые понимают физику мира, а не просто предсказывают следующий токен, нужны роботам, автопилотам, симуляторам климата. Но без работающего планировщика эти модели остаются просто красивыми генераторами видео.

GRASP закрывает дыру. Теперь у нас есть метод, который умеет использовать world model для принятия решений, а не только для предсказаний. И да, он работает out-of-the-box с любой дифференцируемой моделью — хоть с открытой LingBot-World, хоть с проприетарными решениями.

⚠️

Важный нюанс: GRASP пока не умеет работать в real-time на бортовых компьютерах. Вычисления обратной матрицы Гессе требуют ~50 мс на один шаг планирования на A100. Для стационарных роботов это приемлемо, для дронов — нет. Вероятно, в ближайшие месяцы появятся упрощенные версии.

Как это выглядит на практике

Допустим, у вас есть мир, где робот-рука должна собрать кубик Рубика. Вы берете предобученную world модель (предиктор следующего состояния), подключаете GRASP, задаете целевую конфигурацию кубика. Планировщик за 3-4 секунды строит последовательность из 200 действий — и робот выполняет сборку без единого дополнительного обучения.

Ключевое отличие от классического MPC (Model Predictive Control): GRASP не требует точной модели динамики. World model может быть аппроксимирована нейросетью, обученной на сырых данных — и GRASP все равно найдет хороший план. Это сдвиг парадигмы: теперь робот может планировать в мире, который он видел только на видео.

Ждать ли open-source код?

Авторы обещают выложить референсную реализацию на PyTorch в июне 2026. Пока доступен только технический репорт на arXiv и демо-видео. Но детали описаны настолько подробно, что любой опытный инженер может воспроизвести метод за пару дней. Главное — иметь под рукой GPU с 16+ ГБ памяти.

Мы уже видим, как стартапы вроде Marble World Labs (проект Fei-Fei Li) интересуются GRASP для своих 3D-симуляторов. Если метод сможет работать с визуальными world моделями (а не только с state-based), нас ждет взрыв в области робототехники. Дроны, которые никогда не тренировались в симуляторе, но умеют планировать движения на лету — это уже не фантастика.

Единственное, что смущает: авторы ни слова не сказали о мультимодальности. А ведь настоящая world model должна учитывать и звук, и тактильные ощущения, и запахи. Но это уже вопрос к моделям, а не к планировщику. GRASP честно делает свою работу — разворачивает градиенты там, где другие сдаются. И это прекрасно.

Неочевидный вывод

Самый большой урок GRASP не в том, как круто предобуславливать Гессе. А в том, что ключевая проблема длинных горизонтов — не сложность динамики, а плохая численная обусловленность. И методы линейной алгебры, которые мы знаем еще с 80-х, внезапно становятся суперсилой в эпоху нейросетей. Может, стоит почаще заглядывать в старые учебники по численным методам, а не гнаться за очередным transformer'ом?

Подписаться на канал