Архитектура памяти ELMUR для роботов — решение проблем VLA моделей

Роботы не тупеют — они просто забывают. И это проблема

Если вы когда-нибудь пытались накормить робота длинной инструкцией вроде «возьми со стола красную кружку, потом отнеси на кухню, но если увидишь кота — вернись и закрой дверь», то знаете: модель виснет на полпути. VLA (Vision-Language-Action) архитектуры отлично понимают, что видят, но когда дело доходит до последовательности из пятидесяти шагов — начинается ад. Квадратичная сложность внимания Transformer жрет память как не в себя. На ICLR 2026 группе из MIT и Stanford показали ELMUR — архитектуру долговременной памяти, которая обещает разорвать этот порочный круг.

Суть проблемы: стандартное self-attention в VLA-моделях растёт как O(n²) по длине контекста — каждый новый шаг умножает количество операций на все предыдущие. Робот, работающий в реальном времени, не может позволить себе такой роскоши.

Что такое VLA и почему они захлебываются?

Vision-Language-Action модели — это гибрид, который принимает на вход картинку с камеры и текстовую команду, а на выходе выдает управляющие сигналы для моторов. Мы уже разбирали, как они работают, в статье «VLA vs VLM 2025: как заставить роботов думать глазами, а не текстом». С одним но: ни одна из них не умеет хранить контекст дольше десятка шагов без чудовищного расхода VRAM.

Попытки «склеить» историю через рекуррентные блоки внутри трансформера — как заплатка на дырявом ведре. ELMUR же предлагает отдельный модуль памяти, который не трогает механизм внимания, а работает поверх него.

Как ELMUR обходит квадратичную сложность: три трюка

Название расшифровывается как Efficient Long-term Memory Unit for Robots. Авторы не стали изобретать новый слой внимания — они добавили внешнюю память с линейной сложностью O(n). Вот как это работает:

Сжатие наблюдений. Каждый кадр с камеры и текст команды ELMUR кодирует в компактный эмбеддинг фиксированного размера — неважно, прошла секунда или час. Это как сжимать видео в гифку, только умнее.
Адресация по ключам. Вместо того чтобы attention «смотрел» на все предыдущие шаги, ELMUR использует ассоциативную память: текущий контекст генерирует запрос, а память отдаёт только релевантные фрагменты. Никакого перебора всего подряд.
Ленивое обновление. Память не пересчитывается после каждого шага — она обновляется только когда робот выполняет значимое действие (например, сменил объект или изменил траекторию). Остальное время — тишина.

В результатах — сокращение времени инференса в 8–12 раз на сценариях с 300+ шагов (например, навигация по офису). И это без потери точности: на бенчмарке LoCoBot ELMUR показал 94% успеха против 78% у обычного VLA с полным вниманием.

Практическая ценность: не только для роботов с суперкомпьютером

Самое вкусное — ELMUR нормально работает на embedded-железе. Вспомните наш гайд «Как запустить VLA-модель для роботов на embedded-платформе»: там мы мучились с асинхронным инференсом, чтобы втиснуть контекст в ограниченную память. С ELMUR даже один модуль памяти может обслуживать несколько задач параллельно — робот не теряет нить, даже если его прервали.

Более того, авторы утверждают, что ELMUR совместим с любыми VLA-моделями — от OpenVLA до RT-2-XL. Фишка в том, что память подключается как дополнительный энкодер, и дообучать всю модель не нужно. Это напоминает технику, которую мы обсуждали в материале про «лоботомические слои» — только здесь не надо резать нейроны, память просто даёт недостающую информацию.

Не всё так радужно: где ELMUR пасует

Критики уже заметили: модуль памяти добавляет задержку в 10–15 мс на чтение/запись. Для высокочастотного управления манипуляторами (100 Гц) это критично. На полностью офлайн роботе на Jetson Orin такой лаг может привести к тому, что схват пролетит мимо детали. Но для задач навигации и долгосрочного планирования — идеально.

Ещё один минус: память не хранит raw-видео. Если роботу нужно «вспомнить», как именно выглядела деталь десять минут назад, он получит только сжатый эмбеддинг — потеря деталей неизбежна. Впрочем, авторы обещают в следующей версии добавить иерархическую память, где будет и «грубый» контекст, и «точные» слепки по запросу.

Ближайшее будущее: ELMUR как стандарт для VLA

На ICLR 2026 уже анонсировали форк ELMUR под названием MELMUR (Multimodal ELMUR) с поддержкой аудио и тактильной обратной связи. И это логично: если у робота есть микрофон и касание, память должна уметь связывать звук с действием. Как это будет работать — посмотрим на ближайших воркшопах.

Мой прогноз: через год ни одна VLA-модель не выйдет без встроенного модуля долговременной памяти. Квадратичная сложность станет уделом старых бенчмарков, а роботы начнут наконец-то запоминать, что они делали пять минут назад. И, может быть, перестанут биться об одну и ту же стену.

💡

Хотите проверить ELMUR на практике? Код и веса уже открыты на GitHub. Для запуска на домашнем железе советуем сначала прочитать гайд «Как запустить огромные LLM на домашнем ПК» — оптимизация памяти там пригодится и для VLA.

Подписаться на канал

ELMUR на ICLR 2026: как долговременная память для роботов добивает квадратичное проклятие VLA