PEVA: архитектура модели для предсказания видео от первого лица | AiManual
AiManual Logo Ai / Manual.
08 Фев 2026 Инструмент

PEVA под капотом: как модель учится видеть мир через движения тела

Технический разбор архитектуры PEVA — модели, предсказывающей эгоцентричное видео по действиям. Принципы работы, сравнение с альтернативами и практическое приме

Не просто генератор, а физический симулятор

Если вы думаете, что PEVA — это очередной Veo 3.1, только для видео от первого лица, то вы ошибаетесь кардинально. Это не генератор контента. Это попытка смоделировать самую базовую человеческую интуицию: когда я делаю шаг вперёд, мир приближается; когда поворачиваю голову направо, в поле зрения появляется то, что было слева.

На 08.02.2026 модель PEVA остаётся одним из немногих открытых проектов, сфокусированных именно на причинно-следственной связи «действие → визуальное изменение», а не на творческой генерации из текста или изображений. В то время как Veo 3.1 и Sora борются за качество картинки, PEVA борется за физическую правдоподобность последовательности кадров.

Архитектура: трёхуровневая иерархия вместо одного большого трансформера

Вот где начинается самое интересное. Вместо того, чтобы запихнуть всё в одну гигантскую нейросеть (как делают многие), разработчики PEVA пошли по пути декомпозиции. Идея проста: мир меняется с разной скоростью. Стены комнаты статичны, чашка на столе может быть перемещена, а тень от окна дрейфует каждую секунду.

1 Уровень статического контекста

Это «память места». Модель кодирует начальный кадр (или несколько начальных кадров) в латентное представление, которое описывает неизменяемые элементы сцены: планировку комнаты, расположение основных объектов, освещение. Этот контекст не пересчитывается на каждом шаге — он служит якорем.

2 Уровень динамики объектов

Самый сложный слой. Здесь модель пытается отслеживать состояние объектов, которые могут двигаться. Чашка, дверь, другой человек. На входе — предыдущее состояние объектов + текущее действие. На выходе — предсказанное новое состояние (позиция, ориентация, возможно, даже деформация). Используется что-то вроде механизма внимания, но не к пикселям, а к объектным токенам.

3 Уровень рендеринга

Финальный этап. Берет обновлённый статический контекст и предсказанные состояния динамических объектов, и «рисует» следующий кадр. Здесь часто применяются диффузионные модели или декодеры типа VQ-GAN, но с важным ограничением: они не выдумывают детали из шума, а скорее интерполируют между известными состояниями.

💡
Ключевое отличие от World Models от Runway: PEVA не строит общую 3D-сцену. Она работает непосредственно в пространстве восприятия агента, что ближе к тому, как на самом деле видит человек или робот — без божественной карты всей локации сверху.

Чем PEVA не является (и почему это важно)

  • Не универсальный генератор видео. Не попросите её создать сцену из «Звёздных войн» по текстовому описанию. Её домен — предсказуемые физические взаимодействия в знакомых средах.
  • Не авторегрессионная модель на чистых трансформерах. Такие архитектуры, как в Waypoint-1, предсказывают следующий токен (патч) на основе предыдущих. PEVA же сначала предсказывает состояние мира, а потом рендерит его — это принципиально другой пайплайн.
  • Не требует тонны текстовых аннотаций. Обучение идёт на парах «действие-видео», собранных с реальных или симулированных агентов. Никаких промптов «человек открывает дверь».

С чем сравнивать в 2026 году? Альтернативы и конкуренты

Инструмент/Модель Фокус Чем отличается от PEVA
PEVA (актуальная версия на 08.02.2026) Предсказание эгоцентричного видео из действий Иерархическая архитектура, явное моделирование объектов
D4RT 4D-реконструкция сцен (3D + время) Восстанавливает полную 3D-геометрию из наблюдений, а не предсказывает будущее
World Models (Runway и аналоги) Генерация целых виртуальных миров Создание с нуля, а не предсказание следующего кадра конкретного агента
Традиционные подходы в робототехнике (SLAM + планирование) Навигация и манипуляция Используют явные геометрические модели, а не нейросетевые предсказания пикселей

Главный конкурент PEVA — даже не другие ИИ-модели, а классические физические симуляторы вроде NVIDIA Isaac Sim или Unity ML-Agents. Но у симуляторов есть проблема: они требуют точных 3D-моделей всего окружения. PEVA учится обходиться без них, предсказывая восприятие напрямую.

Где это уже работает (или скоро заработает)

Представьте, что вы тренируете робота-складского работника. Вместо того, чтобы записывать тысячи часов реального видео с робота (дорого, медленно, опасно), вы генерируете симуляцию с помощью PEVA. Робот в виртуальном пространстве «представляет», что увидит, если протянет руку к определённой коробке. Это ускоряет обучение в разы.

  • Прототипирование интерфейсов AR/VR. Как изменится картинка в очках, если пользователь повернёт голову? PEVA может дать быстрый ответ без полного рендеринга сцены.
  • Предсказание траекторий для автономных машин. Не просто «объект движется направо», а «как будет выглядеть дорога из кабины через 2 секунды, если я нажму на тормоз».
  • Обучение с подкреплением (Reinforcement Learning). Агент может «воображать» последствия своих действий, не выполняя их в реальности — это святой Грааль sample-efficient RL.

Но есть и тёмная сторона. Если PEVA станет достаточно точной, её можно использовать для создания глубоких фейков от первого лица с полным контролем над «действиями» персонажа. Представьте фейковое видео от «очевидца» событий, где каждый поворот головы, каждое движение руки согласовано с генерируемой картинкой. Это новый уровень.

Кому стоит копать в эту сторону?

Если вы исследователь в области embodied AI — это ваш must-read. Если вы инженер в робототехнике и устали от хрупкости классических систем зрения — посмотрите на PEVA как на потенциальный компонент для предсказания. Если вы просто фанат ИИ — это отличный пример того, как поле смещается от «сгенерируй красивую картинку» к «понять, как устроен физический мир».

Модели вроде MOVA или LTX-2 решают задачи творчества. PEVA решает задачу здравого смысла. И в долгосрочной перспективе здравый смысл для ИИ может оказаться ценнее.

Прогноз на 2026-2027: мы увидим гибридные архитектуры, где PEVA-подобный модуль предсказания восприятия будет объединён с крупными языковыми моделями для планирования. Робот будет не только «знать», что нужно взять чашку, но и «представлять», как изменится его камера, когда он это сделает. И тогда embodied AI перестанет быть лабораторной игрушкой.