PEVA: архитектура модели для предсказания видео от первого лица

Не просто генератор, а физический симулятор

Если вы думаете, что PEVA — это очередной Veo 3.1, только для видео от первого лица, то вы ошибаетесь кардинально. Это не генератор контента. Это попытка смоделировать самую базовую человеческую интуицию: когда я делаю шаг вперёд, мир приближается; когда поворачиваю голову направо, в поле зрения появляется то, что было слева.

На 08.02.2026 модель PEVA остаётся одним из немногих открытых проектов, сфокусированных именно на причинно-следственной связи «действие → визуальное изменение», а не на творческой генерации из текста или изображений. В то время как Veo 3.1 и Sora борются за качество картинки, PEVA борется за физическую правдоподобность последовательности кадров.

Архитектура: трёхуровневая иерархия вместо одного большого трансформера

Вот где начинается самое интересное. Вместо того, чтобы запихнуть всё в одну гигантскую нейросеть (как делают многие), разработчики PEVA пошли по пути декомпозиции. Идея проста: мир меняется с разной скоростью. Стены комнаты статичны, чашка на столе может быть перемещена, а тень от окна дрейфует каждую секунду.

1 Уровень статического контекста

Это «память места». Модель кодирует начальный кадр (или несколько начальных кадров) в латентное представление, которое описывает неизменяемые элементы сцены: планировку комнаты, расположение основных объектов, освещение. Этот контекст не пересчитывается на каждом шаге — он служит якорем.

2 Уровень динамики объектов

Самый сложный слой. Здесь модель пытается отслеживать состояние объектов, которые могут двигаться. Чашка, дверь, другой человек. На входе — предыдущее состояние объектов + текущее действие. На выходе — предсказанное новое состояние (позиция, ориентация, возможно, даже деформация). Используется что-то вроде механизма внимания, но не к пикселям, а к объектным токенам.

3 Уровень рендеринга

Финальный этап. Берет обновлённый статический контекст и предсказанные состояния динамических объектов, и «рисует» следующий кадр. Здесь часто применяются диффузионные модели или декодеры типа VQ-GAN, но с важным ограничением: они не выдумывают детали из шума, а скорее интерполируют между известными состояниями.

💡

Ключевое отличие от World Models от Runway: PEVA не строит общую 3D-сцену. Она работает непосредственно в пространстве восприятия агента, что ближе к тому, как на самом деле видит человек или робот — без божественной карты всей локации сверху.

Чем PEVA не является (и почему это важно)

Не универсальный генератор видео. Не попросите её создать сцену из «Звёздных войн» по текстовому описанию. Её домен — предсказуемые физические взаимодействия в знакомых средах.
Не авторегрессионная модель на чистых трансформерах. Такие архитектуры, как в Waypoint-1, предсказывают следующий токен (патч) на основе предыдущих. PEVA же сначала предсказывает состояние мира, а потом рендерит его — это принципиально другой пайплайн.
Не требует тонны текстовых аннотаций. Обучение идёт на парах «действие-видео», собранных с реальных или симулированных агентов. Никаких промптов «человек открывает дверь».

С чем сравнивать в 2026 году? Альтернативы и конкуренты

Инструмент/Модель	Фокус	Чем отличается от PEVA
PEVA (актуальная версия на 08.02.2026)	Предсказание эгоцентричного видео из действий	Иерархическая архитектура, явное моделирование объектов
D4RT	4D-реконструкция сцен (3D + время)	Восстанавливает полную 3D-геометрию из наблюдений, а не предсказывает будущее
World Models (Runway и аналоги)	Генерация целых виртуальных миров	Создание с нуля, а не предсказание следующего кадра конкретного агента
Традиционные подходы в робототехнике (SLAM + планирование)	Навигация и манипуляция	Используют явные геометрические модели, а не нейросетевые предсказания пикселей

Главный конкурент PEVA — даже не другие ИИ-модели, а классические физические симуляторы вроде NVIDIA Isaac Sim или Unity ML-Agents. Но у симуляторов есть проблема: они требуют точных 3D-моделей всего окружения. PEVA учится обходиться без них, предсказывая восприятие напрямую.

Где это уже работает (или скоро заработает)

Представьте, что вы тренируете робота-складского работника. Вместо того, чтобы записывать тысячи часов реального видео с робота (дорого, медленно, опасно), вы генерируете симуляцию с помощью PEVA. Робот в виртуальном пространстве «представляет», что увидит, если протянет руку к определённой коробке. Это ускоряет обучение в разы.

Прототипирование интерфейсов AR/VR. Как изменится картинка в очках, если пользователь повернёт голову? PEVA может дать быстрый ответ без полного рендеринга сцены.
Предсказание траекторий для автономных машин. Не просто «объект движется направо», а «как будет выглядеть дорога из кабины через 2 секунды, если я нажму на тормоз».
Обучение с подкреплением (Reinforcement Learning). Агент может «воображать» последствия своих действий, не выполняя их в реальности — это святой Грааль sample-efficient RL.

Но есть и тёмная сторона. Если PEVA станет достаточно точной, её можно использовать для создания глубоких фейков от первого лица с полным контролем над «действиями» персонажа. Представьте фейковое видео от «очевидца» событий, где каждый поворот головы, каждое движение руки согласовано с генерируемой картинкой. Это новый уровень.

Кому стоит копать в эту сторону?

Если вы исследователь в области embodied AI — это ваш must-read. Если вы инженер в робототехнике и устали от хрупкости классических систем зрения — посмотрите на PEVA как на потенциальный компонент для предсказания. Если вы просто фанат ИИ — это отличный пример того, как поле смещается от «сгенерируй красивую картинку» к «понять, как устроен физический мир».

Модели вроде MOVA или LTX-2 решают задачи творчества. PEVA решает задачу здравого смысла. И в долгосрочной перспективе здравый смысл для ИИ может оказаться ценнее.

Прогноз на 2026-2027: мы увидим гибридные архитектуры, где PEVA-подобный модуль предсказания восприятия будет объединён с крупными языковыми моделями для планирования. Робот будет не только «знать», что нужно взять чашку, но и «представлять», как изменится его камера, когда он это сделает. И тогда embodied AI перестанет быть лабораторной игрушкой.

PEVA под капотом: как модель учится видеть мир через движения тела