Не просто генератор, а физический симулятор
Если вы думаете, что PEVA — это очередной Veo 3.1, только для видео от первого лица, то вы ошибаетесь кардинально. Это не генератор контента. Это попытка смоделировать самую базовую человеческую интуицию: когда я делаю шаг вперёд, мир приближается; когда поворачиваю голову направо, в поле зрения появляется то, что было слева.
На 08.02.2026 модель PEVA остаётся одним из немногих открытых проектов, сфокусированных именно на причинно-следственной связи «действие → визуальное изменение», а не на творческой генерации из текста или изображений. В то время как Veo 3.1 и Sora борются за качество картинки, PEVA борется за физическую правдоподобность последовательности кадров.
Архитектура: трёхуровневая иерархия вместо одного большого трансформера
Вот где начинается самое интересное. Вместо того, чтобы запихнуть всё в одну гигантскую нейросеть (как делают многие), разработчики PEVA пошли по пути декомпозиции. Идея проста: мир меняется с разной скоростью. Стены комнаты статичны, чашка на столе может быть перемещена, а тень от окна дрейфует каждую секунду.
1 Уровень статического контекста
Это «память места». Модель кодирует начальный кадр (или несколько начальных кадров) в латентное представление, которое описывает неизменяемые элементы сцены: планировку комнаты, расположение основных объектов, освещение. Этот контекст не пересчитывается на каждом шаге — он служит якорем.
2 Уровень динамики объектов
Самый сложный слой. Здесь модель пытается отслеживать состояние объектов, которые могут двигаться. Чашка, дверь, другой человек. На входе — предыдущее состояние объектов + текущее действие. На выходе — предсказанное новое состояние (позиция, ориентация, возможно, даже деформация). Используется что-то вроде механизма внимания, но не к пикселям, а к объектным токенам.
3 Уровень рендеринга
Финальный этап. Берет обновлённый статический контекст и предсказанные состояния динамических объектов, и «рисует» следующий кадр. Здесь часто применяются диффузионные модели или декодеры типа VQ-GAN, но с важным ограничением: они не выдумывают детали из шума, а скорее интерполируют между известными состояниями.
Чем PEVA не является (и почему это важно)
- Не универсальный генератор видео. Не попросите её создать сцену из «Звёздных войн» по текстовому описанию. Её домен — предсказуемые физические взаимодействия в знакомых средах.
- Не авторегрессионная модель на чистых трансформерах. Такие архитектуры, как в Waypoint-1, предсказывают следующий токен (патч) на основе предыдущих. PEVA же сначала предсказывает состояние мира, а потом рендерит его — это принципиально другой пайплайн.
- Не требует тонны текстовых аннотаций. Обучение идёт на парах «действие-видео», собранных с реальных или симулированных агентов. Никаких промптов «человек открывает дверь».
С чем сравнивать в 2026 году? Альтернативы и конкуренты
| Инструмент/Модель | Фокус | Чем отличается от PEVA |
|---|---|---|
| PEVA (актуальная версия на 08.02.2026) | Предсказание эгоцентричного видео из действий | Иерархическая архитектура, явное моделирование объектов |
| D4RT | 4D-реконструкция сцен (3D + время) | Восстанавливает полную 3D-геометрию из наблюдений, а не предсказывает будущее |
| World Models (Runway и аналоги) | Генерация целых виртуальных миров | Создание с нуля, а не предсказание следующего кадра конкретного агента |
| Традиционные подходы в робототехнике (SLAM + планирование) | Навигация и манипуляция | Используют явные геометрические модели, а не нейросетевые предсказания пикселей |
Главный конкурент PEVA — даже не другие ИИ-модели, а классические физические симуляторы вроде NVIDIA Isaac Sim или Unity ML-Agents. Но у симуляторов есть проблема: они требуют точных 3D-моделей всего окружения. PEVA учится обходиться без них, предсказывая восприятие напрямую.
Где это уже работает (или скоро заработает)
Представьте, что вы тренируете робота-складского работника. Вместо того, чтобы записывать тысячи часов реального видео с робота (дорого, медленно, опасно), вы генерируете симуляцию с помощью PEVA. Робот в виртуальном пространстве «представляет», что увидит, если протянет руку к определённой коробке. Это ускоряет обучение в разы.
- Прототипирование интерфейсов AR/VR. Как изменится картинка в очках, если пользователь повернёт голову? PEVA может дать быстрый ответ без полного рендеринга сцены.
- Предсказание траекторий для автономных машин. Не просто «объект движется направо», а «как будет выглядеть дорога из кабины через 2 секунды, если я нажму на тормоз».
- Обучение с подкреплением (Reinforcement Learning). Агент может «воображать» последствия своих действий, не выполняя их в реальности — это святой Грааль sample-efficient RL.
Но есть и тёмная сторона. Если PEVA станет достаточно точной, её можно использовать для создания глубоких фейков от первого лица с полным контролем над «действиями» персонажа. Представьте фейковое видео от «очевидца» событий, где каждый поворот головы, каждое движение руки согласовано с генерируемой картинкой. Это новый уровень.
Кому стоит копать в эту сторону?
Если вы исследователь в области embodied AI — это ваш must-read. Если вы инженер в робототехнике и устали от хрупкости классических систем зрения — посмотрите на PEVA как на потенциальный компонент для предсказания. Если вы просто фанат ИИ — это отличный пример того, как поле смещается от «сгенерируй красивую картинку» к «понять, как устроен физический мир».
Модели вроде MOVA или LTX-2 решают задачи творчества. PEVA решает задачу здравого смысла. И в долгосрочной перспективе здравый смысл для ИИ может оказаться ценнее.
Прогноз на 2026-2027: мы увидим гибридные архитектуры, где PEVA-подобный модуль предсказания восприятия будет объединён с крупными языковыми моделями для планирования. Робот будет не только «знать», что нужно взять чашку, но и «представлять», как изменится его камера, когда он это сделает. И тогда embodied AI перестанет быть лабораторной игрушкой.