Вы когда-нибудь пытались повернуть камеру в сгенерированном видео и увидеть, что за углом — пустота?

Добро пожаловать в мир, где этого больше нет. DreamX-World 1.0 — не очередная красивая гифка, а модель, которая помнит, что находится за пределами кадра. И да, она умеет менять ракурс по вашей команде.

Пока Project Genie от Google раздает доступ по списку, а Runway World Models остаются красивым демо, DreamX-World 1.0 уже лежит на Hugging Face с открытыми весами и лицензией Apache 2.0. Пять миллиардов параметров, никаких склеек, никаких провалов в пустоту.

Ключевое отличие от Yume1.5 — именно память сцены. Yume генерирует бесконечные миры, но не хранит 3D-контекст. DreamX-World 1.0 запоминает, где вы были, и объекты не телепортируются при повороте камеры.

Что под капотом: архитектура, которая не разваливается

DreamX-World 1.0 — гибрид пространственно-временного диффузионного трансформера на 5B параметров. На входе — 4-8 предыдущих кадров плюс действие камеры: угол, смещение (WASD), зум. На выходе — новый кадр.

Главный трюк — внутреннее латентное состояние, которое обновляется после каждого шага. Это и есть память сцен. Модель не просто экстраполирует пиксели, а строит внутреннюю карту окружения. Если вы отошли назад, а потом вернулись — мебель стоит на месте. Никаких галлюцинаций с исчезающими стульями.

Обучали на синтетическом датасете из 2 миллионов роликов, сгенерированных в Unreal Engine 5.4. Поэтому трава колышется физично, тени движутся правдоподобно, а вот с камерами наблюдения модель плавает — слишком отличается домен.

💡

Скорость инференса: ~8 FPS на RTX 4090, ~15 FPS на RTX 5090 при разрешении 512x512. Для real-time приложений пока маловато, но для прототипирования — самое то.

Сравнение с конкурентами: кто есть кто

Характеристика	DreamX-World 1.0	Runway World Models	Google Genie	Yume1.5
Открытость	Apache 2.0	закрытая	закрытая	Apache 2.0
Управление камерой	есть (WASD + зум)	нет	ограниченное	есть (WASD)
Память сцен	есть	нет	нет	нет
Макс. длина	бесконечно (авторегрессия)	~10 сек	~5 сек	бесконечно
Требования к GPU	RTX 3090+ (24GB VRAM)	облако	облако	RTX 4090+ (24GB)

Видно, что DreamX-World 1.0 выигрывает по открытости и наличию памяти сцен. Yume1.5 — ближайший конкурент, но без контекстной памяти объекты могут «плавать» при движении камеры.

Где это реально пригодится

Инди-игры. Представьте: уровень генерируется на лету, а игрок может заглянуть за угол, и мир не развалится. DreamX-World 1.0 можно встроить как движок процедурной генерации.
Симуляторы для робототехники. Модель мира с консистентной геометрией — идеальный полигон для обучения policy. Робот «видит» виртуальную среду, но может взаимодействовать с ней через камеру.
Архитектурная визуализация. Вместо запеченных панорам — живая сцена, по которой можно «гулять». Всё меняется в реальном времени.
VR/AR. Контроль камеры и память сцен — именно то, чего не хватает современным VR-пространствам на основе ИИ.

На практике я попробовал запустить на RTX 5090 — 15 FPS при 512x512. Этого маловато для комфортного геймплея, но для прототипирования и неинтерактивной симуляции — отлично. Waypoint-1, к слову, использует похожий принцип, но с акцентом на игровые сценарии — там динамика выше.

Технические детали: как это работает (и не работает)

Архитектура — диффузионный трансформер с пространственными и временными attention-слоями. Модель принимает 4 предыдущих кадра плюс маску действия камеры (вектор перемещения/поворота). Внутреннее состояние — латентный вектор размером 1024, который обновляется после каждого шага через GRU-подобный механизм.

Этапы обучения:

Stage 1: Предобучение на статичных сценах (1M изображений из UE5). Модель учится реконструировать 3D-сцену из одного кадра.
Stage 2: Обучение на коротких клипах (2-8 кадров) с действиями камеры. Вводится модуль памяти.
Stage 3: Дообучение на длинных последовательностях (до 64 кадров) с регуляризацией, чтобы избежать дрейфа.

Проблемы: модель склонна к размытию на длинных дистанциях (после 30-40 шагов). Авторы обещают в следующих версиях улучшить консистентность через temporal attention с увеличенным receptive field. Также есть артефакты при резких поворотах камеры — как будто изображение «переламывается».

Предупреждение: DreamX-World 1.0 не предназначен для генерации реалистичных портретов или лиц. Если попытаетесь сгенерировать человека в движении — получите uncanny valley. Используйте только для сцен, ландшафтов, объектов.

Кому стоит загрузить модель уже сегодня

Инди-разработчикам, которые хотят встроить процедурную генерацию миров в свою игру (Unreal Engine 5.5+).
Исследователям в области world models — можно использовать как бейзлайн для сравнения с новыми архитектурами.
Робототехникам, которым нужна консистентная среда для симуляции.
Всем, кто устал от закрытых API и хочет иметь контроль над своим контентом.

Не подойдет, если нужно генерировать видео с людьми, или если у вас видеокарта с менее чем 12GB VRAM — модель просто не влезет. Но для 24GB (RTX 3090/4090/5090) — идеальный вариант.

Кстати, D4RT решает смежную задачу — 4D-реконструкцию сцен из обычного видео, но не умеет генерировать новые виды по запросу. DreamX-World 1.0 — про генерацию и интерактив, D4RT — про реконструкцию.

Пара слов о будущем

Команда Dream-X уже анонсировала DreamX-World 2.0 на конец 2026 года. Обещают: увеличение разрешения до 1024x1024, поддержку аудио и управление через текстовые промпты. Если добавят еще и физику объектов — это будет практически готовый движок для игр.

А пока — берите 1.0, ставьте эксперименты и не забывайте, что лучшая модель мира та, что лежит на вашем диске, а не в чужом облаке.

Подписаться на канал

DreamX-World 1.0: Камера в кармане у модели мира — и никаких склеек