Пока Google показывает Project Genie за закрытыми дверями, а Runway дразнит World Models без исходников, на сцене появляется DreamX-World-5B. И это не очередной демо-ролик, а веса, которые можно скачать и запустить на своём железе. Прямо сейчас. Бесплатно.

Что за зверь и почему он важен

DreamX-World-5B — это диффузионная модель с 5 миллиардами параметров, которая генерирует видео, предсказывая следующий кадр на основе предыдущего и действий камеры. Звучит как типичная world model? Только вот в отличие от конкурентов, у неё есть две killer-фичи: управление камерой (можно менять ракурс, двигаться вперед/назад/вбок) и память локаций (модель запоминает, что находится за кадром, и не телепортирует объекты при смене угла). Это чёртов прорыв для инди-разработчиков и робототехников.

В отличие от gWorld, который генерирует HTML и решает GUI-задачи, DreamX-World-5B ориентирована на физическую симуляцию среды — трава колышется, тени двигаются, предметы не исчезают при повороте камеры.

Разбор полётов: что под капотом

Архитектура — гибрид пространственно-временного диффузионного трансформера. Модель принимает на вход последовательность из 4-8 предыдущих кадров (зависит от версии) и действие камеры (угол, смещение, зум). На выходе — новый кадр. Главный трюк: внутренняя память в виде латентного вектора, который обновляется после каждого шага и хранит информацию о сцене, невидимой в данный момент. Именно за счёт этого достигается консистентность.

Разработчики из команды Dream-X обучили модель на синтетическом датасете из 2 миллионов видеороликов, сгенерированных в Unreal Engine 5.4. Это объясняет, почему она отлично справляется с игровыми сценами, но плавает с реалистичным видео с камер наблюдения. Зато никаких проблем с авторскими правами — всё синтезировано.

Характеристика	DreamX-World-5B	Runway World Models (закрытая)	Google Genie
Открытость	да (Apache 2.0)	нет	нет
Управление камерой	да (6 степеней свободы)	частично (только наклон)	нет (генерирует траектории)
Память локаций	да (латентное состояние)	нет	нет
Минимальный VRAM	~12 ГБ (FP16) / 8 ГБ (INT8)	только API	только API
Разрешение	512x512 (настраивается)	640x480	256x256

Где это вообще применять?

Да почти везде, где нужна симуляция окружения. Пример №1: робототехника. Вместо того чтобы гонять робота по реальному складу, скармливаете DreamX-World-5B картинку с камеры и действие — она предсказывает, что увидит робот через секунду. Получаете дешёвый симулятор без Unity. Пример №2: инди-игры. Хотите процедурно сгенерировать лес, по которому можно бегать без загрузки уровней? Модель может достраивать мир на лету по мере движения камеры. Забудьте про лоад-скрины.

Пример №3: прототипирование дизайна. Архитекторы и гейм-дизайнеры могут накидать эскиз локации, а модель — показать, как она будет выглядеть с разных ракурсов в динамике. Конечно, до фотореализма далеко, но для итераций — огонь.

💡

Если вы уже экспериментировали с Hunyuan3D для генерации 3D-моделей, то DreamX-World-5B станет отличным дополнением — сначала генерируете ассеты, потом размещаете их в мире через эту модель.

Как запустить на своём железе (и не сойти с ума)

Разработчики выложили веса на Hugging Face, код инференса — в репозитории на GitHub. Всё под Apache 2.0, можно коммерциализировать. Требования: GPU с 12+ ГБ VRAM для версии FP16 (например, RTX 3060 12GB, RTX 4060 Ti 16GB, RTX 3090). Если карта слабее — есть квантизованные версии INT8, которые едят ~8 ГБ. Процессор — любой современный, но лучше с поддержкой AVX2.

Установка — стандартная питонячья песня:

git clone https://github.com/dream-x-team/dreamx-world
cd dreamx-world
pip install -r requirements.txt
python download_weights.py  # веса ~10 ГБ

Затем запускаете демо с веб-интерфейсом:

python app.py --weights ./weights/dreamx_world_5b_fp16.safetensors

Открываете в браузере localhost:7860. Видите поле для загрузки начального кадра (можно сгенерировать в Midjourney или Stable Diffusion) и слайдеры для управления камерой. Тянете ползунок вправо — камера движется, модель дорисовывает мир. Звучит магически? Работает так же.

Если VRAM впритык (6-8 ГБ), не спешите ставить крест. В репозитории лежит скрипт для последовательной генерации с использованием CPU+GPU гибрида. Скорость — 0.5 кадра в секунду, но это лучше, чем ничего. Аналогичный трюк с Open WebUI для LLM мы уже разбирали.

Для тех, кто хочет погонять модель в пайплайнах: есть Python API. Загружаете модель, передаёте начальное изображение (тензор 3x512x512) и массив действий камеры (например, "камера движется вперёд с поворотом вправо на 15 градусов"). Модель возвращает последовательность кадров. Ниже — минимальный пример без обвеса:

from dreamx_world import DreamXWorld
import torch

model = DreamXWorld.from_pretrained("dreamx/world-5b-fp16")
model.to("cuda")

init_frame = torch.randn(1, 3, 512, 512)  # ваш кадр
camera_actions = [
    {"dx": 0.1, "dy": 0.0, "dz": 0.0, "pitch": 0.0, "yaw": 5.0, "roll": 0.0},
    {"dx": 0.1, "dy": 0.0, "dz": 0.0, "pitch": 0.0, "yaw": 5.0, "roll": 0.0},
    # ... ещё 48 шагов глубины
]

frames = model.generate(init_frame, camera_actions, num_steps=50)
# frames.shape -> (50, 3, 512, 512)

Внимание: генерация одного кадра на RTX 3090 занимает ~1.5 секунды (FP16, 50 шагов диффузии). В реальном времени не покатаешься, но для записи видео — норм.

Подводные камни (куда без них)

Модель не умеет работать с текстовыми промптами. Вы не можете сказать "сгенерируй пустыню с кактусами". Она достраивает мир на основе поданного кадра. То есть начальный контент нужно подготовить отдельно. Второй нюанс: при повороте камеры более чем на 60 градусов — объекты могут "размываться" и появляться галлюцинации (дерево превращается в камень). Разработчики знают об этом и обещают улучшить к июлю.

Третье: для смены сцены (переход из комнаты в коридор) модель не подходит — она заточена на плавное исследование одной локации. Но для задач навигации — самое то.

Кому это вообще надо?

Инди-разработчикам игр, которые хотят быстро прототипировать окружение без моделирования каждого куста.
Исследователям робототехники — дёшево и сердито симулировать перемещение.
Энтузиастам open-source, которые уже поднимали локальные LLM и хотят попробовать генерацию видео (благо VRAM-потребление сравнимо с Llama-подобными 7B моделями).

Не советую трогать тем, кто ищет готовый движок для игры "из коробки" — модель слишком непредсказуема для продшена. Но как творческий инструмент — огонь.

Прогноз: открытые world model'и к концу 2026 года станут стандартом для инди-геймдева, вытеснив упрощённые физические движки. DreamX-World-5B — первый ласточка, за ней прилетят десятки. Качайте веса, пока народ не ринулся и bandwidth не захлебнулся.

Подписаться на канал

DreamX-World-5B: как запустить открытую модель генерации миров на своём железе