Пока Google показывает Project Genie за закрытыми дверями, а Runway дразнит World Models без исходников, на сцене появляется DreamX-World-5B. И это не очередной демо-ролик, а веса, которые можно скачать и запустить на своём железе. Прямо сейчас. Бесплатно.
Что за зверь и почему он важен
DreamX-World-5B — это диффузионная модель с 5 миллиардами параметров, которая генерирует видео, предсказывая следующий кадр на основе предыдущего и действий камеры. Звучит как типичная world model? Только вот в отличие от конкурентов, у неё есть две killer-фичи: управление камерой (можно менять ракурс, двигаться вперед/назад/вбок) и память локаций (модель запоминает, что находится за кадром, и не телепортирует объекты при смене угла). Это чёртов прорыв для инди-разработчиков и робототехников.
В отличие от gWorld, который генерирует HTML и решает GUI-задачи, DreamX-World-5B ориентирована на физическую симуляцию среды — трава колышется, тени двигаются, предметы не исчезают при повороте камеры.
Разбор полётов: что под капотом
Архитектура — гибрид пространственно-временного диффузионного трансформера. Модель принимает на вход последовательность из 4-8 предыдущих кадров (зависит от версии) и действие камеры (угол, смещение, зум). На выходе — новый кадр. Главный трюк: внутренняя память в виде латентного вектора, который обновляется после каждого шага и хранит информацию о сцене, невидимой в данный момент. Именно за счёт этого достигается консистентность.
Разработчики из команды Dream-X обучили модель на синтетическом датасете из 2 миллионов видеороликов, сгенерированных в Unreal Engine 5.4. Это объясняет, почему она отлично справляется с игровыми сценами, но плавает с реалистичным видео с камер наблюдения. Зато никаких проблем с авторскими правами — всё синтезировано.
| Характеристика | DreamX-World-5B | Runway World Models (закрытая) | Google Genie |
|---|---|---|---|
| Открытость | да (Apache 2.0) | нет | нет |
| Управление камерой | да (6 степеней свободы) | частично (только наклон) | нет (генерирует траектории) |
| Память локаций | да (латентное состояние) | нет | нет |
| Минимальный VRAM | ~12 ГБ (FP16) / 8 ГБ (INT8) | только API | только API |
| Разрешение | 512x512 (настраивается) | 640x480 | 256x256 |
Где это вообще применять?
Да почти везде, где нужна симуляция окружения. Пример №1: робототехника. Вместо того чтобы гонять робота по реальному складу, скармливаете DreamX-World-5B картинку с камеры и действие — она предсказывает, что увидит робот через секунду. Получаете дешёвый симулятор без Unity. Пример №2: инди-игры. Хотите процедурно сгенерировать лес, по которому можно бегать без загрузки уровней? Модель может достраивать мир на лету по мере движения камеры. Забудьте про лоад-скрины.
Пример №3: прототипирование дизайна. Архитекторы и гейм-дизайнеры могут накидать эскиз локации, а модель — показать, как она будет выглядеть с разных ракурсов в динамике. Конечно, до фотореализма далеко, но для итераций — огонь.
Как запустить на своём железе (и не сойти с ума)
Разработчики выложили веса на Hugging Face, код инференса — в репозитории на GitHub. Всё под Apache 2.0, можно коммерциализировать. Требования: GPU с 12+ ГБ VRAM для версии FP16 (например, RTX 3060 12GB, RTX 4060 Ti 16GB, RTX 3090). Если карта слабее — есть квантизованные версии INT8, которые едят ~8 ГБ. Процессор — любой современный, но лучше с поддержкой AVX2.
Установка — стандартная питонячья песня:
git clone https://github.com/dream-x-team/dreamx-world
cd dreamx-world
pip install -r requirements.txt
python download_weights.py # веса ~10 ГБ
Затем запускаете демо с веб-интерфейсом:
python app.py --weights ./weights/dreamx_world_5b_fp16.safetensors
Открываете в браузере localhost:7860. Видите поле для загрузки начального кадра (можно сгенерировать в Midjourney или Stable Diffusion) и слайдеры для управления камерой. Тянете ползунок вправо — камера движется, модель дорисовывает мир. Звучит магически? Работает так же.
Если VRAM впритык (6-8 ГБ), не спешите ставить крест. В репозитории лежит скрипт для последовательной генерации с использованием CPU+GPU гибрида. Скорость — 0.5 кадра в секунду, но это лучше, чем ничего. Аналогичный трюк с Open WebUI для LLM мы уже разбирали.
Для тех, кто хочет погонять модель в пайплайнах: есть Python API. Загружаете модель, передаёте начальное изображение (тензор 3x512x512) и массив действий камеры (например, "камера движется вперёд с поворотом вправо на 15 градусов"). Модель возвращает последовательность кадров. Ниже — минимальный пример без обвеса:
from dreamx_world import DreamXWorld
import torch
model = DreamXWorld.from_pretrained("dreamx/world-5b-fp16")
model.to("cuda")
init_frame = torch.randn(1, 3, 512, 512) # ваш кадр
camera_actions = [
{"dx": 0.1, "dy": 0.0, "dz": 0.0, "pitch": 0.0, "yaw": 5.0, "roll": 0.0},
{"dx": 0.1, "dy": 0.0, "dz": 0.0, "pitch": 0.0, "yaw": 5.0, "roll": 0.0},
# ... ещё 48 шагов глубины
]
frames = model.generate(init_frame, camera_actions, num_steps=50)
# frames.shape -> (50, 3, 512, 512)
Внимание: генерация одного кадра на RTX 3090 занимает ~1.5 секунды (FP16, 50 шагов диффузии). В реальном времени не покатаешься, но для записи видео — норм.
Подводные камни (куда без них)
Модель не умеет работать с текстовыми промптами. Вы не можете сказать "сгенерируй пустыню с кактусами". Она достраивает мир на основе поданного кадра. То есть начальный контент нужно подготовить отдельно. Второй нюанс: при повороте камеры более чем на 60 градусов — объекты могут "размываться" и появляться галлюцинации (дерево превращается в камень). Разработчики знают об этом и обещают улучшить к июлю.
Третье: для смены сцены (переход из комнаты в коридор) модель не подходит — она заточена на плавное исследование одной локации. Но для задач навигации — самое то.
Кому это вообще надо?
- Инди-разработчикам игр, которые хотят быстро прототипировать окружение без моделирования каждого куста.
- Исследователям робототехники — дёшево и сердито симулировать перемещение.
- Энтузиастам open-source, которые уже поднимали локальные LLM и хотят попробовать генерацию видео (благо VRAM-потребление сравнимо с Llama-подобными 7B моделями).
Не советую трогать тем, кто ищет готовый движок для игры "из коробки" — модель слишком непредсказуема для продшена. Но как творческий инструмент — огонь.
Прогноз: открытые world model'и к концу 2026 года станут стандартом для инди-геймдева, вытеснив упрощённые физические движки. DreamX-World-5B — первый ласточка, за ней прилетят десятки. Качайте веса, пока народ не ринулся и bandwidth не захлебнулся.