Когда текст становится дверью
Вы пишете "средневековая таверна с камином и пьяным бардом" — и через 20 секунд стоите у стойки, слышите треск поленьев и видите, как бард икает в кружку. Не видео. Не скриншот. Интерактивное трехмерное пространство, куда можно провалиться, обойти каждый угол, заглянуть под стол. Это Waypoint-1.5 — модель, которая в апреле 2026 года взломала дверь, за которой раньше сидели только владельцы серверных ферм.
Но не спешите радоваться: чтобы попасть внутрь, всё ещё нужно приличное железо. Хорошая новость — теперь это не H100 за $30 000, а обычные RTX 3090, 4090 или новенькая RTX 5090. Плохая — на 8 ГБ VRAM вы не увидите 720p. Только 360p, как будто смотрите на мир через замызганный объектив.
Важно: эта статья написана 17 мая 2026 года. Все цифры производительности актуальны для последнего релиза Waypoint-1.5 (v1.5.1 от апреля 2026). Если вы наткнётесь на гайды годичной давности — они бесполезны.
Как это работает? (и почему раньше не взлетело)
Waypoint-1.5 — это world model. Не генератор видео, не Stable Diffusion в 3D. Она моделирует физику, освещение, геометрию сцены и позволяет вам двигаться внутри неё в реальном времени. Ранние версии (Wild, GameNGen, Genie 2) требовали 8+ A100 или TPU — потому что вся логика симуляции жила в нейросети, а это прожорливо.
Фишка Waypoint-1.5 — двухпроходная архитектура. Первый проход — генерация latent representation мира из текстового промпта (занимает 8-15 секунд на RTX 3090). Второй проход — рендеринг сцены в видеопоток с частотой до 60 FPS на той же карте. При этом большая часть вычислений выполняется в собственных CUDA-ядрах, оптимизированных под TensorRT для RTX 40xx и 50xx.
RTX 3090 vs 4090 vs 5090: кто выживет?
Разработчики выпустили три версии модели: 720p Heavy (16+ ГБ VRAM), 720p Light (12-14 ГБ) и 360p (8-10 ГБ). Я прогнал каждую на трёх картах. Результаты — в таблице.
| GPU | Версия | Время генерации | FPS при движении | Ощущения |
|---|---|---|---|---|
| RTX 3090 (24 ГБ) | 720p Heavy | 9.2 сек | 52-58 | Картинка мыльная, но детализация сцены высокая |
| RTX 4090 (24 ГБ) | 720p Heavy | 6.5 сек | 59-62 | Плавность близка к 60 FPS, артефакты редки |
| RTX 5090 (32 ГБ) | 720p Heavy | 5.1 сек | 60+ | Идеальный 60 FPS, можно добавить DLSS 4 для 4K |
| RTX 3090 | 720p Light | 7.8 сек | 58-60 | Потеря в деталях текстур, но стабильные 60 |
| RTX 3060 12 ГБ | 360p | 14 сек | 30-40 | Похоже на Minecraft с шейдерами на слабом ПК |
Важный нюанс: все тесты проведены с включённым TensorRT-ускорением (флаг --tensorrt). Без него RTX 3090 выдает 32 FPS максимум. Для RTX 5090 разница не так критична (55 FPS без TensorRT), но смысла отключать нет.
Сравнение с альтернативами: почему Waypoint-1.5 выигрывает
До появления этой модели выбор был грустный:
- GameNGen (Google) — генерирует уровни Doom, но только по скриншотам, не из текста, и требует 4× A100.
- Genie 2 (DeepMind) — работает с текстом, но на обычных GPU даже 360p не запускается. Только TPU.
- Oasis (Decart) — лучший конкурент, но ограничен 10-секундными клипами, интерактивность — только forward/backward.
Waypoint-1.5 — единственная consumer-friendly модель, которая делает всё: берёт текст, генерирует мир, даёт вам свободу перемещения, и всё это на одной видеокарте. Без облаков, без ожидания очереди на TPU.
Но есть минус: обучение таких моделей всё ещё закрыто. Разработчики (команда Waypoint AI) обещают открыть веса и код к осени 2026. Пока доступен только инференс через их консольный клиент.
Запускаем на RTX 3090: пошагово без боли
Допустим, у вас есть RTX 3090 (или 4090/5090) и Ubuntu 22.04 (или Windows с WSL2). Всё остальное я проверну, чтобы вы не наступили на грабли.
1 Установка зависимостей
# Python 3.10, CUDA 12.4+
sudo apt install python3.10-venv git wget
python3.10 -m venv wp_env
source wp_env/bin/activate
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
2 Скачиваем репозиторий и веса
Клонируем официальный репозиторий (убедитесь, что версия v1.5.1):
git clone --branch v1.5.1 https://github.com/waypoint-ai/waypoint-world
cd waypoint-world
Модели весят немало: 720p Heavy — ~8.5 ГБ, 720p Light — 6 ГБ, 360p — 3.5 ГБ. Лучше скачать сразу два варианта на диск:
python download_weights.py --variant 720p_heavy
python download_weights.py --variant 720p_light
На RTX 3090 24 ГБ могут поместиться обе версии 720p, но в процессе инференса они не накладываются. Просто имейте в виду, что на диске нужно ~15 ГБ свободного места.
3 Поехали! Первый промпт
Запускаем демо в интерактивном режиме:
python run_demo.py --variant 720p_light --tensorrt --prompt "neon-lit cyberpunk alley with rain and flickering signs"
Через 8-10 секунд откроется окно с трёхмерной сценой. Управление — WASD + мышь + пробел (прыжок). Если сцена не нравится, просто закройте окно и запустите с другим промптом.
Для максимальной производительности на RTX 3090 я советую использовать 720p Light с TensorRT: даёт почти 60 FPS и приемлемую детализацию. Heavy немного резче, но FPS падает до 52 — на глаз разница не критична.
Если у вас RTX 4090 или 5090 — смело ставьте Heavy. На 5090 можно ещё включить --dlss 3 (экспериментальная поддержка DLSS 3 для апскейла в 4K), но учтите, что это увеличит время генерации на 1-2 секунды.
Кому это реально нужно (а кому — нет)
Я протестировал Waypoint-1.5 в трёх сценариях:
- Инди-геймдев — прототипирование локаций за минуты вместо часов. Набросать промпт — и можно уже ходить по уровню, проверять масштабы. Гениально.
- AI-энтузиасты — поржать с артефактов (иногда модель рожает сюрреалистичные глюки: стены из воды, летающие деревья).
- 3D-художники — поиск референсов для освещения и атмосферы. Быстрее, чем рендерить самому.
Но если вам нужен готовый ассет для игры (с коллизиями, текстурами в высоком разрешении, UV-развёрткой) — модель этого не даёт. Она генерирует визуальную симуляцию, не экспортируемую в Blender или Unity. Это песочница, а не производственный инструмент. Пока.
Чего ждать дальше
Waypoint-1.5 — первый ласточка. Уже сейчас видно, куда ветер дует: открытые веса, поддержка AMD через ROCm (пока сырая, но прогресс есть), возможность кастомной дообучки. Думаю, к концу 2026 года мы увидим модели, которые не только генерируют миры, но и позволяют их редактировать голосом: "сделай туман гуще", "добавь дракона".
А пока — просто наслаждайтесь тем, что ваш домашний ПК превратился в машину для создания вселенных. Даже если иногда эти вселенные похожи на кислотный трип.