Генерация длинного видео — та самая область, где даже топовые модели спотыкаются о стену памяти. Пока одни исследователи борются с дрейфом сцен через attention маски, другие просто режут точность весов. И у NVIDIA этот трюк вышел настолько изящно, что LongLive-2.0 выдает 45.7 кадров в секунду на одном Blackwell — с открытым кодом, весами и конкретными цифрами ускорения. Разбираемся, что инженеры из NVIDIA сделали с форматом NVFP4 и почему это меняет правила игры для видео AI.
Проблема длинных роликов: почему 5 секунд это потолок
Большинство генеративных видео моделей (CogVideo, OpenSora, Kling) работают в режиме «один раз — и в продакшн». Но стоит попросить 30 секунд плавного движения — и начинается треш: то лица плывут, то фон перестраивается каждые 2 секунды, то GPU падает с OOM. Причина проста: временная размерность растет линейно, а внимание квадратично. Даже на H100 с 80 ГБ невозможно уместить 128 кадров в full precision. Стандартный выход — каскадные диффузии, субдискретизация по времени, либо монтаж на коленке.
LongLive с версии 1.0 обходила это через хитрый temporal attention с sliding window. Но железяка все равно упиралась в пропускную способность памяти. И тут на сцену вышел NVFP4 — формат, который изначально создавался под тензорные ядра Blackwell, но впервые получил сквозное применение к видео.
LongLive-2.0: не просто квантование, а редизайн графа
Первая мысль: «Ну, взяли веса, обрубили до 4 бит, получили 2x ускорение». На деле все сложнее. Инженеры NVIDIA переписали kernel для temporal attention в NVFP4, а не просто применили готовый квантизатор. Ключевой трюк — они хранят не только веса, но и промежуточные активации в том же формате, используя нелинейную экспоненту (1 знак, 1 экспонента, 2 мантиссы). Это позволяет не терять порядок чисел, что критично для градиентов при обучении.
Цифры: обучение LongLive-2.0 с NVFP4 ускорилось в 2.15× по сравнению с FP16, инференс — в 1.84×. При этом качество (FVD, CLIP score) упало менее чем на 2%.
Модель доступна на Hugging Face под лицензией NVIDIA Open Model. В репозитории лежат не только веса в формате NVFP4, но и скрипты для конвертации из FP16, а также готовый пайплайн для diffusers. Для запуска хватит одной RTX 5090 с 32 ГБ — и вы получаете 45.7 FPS при разрешении 512×512 на 32 кадра. Для сравнения, FP16 версия той же модели на H100 выдает около 22 FPS.
Как это работает под капотом: NVFP4 против INT4
В прошлых обзорах мы уже сравнивали NVFP4 и INT4 для LLM. В случае с видео разница еще заметнее: INT4 при 512×512 дает заметную полосатость на градиентах неба и кожи, потому что динамический диапазон весов temporal attention шире, чем у MLP. NVFP4 с плавающей экспонентой буквально «подхватывает» хвосты распределений.
Плюс, NVIDIA добавила специальный fusion: операции масштабирования и quantisation объединены в один kernel, что еще на 20% снизило overhead. В результате LongLive-2.0 на Blackwell обходит своего предшественника на H100 по скорости в 2.1 раза, а по качеству — практически идентично.
Сравнение с альтернативами: CogVideo, OpenSora, Kling
| Модель | FPS (512×512, 32 кадра) | Макс. длина (кадров) | Формат | GPU для инференса |
|---|---|---|---|---|
| LongLive-2.0 (NVFP4) | 45.7 | 256 | NVFP4 | RTX 5090 32GB |
| LongLive-2.0 (FP16) | 24.8 | 256 | FP16 | 2× RTX 5090 |
| CogVideoX-5B | 12.1 | 64 | BF16 | H100 80GB |
| OpenSora 2.0 | 18.3 | 128 | FP16 | A100 80GB |
| Kling 1.6 | — | 120 | FPS (проприетарный) | Только API |
Kling при таком же качестве работает только через облако, CogVideo уступает в скорости в 3.5 раза, а OpenSora не держит длинные последовательности без дрейфа. LongLive-2.0 здесь — единственная open-source модель, способная генерировать 8 секунд видео (256 кадров) в реальном времени на одиночной карте Blackwell.
Запуск: берем из коробки
NVIDIA выложила не только веса, но и готовый пайплайн для diffusers. Чтобы запустить генерацию, хватит четырех строк:
from diffusers import DiffusionPipeline
pipe = DiffusionPipeline.from_pretrained("nvidia/LongLive-2.0-nvfp4")
video = pipe("A cat walking on a tightrope over a cityscape", num_frames=64).frames[0]
То же самое можно сделать через transformers, но diffusers берет на себя всю возню с dtype и device map. Скорость на RTX 5090 — около 0.7 секунды на 64 кадра. Если нужна бОльшая длина — просто увеличьте num_frames до 256, время генерации вырастет линейно до ~3 секунд. Без Out of Memory.
Важный нюанс: для NVFP4 нужны драйверы CUDA 12.8 и карта Blackwell (RTX 5090/5080, B200, HGX B300). На ADA или Hopper формата нет — только эмуляция через софт, но скорости 45 FPS не будет. Впрочем, Software FP8 можно попробовать на старых картах как компромисс.
Кому это нужно прямо сейчас
- Инди-разработчикам игр и анимации — генерировать спрайты и фоны в реальном времени без затрат на облачные GPU.
- Исследователям видео AI — LongLive-2.0 идеально подходит как baseline для дообучения на длинные сцены (например, спортивные трансляции).
- Стартапам в AI-кинематографе — модель под лицензией NVIDIA Open Model допускает коммерческое использование, а скорость позволяет встраивать генерацию прямо в интерфейс редактора.
- Всем, кто устал от 5-секундных гифок — просто для развлечения и экспериментов.
Чего не хватает и что дальше
Пока LongLive-2.0 работает только с разрешением до 768×768 (в NVFP4 — 512×512 out of the box). Для 1080p нужно апскейлить отдельно. Также модель чувствительна к текстовым промптам с абстрактными понятиями — «сюрреализм» может дать непредсказуемый результат. Но это лечится дообучением на 100-200 парах изображение-текст.
Главный прогноз: уже в этом году мы увидим каскад из NVFP4 и Video DiT, где квантизация будет применяться не только на весах, но и на всех промежуточных тензорах. NVIDIA выложила инструменты конвертации, и, судя по тренду, через полгода каждый уважающий себя видео-генератор будет иметь NVFP4-версию. Если у вас есть Blackwell — берите сейчас, пока конкуренты догоняют.