Генерация длинного видео — та самая область, где даже топовые модели спотыкаются о стену памяти. Пока одни исследователи борются с дрейфом сцен через attention маски, другие просто режут точность весов. И у NVIDIA этот трюк вышел настолько изящно, что LongLive-2.0 выдает 45.7 кадров в секунду на одном Blackwell — с открытым кодом, весами и конкретными цифрами ускорения. Разбираемся, что инженеры из NVIDIA сделали с форматом NVFP4 и почему это меняет правила игры для видео AI.

Проблема длинных роликов: почему 5 секунд это потолок

Большинство генеративных видео моделей (CogVideo, OpenSora, Kling) работают в режиме «один раз — и в продакшн». Но стоит попросить 30 секунд плавного движения — и начинается треш: то лица плывут, то фон перестраивается каждые 2 секунды, то GPU падает с OOM. Причина проста: временная размерность растет линейно, а внимание квадратично. Даже на H100 с 80 ГБ невозможно уместить 128 кадров в full precision. Стандартный выход — каскадные диффузии, субдискретизация по времени, либо монтаж на коленке.

LongLive с версии 1.0 обходила это через хитрый temporal attention с sliding window. Но железяка все равно упиралась в пропускную способность памяти. И тут на сцену вышел NVFP4 — формат, который изначально создавался под тензорные ядра Blackwell, но впервые получил сквозное применение к видео.

LongLive-2.0: не просто квантование, а редизайн графа

Первая мысль: «Ну, взяли веса, обрубили до 4 бит, получили 2x ускорение». На деле все сложнее. Инженеры NVIDIA переписали kernel для temporal attention в NVFP4, а не просто применили готовый квантизатор. Ключевой трюк — они хранят не только веса, но и промежуточные активации в том же формате, используя нелинейную экспоненту (1 знак, 1 экспонента, 2 мантиссы). Это позволяет не терять порядок чисел, что критично для градиентов при обучении.

Цифры: обучение LongLive-2.0 с NVFP4 ускорилось в 2.15× по сравнению с FP16, инференс — в 1.84×. При этом качество (FVD, CLIP score) упало менее чем на 2%.

Модель доступна на Hugging Face под лицензией NVIDIA Open Model. В репозитории лежат не только веса в формате NVFP4, но и скрипты для конвертации из FP16, а также готовый пайплайн для diffusers. Для запуска хватит одной RTX 5090 с 32 ГБ — и вы получаете 45.7 FPS при разрешении 512×512 на 32 кадра. Для сравнения, FP16 версия той же модели на H100 выдает около 22 FPS.

Как это работает под капотом: NVFP4 против INT4

В прошлых обзорах мы уже сравнивали NVFP4 и INT4 для LLM. В случае с видео разница еще заметнее: INT4 при 512×512 дает заметную полосатость на градиентах неба и кожи, потому что динамический диапазон весов temporal attention шире, чем у MLP. NVFP4 с плавающей экспонентой буквально «подхватывает» хвосты распределений.

Плюс, NVIDIA добавила специальный fusion: операции масштабирования и quantisation объединены в один kernel, что еще на 20% снизило overhead. В результате LongLive-2.0 на Blackwell обходит своего предшественника на H100 по скорости в 2.1 раза, а по качеству — практически идентично.

Сравнение с альтернативами: CogVideo, OpenSora, Kling

Модель	FPS (512×512, 32 кадра)	Макс. длина (кадров)	Формат	GPU для инференса
LongLive-2.0 (NVFP4)	45.7	256	NVFP4	RTX 5090 32GB
LongLive-2.0 (FP16)	24.8	256	FP16	2× RTX 5090
CogVideoX-5B	12.1	64	BF16	H100 80GB
OpenSora 2.0	18.3	128	FP16	A100 80GB
Kling 1.6	—	120	FPS (проприетарный)	Только API

Kling при таком же качестве работает только через облако, CogVideo уступает в скорости в 3.5 раза, а OpenSora не держит длинные последовательности без дрейфа. LongLive-2.0 здесь — единственная open-source модель, способная генерировать 8 секунд видео (256 кадров) в реальном времени на одиночной карте Blackwell.

Запуск: берем из коробки

NVIDIA выложила не только веса, но и готовый пайплайн для diffusers. Чтобы запустить генерацию, хватит четырех строк:

from diffusers import DiffusionPipeline
pipe = DiffusionPipeline.from_pretrained("nvidia/LongLive-2.0-nvfp4")
video = pipe("A cat walking on a tightrope over a cityscape", num_frames=64).frames[0]

То же самое можно сделать через transformers, но diffusers берет на себя всю возню с dtype и device map. Скорость на RTX 5090 — около 0.7 секунды на 64 кадра. Если нужна бОльшая длина — просто увеличьте num_frames до 256, время генерации вырастет линейно до ~3 секунд. Без Out of Memory.

Важный нюанс: для NVFP4 нужны драйверы CUDA 12.8 и карта Blackwell (RTX 5090/5080, B200, HGX B300). На ADA или Hopper формата нет — только эмуляция через софт, но скорости 45 FPS не будет. Впрочем, Software FP8 можно попробовать на старых картах как компромисс.

Кому это нужно прямо сейчас

Инди-разработчикам игр и анимации — генерировать спрайты и фоны в реальном времени без затрат на облачные GPU.
Исследователям видео AI — LongLive-2.0 идеально подходит как baseline для дообучения на длинные сцены (например, спортивные трансляции).
Стартапам в AI-кинематографе — модель под лицензией NVIDIA Open Model допускает коммерческое использование, а скорость позволяет встраивать генерацию прямо в интерфейс редактора.
Всем, кто устал от 5-секундных гифок — просто для развлечения и экспериментов.

Чего не хватает и что дальше

Пока LongLive-2.0 работает только с разрешением до 768×768 (в NVFP4 — 512×512 out of the box). Для 1080p нужно апскейлить отдельно. Также модель чувствительна к текстовым промптам с абстрактными понятиями — «сюрреализм» может дать непредсказуемый результат. Но это лечится дообучением на 100-200 парах изображение-текст.

Главный прогноз: уже в этом году мы увидим каскад из NVFP4 и Video DiT, где квантизация будет применяться не только на весах, но и на всех промежуточных тензорах. NVIDIA выложила инструменты конвертации, и, судя по тренду, через полгода каждый уважающий себя видео-генератор будет иметь NVFP4-версию. Если у вас есть Blackwell — берите сейчас, пока конкуренты догоняют.

Подписаться на канал

LongLive-2.0: как NVIDIA ускорила генерацию длинного видео в 2 раза с помощью квантования NVFP4 — открытый код и бенчмарки