15x ускорение диффузионных моделей Nvidia: локальный запуск

Nvidia любит громкие цифры. 15x? Звучит как фантастика или очередной маркетинговый трюк. Но если копнуть глубже, за этим обещанием стоит не просто разгон частот, а фундаментальные изменения в том, как GPU обрабатывают диффузионные модели. И это может перевернуть рынок локальной генерации изображений.

Суть анонса: на новом поколении тензорных ядер (архитектура Blackwell Ultra) и с использованием программного стека TensorRT 11.0 Nvidia демонстрирует генерацию изображений модели Stable Diffusion 3.5 со скоростью 60+ it/s на одной RTX 5090. Это в 15 раз быстрее, чем на RTX 4090 с предыдущими драйверами.

Как они это сделали? (спойлер: не магией)

Секрет — в связке трех технологий. Первая: MXFP4 — новый формат квантования, который уже показал 25% ускорение в llama.cpp. Для диффузионных моделей он позволяет хранить веса в 4 бита без заметной потери качества.

Вторая: гибридный сэмплинг. Вместо того чтобы прогонять все 50 шагов через полную сеть, Nvidia использует предсказание траектории: первые 10 шагов — тяжелый U-Net, остальные — легкий аппроксиматор. Это дает 3-4x без потери FID.

Третья: специализированные тензорные ядра для операций cross-attention. В диффузионных моделях именно attention — бутылочное горлышко. Новые ядра работают с FP8 и имеют в два раза больше пропускной способности по сравнению с предыдущим поколением.

Что это значит для владельца RTX 5060 Ti или RX 9060 XT?

Прямо сейчас — почти ничего. Обещанное ускорение в 15x достигается на флагманской RTX 5090 с новым драйвером и специальным плагином для ComfyUI. Но, как показывает практика, технологии просачиваются вниз по линейке. Для выбора GPU для первого AI-PC это означает, что даже бюджетные карты следующего поколения (RTX 5060 Ti, RTX 5070) получат прирост в 5-8x благодаря оптимизациям — этого хватит для комфортной генерации 1024x1024 за 2-3 секунды.

Внимание: ускорение не коснется старых карт (RTX 40-й серии и ниже) на аппаратном уровне — там нет поддержки MXFP4 и новых тензорных ядер. Программные оптимизации дадут максимум 2-3x.

Параллели с AETHER-X и война форматов

Ранее Nvidia анонсировала AETHER-X для LLM, дав ускорение в 4.9 раза. Теперь — диффузионные модели. Логика понятна: компания хочет, чтобы весь AI-инференс работал исключительно на её железе. AMD пытается ответить собственными оптимизациями через ROCm, но пока без значимых анонсов. В сравнении AMD vs NVIDIA этот разрыв может стать решающим для тех, кто выбирает видеокарту для AI.

Практическая польза: от иллюстратора до геймера

Представьте: вы работаете в Photoshop с плагином на базе Stable Diffusion. Раньше генерация фона занимала 10-15 секунд, теперь — меньше секунды. Это превращает AI из инструмента для «подождать» в инструмент реального времени. Или возьмите игры с процедурной генерацией текстур: движок может создавать 4K-текстуры на лету, подгружая только что сгенерированные тайлы.

Но есть и подводные камни. Во-первых, качество: при 4-битном квантовании и гибридном сэмплинге артефакты могут быть заметны в сложных сценах (лица, текст). Nvidia утверждает, что FID не растет, но независимые тесты покажут. Во-вторых, монополизация: чтобы получить 15x, нужно использовать фирменный стек TensorRT, который привязывает к CUDA и экосистеме Nvidia.

Что дальше?

В Nvidia заявили, что технология станет частью драйвера Game Ready к концу 2026 года. Если это случится, локальная генерация изображений перестанет быть уделом энтузиастов. Обычные пользователи смогут запускать диффузионные модели на своих игровых ПК без глубоких знаний. А с учётом замедления релизов игровых карт это может стать ключевым аргументом для апгрейда именно сейчас.

💡

Совет: не спешите продавать RTX 4090. Дождитесь независимых бенчмарков. Первые тесты в сообществе ComfyUI показывают, что реальный прирост на 4090 с новым TensorRT — около 4-5x, а не 15x. Обещанные 15x — только на новых картах с поддержкой MXFP4 на аппаратном уровне.

Подписаться на канал

Nvidia обещает 15x ускорение диффузионных моделей: что это значит для локального запуска?

Как они это сделали? (спойлер: не магией)

Что это значит для владельца RTX 5060 Ti или RX 9060 XT?

Параллели с AETHER-X и война форматов

Практическая польза: от иллюстратора до геймера

Что дальше?

Подписывайтесь на наш канал!