Nvidia любит громкие цифры. 15x? Звучит как фантастика или очередной маркетинговый трюк. Но если копнуть глубже, за этим обещанием стоит не просто разгон частот, а фундаментальные изменения в том, как GPU обрабатывают диффузионные модели. И это может перевернуть рынок локальной генерации изображений.
Суть анонса: на новом поколении тензорных ядер (архитектура Blackwell Ultra) и с использованием программного стека TensorRT 11.0 Nvidia демонстрирует генерацию изображений модели Stable Diffusion 3.5 со скоростью 60+ it/s на одной RTX 5090. Это в 15 раз быстрее, чем на RTX 4090 с предыдущими драйверами.
Как они это сделали? (спойлер: не магией)
Секрет — в связке трех технологий. Первая: MXFP4 — новый формат квантования, который уже показал 25% ускорение в llama.cpp. Для диффузионных моделей он позволяет хранить веса в 4 бита без заметной потери качества.
Вторая: гибридный сэмплинг. Вместо того чтобы прогонять все 50 шагов через полную сеть, Nvidia использует предсказание траектории: первые 10 шагов — тяжелый U-Net, остальные — легкий аппроксиматор. Это дает 3-4x без потери FID.
Третья: специализированные тензорные ядра для операций cross-attention. В диффузионных моделях именно attention — бутылочное горлышко. Новые ядра работают с FP8 и имеют в два раза больше пропускной способности по сравнению с предыдущим поколением.
Что это значит для владельца RTX 5060 Ti или RX 9060 XT?
Прямо сейчас — почти ничего. Обещанное ускорение в 15x достигается на флагманской RTX 5090 с новым драйвером и специальным плагином для ComfyUI. Но, как показывает практика, технологии просачиваются вниз по линейке. Для выбора GPU для первого AI-PC это означает, что даже бюджетные карты следующего поколения (RTX 5060 Ti, RTX 5070) получат прирост в 5-8x благодаря оптимизациям — этого хватит для комфортной генерации 1024x1024 за 2-3 секунды.
Внимание: ускорение не коснется старых карт (RTX 40-й серии и ниже) на аппаратном уровне — там нет поддержки MXFP4 и новых тензорных ядер. Программные оптимизации дадут максимум 2-3x.
Параллели с AETHER-X и война форматов
Ранее Nvidia анонсировала AETHER-X для LLM, дав ускорение в 4.9 раза. Теперь — диффузионные модели. Логика понятна: компания хочет, чтобы весь AI-инференс работал исключительно на её железе. AMD пытается ответить собственными оптимизациями через ROCm, но пока без значимых анонсов. В сравнении AMD vs NVIDIA этот разрыв может стать решающим для тех, кто выбирает видеокарту для AI.
Практическая польза: от иллюстратора до геймера
Представьте: вы работаете в Photoshop с плагином на базе Stable Diffusion. Раньше генерация фона занимала 10-15 секунд, теперь — меньше секунды. Это превращает AI из инструмента для «подождать» в инструмент реального времени. Или возьмите игры с процедурной генерацией текстур: движок может создавать 4K-текстуры на лету, подгружая только что сгенерированные тайлы.
Но есть и подводные камни. Во-первых, качество: при 4-битном квантовании и гибридном сэмплинге артефакты могут быть заметны в сложных сценах (лица, текст). Nvidia утверждает, что FID не растет, но независимые тесты покажут. Во-вторых, монополизация: чтобы получить 15x, нужно использовать фирменный стек TensorRT, который привязывает к CUDA и экосистеме Nvidia.
Что дальше?
В Nvidia заявили, что технология станет частью драйвера Game Ready к концу 2026 года. Если это случится, локальная генерация изображений перестанет быть уделом энтузиастов. Обычные пользователи смогут запускать диффузионные модели на своих игровых ПК без глубоких знаний. А с учётом замедления релизов игровых карт это может стать ключевым аргументом для апгрейда именно сейчас.