Когда слова перестают ждать друг друга
Вы когда-нибудь ждали, пока ChatGPT допишет предложение за предложением, мысленно перебирая варианты? Это не баг, это фича авторегрессионных моделей — они рождают текст последовательно, токен за токеном. Но что, если бы нейросеть могла «набросать» абзац целиком, а потом поправить неудачные места? Именно это обещает Nemotron-Labs Diffusion — свежий анонс NVIDIA, который, судя по всему, может отправить классические LLM на пенсию.
Май 2026 года, конференция NVIDIA GTC. На сцене — демонстрация: модель пишет пост в блог за 0.3 секунды, параллельно исправляя грамматические косяки. Зал аплодирует стоя. Шутка? Нет, реальность.
В отличие от картинок, где диффузия уже стала мейнстримом (взять хотя бы FLUX.2 в Diffusers), с текстом всё было сложно. Диффузионные языковые модели (DLM) пытались догнать авторегрессию по качеству, но проигрывали в связности и логике. Nemotron-Labs Diffusion — первая практическая реализация, которая, по заявлению разработчиков, достигает паритета с GPT-5 по бенчмаркам (MMLU, HellaSwag, GSM8K) и при этом работает в 5–10 раз быстрее на длинных контекстах.
Как работает «текстовая диффузия»? (и почему это не магия)
Представьте, что вы хотите написать письмо. Авторегрессионная модель начинает с первого слова и на каждом шаге «вспоминает» предыдущие. Диффузионная же модель — работает как скульптор: сначала создаёт черновик из шума, а затем итеративно улучшает его, приближая к идеалу. Ключевое преимущество — все токены можно обновлять параллельно, используя маску для «проблемных» участков. Это напоминает механизм разделения анализа и генерации, только на уровне архитектуры.
Nemotron-Labs Diffusion использует модифицированный трансформер, где вместо causal attention — bidirectional attention с маской шума. На этапе инференса модель не предсказывает следующий токен, а реконструирует последовательность из зашумлённого представления. И да, это не первая попытка — были MDLM, SSD-LM, но они либо уступали по качеству, либо требовали огромных вычислительных ресурсов. Прорыв Nemotron — в эффективном планировании шагов денойзинга: модель адаптивно выбирает, сколько итераций нужно для каждого участка текста, экономя время на «лёгких» местах.
Сравнение диффузии и авторегрессии в прошлом году показывало, что DLM выигрывают по скорости, но проигрывают по качеству. Теперь, похоже, чаша весов качнулась в другую сторону.
Редактируемость — убийца галлюцинаций?
Одна из самых раздражающих проблем современных LLM — уверенность в неверных ответах. Вы задаёте вопрос, модель выдаёт красивый абзац, а потом вы находите ошибку в середине. С авторегрессией исправить её — значит перегенерировать всё с начала. Диффузионная модель позволяет точечно заменить часть текста, запустив несколько дополнительных шагов шумоподавления для нужного сегмента. Звучит как утопия, но именно это демонстрирует Nemotron-Labs Diffusion в своих тестах.
Конечно, есть и обратная сторона: если авторегрессионные модели — это «последовательная кристаллизация смысла», то диффузия может порождать «размытые» компромиссы. Например, в творческих текстах модель иногда смешивает концепции, выдавая нечто среднее между двумя идеями. Но NVIDIA утверждает, что их version (назовём её Nemotron-Labs D-1.0) справляется с этим за счёт специальной функции потерь, штрафующей «размазывание».
А что на практике? Сценарии, где это взорвёт рынок
Первое — это реалтайм-перевод и суммаризация. Сейчас даже самые быстрые модели задерживаются на 200-300 мс на предложение. Nemotron-Labs Diffusion укладывается в 50 мс для коротких текстов, и при этом качество не падает. Второе — интерактивные помощники для написания кода: модель может «дорисовать» недостающие куски без перегенерации контекста. Третье — генерация документов (контракты, отчёты) — здесь важно не только быстро, но и с возможностью правок без перезапуска.
Любопытно, что Nemotron-Labs Diffusion использует те же принципы, что и одношаговые модели изображений, про которые мы писали ранее: distillation учит большую диффузионную модель генерировать за 1-2 шага. NVIDIA пошла дальше — они сделали адаптивное количество шагов в зависимости от сложности.
Бенчмарки — это одно, а в жизни — другое?
Пока рано выбрасывать старые LLM на свалку. Nemotron-Labs Diffusion доступна в виде предобученной модели на Hugging Face (лицензия — open-source, с оговорками для коммерции). Ранние тесты показывают, что на сложных рассуждениях (например, логические цепочки) модель иногда скатывается в логические ловушки — даёт ответ, который в среднем верен, но не точен. NVIDIA обещает исправить это в следующем релизе.
Если же посмотреть шире, то диффузионные модели — это не просто «ещё один подход», а может быть, смена парадигмы. Как когда-то физика полей переизобрела генерацию данных, так теперь Nemotron-Labs Diffusion может переизобрести генерацию текста. И, судя по темпам, в 2026 году нас ждёт не столько война моделей, сколько война архитектур.
Советую следить за независимыми бенчмарками, особенно за тестами на длинных текстах (32K+ токенов). Если диффузия удержит качество на дистанции — готовьтесь, что через год слово «авторегрессия» останется только в учебниках истории.