TiDAR Nvidia: революция в скорости LLM - диффузия и авторегрессия | AiManual
AiManual Logo Ai / Manual.
16 Фев 2026 Новости

TiDAR от Nvidia: как архитектура 'Think in Diffusion, Talk in Autoregression' ускорит LLM в разы

Анализ архитектуры TiDAR от Nvidia: как сочетание диффузии и авторегрессии решает проблему простоя GPU и ускоряет инференс LLM в 2.5-4 раза. Технический разбор

Зачем нам TiDAR, если есть спекулятивное декодирование?

Потому что спекулятивное декодирование - это костыль. Красивый, умный, но все равно костыль. Nvidia Research в статье от 10 февраля 2026 года предложила нечто радикально другое: TiDAR (Think in Diffusion, Talk in Autoregression). Это не оптимизация существующего пайплайна. Это переосмысление того, как языковая модель должна думать.

Проблема, которую решает TiDAR, проста до боли: ваш GPU H100 или Blackwell B200 простаивает 90% времени во время инференса. Почему? Потому что авторегрессионные LLM генерируют текст последовательно: токен за токеном. Каждый следующий токен ждет, пока предыдущий пройдет через всю модель. Это как строить небоскреб, укладывая по одному кирпичу и каждый раз поднимая на крышу весь строительный кран.

💡
Ключевое отличие TiDAR от AETHER-X (о котором мы писали ранее): AETHER-X - это метод спекулятивного декодирования, который ускоряет существующие модели. TiDAR - это новая архитектура, которая меняет принцип работы LLM на фундаментальном уровне.

Диффузия думает, авторегрессия говорит

Вот как это работает в TiDAR 1.0 (последняя версия на февраль 2026):

  • Фаза "Think" (диффузия): Модель генерирует N токенов параллельно за один проход. Не последовательно, а сразу все N. Использует модифицированный диффузионный процесс, где "шум" - это неопределенность в предсказании следующего токена.
  • Фаза "Talk" (авторегрессия): Полученный "драфт" из N токенов проходит через легковесную верификационную сеть. Она не генерирует новые токены, а только проверяет и корректирует уже созданные.
  • Цикл повторяется: После верификации первых N токенов, модель генерирует следующие N, и так далее.

Звучит просто? На практике это чертовски сложно. Диффузионные модели для текста до TiDAR были либо медленными, либо качество страдало. Nvidia решила обе проблемы сразу.

Важный нюанс: TiDAR не заменяет полностью авторегрессию. Она использует ее сильные стороны (точность, когерентность) в фазе верификации. Это гибрид, а не революция с нуля.

Цифры, которые заставят вас пересчитать бюджеты

В исследовательской статье Nvidia приводит следующие результаты для TiDAR 1.0:

МодельАрхитектураСкорость (токен/сек)Ускорение
Llama 3.3 70BАвторегрессия (база)421x
Llama 3.3 70B + AETHER-XСпекулятивное декодирование2064.9x
TiDAR-70BДиффузия+авторегрессия1684x
TiDAR-7BДиффузия+авторегрессия1,2502.5x vs авторегрессия

Обратите внимание: TiDAR-7B показывает 1250 токенов в секунду. Это уровень, который раньше требовал либо гигантских кластеров, либо серьезных компромиссов в качестве. Теперь это доступно на одном GPU среднего уровня.

Но есть подвох. И не один.

Три проблемы, о которых Nvidia скромно умалчивает

Во-первых, обучение. TiDAR нельзя взять и применить к существующей Llama или Mistral. Нужно обучать с нуля. И это не просто дорого - это чертовски сложно. Диффузионные компоненты требуют специальных техник обучения, которые до сих пор не отлажены для текста так же хорошо, как для изображений.

Во-вторых, память. Параллельная генерация N токенов требует хранения N промежуточных состояний. Если N=8 (оптимальное значение по исследованию), то память GPU загружается в 2-3 раза сильнее. Это сводит на нет преимущества для очень больших моделей, которые и так упираются в память.

В-третьих, латентность. TiDAR уменьшает общее время генерации, но увеличивает время до первого токена. Потому что сначала нужно сгенерировать весь "драфт" из N токенов, и только потом выдать первый. Для чат-интерфейсов, где важна мгновенная реакция, это может быть критично.

💡
Интересный факт: TiDAR показывает лучшие результаты на задачах с длинными контекстами (32K+ токенов). Потому что параллельная генерация лучше использует кеш ключ-значений, о оптимизации которого мы писали в статье про Nvidia DMS.

Кому выгодна эта архитектура прямо сейчас?

Если вы запускаете batch-инференс для тысяч запросов одновременно - TiDAR ваш выбор. Ускорение в 2.5-4 раза сокращает стоимость инференса пропорционально. Для компаний вроде Scale AI или Anthropic, которые обрабатывают миллионы запросов в день, это экономия миллионов долларов в год.

Если вы разрабатываете локальные ассистенты на слабом железе - присмотритесь к TiDAR-7B. 1250 токенов в секунду на потребительской видеокарте - это уровень, который раньше казался фантастикой. Хотя LLaDA 2.1 с токен-эдитом все еще держит планку в 1500+ TPS, но с другими компромиссами.

Если вы исследователь - изучайте TiDAR как концепцию. Даже если конкретная реализация Nvidia не станет стандартом, идея разделения "мышления" и "говорения" будет влиять на архитектуры LLM следующие 2-3 года.

Что будет дальше? Прогноз на 2026-2027

К концу 2026 года мы увидим:

  • TiDAR 2.0 с динамическим N (количество параллельно генерируемых токенов будет адаптироваться под сложность задачи)
  • Гибридные модели, которые используют TiDAR для простых частей текста и переключаются на авторегрессию для сложных
  • Интеграцию с DMS (Dynamic Memory Shrinking) для борьбы с проблемой памяти
  • Поддержку в TensorRT-LLM, что сделает TiDAR доступной для production-использования

Но главное - TiDAR заставит пересмотреть саму парадигму "токен за токеном". Может быть, мы думаем о генерации текста неправильно с самого начала? Может быть, параллельное "мышление" - это не оптимизация, а естественный способ работы интеллекта?

Пока инженеры Nvidia дорабатывают TiDAR, совет простой: не бросайтесь переписывать всю инфраструктуру. Но обязательно выделите одного инженера, который будет следить за развитием этой архитектуры. Потому что когда TiDAR созреет для production (а это вопрос 6-12 месяцев), отстать будет очень дорого.

И да, готовьте бюджеты на переобучение моделей. Это будет больно.