Зачем нам TiDAR, если есть спекулятивное декодирование?
Потому что спекулятивное декодирование - это костыль. Красивый, умный, но все равно костыль. Nvidia Research в статье от 10 февраля 2026 года предложила нечто радикально другое: TiDAR (Think in Diffusion, Talk in Autoregression). Это не оптимизация существующего пайплайна. Это переосмысление того, как языковая модель должна думать.
Проблема, которую решает TiDAR, проста до боли: ваш GPU H100 или Blackwell B200 простаивает 90% времени во время инференса. Почему? Потому что авторегрессионные LLM генерируют текст последовательно: токен за токеном. Каждый следующий токен ждет, пока предыдущий пройдет через всю модель. Это как строить небоскреб, укладывая по одному кирпичу и каждый раз поднимая на крышу весь строительный кран.
Диффузия думает, авторегрессия говорит
Вот как это работает в TiDAR 1.0 (последняя версия на февраль 2026):
- Фаза "Think" (диффузия): Модель генерирует N токенов параллельно за один проход. Не последовательно, а сразу все N. Использует модифицированный диффузионный процесс, где "шум" - это неопределенность в предсказании следующего токена.
- Фаза "Talk" (авторегрессия): Полученный "драфт" из N токенов проходит через легковесную верификационную сеть. Она не генерирует новые токены, а только проверяет и корректирует уже созданные.
- Цикл повторяется: После верификации первых N токенов, модель генерирует следующие N, и так далее.
Звучит просто? На практике это чертовски сложно. Диффузионные модели для текста до TiDAR были либо медленными, либо качество страдало. Nvidia решила обе проблемы сразу.
Важный нюанс: TiDAR не заменяет полностью авторегрессию. Она использует ее сильные стороны (точность, когерентность) в фазе верификации. Это гибрид, а не революция с нуля.
Цифры, которые заставят вас пересчитать бюджеты
В исследовательской статье Nvidia приводит следующие результаты для TiDAR 1.0:
| Модель | Архитектура | Скорость (токен/сек) | Ускорение |
|---|---|---|---|
| Llama 3.3 70B | Авторегрессия (база) | 42 | 1x |
| Llama 3.3 70B + AETHER-X | Спекулятивное декодирование | 206 | 4.9x |
| TiDAR-70B | Диффузия+авторегрессия | 168 | 4x |
| TiDAR-7B | Диффузия+авторегрессия | 1,250 | 2.5x vs авторегрессия |
Обратите внимание: TiDAR-7B показывает 1250 токенов в секунду. Это уровень, который раньше требовал либо гигантских кластеров, либо серьезных компромиссов в качестве. Теперь это доступно на одном GPU среднего уровня.
Но есть подвох. И не один.
Три проблемы, о которых Nvidia скромно умалчивает
Во-первых, обучение. TiDAR нельзя взять и применить к существующей Llama или Mistral. Нужно обучать с нуля. И это не просто дорого - это чертовски сложно. Диффузионные компоненты требуют специальных техник обучения, которые до сих пор не отлажены для текста так же хорошо, как для изображений.
Во-вторых, память. Параллельная генерация N токенов требует хранения N промежуточных состояний. Если N=8 (оптимальное значение по исследованию), то память GPU загружается в 2-3 раза сильнее. Это сводит на нет преимущества для очень больших моделей, которые и так упираются в память.
В-третьих, латентность. TiDAR уменьшает общее время генерации, но увеличивает время до первого токена. Потому что сначала нужно сгенерировать весь "драфт" из N токенов, и только потом выдать первый. Для чат-интерфейсов, где важна мгновенная реакция, это может быть критично.
Кому выгодна эта архитектура прямо сейчас?
Если вы запускаете batch-инференс для тысяч запросов одновременно - TiDAR ваш выбор. Ускорение в 2.5-4 раза сокращает стоимость инференса пропорционально. Для компаний вроде Scale AI или Anthropic, которые обрабатывают миллионы запросов в день, это экономия миллионов долларов в год.
Если вы разрабатываете локальные ассистенты на слабом железе - присмотритесь к TiDAR-7B. 1250 токенов в секунду на потребительской видеокарте - это уровень, который раньше казался фантастикой. Хотя LLaDA 2.1 с токен-эдитом все еще держит планку в 1500+ TPS, но с другими компромиссами.
Если вы исследователь - изучайте TiDAR как концепцию. Даже если конкретная реализация Nvidia не станет стандартом, идея разделения "мышления" и "говорения" будет влиять на архитектуры LLM следующие 2-3 года.
Что будет дальше? Прогноз на 2026-2027
К концу 2026 года мы увидим:
- TiDAR 2.0 с динамическим N (количество параллельно генерируемых токенов будет адаптироваться под сложность задачи)
- Гибридные модели, которые используют TiDAR для простых частей текста и переключаются на авторегрессию для сложных
- Интеграцию с DMS (Dynamic Memory Shrinking) для борьбы с проблемой памяти
- Поддержку в TensorRT-LLM, что сделает TiDAR доступной для production-использования
Но главное - TiDAR заставит пересмотреть саму парадигму "токен за токеном". Может быть, мы думаем о генерации текста неправильно с самого начала? Может быть, параллельное "мышление" - это не оптимизация, а естественный способ работы интеллекта?
Пока инженеры Nvidia дорабатывают TiDAR, совет простой: не бросайтесь переписывать всю инфраструктуру. Но обязательно выделите одного инженера, который будет следить за развитием этой архитектуры. Потому что когда TiDAR созреет для production (а это вопрос 6-12 месяцев), отстать будет очень дорого.
И да, готовьте бюджеты на переобучение моделей. Это будет больно.