Multi-Token Prediction (MTP) — штука, которая в теории должна ускорять генерацию в 2-3 раза. Но на практике всё упирается в память. Особенно когда у вас всего 16 гигабайт VRAM. Я взял Radeon 9070XT (да, тот самый, который сейчас у каждого второго локал-энтузиаста), прогнал через него несколько моделей с MTP и без, и вот что получилось.
Ключевой вопрос: даёт ли MTP реальный прирост на карте с 16GB, или это маркетинговая фишка, пожирающая драгоценные мегабайты?
Забегу вперёд: ответ, как всегда, зависит от модели и её квантования. Но есть нюансы.
Стенд и конфигурация теста
Чтобы никого не запутать, вот железо и софт:
- GPU: AMD Radeon 9070XT (16GB VRAM) — драйвер ROCm 6.3.1, режим compute.
- CPU: AMD Ryzen 7 9800X3D (8 ядер, 16 потоков).
- RAM: 64GB DDR5-6000.
- Бэкенд: llama.cpp с поддержкой MTP (ветка
masterот 25.05.2026). - Модели: Qwen3.5 14B Instruct (Q4_K_M и Q6_K), DeepSeek-V4-Flash-8B (Q4_K_M), Gemma 4 9B MTP (Q4_K_M).
Замерял скорость генерации (токенов/сек) и пиковое потребление VRAM. Для MTP использовал 4 параллельных токена — золотая середина, как показал опыт c Gemma 4 MTP на H100, где 4 токена дают максимальный прирост при умеренных затратах памяти.
Результаты: цифры не врут
| Модель | Квантование | Обычная (tok/s) | MTP (tok/s) | VRAM MTP (GB) | Прирост % |
|---|---|---|---|---|---|
| Qwen3.5 14B | Q4_K_M | 18.2 | 24.5 | 12.8 | +34% |
| Qwen3.5 14B | Q6_K | 12.1 | 14.3 | 14.1 | +18% |
| DeepSeek-V4-Flash-8B | Q4_K_M | 30.4 | 36.1 | 9.3 | +19% |
| Gemma 4 9B MTP | Q4_K_M | 22.8 | 26.4 | 10.1 | +16% |
Сразу бросается в глаза: прирост есть, но не такой жирный, как обещают на флагманских картах. На H100 с бесконечной памятью MTP выдаёт +100%, а тут — 16-34%. Почему? Основной тормоз — нехватка VRAM под кэш MTP и конкуренция за шину.
Самая интересная ситуация с Qwen3.5 14B в Q4_K_M: +34% при 12.8GB — это отличный результат. Но если попробовать Q6_K, то VRAM уходит за 14GB, и прирост падает до 18%. А это значит, что система начинает подгружать данные через PCIe — смертельный номер для скорости.
Где MTP оправдан на 16GB
Провернув несколько сценариев, я вывел формулу: MTP даёт чистый выигрыш, если модель + квантование + контекст оставляют не менее 2-3GB свободной памяти. Иначе включается своппинг — и вы получаете меньше токенов, чем без MTP. Эту проблему мы уже обсуждали в контексте TurboQuant + MTP на RX 7900 XTX, но там было 24GB, запас побольше.
Лучшие кандидаты для MTP на 9070XT — 8B модели в Q4_K_M или 14B в Q3_K_L. Например, DeepSeek-V4-Flash-8B чувствует себя прекрасно: вы получите +20% скорости без удара по памяти. А вот Gemma 4 9B MTP изначально заточена под MTP, но её родной контекст 128K быстро съедает буфер.
Важно: не гонитесь за контекстом в 32K и выше при активном MTP. Оптимально — 8-16K контекста для 14B моделей. Для 8B можно 32K, но проверяйте мониторинг VRAM.
Качество текста: страдает или нет?
Субъективно — разницы почти нет. Я сравнивал генерации одних и тех же промптов с MTP и без на Qwen3.5 14B. В нескольких примерах MTP выдавал более связные абзацы, но были и случаи лёгкого «размытия» — модель как будто пыталась угадать сразу несколько слов и местами сбивалась. На длинных генерациях (более 2000 токенов) это нивелируется.
Кстати, в тестах Step 3.7 Flash на M5 Max и RTX 6000 авторы отмечали похожие 15-25% прироста на средних картах. Значит, проблема не в конкретном железе, а в архитектурном ограничении: MTP выгоден только когда GPU не упирается в bottleneck по памяти.
Практический совет: как не разочароваться
Если у вас 9070XT или любая другая карта с 16GB, вот алгоритм:
- Выберите модель 8-14B. 7B — недоиспользование потенциала, 22B+ — уже упрётесь в лимит.
- Квантовайтесь в Q4_K_M или Q3_K_L. Q6_K и выше оставьте для карт с 24GB.
- Выставляйте контекст не более 16K. Для 8B моделей можно 24K, но чекните VRAM.
- Включайте MTP с числом токенов 3-4. Больше 6 токенов — прирост мизерный, а память жрёт зверски.
Я протестировал и конфигурацию с TurboQuant — детали в отдельном гайде по RX 7900 XTX, но на 9070XT результат скромнее: +10-12% к скорости без потери качества.
А что с MoE?
Отдельно проверил DeepSeek-V4-Flash-8B, у которого внутри MoE-архитектура. Теоретически MTP должен хуже работать на MoE из-за того, что эксперты активируются выборочно, и предсказание нескольких токенов нагружает планировщик. На практике — 19% прироста, что неплохо. Для сравнения, на RTX 4090 (24GB) MoE модели с MTP дают +25-30%, но там запас памяти позволяет держать больше экспертов в активной памяти.
Если у вас есть доступ к стрикс-хало с 128GB, ситуация радужная — в гайде по выбору моделей для Strix Halo видно, что MTP там дает выигрыш вплоть до +60% на тяжёлых моделях.
Резюмирую: на 16GB VRAM MTP — не серебряная пуля, но рабочий инструмент. Ожидайте +15-35% к скорости на моделях 8-14B при правильном подборе квантования и контекста. Если же вы любите запускать 70B модели с Q4 — забудьте про MTP до апгрейда до 24GB+.
P.S. Результаты этого теста актуальны для софта на 31 мая 2026. Вероятно, новые версии llama.cpp с оптимизацией ROCm под 9070XT скоро подтянут производительность MTP ещё на процент-другой. Следите за обновлениями.