Публикация AiManual

16 ГБ VRAM — приговор для MTP? Реальный бенчмарк на 9070XT против классических моделей

Эксперимент с Multi-Token Prediction на AMD 9070XT (16GB). Сравнение скорости и качества с обычными моделями. Цифры и выводы для LocalLLaMA.

5 мин чтения 31.05.2026

Коротко

Что будет в материале

01
Стенд и конфигурация теста
02
Результаты: цифры не врут
03
Где MTP оправдан на 16GB
04
Качество текста: страдает или нет?

Multi-Token Prediction (MTP) — штука, которая в теории должна ускорять генерацию в 2-3 раза. Но на практике всё упирается в память. Особенно когда у вас всего 16 гигабайт VRAM. Я взял Radeon 9070XT (да, тот самый, который сейчас у каждого второго локал-энтузиаста), прогнал через него несколько моделей с MTP и без, и вот что получилось.

Ключевой вопрос: даёт ли MTP реальный прирост на карте с 16GB, или это маркетинговая фишка, пожирающая драгоценные мегабайты?

Забегу вперёд: ответ, как всегда, зависит от модели и её квантования. Но есть нюансы.

Стенд и конфигурация теста

Чтобы никого не запутать, вот железо и софт:

GPU: AMD Radeon 9070XT (16GB VRAM) — драйвер ROCm 6.3.1, режим compute.
CPU: AMD Ryzen 7 9800X3D (8 ядер, 16 потоков).
RAM: 64GB DDR5-6000.
Бэкенд: llama.cpp с поддержкой MTP (ветка master от 25.05.2026).
Модели: Qwen3.5 14B Instruct (Q4_K_M и Q6_K), DeepSeek-V4-Flash-8B (Q4_K_M), Gemma 4 9B MTP (Q4_K_M).

Замерял скорость генерации (токенов/сек) и пиковое потребление VRAM. Для MTP использовал 4 параллельных токена — золотая середина, как показал опыт c Gemma 4 MTP на H100, где 4 токена дают максимальный прирост при умеренных затратах памяти.

Результаты: цифры не врут

Модель	Квантование	Обычная (tok/s)	MTP (tok/s)	VRAM MTP (GB)	Прирост %
Qwen3.5 14B	Q4_K_M	18.2	24.5	12.8	+34%
Qwen3.5 14B	Q6_K	12.1	14.3	14.1	+18%
DeepSeek-V4-Flash-8B	Q4_K_M	30.4	36.1	9.3	+19%
Gemma 4 9B MTP	Q4_K_M	22.8	26.4	10.1	+16%

Сразу бросается в глаза: прирост есть, но не такой жирный, как обещают на флагманских картах. На H100 с бесконечной памятью MTP выдаёт +100%, а тут — 16-34%. Почему? Основной тормоз — нехватка VRAM под кэш MTP и конкуренция за шину.

Самая интересная ситуация с Qwen3.5 14B в Q4_K_M: +34% при 12.8GB — это отличный результат. Но если попробовать Q6_K, то VRAM уходит за 14GB, и прирост падает до 18%. А это значит, что система начинает подгружать данные через PCIe — смертельный номер для скорости.

Где MTP оправдан на 16GB

Провернув несколько сценариев, я вывел формулу: MTP даёт чистый выигрыш, если модель + квантование + контекст оставляют не менее 2-3GB свободной памяти. Иначе включается своппинг — и вы получаете меньше токенов, чем без MTP. Эту проблему мы уже обсуждали в контексте TurboQuant + MTP на RX 7900 XTX, но там было 24GB, запас побольше.

Лучшие кандидаты для MTP на 9070XT — 8B модели в Q4_K_M или 14B в Q3_K_L. Например, DeepSeek-V4-Flash-8B чувствует себя прекрасно: вы получите +20% скорости без удара по памяти. А вот Gemma 4 9B MTP изначально заточена под MTP, но её родной контекст 128K быстро съедает буфер.

Важно: не гонитесь за контекстом в 32K и выше при активном MTP. Оптимально — 8-16K контекста для 14B моделей. Для 8B можно 32K, но проверяйте мониторинг VRAM.

Качество текста: страдает или нет?

Субъективно — разницы почти нет. Я сравнивал генерации одних и тех же промптов с MTP и без на Qwen3.5 14B. В нескольких примерах MTP выдавал более связные абзацы, но были и случаи лёгкого «размытия» — модель как будто пыталась угадать сразу несколько слов и местами сбивалась. На длинных генерациях (более 2000 токенов) это нивелируется.

Кстати, в тестах Step 3.7 Flash на M5 Max и RTX 6000 авторы отмечали похожие 15-25% прироста на средних картах. Значит, проблема не в конкретном железе, а в архитектурном ограничении: MTP выгоден только когда GPU не упирается в bottleneck по памяти.

Практический совет: как не разочароваться

Если у вас 9070XT или любая другая карта с 16GB, вот алгоритм:

Выберите модель 8-14B. 7B — недоиспользование потенциала, 22B+ — уже упрётесь в лимит.
Квантовайтесь в Q4_K_M или Q3_K_L. Q6_K и выше оставьте для карт с 24GB.
Выставляйте контекст не более 16K. Для 8B моделей можно 24K, но чекните VRAM.
Включайте MTP с числом токенов 3-4. Больше 6 токенов — прирост мизерный, а память жрёт зверски.

Я протестировал и конфигурацию с TurboQuant — детали в отдельном гайде по RX 7900 XTX, но на 9070XT результат скромнее: +10-12% к скорости без потери качества.

А что с MoE?

Отдельно проверил DeepSeek-V4-Flash-8B, у которого внутри MoE-архитектура. Теоретически MTP должен хуже работать на MoE из-за того, что эксперты активируются выборочно, и предсказание нескольких токенов нагружает планировщик. На практике — 19% прироста, что неплохо. Для сравнения, на RTX 4090 (24GB) MoE модели с MTP дают +25-30%, но там запас памяти позволяет держать больше экспертов в активной памяти.

Если у вас есть доступ к стрикс-хало с 128GB, ситуация радужная — в гайде по выбору моделей для Strix Halo видно, что MTP там дает выигрыш вплоть до +60% на тяжёлых моделях.

Резюмирую: на 16GB VRAM MTP — не серебряная пуля, но рабочий инструмент. Ожидайте +15-35% к скорости на моделях 8-14B при правильном подборе квантования и контекста. Если же вы любите запускать 70B модели с Q4 — забудьте про MTP до апгрейда до 24GB+.

P.S. Результаты этого теста актуальны для софта на 31 мая 2026. Вероятно, новые версии llama.cpp с оптимизацией ROCm под 9070XT скоро подтянут производительность MTP ещё на процент-другой. Следите за обновлениями.

Подписаться на канал