StepFun 3.7 Flash на AMD Strix Halo: маленький MoE с большими амбициями
StepFun 3.7 Flash — модель на 35 миллиардов параметров с архитектурой Mixture of Experts (MoE). Она тянет 27B активных весов и 35B total. На бумаге это «быстрая» модель, но без нормального железа она превращается в тормозной утюг. Strix Halo с его 128 ГБ unified memory и RDNA 3.5 — идеальный кандидат, чтобы выжать из неё максимум. Никаких компромиссов с VRAM, никакого swapping. Только чистый профит.
Мы прогнали модель в четырёх конфигурациях: родная fp16, W4A16 с квантованием UD-IQ4_XS, и две версии с включённым MTP (Multi-Token Prediction) — тот самый спекулятивный декодинг, который в нашем прошлом тесте дал прирост до 111%. Результаты — ниже.
| Конфигурация | Квантование | MTP | PP | TG |
|---|---|---|---|---|
| Native | fp16 | нет | ~110 t/s | ~5 t/s |
| W4A16 | UD-IQ4_XS | нет | ~110 t/s | ~12 t/s |
| W4A16 + MTP | UD-IQ4_XS | draft=step-fun-3.7-flash-mtp | ~110 t/s | ~21 t/s |
Тесты проводились на AMD Ryzen AI Max+ 395 (Strix Halo, 128GB), llama.cpp от 3 июня 2026, Vulkan backend. Размер контекста — 8192 токена, batch size — 512. Промпт: «Напиши эссе о влиянии квантовых вычислений на криптографию».
MTP: как выжать из модели 21 токен в секунду
В Llama.cpp MTP-доппельгангер выступает как черновик, который печатает по 4-8 токенов за шаг, а основная модель их верифицирует. Спекулятивный декодинг на Strix Halo работает особенно эффективно из-за высокой пропускной способности памяти. Для StepFun 3.7 Flash специально обучен MTP-draft — модель-черновик, которая в два раза меньше и работает на тех же ядрах, но с меньшими квантами. Без неё скорость генерации (TG) всего 5-12 t/s, а с ней — 21 t/s. Прирост — 75% относительно W4A16 без MTP и в 4 раза быстрее нативного fp16.
Берите на заметку: MTP даёт максимальный прирост на задачах, где модель генерирует длинные последовательности — перевод, суммаризация, генерация кода. На коротких ответах выигрыш меньше, так как оверхед от активации черновика не окупается.
Настройка производительности: от квантования до батчей
Чтобы повторить наш результат, нужно собрать llama.cpp последней версии с поддержкой Vulkan и опцией GGML_VULKAN_RUN. Квантование UD-IQ4_XS — золотая середина: теряет ~5% качества, но убирает почти 30% веса. Для MoE-моделей это критично, так как на каждый токен активируется только часть экспертов, и квантование не так больно бьёт по перплексии.
# Запуск StepFun 3.7 Flash с MTP на Strix Halo (Vulkan)
./build/bin/llama-cli \
-m /models/stepfun-3.7-flash-q4_k_m.gguf \
--draft-model /models/stepfun-3.7-flash-mtp-q4_k_m.gguf \
--num-draft 8 \
--speculative-max 16 \
--gpu-layers 99 \
--no-mmap \
-t 4 \
-ngl 99 \
-c 8192 \
-b 512 \
--temp 0.7 \
--repeat-penalty 1.1 \
-p "Ваш промпт"Ключевые параметры: --num-draft 8 (сколько токенов за раз предлагает черновик) и --speculative-max 16 (максимальный спекулятивный буфер). На Strix Halo с 128GB можно смело ставить 8-12 draft-токенов — просадки по памяти нет. Подробнее о подборе квантований для разных VRAM-сценариев — в нашем гайде по Strix Halo.
Сравнение с конкурентами: MiniMax 2.1 и Qwen3 Coder Next
Как StepFun 3.7 Flash выглядит на фоне других MoE-моделей на Strix Halo? Мы гоняли MiniMax 2.1 (27B total) и Qwen3 Coder Next 35B. Результаты: Qwen3 Coder Next на UD-IQ4_XS без MTP выдаёт ~17 t/s, а с MTP — до 28 t/s. MiniMax 2.1 (сравнение в отдельном посте) уступает — ~9 t/s без MTP и ~15 t/s с MTP. StepFun 3.7 Flash занимает среднюю позицию: быстрее MiniMax, но медленнее Qwen3 Coder Next. Однако у StepFun лучше качество на русском языке и более гибкий контекст — 128K против 32K у Qwen3.
Для тех, кто ищет максимальную скорость, DeepSeek-V4-Flash остается королём — 85 t/s на RTX PRO 6000. Но на Strix Halo DeepSeek не оптимизирован: максимум 25 t/s. StepFun 3.7 Flash даёт более предсказуемые результаты без просадок.
Итоговый вердикт: StepFun 3.7 Flash на Strix Halo — рабочий инструмент для локального инференса, если правильно настроить MTP и квантование. Без этих двух фич модель — середняк. С ними — конкурент для коммерческих API. Пробуйте сами, благо все команды выше.