Публикация AiManual

StepFun 3.7 Flash на Strix Halo: бенчмарки, MTP и настройка производительности

Тесты StepFun 3.7 Flash на AMD Strix Halo: скорость генерации, MTP-ускорение до 111%, настройка квантования UD-IQ4_XS. Команды и результаты.

4 мин чтения 06.06.2026

Коротко

Что будет в материале

01
StepFun 3.7 Flash на AMD Strix Halo: маленький MoE с большими амбициями
02
Настройка производительности: от квантования до батчей
03
Сравнение с конкурентами: MiniMax 2.1 и Qwen3 Coder Next

StepFun 3.7 Flash на AMD Strix Halo: маленький MoE с большими амбициями

StepFun 3.7 Flash — модель на 35 миллиардов параметров с архитектурой Mixture of Experts (MoE). Она тянет 27B активных весов и 35B total. На бумаге это «быстрая» модель, но без нормального железа она превращается в тормозной утюг. Strix Halo с его 128 ГБ unified memory и RDNA 3.5 — идеальный кандидат, чтобы выжать из неё максимум. Никаких компромиссов с VRAM, никакого swapping. Только чистый профит.

Мы прогнали модель в четырёх конфигурациях: родная fp16, W4A16 с квантованием UD-IQ4_XS, и две версии с включённым MTP (Multi-Token Prediction) — тот самый спекулятивный декодинг, который в нашем прошлом тесте дал прирост до 111%. Результаты — ниже.

Конфигурация	Квантование	MTP	PP	TG
Native	fp16	нет	~110 t/s	~5 t/s
W4A16	UD-IQ4_XS	нет	~110 t/s	~12 t/s
W4A16 + MTP	UD-IQ4_XS	draft=step-fun-3.7-flash-mtp	~110 t/s	~21 t/s

Тесты проводились на AMD Ryzen AI Max+ 395 (Strix Halo, 128GB), llama.cpp от 3 июня 2026, Vulkan backend. Размер контекста — 8192 токена, batch size — 512. Промпт: «Напиши эссе о влиянии квантовых вычислений на криптографию».

MTP: как выжать из модели 21 токен в секунду

В Llama.cpp MTP-доппельгангер выступает как черновик, который печатает по 4-8 токенов за шаг, а основная модель их верифицирует. Спекулятивный декодинг на Strix Halo работает особенно эффективно из-за высокой пропускной способности памяти. Для StepFun 3.7 Flash специально обучен MTP-draft — модель-черновик, которая в два раза меньше и работает на тех же ядрах, но с меньшими квантами. Без неё скорость генерации (TG) всего 5-12 t/s, а с ней — 21 t/s. Прирост — 75% относительно W4A16 без MTP и в 4 раза быстрее нативного fp16.

Берите на заметку: MTP даёт максимальный прирост на задачах, где модель генерирует длинные последовательности — перевод, суммаризация, генерация кода. На коротких ответах выигрыш меньше, так как оверхед от активации черновика не окупается.

Настройка производительности: от квантования до батчей

Чтобы повторить наш результат, нужно собрать llama.cpp последней версии с поддержкой Vulkan и опцией GGML_VULKAN_RUN. Квантование UD-IQ4_XS — золотая середина: теряет ~5% качества, но убирает почти 30% веса. Для MoE-моделей это критично, так как на каждый токен активируется только часть экспертов, и квантование не так больно бьёт по перплексии.

# Запуск StepFun 3.7 Flash с MTP на Strix Halo (Vulkan)
./build/bin/llama-cli \
  -m /models/stepfun-3.7-flash-q4_k_m.gguf \
  --draft-model /models/stepfun-3.7-flash-mtp-q4_k_m.gguf \
  --num-draft 8 \
  --speculative-max 16 \
  --gpu-layers 99 \
  --no-mmap \
  -t 4 \
  -ngl 99 \
  -c 8192 \
  -b 512 \
  --temp 0.7 \
  --repeat-penalty 1.1 \
  -p "Ваш промпт"

Ключевые параметры: --num-draft 8 (сколько токенов за раз предлагает черновик) и --speculative-max 16 (максимальный спекулятивный буфер). На Strix Halo с 128GB можно смело ставить 8-12 draft-токенов — просадки по памяти нет. Подробнее о подборе квантований для разных VRAM-сценариев — в нашем гайде по Strix Halo.

Сравнение с конкурентами: MiniMax 2.1 и Qwen3 Coder Next

Как StepFun 3.7 Flash выглядит на фоне других MoE-моделей на Strix Halo? Мы гоняли MiniMax 2.1 (27B total) и Qwen3 Coder Next 35B. Результаты: Qwen3 Coder Next на UD-IQ4_XS без MTP выдаёт ~17 t/s, а с MTP — до 28 t/s. MiniMax 2.1 (сравнение в отдельном посте) уступает — ~9 t/s без MTP и ~15 t/s с MTP. StepFun 3.7 Flash занимает среднюю позицию: быстрее MiniMax, но медленнее Qwen3 Coder Next. Однако у StepFun лучше качество на русском языке и более гибкий контекст — 128K против 32K у Qwen3.

Для тех, кто ищет максимальную скорость, DeepSeek-V4-Flash остается королём — 85 t/s на RTX PRO 6000. Но на Strix Halo DeepSeek не оптимизирован: максимум 25 t/s. StepFun 3.7 Flash даёт более предсказуемые результаты без просадок.

💡

Не пытайтесь запустить StepFun 3.7 Flash в чистом fp16 без квантования на Strix Halo. Да, 128GB памяти хватит, но скорость генерации упадёт до 5 t/s. Квантование UD-IQ4_XS удваивает токены — разница колоссальная.

Итоговый вердикт: StepFun 3.7 Flash на Strix Halo — рабочий инструмент для локального инференса, если правильно настроить MTP и квантование. Без этих двух фич модель — середняк. С ними — конкурент для коммерческих API. Пробуйте сами, благо все команды выше.

Подписаться на канал