Новый Flash-релиз от Step AI — Step 3.7 Flash — наделал шума. Заявлено, что это самая быстрая модель в серии с поддержкой 128k контекста и MoE-архитектурой, которая активирует всего 8B из 27B параметров. Но одно дело рекламные буклеты, другое — реальные цифры под капотом. Мы взяли два флагманских железа: Mac M5 Max (128GB unified memory) через llama.cpp и RTX 6000 Ada (48GB VRAM) с новым форматом NVFP4, замерили скорость, подобрали конфиги и выложили всё на GitHub. Дальше — только сухие цифры и практические советы.
Что такое Step 3.7 Flash и почему он интересен
Это MoE-модель с 27B параметров, из которых при инференсе активируется 8B. От предыдущей Step 3.5 Flash отличается улучшенным attention (Grouped-Query Attention с 32 группами) и новым токенизатором на 148k токенов. Главная фишка — поддержка формата NVFP4 для NVIDIA (4-битное плавающее сжатие) и MLX/Q4_K_M для Apple Silicon. Это позволило впихнуть модель в карты с 48GB без потери качества на уровне Q4_K_M. На M5 Max, благодаря 800GB/s пропускной способности, модель работает целиком в unified memory.
💡 Вся серия Step — open source, лицензия MIT. Исходники бенчмарков и конфиги — в нашем репозитории на GitHub.
Бенчмарк на M5 Max: llama.cpp, K-quants и честные 32k контекста
MacBook Pro M5 Max с 128GB unified memory — идеальная машина для локального запуска Step 3.7 Flash. Мы тестировали через llama.cpp (сборка от 20.05.2026, b4328) с Metal backend. Главный вопрос — сколько токенов в секунду выдает модель при разных квантованиях и как ведет себя контекст.
Вот конфиг, который дал стабильные 40+ токен/с при контексте 32k:
# Установка llama.cpp (если не обновлялись)
# git pull && make clean && make -j16 LLAMA_METAL=1
# Запуск Step 3.7 Flash с Q4_K_M
./llama-cli \
-m /models/step-3.7-flash-q4_k_m.gguf \
-ngl 99 \
-c 32768 \
--no-mmap \
--temp 0.7 \
-p "Расскажи о квантовых вычислениях" \
-n 512
Q4_K_M: 41.3 токен/с (контекст 32k, 512 токенов генерации)
Q5_K_M: 36.7 токен/с
Q3_K_S: 47.1 токен/с (но качество заметно падает)
Q4_0: 44.5 токен/с (рекомендую только для тестов)
Совет: если хотите контекст 80k, как мы описывали в статье про M4 Max и Qwen, для M5 Max работает тот же трюк — используйте опцию --ctx-size 81920, но скорость упадет до 18-22 токен/с. MoE llama.cpp пока не идеально оптимизирует кеш attention на длинном контексте, но для 32k — полет нормальный.
Полные конфиги и скрипты для всех квантований — в нашем общем бенчмарке M5.
RTX 6000 Ada + NVFP4: вперёд с 4-битным плавающим сжатием
NVIDIA RTX 6000 Ada с 48GB VRAM — рабочая лошадка для инференса. Новый формат NVFP4 (4-битное плавающее сжатие, не путать с INT4) даёт почти незаметную глазу разницу в качестве, но резко снижает потребление памяти. Step 3.7 Flash в NVFP4 занимает всего 15.2GB — остаётся 30GB на контекст и кеш. Запуск через llama.cpp с CUDA-бэкендом и флагом --type-kv-f16.
Конфиг для RTX 6000 с NVFP4:
# Сборка llama.cpp с CUDA
cmake -B build -DGGML_CUDA=ON -DGGML_CUDA_F16=ON
cmake --build build --config Release
# Указываем формат NVFP4 (конвертацию делаем отдельно)
./build/bin/llama-cli \
-m /models/step-3.7-flash-nvfp4.gguf \
-ngl 99 \
-c 32768 \
--type-kv f16 \
--temp 0.6 \
-p "Объясни теорию струн за 30 секунд"
NVFP4: 82.1 токен/с (контекст 32k)
Q4_K_M: 70.4 токен/с
NVFP4 с MTP (Multi-Token Prediction): 97.3 токен/с (включив через
--predict-tokens 3)Заметили: NVFP4 на 16% быстрее Q4_K_M при том же визуальном качестве. MTP даёт ещё +18%.
Рекомендую включить MTP: для Step 3.7 Flash эта фича работает отлично — она предсказывает сразу 3 следующих токена, что ускоряет генерацию без потери связности. Подробнее о технике MTP мы разбирали в статье про DeepSeek-V4-Flash — там аналогичный подход.
Сравнительная таблица: M5 Max против RTX 6000
| Параметр | M5 Max (128GB) | RTX 6000 Ada (48GB) |
|---|---|---|
| Формат | Q4_K_M (GGUF) | NVFP4 (GGUF) |
| Токен/с (32k контекст) | 41.3 | 82.1 |
| Токен/с (80k контекст) | 20.1 | 50.6 |
| Потребление памяти | ~38GB unified | ~15GB VRAM |
| Возможность MTP | Нет в Metal бэкенде | Да, +18% скорости |
M5 Max не догоняет RTX 6000 по сырым токенам, но даёт значительно больше доступной памяти (128GB против 48GB). Это значит, что на Mac можно запустить модель с контекстом 100k+ или держать несколько инстансов. Для ноутбука — отличный результат. А RTX 6000 остаётся королём инференса, если вам нужна максимальная скорость и вы готовы пожертвовать объёмом контекста.
Кому подойдёт Step 3.7 Flash
- Владельцам MacBook Pro M4/M5 Max — модель идеально ложится на 128GB. Если у вас 64GB, используйте Q4_K_M и ограничьте контекст 16k (скорость ~35 токен/с).
- Энтузиастам с NVIDIA картами 24-48GB — NVFP4 + MTP выжимает максимум. На RTX 5090 (если она у вас есть) скорость перевалит за 100 токен/с — смотрите нашу сборку ПК.
- Разработчикам под Apple Silicon — MLX (мы тестировали MLX 0.22) даёт еще ~10% прироста против llama.cpp через Metal. Наш конфиг для MLX выложен в бенчмарке M5 Max vs M3 Max.
Если же у вас старая видеокарта с 8-12GB — не расстраивайтесь. Step 3.7 Flash доступна в 2-битном квантовании (Q2_K) — она весит 6.5GB и выдаёт на RTX 3060 около 30 токен/с. Но качество сильно проседает. Лучше посмотрите в сторону MiniMax-M2.5 или DeepSeek-V4-Flash.