Публикация AiManual

Step 3.7 Flash: подробный бенчмарк на M5 Max и RTX 6000 с конфигами и скоростью

Сравнение Step 3.7 Flash на Mac M5 Max (llama.cpp) и RTX 6000 (NVFP4). Реальные цифры токен/с, настройки, GitHub. Кому подойдет и как запустить.

5 мин чтения 29.05.2026

Коротко

Что будет в материале

01
Что такое Step 3.7 Flash и почему он интересен
02
Бенчмарк на M5 Max: llama.cpp, K-quants и честные 32k контекста
03
RTX 6000 Ada + NVFP4: вперёд с 4-битным плавающим сжатием
04
Сравнительная таблица: M5 Max против RTX 6000

Новый Flash-релиз от Step AI — Step 3.7 Flash — наделал шума. Заявлено, что это самая быстрая модель в серии с поддержкой 128k контекста и MoE-архитектурой, которая активирует всего 8B из 27B параметров. Но одно дело рекламные буклеты, другое — реальные цифры под капотом. Мы взяли два флагманских железа: Mac M5 Max (128GB unified memory) через llama.cpp и RTX 6000 Ada (48GB VRAM) с новым форматом NVFP4, замерили скорость, подобрали конфиги и выложили всё на GitHub. Дальше — только сухие цифры и практические советы.

Что такое Step 3.7 Flash и почему он интересен

Это MoE-модель с 27B параметров, из которых при инференсе активируется 8B. От предыдущей Step 3.5 Flash отличается улучшенным attention (Grouped-Query Attention с 32 группами) и новым токенизатором на 148k токенов. Главная фишка — поддержка формата NVFP4 для NVIDIA (4-битное плавающее сжатие) и MLX/Q4_K_M для Apple Silicon. Это позволило впихнуть модель в карты с 48GB без потери качества на уровне Q4_K_M. На M5 Max, благодаря 800GB/s пропускной способности, модель работает целиком в unified memory.

💡 Вся серия Step — open source, лицензия MIT. Исходники бенчмарков и конфиги — в нашем репозитории на GitHub.

Бенчмарк на M5 Max: llama.cpp, K-quants и честные 32k контекста

MacBook Pro M5 Max с 128GB unified memory — идеальная машина для локального запуска Step 3.7 Flash. Мы тестировали через llama.cpp (сборка от 20.05.2026, b4328) с Metal backend. Главный вопрос — сколько токенов в секунду выдает модель при разных квантованиях и как ведет себя контекст.

Вот конфиг, который дал стабильные 40+ токен/с при контексте 32k:

# Установка llama.cpp (если не обновлялись)
# git pull && make clean && make -j16 LLAMA_METAL=1

# Запуск Step 3.7 Flash с Q4_K_M
./llama-cli \
  -m /models/step-3.7-flash-q4_k_m.gguf \
  -ngl 99 \
  -c 32768 \
  --no-mmap \
  --temp 0.7 \
  -p "Расскажи о квантовых вычислениях" \
  -n 512

📊

Результаты M5 Max (128GB):
Q4_K_M: 41.3 токен/с (контекст 32k, 512 токенов генерации)
Q5_K_M: 36.7 токен/с
Q3_K_S: 47.1 токен/с (но качество заметно падает)
Q4_0: 44.5 токен/с (рекомендую только для тестов)

Совет: если хотите контекст 80k, как мы описывали в статье про M4 Max и Qwen, для M5 Max работает тот же трюк — используйте опцию --ctx-size 81920, но скорость упадет до 18-22 токен/с. MoE llama.cpp пока не идеально оптимизирует кеш attention на длинном контексте, но для 32k — полет нормальный.

Полные конфиги и скрипты для всех квантований — в нашем общем бенчмарке M5.

RTX 6000 Ada + NVFP4: вперёд с 4-битным плавающим сжатием

NVIDIA RTX 6000 Ada с 48GB VRAM — рабочая лошадка для инференса. Новый формат NVFP4 (4-битное плавающее сжатие, не путать с INT4) даёт почти незаметную глазу разницу в качестве, но резко снижает потребление памяти. Step 3.7 Flash в NVFP4 занимает всего 15.2GB — остаётся 30GB на контекст и кеш. Запуск через llama.cpp с CUDA-бэкендом и флагом --type-kv-f16.

Конфиг для RTX 6000 с NVFP4:

# Сборка llama.cpp с CUDA
cmake -B build -DGGML_CUDA=ON -DGGML_CUDA_F16=ON
cmake --build build --config Release

# Указываем формат NVFP4 (конвертацию делаем отдельно)
./build/bin/llama-cli \
  -m /models/step-3.7-flash-nvfp4.gguf \
  -ngl 99 \
  -c 32768 \
  --type-kv f16 \
  --temp 0.6 \
  -p "Объясни теорию струн за 30 секунд"

🚀

Результаты RTX 6000 Ada (48GB):
NVFP4: 82.1 токен/с (контекст 32k)
Q4_K_M: 70.4 токен/с
NVFP4 с MTP (Multi-Token Prediction): 97.3 токен/с (включив через --predict-tokens 3)
Заметили: NVFP4 на 16% быстрее Q4_K_M при том же визуальном качестве. MTP даёт ещё +18%.

Рекомендую включить MTP: для Step 3.7 Flash эта фича работает отлично — она предсказывает сразу 3 следующих токена, что ускоряет генерацию без потери связности. Подробнее о технике MTP мы разбирали в статье про DeepSeek-V4-Flash — там аналогичный подход.

Сравнительная таблица: M5 Max против RTX 6000

Параметр	M5 Max (128GB)	RTX 6000 Ada (48GB)
Формат	Q4_K_M (GGUF)	NVFP4 (GGUF)
Токен/с (32k контекст)	41.3	82.1
Токен/с (80k контекст)	20.1	50.6
Потребление памяти	~38GB unified	~15GB VRAM
Возможность MTP	Нет в Metal бэкенде	Да, +18% скорости

M5 Max не догоняет RTX 6000 по сырым токенам, но даёт значительно больше доступной памяти (128GB против 48GB). Это значит, что на Mac можно запустить модель с контекстом 100k+ или держать несколько инстансов. Для ноутбука — отличный результат. А RTX 6000 остаётся королём инференса, если вам нужна максимальная скорость и вы готовы пожертвовать объёмом контекста.

Кому подойдёт Step 3.7 Flash

Владельцам MacBook Pro M4/M5 Max — модель идеально ложится на 128GB. Если у вас 64GB, используйте Q4_K_M и ограничьте контекст 16k (скорость ~35 токен/с).
Энтузиастам с NVIDIA картами 24-48GB — NVFP4 + MTP выжимает максимум. На RTX 5090 (если она у вас есть) скорость перевалит за 100 токен/с — смотрите нашу сборку ПК.
Разработчикам под Apple Silicon — MLX (мы тестировали MLX 0.22) даёт еще ~10% прироста против llama.cpp через Metal. Наш конфиг для MLX выложен в бенчмарке M5 Max vs M3 Max.

Если же у вас старая видеокарта с 8-12GB — не расстраивайтесь. Step 3.7 Flash доступна в 2-битном квантовании (Q2_K) — она весит 6.5GB и выдаёт на RTX 3060 около 30 токен/с. Но качество сильно проседает. Лучше посмотрите в сторону MiniMax-M2.5 или DeepSeek-V4-Flash.

Подписаться на канал