Что такое Step-3.5-Flash и почему все вдруг заговорили о 196 миллиардах
Представьте модель, которая весит как GPT-4 (ну почти), но работает на вашем железе. Не на ферме из 128 H100, а на одной RTX 4090. Или даже на CPU. Звучит как фантастика? Это Step-3.5-Flash - 196 миллиардов параметров в полной версии, но только 11 миллиардов активных во время инференса.
На февраль 2026 года это одна из самых эффективных MoE-архитектур в opensource. Китайская команда StepFun AI выпустила её как ответ на DeepSeek v3.2, и разница в подходах - отдельная история.
Архитектура: как 196B превращаются в A11B
MoE (Mixture of Experts) - не новая технология. Но здесь её реализовали с умом. Вместо того чтобы грузить все 196 миллиардов параметров в память, модель активирует только релевантные эксперты для каждого токена.
| Параметр | Step-3.5-Flash | DeepSeek v3.2 |
|---|---|---|
| Всего параметров | 196B | 671B |
| Активных параметров | 11B | 37B |
| Архитектура | MoE (64 экспертов) | MoE + Sparse Attention |
| Минимальная VRAM | ~24GB (FP16) | ~80GB (FP16) |
| Контекстное окно | 128K токенов | 128K токенов |
Цифры обманчивы. 196B против 671B - кажется, DeepSeek втрое больше. Но активные параметры - 11B против 37B. Разница уже не такая пугающая, особенно если вспомнить про техники ускорения инференса.
Производительность: где Step-3.5-Flash реально сияет
Бенчмарки на февраль 2026 показывают интересную картину. Step-3.5-Flash не пытается бить DeepSeek v3.2 во всем. Вместо этого она выбирает ниши.
- Кодинг: HumanEval - 78.2% у Step-3.5-Flash против 81.5% у DeepSeek v3.2. Разница есть, но не катастрофическая
- Математика: GSM8K - 84.7% против 88.3%. Здесь DeepSeek показывает своё происхождение (помните MiMo-V2-Flash от Xiaomi с её математическими способностями?)
- Понимание текста: MMLU - 75.1% против 77.8%. Опять же, разница в пределах статистической погрешности
- Скорость ответа: вот где Step-3.5-Flash вырывается вперед. 45 токенов/сек на RTX 4090 против 28 у DeepSeek v3.2
Установка: от Hugging Face до вашего GPU
Технически установить Step-3.5-Flash проще, чем DeepSeek v3.2 в llama.cpp. Модель доступна на Hugging Face в нескольких вариантах квантования.
1 Базовый запуск через Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "stepfun-ai/Step-3.5-Flash-196B-A11B"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
# Для GPU с 24GB+ VRAM
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto",
trust_remote_code=True
)
input_text = "Напиши функцию Python для сортировки массива"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=500)
print(tokenizer.decode(outputs[0]))
2 Квантование для слабого железа
Если у вас не RTX 4090, а что-то скромнее, есть варианты:
- GGUF 4-bit: ~12GB RAM, работает даже на CPU. Но скорость - 2-3 токена/сек
- AWQ 4-bit: ~14GB VRAM, скорость до 25 токенов/сек на RTX 4070
- GPTQ 4-bit: ~15GB VRAM, лучшая точность из квантованных версий
Внимание: MoE-модели сложнее квантовать. Если берете квантованную версию - проверяйте дату релиза. На февраль 2026 самые стабильные - GGUF от TheBloke.
Step-3.5-Flash vs DeepSeek v3.2: когда что выбирать
Это не битва титанов. Это выбор инструмента под задачу.
| Сценарий | Выбирайте Step-3.5-Flash если... | Выбирайте DeepSeek v3.2 если... |
|---|---|---|
| Кодинг на лету | Нужны быстрые ответы, автодополнение кода | Нужен deep reasoning, анализ сложной архитектуры |
| Чат-бот | Бот для поддержки с быстрыми ответами | Ассистент для сложных многошаговых задач |
| Анализ документов | Быстрое извлечение фактов, суммаризация | Глубокий анализ, сравнение документов |
| Оборудование | RTX 3090/4090, 24-32GB VRAM | Несколько GPU или много RAM для CPU-инференса |
Подводные камни и странности
Идеальных моделей не бывает. Step-3.5-Flash - не исключение.
- Английский bias: как и многие китайские модели, лучше работает с английским, чем с русским. Хотя русский понимает неплохо
- Странности с контекстом: 128K токенов заявлено, но после 64K качество падает заметнее, чем у DeepSeek
- Температура: очень чувствительна к настройкам sampling. При temperature=0.7 может выдавать бред, при 0.3 - слишком шаблонно
- Лицензия: Apache 2.0, что отлично. Но training data не раскрывают полностью. (Звучит знакомо? Так же было с той самой утечкой DeepSeek)
Кому эта модель реально нужна?
Step-3.5-Flash - не для всех. Но если вы попадаете в одну из категорий ниже, стоит попробовать.
Step-3.5-Flash не заменит будущий DeepSeek V4 в reasoning-задачах. Не побьет GLM-4.7 Flash в китайском языке. Но она делает одну вещь лучше многих: работает быстро на доступном железе.
Попробуйте запустить её рядом с DeepSeek v3.2. Дайте обеим одну задачу по коду. Step-3.5-Flash ответит первым. Возможно, не таким глубоким. Но часто этого достаточно.
P.S. Если у вас Mac с M3 Max и 128GB RAM - попробуйте GGUF версию. Работает, хоть и не быстро. А если найдете способ заставить её работать быстрее на CPU - напишите. Сообществу будет интересно.