Что такое Step-3.5-Flash и почему все вдруг заговорили о 196 миллиардах

Представьте модель, которая весит как GPT-4 (ну почти), но работает на вашем железе. Не на ферме из 128 H100, а на одной RTX 4090. Или даже на CPU. Звучит как фантастика? Это Step-3.5-Flash - 196 миллиардов параметров в полной версии, но только 11 миллиардов активных во время инференса.

На февраль 2026 года это одна из самых эффективных MoE-архитектур в opensource. Китайская команда StepFun AI выпустила её как ответ на DeepSeek v3.2, и разница в подходах - отдельная история.

Архитектура: как 196B превращаются в A11B

MoE (Mixture of Experts) - не новая технология. Но здесь её реализовали с умом. Вместо того чтобы грузить все 196 миллиардов параметров в память, модель активирует только релевантные эксперты для каждого токена.

Параметр	Step-3.5-Flash	DeepSeek v3.2
Всего параметров	196B	671B
Активных параметров	11B	37B
Архитектура	MoE (64 экспертов)	MoE + Sparse Attention
Минимальная VRAM	~24GB (FP16)	~80GB (FP16)
Контекстное окно	128K токенов	128K токенов

Цифры обманчивы. 196B против 671B - кажется, DeepSeek втрое больше. Но активные параметры - 11B против 37B. Разница уже не такая пугающая, особенно если вспомнить про техники ускорения инференса.

Производительность: где Step-3.5-Flash реально сияет

Бенчмарки на февраль 2026 показывают интересную картину. Step-3.5-Flash не пытается бить DeepSeek v3.2 во всем. Вместо этого она выбирает ниши.

💡

Ключевое отличие: Step-3.5-Flash оптимизирована для single-turn задач и коротких диалогов. DeepSeek v3.2, как и его предшественник v3.2-Speciale, заточен под многошаговые reasoning-задачи.

Кодинг: HumanEval - 78.2% у Step-3.5-Flash против 81.5% у DeepSeek v3.2. Разница есть, но не катастрофическая
Математика: GSM8K - 84.7% против 88.3%. Здесь DeepSeek показывает своё происхождение (помните MiMo-V2-Flash от Xiaomi с её математическими способностями?)
Понимание текста: MMLU - 75.1% против 77.8%. Опять же, разница в пределах статистической погрешности
Скорость ответа: вот где Step-3.5-Flash вырывается вперед. 45 токенов/сек на RTX 4090 против 28 у DeepSeek v3.2

Установка: от Hugging Face до вашего GPU

Технически установить Step-3.5-Flash проще, чем DeepSeek v3.2 в llama.cpp. Модель доступна на Hugging Face в нескольких вариантах квантования.

1 Базовый запуск через Transformers

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = "stepfun-ai/Step-3.5-Flash-196B-A11B"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

# Для GPU с 24GB+ VRAM
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

input_text = "Напиши функцию Python для сортировки массива"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=500)
print(tokenizer.decode(outputs[0]))

2 Квантование для слабого железа

Если у вас не RTX 4090, а что-то скромнее, есть варианты:

GGUF 4-bit: ~12GB RAM, работает даже на CPU. Но скорость - 2-3 токена/сек
AWQ 4-bit: ~14GB VRAM, скорость до 25 токенов/сек на RTX 4070
GPTQ 4-bit: ~15GB VRAM, лучшая точность из квантованных версий

Внимание: MoE-модели сложнее квантовать. Если берете квантованную версию - проверяйте дату релиза. На февраль 2026 самые стабильные - GGUF от TheBloke.

Step-3.5-Flash vs DeepSeek v3.2: когда что выбирать

Это не битва титанов. Это выбор инструмента под задачу.

Сценарий	Выбирайте Step-3.5-Flash если...	Выбирайте DeepSeek v3.2 если...
Кодинг на лету	Нужны быстрые ответы, автодополнение кода	Нужен deep reasoning, анализ сложной архитектуры
Чат-бот	Бот для поддержки с быстрыми ответами	Ассистент для сложных многошаговых задач
Анализ документов	Быстрое извлечение фактов, суммаризация	Глубокий анализ, сравнение документов
Оборудование	RTX 3090/4090, 24-32GB VRAM	Несколько GPU или много RAM для CPU-инференса

Подводные камни и странности

Идеальных моделей не бывает. Step-3.5-Flash - не исключение.

Английский bias: как и многие китайские модели, лучше работает с английским, чем с русским. Хотя русский понимает неплохо
Странности с контекстом: 128K токенов заявлено, но после 64K качество падает заметнее, чем у DeepSeek
Температура: очень чувствительна к настройкам sampling. При temperature=0.7 может выдавать бред, при 0.3 - слишком шаблонно
Лицензия: Apache 2.0, что отлично. Но training data не раскрывают полностью. (Звучит знакомо? Так же было с той самой утечкой DeepSeek)

Кому эта модель реально нужна?

Step-3.5-Flash - не для всех. Но если вы попадаете в одну из категорий ниже, стоит попробовать.

💡

Разработчикам, которым надоело ждать 10 секунд на ответ от локальной модели. DevOps-инженерам, которые хотят быстрый AI для анализа логов. Контент-менеджерам для быстрой генерации текстов. Всем, у кого есть RTX 3090/4090 и нет желания арендовать облако.

Step-3.5-Flash не заменит будущий DeepSeek V4 в reasoning-задачах. Не побьет GLM-4.7 Flash в китайском языке. Но она делает одну вещь лучше многих: работает быстро на доступном железе.

Попробуйте запустить её рядом с DeepSeek v3.2. Дайте обеим одну задачу по коду. Step-3.5-Flash ответит первым. Возможно, не таким глубоким. Но часто этого достаточно.

P.S. Если у вас Mac с M3 Max и 128GB RAM - попробуйте GGUF версию. Работает, хоть и не быстро. А если найдете способ заставить её работать быстрее на CPU - напишите. Сообществу будет интересно.

Step-3.5-Flash: 196 миллиардов параметров, но работает как 11. Почему это следующий шаг в локальных AI