Какие планы у StepFun AI на 2026 год?

Улучшение стабильности tool calls в Step-3.5-Flash, более агрессивные квантования для Step-3-VL-10B, интеграция с популярными inference-серверами и улучшение документации.

StepFun AMA: архив ответов создателей моделей Step-3.5-Flash и Step-3-VL-10B

Q: Почему Step-3.5-Flash иногда галлюцинирует с tool calls?

Разработчики объясняют это trade-off в архитектуре conditional activation, где часть параметров активируется только при определенных условиях, что ускоряет инференс, но иногда приводит к ошибкам выбора активируемых блоков.

Q: Как модель с 196 миллиардами параметров работает на оборудовании для 11B моделей?

Только 11 миллиардов параметров активны одновременно, остальные 185 миллиардов - это «эксперты», которые включаются по необходимости, что делает модель эффективной при инференсе.

«Мы не пытаемся копировать GPT-4»: главный тезис AMA

На прошлой неделе в r/LocalLLaMA взорвалось. Команда StepFun AI устроила AMA (Ask Me Anything) про свои модели Step-3.5-Flash и Step-3-VL-10B. Сообщество засыпало вопросами - от технических деталей до философских размышлений о будущем open-source AI.

Я просидел три часа, читая все ответы. И вот что выяснилось.

Важно: все ответы актуальны на 22.02.2026. Команда StepFun уже анонсировала обновления для обеих моделей, но в AMA говорили именно о текущих версиях.

Step-3.5-Flash: почему она такая быстрая (и капризная)

Первый же вопрос был про странное поведение модели. Пользователи жаловались: Step-3.5-Flash иногда галлюцинирует с tool calls, хотя в остальном работает стабильно.

Ответ разработчиков: «Мы знаем. Это trade-off».

💡

Если вы столкнулись с галлюцинациями tool calls в Step-3.5-Flash, у нас есть отдельное руководство по их исправлению. Проверьте статью «Step 3.5 Flash: быстрая, но нестабильная модель. Как исправить галлюцинации tool calls?».

Оказалось, архитектура Step-3.5-Flash использует гибридный подход: часть параметров активируется только при определенных условиях. Это ускоряет инференс, но иногда система «промахивается» с выбором активируемых блоков.

«Мы называем это conditional activation, - написал один из разработчиков. - В теории это должно работать идеально. На практике... ну, вы видите».

196 миллиардов параметров, но работает как 11

Этот момент всех смутил. Как модель с 196B параметрами может работать на оборудовании для 11B моделей?

Объяснение простое (и гениальное): только 11 миллиардов параметров активны одновременно. Остальные 185 миллиардов - это «эксперты», которые включаются по необходимости.

Если хотите глубже разобраться в архитектуре, посмотрите наш технический анализ «Step-3.5-Flash: 196 миллиардов параметров, но работает как 11».

Step-3-VL-10B: мультимодальность без излишеств

Вторая звезда AMA - Step-3-VL-10B. Модель для работы с изображениями и текстом, которая умещается в 10 миллиардов параметров.

Вопрос от сообщества: «Зачем делать отдельную VL-модель, если можно дообучить текстовую?»

Ответ: «Можно. Но плохо».

Модель	Параметры	Специализация	VRAM (FP16)
Step-3.5-Flash	196B (11B active)	Текст, tool calls	~22 ГБ
Step-3-VL-10B	10B	Текст + изображения	~20 ГБ

Разработчики объяснили: архитектура для мультимодальных задач требует специальных слоев для обработки изображений. «Просто добавить vision encoder к текстовой модели - все равно что прикрутить пропеллер к машине. Получится плохой самолет и сломанная машина».

Самые острые вопросы (и честные ответы)

«Почему документация такая... скудная?»

Этот вопрос набрал 150 лайков. Сообщество устало от неполной документации open-source проектов.

Ответ команды: «Мы работаем над этим. Но у нас 5 человек, а у OpenAI - 500. Приоритеты».

Честно? Понимаю их. Но пользователям от этого не легче.

«Когда появится Step-4?»

Все ждали анонса следующей версии. Не дождались.

«Мы сосредоточены на улучшении текущих моделей, - написал lead developer. - Step-3.5-Flash получит несколько обновлений в ближайшие месяцы. Новая архитектура - не раньше конца года».

Важный момент: команда подтвердила, что работает над оптимизацией для Mac с большим объемом памяти. Если у вас Mac с 128 ГБ RAM, проверьте нашу статью про Step-3.5-Flash-int4 - там уже есть рабочие конфигурации.

«Как вы сравниваетесь с GLM-4.7-Flash?»

Прямой конкурент от Zhipu AI. Сообщество хотело услышать сравнение из первых уст.

Ответ был дипломатичным: «У них другой подход. Мы больше фокусируемся на эффективности inference, они - на качестве ответов».

Если интересно подробное сравнение, у нас есть разбор GLM-4.7 Flash против Qwen 32B. И отдельная статья про проблемы с зацикливанием в LM Studio.

Что будет дальше? (Планы, а не обещания)

Команда поделилась roadmap на 2026 год:

Улучшение стабильности tool calls в Step-3.5-Flash (ожидается в марте)
Более агрессивные квантования для Step-3-VL-10B (int4, возможно int3)
Интеграция с популярными inference-серверами (vLLM, TGI)
Улучшение документации (наконец-то)

Но самое интересное - неофициальные намеки. В одном из ответов разработчик обмолвился: «Мы экспериментируем с архитектурой, где эксперты выбираются не по токенам, а по смысловым кластерам».

Если это сработает - следующая модель может быть еще эффективнее.

Мой вердикт после AMA

StepFun AI - не очередной клон-проект. У них своя философия: эффективность важнее размера, практичность важнее benchmark scores.

Step-3.5-Flash - отличный выбор, если вам нужна быстрая модель для API или чат-бота. Но будьте готовы к странностям с tool calls.

Step-3-VL-10B - солидная мультимодальная модель, особенно если у вас ограниченные ресурсы.

💡

Хотите запустить LLM на слабом железе? У нас есть руководство по запуску Stable Diffusion и текстовых LLM на ноутбуке с 4 ГБ VRAM. Техники оптимизации работают и для моделей StepFun.

Главный вывод из AMA: команда слушает сообщество. Они признают проблемы, не скрывают limitations, и работают над улучшениями.

В мире open-source AI это дорогого стоит.

P.S. Если вы только начинаете знакомство с Step-3.5-Flash, начните с нашей статьи «Step 3.5 Flash под капотом». Там все основы без технического жаргона.

А если хотите сравнить производительность с другими моделями - у нас есть тест StepFun 3.5 Flash против MiniMax 2.1 с реальными цифрами.

Что дальше? Следите за обновлениями StepFun. Если они реализуют хотя бы половину из обещанного - к концу 2026 года у нас будет одна из самых эффективных open-source архитектур на рынке.

И да - следующий AMA они обещали провести после релиза крупного обновления. Я уже отмечаю в календаре.

StepFun AMA: что на самом деле рассказали создатели Step-3.5-Flash и Step-3-VL-10B