«Мы не пытаемся копировать GPT-4»: главный тезис AMA
На прошлой неделе в r/LocalLLaMA взорвалось. Команда StepFun AI устроила AMA (Ask Me Anything) про свои модели Step-3.5-Flash и Step-3-VL-10B. Сообщество засыпало вопросами - от технических деталей до философских размышлений о будущем open-source AI.
Я просидел три часа, читая все ответы. И вот что выяснилось.
Важно: все ответы актуальны на 22.02.2026. Команда StepFun уже анонсировала обновления для обеих моделей, но в AMA говорили именно о текущих версиях.
Step-3.5-Flash: почему она такая быстрая (и капризная)
Первый же вопрос был про странное поведение модели. Пользователи жаловались: Step-3.5-Flash иногда галлюцинирует с tool calls, хотя в остальном работает стабильно.
Ответ разработчиков: «Мы знаем. Это trade-off».
Оказалось, архитектура Step-3.5-Flash использует гибридный подход: часть параметров активируется только при определенных условиях. Это ускоряет инференс, но иногда система «промахивается» с выбором активируемых блоков.
«Мы называем это conditional activation, - написал один из разработчиков. - В теории это должно работать идеально. На практике... ну, вы видите».
196 миллиардов параметров, но работает как 11
Этот момент всех смутил. Как модель с 196B параметрами может работать на оборудовании для 11B моделей?
Объяснение простое (и гениальное): только 11 миллиардов параметров активны одновременно. Остальные 185 миллиардов - это «эксперты», которые включаются по необходимости.
Если хотите глубже разобраться в архитектуре, посмотрите наш технический анализ «Step-3.5-Flash: 196 миллиардов параметров, но работает как 11».
Step-3-VL-10B: мультимодальность без излишеств
Вторая звезда AMA - Step-3-VL-10B. Модель для работы с изображениями и текстом, которая умещается в 10 миллиардов параметров.
Вопрос от сообщества: «Зачем делать отдельную VL-модель, если можно дообучить текстовую?»
Ответ: «Можно. Но плохо».
| Модель | Параметры | Специализация | VRAM (FP16) |
|---|---|---|---|
| Step-3.5-Flash | 196B (11B active) | Текст, tool calls | ~22 ГБ |
| Step-3-VL-10B | 10B | Текст + изображения | ~20 ГБ |
Разработчики объяснили: архитектура для мультимодальных задач требует специальных слоев для обработки изображений. «Просто добавить vision encoder к текстовой модели - все равно что прикрутить пропеллер к машине. Получится плохой самолет и сломанная машина».
Самые острые вопросы (и честные ответы)
«Почему документация такая... скудная?»
Этот вопрос набрал 150 лайков. Сообщество устало от неполной документации open-source проектов.
Ответ команды: «Мы работаем над этим. Но у нас 5 человек, а у OpenAI - 500. Приоритеты».
Честно? Понимаю их. Но пользователям от этого не легче.
«Когда появится Step-4?»
Все ждали анонса следующей версии. Не дождались.
«Мы сосредоточены на улучшении текущих моделей, - написал lead developer. - Step-3.5-Flash получит несколько обновлений в ближайшие месяцы. Новая архитектура - не раньше конца года».
Важный момент: команда подтвердила, что работает над оптимизацией для Mac с большим объемом памяти. Если у вас Mac с 128 ГБ RAM, проверьте нашу статью про Step-3.5-Flash-int4 - там уже есть рабочие конфигурации.
«Как вы сравниваетесь с GLM-4.7-Flash?»
Прямой конкурент от Zhipu AI. Сообщество хотело услышать сравнение из первых уст.
Ответ был дипломатичным: «У них другой подход. Мы больше фокусируемся на эффективности inference, они - на качестве ответов».
Если интересно подробное сравнение, у нас есть разбор GLM-4.7 Flash против Qwen 32B. И отдельная статья про проблемы с зацикливанием в LM Studio.
Что будет дальше? (Планы, а не обещания)
Команда поделилась roadmap на 2026 год:
- Улучшение стабильности tool calls в Step-3.5-Flash (ожидается в марте)
- Более агрессивные квантования для Step-3-VL-10B (int4, возможно int3)
- Интеграция с популярными inference-серверами (vLLM, TGI)
- Улучшение документации (наконец-то)
Но самое интересное - неофициальные намеки. В одном из ответов разработчик обмолвился: «Мы экспериментируем с архитектурой, где эксперты выбираются не по токенам, а по смысловым кластерам».
Если это сработает - следующая модель может быть еще эффективнее.
Мой вердикт после AMA
StepFun AI - не очередной клон-проект. У них своя философия: эффективность важнее размера, практичность важнее benchmark scores.
Step-3.5-Flash - отличный выбор, если вам нужна быстрая модель для API или чат-бота. Но будьте готовы к странностям с tool calls.
Step-3-VL-10B - солидная мультимодальная модель, особенно если у вас ограниченные ресурсы.
Главный вывод из AMA: команда слушает сообщество. Они признают проблемы, не скрывают limitations, и работают над улучшениями.
В мире open-source AI это дорогого стоит.
P.S. Если вы только начинаете знакомство с Step-3.5-Flash, начните с нашей статьи «Step 3.5 Flash под капотом». Там все основы без технического жаргона.
А если хотите сравнить производительность с другими моделями - у нас есть тест StepFun 3.5 Flash против MiniMax 2.1 с реальными цифрами.
Что дальше? Следите за обновлениями StepFun. Если они реализуют хотя бы половину из обещанного - к концу 2026 года у нас будет одна из самых эффективных open-source архитектур на рынке.
И да - следующий AMA они обещали провести после релиза крупного обновления. Я уже отмечаю в календаре.