Быстро, но криво: знакомство с Step 3.5 Flash
Step 3.5 Flash позиционируется как скоростная модель от Opencode с поддержкой tool calls и reasoning traces. На бумаге всё выглядит идеально: быстрые ответы, работа с инструментами, цепочки рассуждений. На практике же это напоминает гонку на машине с кривыми колёсами - быстро едет, но постоянно съезжает с трассы.
Важно: все данные актуальны на 04.02.2026. Step 3.5 Flash - последняя доступная версия модели на эту дату, более новых релизов нет.
Главная проблема: tool calls, которые существуют только в воображении модели
Самая раздражающая особенность Step 3.5 Flash - её любовь к выдумыванию несуществующих инструментов. Вы просите вызвать конкретную функцию, а модель в ответ:
- Вызывает инструмент с другим названием
- Создаёт аргументы из воздуха
- Игнорирует обязательные параметры
- Иногда просто придумывает новый tool call
Это не просто мелкий баг. Это фундаментальная проблема, которая ломает всю идею надёжной работы с инструментами. Если вы строите агента на этой модели, будьте готовы к постоянным сбоям в цепочках выполнения.
Reasoning traces: когда модель застревает в петле
Вторая большая проблема - reasoning traces. В теории это должно помогать модели думать вслух. На практике Step 3.5 Flash часто зацикливается на одних и тех же мыслях, повторяя их до бесконечности.
Выглядит это так: модель начинает рассуждать, делает пару логических шагов, а потом... возвращается к началу. И снова. И снова. Это напоминает проблему с reasoning в GLM 4.7 Flash, но здесь петли короче и назойливее.
Сравнение с GLM 4.7 Flash: кто лучше?
Если уж говорить о быстрых моделях с reasoning, нельзя не сравнить Step 3.5 Flash с её прямым конкурентом - GLM 4.7 Flash. Разница заметна сразу:
| Параметр | Step 3.5 Flash | GLM 4.7 Flash |
|---|---|---|
| Скорость ответа | Быстрее на 15-20% | Медленнее, но стабильнее |
| Качество tool calls | Частые галлюцинации | Более точные, но свои баги |
| Reasoning traces | Короткие петли повторения | Длинные, иногда бесконечные |
| Стабильность | Низкая | Выше, но требует настройки |
GLM 4.7 Flash, несмотря на свои проблемы (вроде тех, что описаны в статье про шизофрению в ответах), хотя бы предсказуема. Step 3.5 Flash ведёт себя как неисправный автомат: сегодня работает, завтра стреляет холостыми.
Как исправить галлюцинации tool calls: практические методы
Теперь к главному - что делать с этими галлюцинациями? Полностью избавиться не получится, но можно снизить частоту до приемлемого уровня.
1 Жёсткая валидация схемы инструментов
Не доверяйте модели определение параметров. Всегда передавайте полную JSON-схему с обязательными полями, типами данных и примерами. Step 3.5 Flash плохо справляется с додумыванием, зато неплохо следует готовым шаблонам.
2 Температура и top_p: ниже, ещё ниже
Установите temperature=0.1 или даже 0.05 для tool calls. Top_p лучше поставить 0.9 или 0.95. Модель станет менее креативной, зато перестанет выдумывать несуществующие функции. Это жертва, но необходимая.
3 Повторная проверка через систему промптов
Добавьте в промпт явную инструкцию: "Если инструмент требует параметр X, но он не указан в запросе, спроси у пользователя, не вызывай инструмент без него". Работает в 60% случаев - лучше, чем ничего.
4 Используйте fallback-механизмы
Настройте автоматическую проверку: если модель вызвала tool call с неправильными параметрами, система должна отклонить вызов и запросить исправление. Без этого ваш агент будет постоянно падать.
Reasoning traces: как разорвать петлю повторений
С reasoning traces ситуация сложнее. Step 3.5 Flash не просто зацикливается - она делает это с упоением. Вот что помогает:
- Ограничение длины reasoning: установите max_tokens для reasoning блока отдельно от основного ответа
- Принудительный стоп: добавьте стоп-символы после каждого reasoning шага
- Температурный режим: для reasoning используйте temperature=0.3, для ответа - 0.7
- Промпт-инженерия: явно укажите "не повторяй одни и те же мысли"
Последний пункт звучит смешно, но работает. Модель действительно старается избегать повторений, если её об этом попросить. Ненадолго, но хоть что-то.
Кому подойдёт Step 3.5 Flash в 2026 году?
С учётом всех проблем, есть сценарии, где эта модель может быть полезной:
- Эксперименты с reasoning: если нужно быстро потестировать цепочки рассуждений без требований к стабильности
- Прототипирование tool calls: для черновой проверки идей, прежде чем переходить на стабильную модель
- Образовательные цели: чтобы показать студентам, как НЕ должны работать инструменты в LLM
- Ситуации, где скорость важнее точности: быстрые демо, предварительные оценки
Для продакшена я бы эту модель не рекомендовал. Вообще. Даже с учётом всех фиксов и настроек. Риск получить галлюцинацию в критический момент слишком высок.
Если вам нужна стабильная работа с tool calls в 2026 году, присмотритесь к GLM 4.7 Flash после правильной настройки (как в этом руководстве) или к более крупным моделям с проверенной репутацией.
Будущее Step 3.5 Flash: есть ли надежда?
На момент 04.02.2026 модель выглядит сырой и недоработанной. Основная проблема - не в багах, а в фундаментальной нестабильности. Tool calls работают через раз, reasoning traces зацикливаются, ответы непредсказуемы.
Opencode могли бы выпустить патч или новую версию, но пока что тишина. Возможно, разработчики сосредоточились на других проектах. Возможно, Step 3.5 Flash так и останется примером того, как не нужно делать быстрые модели с расширенными функциями.
Мой прогноз: если в ближайшие месяцы не выйдет серьёзного обновления, модель quietly умрёт. Её заменят более стабильные конкуренты вроде настраиваемого GLM 4.7 Flash или новых моделей от других вендоров.
А пока что - используйте осторожно, с кучей валидаций и fallback-механизмов. И всегда имейте под рукой более надёжную модель для критических задач. Step 3.5 Flash - это интересный эксперимент, но не рабочий инструмент. По крайней мере, в 2026 году.