Сравнение GPT-OSS-20B, GLM-4.7-Flash, Step-3.5-Flash: эффективность и расход токенов

Три модели, одна проблема: почему reasoning съедает половину ваших ресурсов

Вы запускаете локальную LLM, задаете сложный вопрос, ждете 30 секунд... и получаете ответ, который выглядит так, будто его писал студент после трех бессонных ночей. Знакомо? Проблема не в вашем железе (хотя и в нем тоже). Проблема в том, как разные модели тратят токены на reasoning - тот самый внутренний диалог, который должен приводить к умным выводам, но часто превращается в словесный мусор.

Сегодня разбираем трех кандидатов, которые претендуют на звание "оптимальной модели для домашней AI-лаборатории" в 2026 году: GPT-OSS-20B (открытая версия, не путать с 120B-гигантом), GLM-4.7-Flash (китайский ответ на все вопросы) и Step-3.5-Flash (темная лошадка с неясным происхождением).

Важный момент на 07.02.2026: все три модели активно развиваются. GPT-OSS-20B получила обновление токенизатора в январе 2026, GLM-4.7-Flash вышла в декабре 2025, а Step-3.5-Flash - вообще свежий релиз февраля 2026 года. Сравниваем самое актуальное.

Методология: как мы считали "утекающие" токены

Прежде чем бросаться цифрами, объясню, почему стандартные бенчмарки врут. Они измеряют итоговое качество, но не показывают, какой ценой оно достигнуто. Модель может дать блестящий ответ, потратив 5000 токенов на reasoning, а конкурент - почти такой же хороший ответ за 800 токенов. Разница в 6 раз по стоимости вычислений!

Наша тестовая установка:

Оборудование: 2x RTX 4090 (как в этой сборке)
Инференс-движок: vLLM 0.4.9 (последняя стабильная на февраль 2026)
Набор задач: 100 сложных reasoning-задач (математика, логика, код, анализ текста)
Измеряли: точность ответа + количество токенов reasoning + общее время генерации

Ключевой параметр - "токеновая эффективность": сколько процентов от общего количества токенов ушло на полезный вывод, а сколько - на внутренние размышления.

GPT-OSS-20B: дисциплинированный, но скучный немец

Эта модель ведет себя как немецкий инженер: все по инструкции, минимальные отклонения от плана, предсказуемый результат. И это одновременно ее сила и слабость.

Параметр	GPT-OSS-20B	Что это значит
Токенов reasoning на задачу	120-180	Самая экономная из трех
Эффективность reasoning	87%	Почти все токены ведут к ответу
Качество ответов	78/100	Хорошо, но не блестяще
Пиковое потребление VRAM	38 ГБ	Влезает в 2x4090 с запасом

Что мне нравится в GPT-OSS-20B: она не пытается казаться умнее, чем есть. Reasoning короткий, по делу, без философских отступлений. Если задача решается в три шага - она делает три шага, не пять. Но это же и ограничивает ее: сложные задачи, требующие нестандартного подхода, ей часто не по зубам.

💡

GPT-OSS-20B идеальна для production-систем, где важна предсказуемость и стабильность. Например, для LLM-IDS систем или автоматической обработки документов.

GLM-4.7-Flash: азиатский перфекционист с токенозависимостью

Китайские инженеры из Zhipu AI явно считают, что больше reasoning = лучше качество. И они почти правы. Почти.

Параметр	GLM-4.7-Flash	Что это значит
Токенов reasoning на задачу	300-500	В 2.5-3 раза больше, чем у GPT-OSS
Эффективность reasoning	64%	Треть токенов - "вода"
Качество ответов	85/100	Лучше, но дороже
Пиковое потребление VRAM	42 ГБ	Гранично для 2x4090

GLM-4.7-Flash пишет reasoning как студент, который боится, что преподаватель не оценит глубину его мысли. "Давайте рассмотрим проблему с разных сторон. Во-первых... хотя, с другой стороны... возможно, следует учесть..." И так на 400 токенов. Результат действительно качественнее, но цена...

Самое раздражающее: модель часто "перерешивает" простые задачи. Спросите "сколько будет 2+2", и получите трехэтажный reasoning про аксиомы Пеано и коммутативность сложения.

Техническая деталь: GLM-4.7-Flash использует собственную токенизацию с улучшенной поддержкой китайского, что объясняет часть "лишних" токенов. Но проблема не только в этом - архитектура модели просто склонна к verbose reasoning.

Step-3.5-Flash: гений или сумасшедший?

Эта модель - самый интересный участник сравнения. Непонятно, кто ее сделал, на каких данных обучал, но результаты... противоречивые.

Параметр	Step-3.5-Flash	Что это значит
Токенов reasoning на задачу	50-800 (да, такой разброс)	Непредсказуемость - ее конек
Эффективность reasoning	91% в лучших случаях, 40% в худших	Либо гений, либо катастрофа
Качество ответов	45-95/100 (зависит от задачи)	Самый высокий разброс
Пиковое потребление VRAM	35 ГБ	Самая легкая из трех

Step-3.5-Flash либо решает задачу за 50 токенов reasoning с блестящим результатом, либо уходит в бесконечную рекурсию самокопания на 800 токенов и выдает ерунду. Нет золотой середины.

Пример из тестов: задача на оптимизацию SQL-запроса. GPT-OSS дала стандартное решение за 140 токенов reasoning (оценка 75/100). GLM потратила 380 токенов (оценка 82/100). Step-3.5-Flash... 62 токена reasoning, решение с использованием window functions, о которых не было в условии, оценка 98/100. Как? Неизвестно.

Практический вывод: какую модель выбрать в 2026 году

Ответ зависит не от абстрактного "качества", а от того, что вы собираетесь делать и как терпимо относитесь к рискам.

1 Выбирайте GPT-OSS-20B если...

Вам нужна стабильность выше всего. Production-системы, автоматизация бизнес-процессов, обработка большого объема однотипных задач. Эта модель не удивит гениальностью, но и не подведет в ответственный момент. Ее reasoning предсказуем как швейцарские часы.

Технический бонус: GPT-OSS-20B лучше всего работает с SGLang для сложных инференс-паттернов благодаря своей дисциплинированной архитектуре.

2 Выбирайте GLM-4.7-Flash если...

Качество ответа критически важно, а ресурсы не ограничены. Исследовательские задачи, анализ сложных документов, творческие работы. Но готовьтесь к тому, что ваш счет за электричество вырастет на 30% (серьезно, эти лишние токены стоят реальных ватт).

Интересный факт: GLM-4.7-Flash показывает лучшие результаты в сравнении с облачными моделями именно на китайскоязычных задачах - там ее токенизатор раскрывается полностью.

3 Выбирайте Step-3.5-Flash если...

Вы любите азарт и готовы к риску. Эксперименты, хакатоны, задачи, где можно позволить себе 30% провалов ради 10% гениальных решений. Но никогда не используйте ее в production без human-in-the-loop - одна ошибка на 800 токенов reasoning может стоить дорого.

Главный секрет, о котором молчат создатели моделей

Все три модели можно "приручить" с помощью правильных prompt-инженерных техник. Но каждая требует своего подхода:

GPT-OSS-20B: Любит четкие инструкции. "Реши задачу в три шага: 1)..., 2)..., 3)..." Сокращает reasoning еще на 15%.
GLM-4.7-Flash: Нужно ограничивать явно. "Дай ответ максимально кратко, без подробных объяснений." Работает в 60% случаев.
Step-3.5-Flash: Парадоксально реагирует на сложные мета-инструкции. "Представь, что ты эксперт, который видит простое решение там, где другие ищут сложное." Иногда срабатывает волшебным образом.

💡

Для массового развертывания в Kubernetes присмотритесь к архитектуре Nova AI - она позволяет гибко распределять разные модели по нодам в зависимости от их требований к ресурсам.

Что будет дальше? Мой прогноз на 2026-2027

Тренд ясен: модели научатся лучше контролировать свой reasoning. Уже сейчас в тестовых сборках GPT-OSS-21B (ожидается в марте 2026) появился параметр "reasoning_budget", который позволяет явно ограничивать количество токенов на внутренние размышления.

GLM-5.0, по слухам, будет использовать двухэтапный reasoning: быстрый поиск решения + углубленный анализ только при необходимости. Step-4.0... кто его знает, создатели этой модели как призраки.

Но главный вывод для практиков в 2026 году: смотрите не только на качество ответов в бенчмарках. Смотрите на цену этого качества в токенах, в секундах, в ваттах. Потому что именно эта цена определяет, сможете ли вы запустить модель на своем железе или она будет пылиться на GitHub вместе с тысячами других "перспективных" репозиториев.

P.S. Если выбираете между этими тремя моделями для домашней лаборатории - начните с GPT-OSS-20B. Она скучная, предсказуемая, но именно это делает ее лучшим выбором для первого серьезного проекта. А когда набьете руку - экспериментируйте с остальными. GLM покажет, что такое "качество любой ценой", а Step-3.5-Flash напомнит, что в AI до сих пор есть место магии (и полной нестабильности).

GPT-OSS-20B против GLM-4.7-Flash и Step-3.5-Flash: где ваши токены утекают в песок