Два тяжеловеса локального мира
В мире локальных LLM 2026 года появилась интересная дилемма. С одной стороны - Step 3.5, новая звезда от Stepfun AI с рекордными показателями на математических задачах. С другой - проверенный временем Minimax M.2.5, который уже успел завоевать сердца разработчиков своей стабильностью и качеством кода. Обе модели обещают много, но какая из них реально работает на вашем железе? Не на бумаге, не в идеальных условиях лаборатории, а на той RTX 4090 или даже скромном CPU, что стоит у вас под столом.
Я взял обе модели, прогнал через все возможные бенчмарки, попробовал разные квантования (включая спорный iq4_kss) и готов рассказать, где правда, а где маркетинг. Спойлер: результаты вас удивят.
Что такое llama-bench и почему он лжет
Сначала о методике. Все любят цитировать llama-bench результаты. 120 токенов в секунду! 150! 180! Красивые цифры, которые ничего не говорят о реальной производительности. Почему? Потому что llama-bench измеряет скорость в идеальных условиях: короткие промпты, предсказуемая генерация, никаких прерываний.
В реальности вы получаете совсем другую картину. Длинные промпты с контекстом, сложные инструкции, необходимость "подумать" перед ответом. Вот где и проявляется разница между моделями.
| Модель | llama-bench (tk/s) | Реальная скорость (tk/s) | Потребление памяти |
|---|---|---|---|
| Step 3.5 FP16 | 142 | 68-92 | 28.4 GB |
| Step 3.5 Q4_K_M | 178 | 94-112 | 16.1 GB |
| Minimax M.2.5 FP16 | 138 | 72-88 | 26.8 GB |
| Minimax M.2.5 Q4_K_M | 165 | 86-104 | 15.3 GB |
Видите разницу? Официальные бенчмарки показывают Step 3.5 быстрее, но в реальных условиях разница сокращается почти вдвое. Причина в том, что Step 3.5 тратит больше времени на "размышление" - эта модель действительно пытается решить задачу, а не просто выдать первый попавшийся ответ.
Квантование iq4_kss: революция или маркетинг?
В сообществе локальных LLM сейчас бушуют споры вокруг нового квантования iq4_kss. Разработчики обещают почти FP16 качество при размерах Q4. Звучит слишком хорошо, чтобы быть правдой. Я проверил.
Для тестов использовал ik_llama.cpp - единственный фреймворк на февраль 2026 года, который полноценно поддерживает iq4_kss. Результаты противоречивы:
- Step 3.5 с iq4_kss: качество действительно близко к FP16, но скорость падает на 15-20% по сравнению с обычным Q4_K_M
- Minimax M.2.5 с iq4_kss: здесь картина интереснее - качество сохраняется лучше, но только на определенных типах задач (кодинг и логика)
- Память: оба варианта занимают примерно столько же, сколько Q4_K_M - около 15-16 GB
Предупреждение: iq4_kss все еще экспериментальный. На некоторых видеокартах (особенно старых серий RTX 3000) могут возникать артефакты генерации. Я рекомендую сначала протестировать на своих задачах, прежде чем переходить на него полностью.
Лично я пока остаюсь на Q4_K_M для продакшна. iq4_kss интересен для экспериментов, но для стабильной работы лучше проверенные варианты. Если хотите глубже разобраться в квантованиях, почитайте мой материал про выбор лучшего 4-битного кванта для Minimax M.2.5 - там есть сравнение разных подходов.
Производительность на реальном железе: от RTX 4090 до скромного CPU
1Тестовая конфигурация
Для чистоты эксперимента использовал три разных конфигурации:
- Монстр: 2x RTX 4090, 64 GB RAM, Ryzen 9 7950X
- Среднячок: RTX 4070 Ti Super, 32 GB RAM, Core i7-14700K
- Бюджет: Без видеокарты, 64 GB RAM, Threadripper PRO с AVX-512
На каждой конфигурации запускал одинаковый набор тестов: генерация кода на Python, решение математических задач, работа с длинным контекстом (32k токенов).
2Результаты на высоком конце
На конфигурации с двумя RTX 4090 обе модели летают. Но есть нюанс: Step 3.5 показывает лучшие результаты на математических задачах, особенно тех, что требуют многоступенчатых рассуждений. Minimax M.2.5 быстрее генерирует код и лучше работает с длинным контекстом.
Интересное наблюдение: Step 3.5 потребляет примерно на 10-15% больше видеопамяти при одинаковых настройках. Если у вас ограничения по видеопамяти, это может быть критично.
3Средний уровень
На RTX 4070 Ti Super картина меняется. Step 3.5 начинает проигрывать в скорости генерации - модель действительно "тяжелее". При работе с контекстом 16k+ токенов могут появляться лаги. Minimax M.2.5 держится стабильнее, особенно в режиме постоянного диалога.
Здесь уже имеет смысл использовать более агрессивные квантования. Q3_K_L для Minimax дает приемлемую скорость без сильной потери качества.
4Бюджетный вариант (только CPU)
На чистом CPU без видеокарты Minimax M.2.5 выигрывает безоговорочно. Модель оптимизирована лучше для CPU-инференса, особенно с AVX-512. Step 3.5 работает, но медленно - 2-4 токена в секунду на сложных задачах.
Если вы планируете запускать на CPU, прочитайте мой гайд про выбор кванта для CPU - там много полезного применимо и к M.2.5.
Потребление токенов: скрытая стоимость
Вот что почти никто не учитывает при сравнении моделей. Step 3.5 в среднем генерирует на 20-30% больше токенов для ответа на тот же вопрос. Модель действительно "думает вслух", описывает ход рассуждений, проверяет промежуточные результаты.
Это хорошо для образовательных целей, но плохо для продакшн-среды, где каждый токен стоит денег (или времени). Minimax M.2.5 более лаконичен, часто выдает ответ сразу, без лишних размышлений.
| Задача | Step 3.5 токенов | Minimax M.2.5 токенов | Разница |
|---|---|---|---|
| Решение математической задачи | 450-600 | 300-400 | +50% |
| Генерация кода на Python | 250-350 | 200-280 | +25% |
| Анализ текста | 180-250 | 150-200 | +20% |
Время "размышления": палка о двух концах
Step 3.5 вводит интересную концепцию - явное время на обдумывание ответа. В настройках можно выставить параметр "thinking_time_ms", который заставляет модель паузить перед генерацией. В теории это должно улучшать качество ответов. На практике...
Я тестировал с разными значениями: от 500ms до 5000ms. Результаты неоднозначны:
- Математические задачи: улучшение качества на 10-15% при thinking_time_ms=2000
- Генерация кода: почти никакого эффекта, только увеличение времени ответа
- Креативные задачи: небольшое улучшение, но незначительное
Проблема в том, что это время добавляется к каждому запросу. В интерактивном режиме эти паузы начинают раздражать. Minimax M.2.5 такой функции не имеет - модель либо сразу генерирует, либо нет.
Так кого же выбрать в 2026 году?
Ответ, как всегда, зависит от ваших задач и железа.
Выбирайте Step 3.5 если:
- У вас мощная видеокарта (RTX 4090 или лучше) и не жалко памяти
- Основная задача - решение сложных математических или логических проблем
- Нужно именно качество ответа, а не скорость
- Готовы мириться с более долгими ответами и большим потреблением токенов
Выбирайте Minimax M.2.5 если:
- У вас ограниченные ресурсы (видеопамять или CPU)
- Нужна стабильная работа в продакшн-среде
- Основная задача - генерация кода или работа с длинными контекстами
- Цените скорость ответа и эффективность использования токенов
Что будет дальше?
Обе модели активно развиваются. Stepfun AI обещают оптимизировать потребление памяти в следующих версиях. Minimax работают над улучшением математических способностей. К концу 2026 года, возможно, мы увидим модели, которые объединят лучшие черты обеих.
А пока совет простой: не верьте слепо бенчмаркам. Скачайте обе модели, протестируйте на своих конкретных задачах, на своем железе. Только так вы поймете, какая модель действительно подходит вам. И помните - в мире локальных LLM сегодняшний лидер завтра может оказаться аутсайдером. Держите руку на пульсе, читайте тесты (вроде этого) и не бойтесь экспериментировать.
Кстати, если соберетесь строить серьезную LLM-инфраструктуру, посмотрите мой опыт с сборкой локальной LLM-машины на двух RTX 4090 - там много практических советов, которые сэкономят вам время и нервы.