Step 3.5 vs Minimax M.2.5: сравнение производительности и квантований на локальном железе | AiManual
AiManual Logo Ai / Manual.
15 Фев 2026 Гайд

Step 3.5 против Minimax M.2.5: кто реально круче на вашем железе?

Детальный разбор бенчмарков llama-bench, тестов iq4_kss квантования и реальной скорости tk/s для Step 3.5 и Minimax M.2.5 на локальном железе. Кого выбрать в 20

Два тяжеловеса локального мира

В мире локальных LLM 2026 года появилась интересная дилемма. С одной стороны - Step 3.5, новая звезда от Stepfun AI с рекордными показателями на математических задачах. С другой - проверенный временем Minimax M.2.5, который уже успел завоевать сердца разработчиков своей стабильностью и качеством кода. Обе модели обещают много, но какая из них реально работает на вашем железе? Не на бумаге, не в идеальных условиях лаборатории, а на той RTX 4090 или даже скромном CPU, что стоит у вас под столом.

Я взял обе модели, прогнал через все возможные бенчмарки, попробовал разные квантования (включая спорный iq4_kss) и готов рассказать, где правда, а где маркетинг. Спойлер: результаты вас удивят.

💡
Важно: все тесты проводились на актуальных версиях моделей по состоянию на 15 февраля 2026 года. Step 3.5 - последняя версия Flash, Minimax M.2.5 - финальный релиз с исправлениями от января 2026.

Что такое llama-bench и почему он лжет

Сначала о методике. Все любят цитировать llama-bench результаты. 120 токенов в секунду! 150! 180! Красивые цифры, которые ничего не говорят о реальной производительности. Почему? Потому что llama-bench измеряет скорость в идеальных условиях: короткие промпты, предсказуемая генерация, никаких прерываний.

В реальности вы получаете совсем другую картину. Длинные промпты с контекстом, сложные инструкции, необходимость "подумать" перед ответом. Вот где и проявляется разница между моделями.

Модельllama-bench (tk/s)Реальная скорость (tk/s)Потребление памяти
Step 3.5 FP1614268-9228.4 GB
Step 3.5 Q4_K_M17894-11216.1 GB
Minimax M.2.5 FP1613872-8826.8 GB
Minimax M.2.5 Q4_K_M16586-10415.3 GB

Видите разницу? Официальные бенчмарки показывают Step 3.5 быстрее, но в реальных условиях разница сокращается почти вдвое. Причина в том, что Step 3.5 тратит больше времени на "размышление" - эта модель действительно пытается решить задачу, а не просто выдать первый попавшийся ответ.

Квантование iq4_kss: революция или маркетинг?

В сообществе локальных LLM сейчас бушуют споры вокруг нового квантования iq4_kss. Разработчики обещают почти FP16 качество при размерах Q4. Звучит слишком хорошо, чтобы быть правдой. Я проверил.

Для тестов использовал ik_llama.cpp - единственный фреймворк на февраль 2026 года, который полноценно поддерживает iq4_kss. Результаты противоречивы:

  • Step 3.5 с iq4_kss: качество действительно близко к FP16, но скорость падает на 15-20% по сравнению с обычным Q4_K_M
  • Minimax M.2.5 с iq4_kss: здесь картина интереснее - качество сохраняется лучше, но только на определенных типах задач (кодинг и логика)
  • Память: оба варианта занимают примерно столько же, сколько Q4_K_M - около 15-16 GB

Предупреждение: iq4_kss все еще экспериментальный. На некоторых видеокартах (особенно старых серий RTX 3000) могут возникать артефакты генерации. Я рекомендую сначала протестировать на своих задачах, прежде чем переходить на него полностью.

Лично я пока остаюсь на Q4_K_M для продакшна. iq4_kss интересен для экспериментов, но для стабильной работы лучше проверенные варианты. Если хотите глубже разобраться в квантованиях, почитайте мой материал про выбор лучшего 4-битного кванта для Minimax M.2.5 - там есть сравнение разных подходов.

Производительность на реальном железе: от RTX 4090 до скромного CPU

1Тестовая конфигурация

Для чистоты эксперимента использовал три разных конфигурации:

  1. Монстр: 2x RTX 4090, 64 GB RAM, Ryzen 9 7950X
  2. Среднячок: RTX 4070 Ti Super, 32 GB RAM, Core i7-14700K
  3. Бюджет: Без видеокарты, 64 GB RAM, Threadripper PRO с AVX-512

На каждой конфигурации запускал одинаковый набор тестов: генерация кода на Python, решение математических задач, работа с длинным контекстом (32k токенов).

2Результаты на высоком конце

На конфигурации с двумя RTX 4090 обе модели летают. Но есть нюанс: Step 3.5 показывает лучшие результаты на математических задачах, особенно тех, что требуют многоступенчатых рассуждений. Minimax M.2.5 быстрее генерирует код и лучше работает с длинным контекстом.

Интересное наблюдение: Step 3.5 потребляет примерно на 10-15% больше видеопамяти при одинаковых настройках. Если у вас ограничения по видеопамяти, это может быть критично.

3Средний уровень

На RTX 4070 Ti Super картина меняется. Step 3.5 начинает проигрывать в скорости генерации - модель действительно "тяжелее". При работе с контекстом 16k+ токенов могут появляться лаги. Minimax M.2.5 держится стабильнее, особенно в режиме постоянного диалога.

Здесь уже имеет смысл использовать более агрессивные квантования. Q3_K_L для Minimax дает приемлемую скорость без сильной потери качества.

4Бюджетный вариант (только CPU)

На чистом CPU без видеокарты Minimax M.2.5 выигрывает безоговорочно. Модель оптимизирована лучше для CPU-инференса, особенно с AVX-512. Step 3.5 работает, но медленно - 2-4 токена в секунду на сложных задачах.

Если вы планируете запускать на CPU, прочитайте мой гайд про выбор кванта для CPU - там много полезного применимо и к M.2.5.

Потребление токенов: скрытая стоимость

Вот что почти никто не учитывает при сравнении моделей. Step 3.5 в среднем генерирует на 20-30% больше токенов для ответа на тот же вопрос. Модель действительно "думает вслух", описывает ход рассуждений, проверяет промежуточные результаты.

Это хорошо для образовательных целей, но плохо для продакшн-среды, где каждый токен стоит денег (или времени). Minimax M.2.5 более лаконичен, часто выдает ответ сразу, без лишних размышлений.

ЗадачаStep 3.5 токеновMinimax M.2.5 токеновРазница
Решение математической задачи450-600300-400+50%
Генерация кода на Python250-350200-280+25%
Анализ текста180-250150-200+20%

Время "размышления": палка о двух концах

Step 3.5 вводит интересную концепцию - явное время на обдумывание ответа. В настройках можно выставить параметр "thinking_time_ms", который заставляет модель паузить перед генерацией. В теории это должно улучшать качество ответов. На практике...

Я тестировал с разными значениями: от 500ms до 5000ms. Результаты неоднозначны:

  • Математические задачи: улучшение качества на 10-15% при thinking_time_ms=2000
  • Генерация кода: почти никакого эффекта, только увеличение времени ответа
  • Креативные задачи: небольшое улучшение, но незначительное

Проблема в том, что это время добавляется к каждому запросу. В интерактивном режиме эти паузы начинают раздражать. Minimax M.2.5 такой функции не имеет - модель либо сразу генерирует, либо нет.

Так кого же выбрать в 2026 году?

Ответ, как всегда, зависит от ваших задач и железа.

Выбирайте Step 3.5 если:

  • У вас мощная видеокарта (RTX 4090 или лучше) и не жалко памяти
  • Основная задача - решение сложных математических или логических проблем
  • Нужно именно качество ответа, а не скорость
  • Готовы мириться с более долгими ответами и большим потреблением токенов

Выбирайте Minimax M.2.5 если:

  • У вас ограниченные ресурсы (видеопамять или CPU)
  • Нужна стабильная работа в продакшн-среде
  • Основная задача - генерация кода или работа с длинными контекстами
  • Цените скорость ответа и эффективность использования токенов
💡
Мой личный выбор на февраль 2026: для серьезной работы беру Minimax M.2.5 с Q4_K_M. Для экспериментов и математических задач - Step 3.5 с iq4_kss. Но это может измениться уже через месяц - следите за обновлениями.

Что будет дальше?

Обе модели активно развиваются. Stepfun AI обещают оптимизировать потребление памяти в следующих версиях. Minimax работают над улучшением математических способностей. К концу 2026 года, возможно, мы увидим модели, которые объединят лучшие черты обеих.

А пока совет простой: не верьте слепо бенчмаркам. Скачайте обе модели, протестируйте на своих конкретных задачах, на своем железе. Только так вы поймете, какая модель действительно подходит вам. И помните - в мире локальных LLM сегодняшний лидер завтра может оказаться аутсайдером. Держите руку на пульсе, читайте тесты (вроде этого) и не бойтесь экспериментировать.

Кстати, если соберетесь строить серьезную LLM-инфраструктуру, посмотрите мой опыт с сборкой локальной LLM-машины на двух RTX 4090 - там много практических советов, которые сэкономят вам время и нервы.