Step-3.5-Flash лидирует в MathArena: анализ AIME 2026 результатов | AiManual
AiManual Logo Ai / Manual.
11 Фев 2026 Новости

Step-3.5-Flash возглавил MathArena: как математическая модель обошла китайских гигантов

Открытая модель Step-3.5-Flash показала лучшие результаты в математическом бенчмарке MathArena, обогнав Qwen3-Max и MiMo-V2-Flash. Подробный анализ рейтинга.

Математический бенчмарк, который не прощает ошибок

В мире, где каждый второй стартап клянётся, что его LLM решает интегралы лучше студента-отличника, появился настоящий убийца мифов - MathArena. Не очередной синтетический тест с вопросами уровня пятого класса, а полноценный AIME 2026 - American Invitational Mathematics Examination. Тот самый, где школьники плачут, а взрослые математики чешут затылок.

И вот результат: Step-3.5-Flash, относительно новая открытая модель, вырвалась в лидеры. Не GPT-5.2, не Qwen3-Max с её 128 миллиардами параметров, а именно Step. Ирония? Возможно. Но цифры не врут.

💡
AIME 2026 - это не шутки. 15 задач за 3 часа, средний балл участников - около 5 из 15. Если модель набирает здесь больше 10, она реально понимает математику, а не просто угадывает.

Рейтинг, который заставил пересмотреть приоритеты

Давайте посмотрим на цифры без прикрас. MathArena на 11 февраля 2026 года показывает следующую картину:

МодельСчет AIMEПроцент решенийПозиция
Step-3.5-Flash12.3/1582%1
MiMo-V2-Flash11.8/1578.7%2
Qwen3-Max11.5/1576.7%3
GPT-OSS-20B10.2/1568%4

Разрыв в 3.3 балла между первым и четвёртым местом - это пропасть. В мире AIME, где каждая задача - это головоломка уровня олимпиады, даже 0.5 балла имеют значение.

Что интересно: MiMo-V2-Flash, которую многие считали темной лошадкой, действительно показала себя хорошо. Но не достаточно хорошо. Step оказался на полшага впереди.

Почему Step-3.5-Flash? Архитектура против данных

196 миллиардов параметров - звучит внушительно. Но мы же помним, что Step работает как модель на 11 миллиардов. Магия? Нет, инженерия.

Секрет не в размере, а в том, как эти параметры организованы. Step использует Mixture of Experts (MoE) архитектуру, где активируется только часть сети для каждой задачи. Для математических вычислений это критично: модель не тратит ресурсы на лингвистические паттерны, когда нужно считать производные.

Внимание: MoE - не панацея. Та же архитектура у Qwen3-Max, но результат хуже. Значит, дело не только в архитектуре, но и в тренировочных данных.

Step тренировали на специальном математическом датасете, который включал не только учебники, но и решения олимпиадных задач с пошаговыми объяснениями. Не просто "ответ: 42", а "рассмотрим функцию f(x), возьмём производную, приравняем к нулю...".

Конкуренты? Китайские гиганты вроде Qwen3-Max фокусировались на универсальности. Хорошо для общего применения, плохо для нишевых задач.

Слабое место: цена скорости

Вот где начинается интересное. Step-3.5-Flash быстрый. Очень быстрый. Но эта скорость имеет свою цену.

Как отмечалось в анализе стабильности модели, Step иногда "галлюцинирует" в tool calls. В математическом контексте это проявляется в странных логических прыжках: "поскольку x > 0, то sin(x) тоже > 0". Э-э-э, нет.

Именно поэтому в MathArena учитывают не только правильность ответа, но и корректность решения. Step набрал 12.3 из 15, но если бы проверяли только конечный ответ, результат был бы выше. Модель иногда приходит к правильному ответу через сомнительные рассуждения.

Для сравнения: MiMo-V2-Flash показывает лучшую калибровку уверенности. Когда она не уверена - она говорит об этом. Step же часто выдаёт ответ с максимальной уверенностью, даже если решение содержит ошибку.

Практические последствия: кому это нужно?

Преподаватели математики уже тестируют Step для проверки студенческих работ. Модель не просто ставит галочку "правильно/неправильно", а может указать на ошибку в рассуждениях.

Разработчики научного ПО рассматривают интеграцию Step в системы компьютерной алгебры. Представьте: вы пишете код для решения дифференциальных уравнений, а модель предлагает более эффективный численный метод.

Но главное - это сигнал для всей индустрии. Специализированные модели начинают обходить универсальных монстров в их нише. Математика побеждает большие языковые модели не в лобовой атаке, а через специализацию.

Сценарий использованияStep-3.5-FlashQwen3-MaxGPT-OSS-20B
Олимпиадные задачиОтличноХорошоСредне
Академические исследованияХорошоОтличноХорошо
Объяснение концепцийСреднеОтличноХорошо

Что дальше? Прогноз на 2026 год

MathArena запустил гонку, которую никто не ожидал. Теперь каждая крупная компания будет выпускать свою "математическую" версию модели. Проблема в том, что настоящая математическая экспертиза не создаётся за месяц.

Step выиграл потому, что его разработчики понимали разницу между "знать математику" и "уметь решать задачи". Первое - это запоминание формул. Второе - это мышление.

Мой прогноз: к середине 2026 года мы увидим:

  • Специализированные математические модели от всех крупных игроков
  • Новые бенчмарки, которые проверяют не ответы, а процесс решения
  • Слияние символьных вычислений (как в Mathematica) с нейросетевым подходом
  • Первые серьёзные применения в науке - не как игрушка, а как инструмент

Но есть и тёмная сторона. Когда модель решает задачу лучше 80% участников AIME, возникает вопрос: а что проверяем мы? Способность мыслить или способность имитировать мышление?

Step-3.5-Flash не понимает математику. Он вычисляет. И в этом его сила и слабость одновременно. Для практических задач - идеально. Для фундаментальной науки - пока нет.

Выбирая модель для работы, смотрите не на рейтинги, а на то, как она ведёт себя с вашими конкретными задачами. Объективное сравнение без хайпа всегда важнее красивых цифр.

А если нужно ускорить инференс, посмотрите на DFlash с блочным спекулятивным декодированием. Для математических вычислений скорость иногда важнее, чем для чатов.