Step-3.5-Flash лидирует в MathArena: анализ AIME 2026 результатов

Математический бенчмарк, который не прощает ошибок

В мире, где каждый второй стартап клянётся, что его LLM решает интегралы лучше студента-отличника, появился настоящий убийца мифов - MathArena. Не очередной синтетический тест с вопросами уровня пятого класса, а полноценный AIME 2026 - American Invitational Mathematics Examination. Тот самый, где школьники плачут, а взрослые математики чешут затылок.

И вот результат: Step-3.5-Flash, относительно новая открытая модель, вырвалась в лидеры. Не GPT-5.2, не Qwen3-Max с её 128 миллиардами параметров, а именно Step. Ирония? Возможно. Но цифры не врут.

💡

AIME 2026 - это не шутки. 15 задач за 3 часа, средний балл участников - около 5 из 15. Если модель набирает здесь больше 10, она реально понимает математику, а не просто угадывает.

Рейтинг, который заставил пересмотреть приоритеты

Давайте посмотрим на цифры без прикрас. MathArena на 11 февраля 2026 года показывает следующую картину:

Модель	Счет AIME	Процент решений	Позиция
Step-3.5-Flash	12.3/15	82%	1
MiMo-V2-Flash	11.8/15	78.7%	2
Qwen3-Max	11.5/15	76.7%	3
GPT-OSS-20B	10.2/15	68%	4

Разрыв в 3.3 балла между первым и четвёртым местом - это пропасть. В мире AIME, где каждая задача - это головоломка уровня олимпиады, даже 0.5 балла имеют значение.

Что интересно: MiMo-V2-Flash, которую многие считали темной лошадкой, действительно показала себя хорошо. Но не достаточно хорошо. Step оказался на полшага впереди.

Почему Step-3.5-Flash? Архитектура против данных

196 миллиардов параметров - звучит внушительно. Но мы же помним, что Step работает как модель на 11 миллиардов. Магия? Нет, инженерия.

Секрет не в размере, а в том, как эти параметры организованы. Step использует Mixture of Experts (MoE) архитектуру, где активируется только часть сети для каждой задачи. Для математических вычислений это критично: модель не тратит ресурсы на лингвистические паттерны, когда нужно считать производные.

Внимание: MoE - не панацея. Та же архитектура у Qwen3-Max, но результат хуже. Значит, дело не только в архитектуре, но и в тренировочных данных.

Step тренировали на специальном математическом датасете, который включал не только учебники, но и решения олимпиадных задач с пошаговыми объяснениями. Не просто "ответ: 42", а "рассмотрим функцию f(x), возьмём производную, приравняем к нулю...".

Конкуренты? Китайские гиганты вроде Qwen3-Max фокусировались на универсальности. Хорошо для общего применения, плохо для нишевых задач.

Слабое место: цена скорости

Вот где начинается интересное. Step-3.5-Flash быстрый. Очень быстрый. Но эта скорость имеет свою цену.

Как отмечалось в анализе стабильности модели, Step иногда "галлюцинирует" в tool calls. В математическом контексте это проявляется в странных логических прыжках: "поскольку x > 0, то sin(x) тоже > 0". Э-э-э, нет.

Именно поэтому в MathArena учитывают не только правильность ответа, но и корректность решения. Step набрал 12.3 из 15, но если бы проверяли только конечный ответ, результат был бы выше. Модель иногда приходит к правильному ответу через сомнительные рассуждения.

Для сравнения: MiMo-V2-Flash показывает лучшую калибровку уверенности. Когда она не уверена - она говорит об этом. Step же часто выдаёт ответ с максимальной уверенностью, даже если решение содержит ошибку.

Практические последствия: кому это нужно?

Преподаватели математики уже тестируют Step для проверки студенческих работ. Модель не просто ставит галочку "правильно/неправильно", а может указать на ошибку в рассуждениях.

Разработчики научного ПО рассматривают интеграцию Step в системы компьютерной алгебры. Представьте: вы пишете код для решения дифференциальных уравнений, а модель предлагает более эффективный численный метод.

Но главное - это сигнал для всей индустрии. Специализированные модели начинают обходить универсальных монстров в их нише. Математика побеждает большие языковые модели не в лобовой атаке, а через специализацию.

Сценарий использования	Step-3.5-Flash	Qwen3-Max	GPT-OSS-20B
Олимпиадные задачи	Отлично	Хорошо	Средне
Академические исследования	Хорошо	Отлично	Хорошо
Объяснение концепций	Средне	Отлично	Хорошо

Что дальше? Прогноз на 2026 год

MathArena запустил гонку, которую никто не ожидал. Теперь каждая крупная компания будет выпускать свою "математическую" версию модели. Проблема в том, что настоящая математическая экспертиза не создаётся за месяц.

Step выиграл потому, что его разработчики понимали разницу между "знать математику" и "уметь решать задачи". Первое - это запоминание формул. Второе - это мышление.

Мой прогноз: к середине 2026 года мы увидим:

Специализированные математические модели от всех крупных игроков
Новые бенчмарки, которые проверяют не ответы, а процесс решения
Слияние символьных вычислений (как в Mathematica) с нейросетевым подходом
Первые серьёзные применения в науке - не как игрушка, а как инструмент

Но есть и тёмная сторона. Когда модель решает задачу лучше 80% участников AIME, возникает вопрос: а что проверяем мы? Способность мыслить или способность имитировать мышление?

Step-3.5-Flash не понимает математику. Он вычисляет. И в этом его сила и слабость одновременно. Для практических задач - идеально. Для фундаментальной науки - пока нет.

Выбирая модель для работы, смотрите не на рейтинги, а на то, как она ведёт себя с вашими конкретными задачами. Объективное сравнение без хайпа всегда важнее красивых цифр.

А если нужно ускорить инференс, посмотрите на DFlash с блочным спекулятивным декодированием. Для математических вычислений скорость иногда важнее, чем для чатов.

Step-3.5-Flash возглавил MathArena: как математическая модель обошла китайских гигантов