Математический бенчмарк, который не прощает ошибок
В мире, где каждый второй стартап клянётся, что его LLM решает интегралы лучше студента-отличника, появился настоящий убийца мифов - MathArena. Не очередной синтетический тест с вопросами уровня пятого класса, а полноценный AIME 2026 - American Invitational Mathematics Examination. Тот самый, где школьники плачут, а взрослые математики чешут затылок.
И вот результат: Step-3.5-Flash, относительно новая открытая модель, вырвалась в лидеры. Не GPT-5.2, не Qwen3-Max с её 128 миллиардами параметров, а именно Step. Ирония? Возможно. Но цифры не врут.
Рейтинг, который заставил пересмотреть приоритеты
Давайте посмотрим на цифры без прикрас. MathArena на 11 февраля 2026 года показывает следующую картину:
| Модель | Счет AIME | Процент решений | Позиция |
|---|---|---|---|
| Step-3.5-Flash | 12.3/15 | 82% | 1 |
| MiMo-V2-Flash | 11.8/15 | 78.7% | 2 |
| Qwen3-Max | 11.5/15 | 76.7% | 3 |
| GPT-OSS-20B | 10.2/15 | 68% | 4 |
Разрыв в 3.3 балла между первым и четвёртым местом - это пропасть. В мире AIME, где каждая задача - это головоломка уровня олимпиады, даже 0.5 балла имеют значение.
Что интересно: MiMo-V2-Flash, которую многие считали темной лошадкой, действительно показала себя хорошо. Но не достаточно хорошо. Step оказался на полшага впереди.
Почему Step-3.5-Flash? Архитектура против данных
196 миллиардов параметров - звучит внушительно. Но мы же помним, что Step работает как модель на 11 миллиардов. Магия? Нет, инженерия.
Секрет не в размере, а в том, как эти параметры организованы. Step использует Mixture of Experts (MoE) архитектуру, где активируется только часть сети для каждой задачи. Для математических вычислений это критично: модель не тратит ресурсы на лингвистические паттерны, когда нужно считать производные.
Внимание: MoE - не панацея. Та же архитектура у Qwen3-Max, но результат хуже. Значит, дело не только в архитектуре, но и в тренировочных данных.
Step тренировали на специальном математическом датасете, который включал не только учебники, но и решения олимпиадных задач с пошаговыми объяснениями. Не просто "ответ: 42", а "рассмотрим функцию f(x), возьмём производную, приравняем к нулю...".
Конкуренты? Китайские гиганты вроде Qwen3-Max фокусировались на универсальности. Хорошо для общего применения, плохо для нишевых задач.
Слабое место: цена скорости
Вот где начинается интересное. Step-3.5-Flash быстрый. Очень быстрый. Но эта скорость имеет свою цену.
Как отмечалось в анализе стабильности модели, Step иногда "галлюцинирует" в tool calls. В математическом контексте это проявляется в странных логических прыжках: "поскольку x > 0, то sin(x) тоже > 0". Э-э-э, нет.
Именно поэтому в MathArena учитывают не только правильность ответа, но и корректность решения. Step набрал 12.3 из 15, но если бы проверяли только конечный ответ, результат был бы выше. Модель иногда приходит к правильному ответу через сомнительные рассуждения.
Для сравнения: MiMo-V2-Flash показывает лучшую калибровку уверенности. Когда она не уверена - она говорит об этом. Step же часто выдаёт ответ с максимальной уверенностью, даже если решение содержит ошибку.
Практические последствия: кому это нужно?
Преподаватели математики уже тестируют Step для проверки студенческих работ. Модель не просто ставит галочку "правильно/неправильно", а может указать на ошибку в рассуждениях.
Разработчики научного ПО рассматривают интеграцию Step в системы компьютерной алгебры. Представьте: вы пишете код для решения дифференциальных уравнений, а модель предлагает более эффективный численный метод.
Но главное - это сигнал для всей индустрии. Специализированные модели начинают обходить универсальных монстров в их нише. Математика побеждает большие языковые модели не в лобовой атаке, а через специализацию.
| Сценарий использования | Step-3.5-Flash | Qwen3-Max | GPT-OSS-20B |
|---|---|---|---|
| Олимпиадные задачи | Отлично | Хорошо | Средне |
| Академические исследования | Хорошо | Отлично | Хорошо |
| Объяснение концепций | Средне | Отлично | Хорошо |
Что дальше? Прогноз на 2026 год
MathArena запустил гонку, которую никто не ожидал. Теперь каждая крупная компания будет выпускать свою "математическую" версию модели. Проблема в том, что настоящая математическая экспертиза не создаётся за месяц.
Step выиграл потому, что его разработчики понимали разницу между "знать математику" и "уметь решать задачи". Первое - это запоминание формул. Второе - это мышление.
Мой прогноз: к середине 2026 года мы увидим:
- Специализированные математические модели от всех крупных игроков
- Новые бенчмарки, которые проверяют не ответы, а процесс решения
- Слияние символьных вычислений (как в Mathematica) с нейросетевым подходом
- Первые серьёзные применения в науке - не как игрушка, а как инструмент
Но есть и тёмная сторона. Когда модель решает задачу лучше 80% участников AIME, возникает вопрос: а что проверяем мы? Способность мыслить или способность имитировать мышление?
Step-3.5-Flash не понимает математику. Он вычисляет. И в этом его сила и слабость одновременно. Для практических задач - идеально. Для фундаментальной науки - пока нет.
Выбирая модель для работы, смотрите не на рейтинги, а на то, как она ведёт себя с вашими конкретными задачами. Объективное сравнение без хайпа всегда важнее красивых цифр.
А если нужно ускорить инференс, посмотрите на DFlash с блочным спекулятивным декодированием. Для математических вычислений скорость иногда важнее, чем для чатов.