Фокус на эффективность, а не на цифры
Китайская компания MiniMax снова всех удивляет. После успеха с M2.1, которая установила новые рекорды в программировании и работе агентов, они анонсировали M2.5. Цифры звучат безумно: 230 миллиардов параметров. Но загвоздка в другом — активных из них только 10 миллиардов на токен.
Это не опечатка. Модель в 23 раза больше, чем кажется во время работы. И это именно то, что делает её интересной.
На 12 февраля 2026 года MiniMax официально анонсировала M2.5, но модель ещё не появилась на HuggingFace. Все технические детали взяты из официальной документации и препринта компании.
MoE на стероидах: как устроена эта странная математика
Архитектура Mixture of Experts (MoE) — не новость. Её использовали в M2.1, Mistral, Grok. Но в M2.5 подход довели до предела.
Представьте библиотеку из 230 специалистов. Каждый — эксперт в своей узкой области: математике, биологии, коде на Python, древнегреческой поэзии. Когда вы задаёте вопрос про нейросети, система не будит всех 230 человек. Она выбирает 10 самых подходящих экспертов и только их спрашивает.
Вот как это выглядит технически:
| Параметр | M2.1 | M2.5 | Что изменилось |
|---|---|---|---|
| Всего параметров | 230B | 230B | Без изменений |
| Активных на токен | ~37B | ~10B | В 3.7 раза меньше! |
| Количество экспертов | 64 | 128 | Вдвое больше специализации |
| Активных экспертов | 8 | 4 | Более жёсткий отбор |
| SWE-Bench (pass@1) | 75.4% | 80.2% | Новый рекорд |
Кажется парадоксом: меньше активных параметров, но лучше результаты. Секрет в новой системе маршрутизации. В M2.1 выбирали 8 экспертов из 64. В M2.5 — только 4 из 128, но выбирают их точнее. Алгоритм анализирует запрос глубже, прежде чем решить, кого разбудить.
Зачем вообще такие сложности?
Потому что инфраструктура не поспевает за аппетитами. Запустить модель на 230B плотных параметров — нужны десятки GPU A100/H100. Даже квантованные версии M2.1 требовали серьёзного железа.
M2.5 с 10B активных параметров — это уровень Llama 3.1 8B по требованиям к памяти и вычислениям. Но с качеством, которое должно быть ближе к GPT-4.5 (если верить бенчмаркам).
На практике это значит:
- Можно запустить на 2-4 потребительских GPU вместо фермы
- Скорость ответа как у 10B модели, а не 230B
- Потребление памяти в инференсе снижается в разы
Но есть и подвох. Обучение такой системы — адская задача. Нужно научить 128 экспертов не мешать друг другу, а маршрутизатор — выбирать идеальную четвёрку для каждого запроса. MiniMax потратила на это месяцы и тысячи GPU-часов.
Главный вопрос: когда на HuggingFace?
Вот что известно на 12 февраля 2026:
Официального релиза на HuggingFace ещё нет. Модель находится в раннем доступе для партнёров и исследователей. Ожидание — от 2 до 8 недель до публичного релиза.
Почему так долго? Потому что MiniMax сначала выпускает модель через свою платформу OpenHands (аналог OpenAI API), собирает feedback, исправляет баги, и только потом выкладывает веса.
С M2.1 был такой же путь: анонс в ноябре 2025, релиз на HF в январе 2026. С M2.5 процесс может ускориться — инфраструктура отлажена.
Что будет доступно сразу после релиза:
- Полные веса модели (оригинальные, не квантованные)
- Базовые квантования в форматах GPTQ и AWQ
- Интеграция с transformers и vLLM
GGUF-квантования появятся позже — сообществу нужно время, чтобы адаптировать инструменты под новую архитектуру. Помните, с M2.1 в GGUF тоже пришлось повозиться.
Стоит ли ждать M2.5, если есть M2.1?
Зависит от того, что вы делаете.
Если у вас уже работает M2.1 и вас всё устраивает — возможно, нет. Разница в 5% на SWE-Bench для большинства практических задач незаметна.
Но если вы упираетесь в ограничения железа или latency — M2.5 может стать спасением. Меньше активных параметров = быстрее ответы = дешевле инфраструктура.
Особенно интересно будет посмотреть на квантованные версии. Если маршрутизация действительно стабильнее, то DWQ и MLX-квантования для M2.5 могут работать лучше, чем для M2.1.
Что может пойти не так?
MoE-архитектуры — не панацея. У них свои проблемы:
- Неравномерная загрузка экспертов: некоторые эксперты могут стать «звёздами», а другие — почти никогда не активироваться. В M2.5 с 128 экспертами этот риск выше.
- Сложность fine-tuning: дообучить такую модель сложнее, чем плотную. Нужно аккуратно работать и с экспертами, и с маршрутизатором.
- Потребление памяти при обучении: хотя инференс лёгкий, для обучения нужно держать в памяти все 230B параметров. Это не для домашних экспериментов.
И главное — пока нет независимых тестов. Все бенчмарки от самой MiniMax. Ждём, когда модель попадёт в руки сообщества и начнутся реальные сравнения.
Итог: стоит ли затаить дыхание?
Да, если вам нужна максимальная эффективность. M2.5 — это эксперимент по созданию модели, которая ведёт себя как 230B, но работает как 10B.
Нет, если вы ждете революции. Это эволюция M2.1, а не принципиально новый подход. Улучшения есть, но они инкрементальные.
Мой прогноз: M2.5 станет популярной в корпоративном секторе, где считают каждый доллар за инференс. Для исследователей и хобби-проектов более лёгкие модели останутся основным выбором.
А пока следите за репозиторием MiniMax на HuggingFace. Как только появится M2.5 — вы узнаете об этом первыми. И готовьте GPU: даже 10B активных параметров в FP16 — это 20GB памяти. Плюс overhead на маршрутизацию и кэш. Реально нужно 24-32GB на карту для комфортной работы.