MiniMax-M2.5: архитектура 230B с 10B активных, релиз на HF | AiManual
AiManual Logo Ai / Manual.
12 Фев 2026 Новости

MiniMax-M2.5: 230 миллиардов параметров, но только 10 активных. Как это работает и когда ждать на HuggingFace?

Технический разбор MiniMax-M2.5: как работает модель с 230 миллиардами параметров и всего 10B активных. Когда ждать на HuggingFace и чем она лучше M2.1.

Фокус на эффективность, а не на цифры

Китайская компания MiniMax снова всех удивляет. После успеха с M2.1, которая установила новые рекорды в программировании и работе агентов, они анонсировали M2.5. Цифры звучат безумно: 230 миллиардов параметров. Но загвоздка в другом — активных из них только 10 миллиардов на токен.

Это не опечатка. Модель в 23 раза больше, чем кажется во время работы. И это именно то, что делает её интересной.

На 12 февраля 2026 года MiniMax официально анонсировала M2.5, но модель ещё не появилась на HuggingFace. Все технические детали взяты из официальной документации и препринта компании.

MoE на стероидах: как устроена эта странная математика

Архитектура Mixture of Experts (MoE) — не новость. Её использовали в M2.1, Mistral, Grok. Но в M2.5 подход довели до предела.

Представьте библиотеку из 230 специалистов. Каждый — эксперт в своей узкой области: математике, биологии, коде на Python, древнегреческой поэзии. Когда вы задаёте вопрос про нейросети, система не будит всех 230 человек. Она выбирает 10 самых подходящих экспертов и только их спрашивает.

Вот как это выглядит технически:

Параметр M2.1 M2.5 Что изменилось
Всего параметров 230B 230B Без изменений
Активных на токен ~37B ~10B В 3.7 раза меньше!
Количество экспертов 64 128 Вдвое больше специализации
Активных экспертов 8 4 Более жёсткий отбор
SWE-Bench (pass@1) 75.4% 80.2% Новый рекорд

Кажется парадоксом: меньше активных параметров, но лучше результаты. Секрет в новой системе маршрутизации. В M2.1 выбирали 8 экспертов из 64. В M2.5 — только 4 из 128, но выбирают их точнее. Алгоритм анализирует запрос глубже, прежде чем решить, кого разбудить.

💡
Если вы работали с квантованными версиями M2.1, знаете, как маршрутизация MoE страдает при сжатии. В M2.5 эту проблему обещают решить — более простая маршрутизация (4 эксперта вместо 8) должна лучше переносить квантование.

Зачем вообще такие сложности?

Потому что инфраструктура не поспевает за аппетитами. Запустить модель на 230B плотных параметров — нужны десятки GPU A100/H100. Даже квантованные версии M2.1 требовали серьёзного железа.

M2.5 с 10B активных параметров — это уровень Llama 3.1 8B по требованиям к памяти и вычислениям. Но с качеством, которое должно быть ближе к GPT-4.5 (если верить бенчмаркам).

На практике это значит:

  • Можно запустить на 2-4 потребительских GPU вместо фермы
  • Скорость ответа как у 10B модели, а не 230B
  • Потребление памяти в инференсе снижается в разы

Но есть и подвох. Обучение такой системы — адская задача. Нужно научить 128 экспертов не мешать друг другу, а маршрутизатор — выбирать идеальную четвёрку для каждого запроса. MiniMax потратила на это месяцы и тысячи GPU-часов.

Главный вопрос: когда на HuggingFace?

Вот что известно на 12 февраля 2026:

Официального релиза на HuggingFace ещё нет. Модель находится в раннем доступе для партнёров и исследователей. Ожидание — от 2 до 8 недель до публичного релиза.

Почему так долго? Потому что MiniMax сначала выпускает модель через свою платформу OpenHands (аналог OpenAI API), собирает feedback, исправляет баги, и только потом выкладывает веса.

С M2.1 был такой же путь: анонс в ноябре 2025, релиз на HF в январе 2026. С M2.5 процесс может ускориться — инфраструктура отлажена.

Что будет доступно сразу после релиза:

  1. Полные веса модели (оригинальные, не квантованные)
  2. Базовые квантования в форматах GPTQ и AWQ
  3. Интеграция с transformers и vLLM

GGUF-квантования появятся позже — сообществу нужно время, чтобы адаптировать инструменты под новую архитектуру. Помните, с M2.1 в GGUF тоже пришлось повозиться.

Стоит ли ждать M2.5, если есть M2.1?

Зависит от того, что вы делаете.

Если у вас уже работает M2.1 и вас всё устраивает — возможно, нет. Разница в 5% на SWE-Bench для большинства практических задач незаметна.

Но если вы упираетесь в ограничения железа или latency — M2.5 может стать спасением. Меньше активных параметров = быстрее ответы = дешевле инфраструктура.

Особенно интересно будет посмотреть на квантованные версии. Если маршрутизация действительно стабильнее, то DWQ и MLX-квантования для M2.5 могут работать лучше, чем для M2.1.

Что может пойти не так?

MoE-архитектуры — не панацея. У них свои проблемы:

  • Неравномерная загрузка экспертов: некоторые эксперты могут стать «звёздами», а другие — почти никогда не активироваться. В M2.5 с 128 экспертами этот риск выше.
  • Сложность fine-tuning: дообучить такую модель сложнее, чем плотную. Нужно аккуратно работать и с экспертами, и с маршрутизатором.
  • Потребление памяти при обучении: хотя инференс лёгкий, для обучения нужно держать в памяти все 230B параметров. Это не для домашних экспериментов.

И главное — пока нет независимых тестов. Все бенчмарки от самой MiniMax. Ждём, когда модель попадёт в руки сообщества и начнутся реальные сравнения.

💡
Если хотите подготовиться к релизу M2.5, посмотрите на другие эффективные MoE-модели. Опыт работы с ними поможет быстрее освоить M2.5.

Итог: стоит ли затаить дыхание?

Да, если вам нужна максимальная эффективность. M2.5 — это эксперимент по созданию модели, которая ведёт себя как 230B, но работает как 10B.

Нет, если вы ждете революции. Это эволюция M2.1, а не принципиально новый подход. Улучшения есть, но они инкрементальные.

Мой прогноз: M2.5 станет популярной в корпоративном секторе, где считают каждый доллар за инференс. Для исследователей и хобби-проектов более лёгкие модели останутся основным выбором.

А пока следите за репозиторием MiniMax на HuggingFace. Как только появится M2.5 — вы узнаете об этом первыми. И готовьте GPU: даже 10B активных параметров в FP16 — это 20GB памяти. Плюс overhead на маршрутизацию и кэш. Реально нужно 24-32GB на карту для комфортной работы.