Чем MiniMax-M2.5 отличается от M2.1?

M2.5 имеет те же 230B общих параметров, но активирует только ~10B на токен (против ~37B у M2.1). Количество экспертов увеличено с 64 до 128, но активируется только 4 (против 8 у M2.1). Это даёт большую эффективность при сравнимом качестве.

Когда MiniMax-M2.5 появится на HuggingFace?

На 12 февраля 2026 года официального релиза ещё нет. Ожидается, что модель появится в течение 2-8 недель, следуя схеме релиза M2.1: сначала доступ через OpenHands API, затем публикация весов.

Какое железо нужно для запуска MiniMax-M2.5?

Для инференса в FP16 потребуется около 20GB памяти на активные параметры плюс overhead. Рекомендуется 24-32GB на GPU для комфортной работы. Это значительно меньше, чем для плотной 230B модели.

Стоит ли ждать M2.5, если уже есть M2.1?

Если вас устраивает производительность M2.1 и нет проблем с железом — возможно, нет. M2.5 интересна тем, кто упирается в ограничения по памяти или latency, так как предлагает лучшее соотношение качества и скорости.

MiniMax-M2.5: архитектура 230B с 10B активных, релиз на HF

Фокус на эффективность, а не на цифры

Китайская компания MiniMax снова всех удивляет. После успеха с M2.1, которая установила новые рекорды в программировании и работе агентов, они анонсировали M2.5. Цифры звучат безумно: 230 миллиардов параметров. Но загвоздка в другом — активных из них только 10 миллиардов на токен.

Это не опечатка. Модель в 23 раза больше, чем кажется во время работы. И это именно то, что делает её интересной.

На 12 февраля 2026 года MiniMax официально анонсировала M2.5, но модель ещё не появилась на HuggingFace. Все технические детали взяты из официальной документации и препринта компании.

MoE на стероидах: как устроена эта странная математика

Архитектура Mixture of Experts (MoE) — не новость. Её использовали в M2.1, Mistral, Grok. Но в M2.5 подход довели до предела.

Представьте библиотеку из 230 специалистов. Каждый — эксперт в своей узкой области: математике, биологии, коде на Python, древнегреческой поэзии. Когда вы задаёте вопрос про нейросети, система не будит всех 230 человек. Она выбирает 10 самых подходящих экспертов и только их спрашивает.

Вот как это выглядит технически:

Параметр	M2.1	M2.5	Что изменилось
Всего параметров	230B	230B	Без изменений
Активных на токен	~37B	~10B	В 3.7 раза меньше!
Количество экспертов	64	128	Вдвое больше специализации
Активных экспертов	8	4	Более жёсткий отбор
SWE-Bench (pass@1)	75.4%	80.2%	Новый рекорд

Кажется парадоксом: меньше активных параметров, но лучше результаты. Секрет в новой системе маршрутизации. В M2.1 выбирали 8 экспертов из 64. В M2.5 — только 4 из 128, но выбирают их точнее. Алгоритм анализирует запрос глубже, прежде чем решить, кого разбудить.

💡

Если вы работали с квантованными версиями M2.1, знаете, как маршрутизация MoE страдает при сжатии. В M2.5 эту проблему обещают решить — более простая маршрутизация (4 эксперта вместо 8) должна лучше переносить квантование.

Зачем вообще такие сложности?

Потому что инфраструктура не поспевает за аппетитами. Запустить модель на 230B плотных параметров — нужны десятки GPU A100/H100. Даже квантованные версии M2.1 требовали серьёзного железа.

M2.5 с 10B активных параметров — это уровень Llama 3.1 8B по требованиям к памяти и вычислениям. Но с качеством, которое должно быть ближе к GPT-4.5 (если верить бенчмаркам).

На практике это значит:

Можно запустить на 2-4 потребительских GPU вместо фермы
Скорость ответа как у 10B модели, а не 230B
Потребление памяти в инференсе снижается в разы

Но есть и подвох. Обучение такой системы — адская задача. Нужно научить 128 экспертов не мешать друг другу, а маршрутизатор — выбирать идеальную четвёрку для каждого запроса. MiniMax потратила на это месяцы и тысячи GPU-часов.

Главный вопрос: когда на HuggingFace?

Вот что известно на 12 февраля 2026:

Официального релиза на HuggingFace ещё нет. Модель находится в раннем доступе для партнёров и исследователей. Ожидание — от 2 до 8 недель до публичного релиза.

Почему так долго? Потому что MiniMax сначала выпускает модель через свою платформу OpenHands (аналог OpenAI API), собирает feedback, исправляет баги, и только потом выкладывает веса.

С M2.1 был такой же путь: анонс в ноябре 2025, релиз на HF в январе 2026. С M2.5 процесс может ускориться — инфраструктура отлажена.

Что будет доступно сразу после релиза:

Полные веса модели (оригинальные, не квантованные)
Базовые квантования в форматах GPTQ и AWQ
Интеграция с transformers и vLLM

GGUF-квантования появятся позже — сообществу нужно время, чтобы адаптировать инструменты под новую архитектуру. Помните, с M2.1 в GGUF тоже пришлось повозиться.

Стоит ли ждать M2.5, если есть M2.1?

Зависит от того, что вы делаете.

Если у вас уже работает M2.1 и вас всё устраивает — возможно, нет. Разница в 5% на SWE-Bench для большинства практических задач незаметна.

Но если вы упираетесь в ограничения железа или latency — M2.5 может стать спасением. Меньше активных параметров = быстрее ответы = дешевле инфраструктура.

Особенно интересно будет посмотреть на квантованные версии. Если маршрутизация действительно стабильнее, то DWQ и MLX-квантования для M2.5 могут работать лучше, чем для M2.1.

Что может пойти не так?

MoE-архитектуры — не панацея. У них свои проблемы:

Неравномерная загрузка экспертов: некоторые эксперты могут стать «звёздами», а другие — почти никогда не активироваться. В M2.5 с 128 экспертами этот риск выше.
Сложность fine-tuning: дообучить такую модель сложнее, чем плотную. Нужно аккуратно работать и с экспертами, и с маршрутизатором.
Потребление памяти при обучении: хотя инференс лёгкий, для обучения нужно держать в памяти все 230B параметров. Это не для домашних экспериментов.

И главное — пока нет независимых тестов. Все бенчмарки от самой MiniMax. Ждём, когда модель попадёт в руки сообщества и начнутся реальные сравнения.

💡

Если хотите подготовиться к релизу M2.5, посмотрите на другие эффективные MoE-модели. Опыт работы с ними поможет быстрее освоить M2.5.

Итог: стоит ли затаить дыхание?

Да, если вам нужна максимальная эффективность. M2.5 — это эксперимент по созданию модели, которая ведёт себя как 230B, но работает как 10B.

Нет, если вы ждете революции. Это эволюция M2.1, а не принципиально новый подход. Улучшения есть, но они инкрементальные.

Мой прогноз: M2.5 станет популярной в корпоративном секторе, где считают каждый доллар за инференс. Для исследователей и хобби-проектов более лёгкие модели останутся основным выбором.

А пока следите за репозиторием MiniMax на HuggingFace. Как только появится M2.5 — вы узнаете об этом первыми. И готовьте GPU: даже 10B активных параметров в FP16 — это 20GB памяти. Плюс overhead на маршрутизацию и кэш. Реально нужно 24-32GB на карту для комфортной работы.

MiniMax-M2.5: 230 миллиардов параметров, но только 10 активных. Как это работает и когда ждать на HuggingFace?