Когда китайский гигант электроники выкатывает языковую модель на 310 миллиардов параметров — это звучит как фантастика. Но Xiaomi сделала это снова: MiMo-V2.5 — разреженная MoE, где из 310B параметров активны всего 15B. И это меняет правила игры для всех, кто мечтает запускать большие модели на своём GPU, не разоряясь на облачные кластеры.

Что это? MiMo-V2.5 — открытая модель от Xiaomi, опубликованная на HuggingFace. Архитектура Sparse MoE, 60 экспертов, top-2 routing. Общий словарь 128k токенов. Ориентирована на многозадачность: генерация кода, математика, рассуждения, перевод.

Трёхсот десять миллиардов? Шучу. Всего пятнадцать

Слово "разреженность" здесь ключевое. В отличие от плотных моделей, где каждый токен активирует все параметры, MoE включает только 2 эксперта из 60. Поэтому на практике MiMo-V2.5 по скорости и потреблению VRAM сопоставима с моделями на 15B-20B параметров. Зато качество — как у полноценной 300B.

Это не первая ласточка в мире разреженных смесей. Ранее мы писали про MiMo-V2-Flash — та модель уже показала, что Xiaomi умеет удивлять. Но V2.5 — качественный скачок: уменьшенный размер активаций, улучшенное балансирование экспертов и дообучение на смешанных данных (код + естественный язык).

Квантование: как запихнуть 310B в 24 ГБ VRAM

Даже с активными 15B параметрами в fp16 модель весит ~30 ГБ. Это не влезает в RTX 4090 (24 ГБ) и уж тем более в 3090. Но спасение приходит через квантование. Современные методы — 4-bit GPTQ, AWQ, GGUF — снижают вес до ~8-12 ГБ на 15B параметров. А вся модель целиком (все 310B) может быть загружена на CPU с использованием Q4_K_M и слоёв, отправляемых на GPU через llama.cpp.

На практике:

RTX 3090/4090 (24 ГБ VRAM): 4-bit квантование всех 60 экспертов + offloading части слоёв на CPU — работа с контекстом до 8K токенов.
RTX 5090 (32 ГБ VRAM): 4-bit квантование с полным размещением в VRAM — до 16K контекста.
Apple Silicon (M4 Ultra, 192 ГБ Unified Memory): идеальный сценарий — модель помещается целиком в оперативку, скорость генерации >40 токен/с.

Предупреждение: Не все квантованные версии одинаково полезны. 4-bit квизы от сообщества иногда теряют до 10% точности на математике. Лучше собирать GGUF самостоятельно из оригинальных весов.

Сравнение с конкурентами: DeepSeek, Qwen, Kimi

Китайский рынок MoE перегрет. DeepSeek-V3, Qwen 2.5-32B, Kimi 2.5 — все используют разреженные смеси. Как MiMo-V2.5 выделяется?

Модель	Всего параметров	Активные	Размер 4-bit (все)	VRAM для инференса
MiMo-V2.5	310B	15B	~17 ГБ (все эксперты)	~10-12 ГБ (активные)
DeepSeek-V3	671B	37B	~35 ГБ	~20-24 ГБ
Qwen 3.5-32B	32B (dense)	32B	~18 ГБ	~18 ГБ
Kimi 2.5	400B	~20B	~22 ГБ	~14-16 ГБ

MiMo-V2.5 — рекордсмен по эффективности: при меньшем числе активных параметров она показывает сопоставимые или лучшие результаты на бенчмарках MATH и HumanEval. Мы уже разбирали архитектурные различия между MoE у разных вендоров, и Xiaomi выбрала путь максимальной разреженности — больше экспертов, меньше активаций.

Запуск на обычном железе: пошагово без кода

Не буду закидывать вас командами — сосредоточусь на логике. Чтобы запустить MiMo-V2.5 на домашней машине, нужно:

Скачать оригинальные веса с HuggingFace (репозиторий Xiaomi/MiMo-V2.5-310B). Это ~580 ГБ в fp16. Для локального использования лучше взять уже квантованные GGUF от сообщества.
Выбрать бэкенд. Llama.cpp поддерживает все современные техники offloading. Скачайте последнюю сборку с поддержкой CUDA.
Настроить параметры.
- --n-gpu-layers — сколько слоёв отдать видеокарте. Для 4090 можно все 60, для 3090 — 40-45, остальное на CPU.
- --ctx-size 8192 — контекст. При offloading больше 8K может вызвать тормоза.
Запустить. На 4090 с 4-bit и offloading получаем ~8-10 токен/с — комфортно для общения.

Альтернатива — загрузить модель на Hugging Face и использовать Inference Endpoints, если железа нет. Но интереснее кастомизировать самому.

Почему это не просто очередная MoE?

Xiaomi применила технологию Flash-MoE — частично описанную в нашем обзоре Flash-MoE. Это оптимизация вычислений, которая уменьшает latency при переключении экспертов. Вкупе с 15B активных параметров модель даёт качество на уровне GPT-4 на задачах логики и кода, но при этом запускается на consumer GPU.

Сравнение с плотными моделями вроде Qwen 3.5 показывает, что разреженность выигрывает на дистанции: больше экспертов = более специализированные знания. MiMo-V2.5 не пытается быть универсалом, а собирает команду узких специалистов.

Кому это реально нужно?

Если вы разрабатываете ассистента для программирования, переводчика с сохранением контекста или интеллектуальную RAG-систему — MiMo-V2.5 даёт отличный баланс качества и затрат. Она не требует A100 для инференса, в отличие от многих западных закрытых моделей.

Энтузиасты, у кого есть RTX 3090 или Mac Studio, получат модель уровня DeepSeek без аренды облака. А если у вас скромнее — статья о запуске MoE на CPU подскажет, как выкрутиться с DDR5.

Прогноз на будущее: Xiaomi, скорее всего, выпустит дистиллированную версию MiMo-V2.5 для edge-устройств (смартфоны, IoT). А пока — качайте, квантуйте, тестируйте. Китайцы задали новый стандарт эффективности, и теперь западным гигантам придётся догонять.

Подписаться на канал

Xiaomi MiMo-V2.5: Sparse MoE 310B модель — запуск, квантование и производительность на обычном железе