Когда китайский гигант электроники выкатывает языковую модель на 310 миллиардов параметров — это звучит как фантастика. Но Xiaomi сделала это снова: MiMo-V2.5 — разреженная MoE, где из 310B параметров активны всего 15B. И это меняет правила игры для всех, кто мечтает запускать большие модели на своём GPU, не разоряясь на облачные кластеры.
Что это? MiMo-V2.5 — открытая модель от Xiaomi, опубликованная на HuggingFace. Архитектура Sparse MoE, 60 экспертов, top-2 routing. Общий словарь 128k токенов. Ориентирована на многозадачность: генерация кода, математика, рассуждения, перевод.
Трёхсот десять миллиардов? Шучу. Всего пятнадцать
Слово "разреженность" здесь ключевое. В отличие от плотных моделей, где каждый токен активирует все параметры, MoE включает только 2 эксперта из 60. Поэтому на практике MiMo-V2.5 по скорости и потреблению VRAM сопоставима с моделями на 15B-20B параметров. Зато качество — как у полноценной 300B.
Это не первая ласточка в мире разреженных смесей. Ранее мы писали про MiMo-V2-Flash — та модель уже показала, что Xiaomi умеет удивлять. Но V2.5 — качественный скачок: уменьшенный размер активаций, улучшенное балансирование экспертов и дообучение на смешанных данных (код + естественный язык).
Квантование: как запихнуть 310B в 24 ГБ VRAM
Даже с активными 15B параметрами в fp16 модель весит ~30 ГБ. Это не влезает в RTX 4090 (24 ГБ) и уж тем более в 3090. Но спасение приходит через квантование. Современные методы — 4-bit GPTQ, AWQ, GGUF — снижают вес до ~8-12 ГБ на 15B параметров. А вся модель целиком (все 310B) может быть загружена на CPU с использованием Q4_K_M и слоёв, отправляемых на GPU через llama.cpp.
На практике:
- RTX 3090/4090 (24 ГБ VRAM): 4-bit квантование всех 60 экспертов + offloading части слоёв на CPU — работа с контекстом до 8K токенов.
- RTX 5090 (32 ГБ VRAM): 4-bit квантование с полным размещением в VRAM — до 16K контекста.
- Apple Silicon (M4 Ultra, 192 ГБ Unified Memory): идеальный сценарий — модель помещается целиком в оперативку, скорость генерации >40 токен/с.
Предупреждение: Не все квантованные версии одинаково полезны. 4-bit квизы от сообщества иногда теряют до 10% точности на математике. Лучше собирать GGUF самостоятельно из оригинальных весов.
Сравнение с конкурентами: DeepSeek, Qwen, Kimi
Китайский рынок MoE перегрет. DeepSeek-V3, Qwen 2.5-32B, Kimi 2.5 — все используют разреженные смеси. Как MiMo-V2.5 выделяется?
| Модель | Всего параметров | Активные | Размер 4-bit (все) | VRAM для инференса |
|---|---|---|---|---|
| MiMo-V2.5 | 310B | 15B | ~17 ГБ (все эксперты) | ~10-12 ГБ (активные) |
| DeepSeek-V3 | 671B | 37B | ~35 ГБ | ~20-24 ГБ |
| Qwen 3.5-32B | 32B (dense) | 32B | ~18 ГБ | ~18 ГБ |
| Kimi 2.5 | 400B | ~20B | ~22 ГБ | ~14-16 ГБ |
MiMo-V2.5 — рекордсмен по эффективности: при меньшем числе активных параметров она показывает сопоставимые или лучшие результаты на бенчмарках MATH и HumanEval. Мы уже разбирали архитектурные различия между MoE у разных вендоров, и Xiaomi выбрала путь максимальной разреженности — больше экспертов, меньше активаций.
Запуск на обычном железе: пошагово без кода
Не буду закидывать вас командами — сосредоточусь на логике. Чтобы запустить MiMo-V2.5 на домашней машине, нужно:
- Скачать оригинальные веса с HuggingFace (репозиторий
Xiaomi/MiMo-V2.5-310B). Это ~580 ГБ в fp16. Для локального использования лучше взять уже квантованные GGUF от сообщества. - Выбрать бэкенд. Llama.cpp поддерживает все современные техники offloading. Скачайте последнюю сборку с поддержкой CUDA.
- Настроить параметры.
--n-gpu-layers— сколько слоёв отдать видеокарте. Для 4090 можно все 60, для 3090 — 40-45, остальное на CPU.--ctx-size 8192— контекст. При offloading больше 8K может вызвать тормоза.
- Запустить. На 4090 с 4-bit и offloading получаем ~8-10 токен/с — комфортно для общения.
Альтернатива — загрузить модель на Hugging Face и использовать Inference Endpoints, если железа нет. Но интереснее кастомизировать самому.
Почему это не просто очередная MoE?
Xiaomi применила технологию Flash-MoE — частично описанную в нашем обзоре Flash-MoE. Это оптимизация вычислений, которая уменьшает latency при переключении экспертов. Вкупе с 15B активных параметров модель даёт качество на уровне GPT-4 на задачах логики и кода, но при этом запускается на consumer GPU.
Сравнение с плотными моделями вроде Qwen 3.5 показывает, что разреженность выигрывает на дистанции: больше экспертов = более специализированные знания. MiMo-V2.5 не пытается быть универсалом, а собирает команду узких специалистов.
Кому это реально нужно?
Если вы разрабатываете ассистента для программирования, переводчика с сохранением контекста или интеллектуальную RAG-систему — MiMo-V2.5 даёт отличный баланс качества и затрат. Она не требует A100 для инференса, в отличие от многих западных закрытых моделей.
Энтузиасты, у кого есть RTX 3090 или Mac Studio, получат модель уровня DeepSeek без аренды облака. А если у вас скромнее — статья о запуске MoE на CPU подскажет, как выкрутиться с DDR5.
Прогноз на будущее: Xiaomi, скорее всего, выпустит дистиллированную версию MiMo-V2.5 для edge-устройств (смартфоны, IoT). А пока — качайте, квантуйте, тестируйте. Китайцы задали новый стандарт эффективности, и теперь западным гигантам придётся догонять.