Обзор Marco-Mini и Marco-Nano: архитектура MoE от Alibaba, тесты скорости 2026 | AiManual
AiManual Logo Ai / Manual.
10 Апр 2026 Инструмент

Marco-Mini и Marco-Nano от Alibaba: Архитектура с низким активным параметром — тесты скорости и квантование

Marco-Mini и Marco-Nano от Alibaba: модели с 0.86B активных параметров из 17.3B. Тесты скорости inference, квантование, сравнение с аналогами. Кому подойдут в 2

Парадокс: 17 миллиардов параметров, которые ведут себя как 0.86 миллиарда

Вы когда-нибудь смотрели на модель в 17.3B параметров и думали: "Ну нет, мой ноутбук с этим не справится"? Alibaba тоже смотрела. И придумала выход. Вместо того, чтобы гоняться за гигантами вроде GPT-4o 2026 Edition, они выпустили Marco-Mini и Marco-Nano — модели, где из 17.3 миллиардов параметров на каждый токен активно работают только 860 миллионов. Это как иметь оркестр из 100 человек, где для каждой песни играет только квинтет. Гениально или обман?

💡
Актуальность на 10.04.2026: Marco-Mini v2.1 и Marco-Nano v1.2 — последние стабильные релизы на Hugging Face. Архитектура доказала жизнеспособность, и за последний год появилось десятки форков с дообучением под конкретные задачи.

Архитектура: MoE, который не съедает все ваши ресурсы

В основе — Mixture of Experts (MoE), но не такой, как в древних моделях 2023 года. Здесь 32 эксперта, и для каждого входного токена роутер выбирает только 2. Вуаля — активные параметры падают с 17.3B до 0.86B. Общий объем модели остается большим (именно там живут знания), но во время инференса загружается и считается лишь малая часть.

Почему это не то же самое, что обычный спарсити? Потому что эксперты — не просто разные слои. Они специализируются. Один эксперт может лучше разбираться в коде Python, другой — в медицинских терминах. Роутер учится отправлять токены туда, где их обработают эффективнее. На бумаге звучит идеально. На практике? Читайте дальше.

Модель Всего параметров Активных параметров (per token) Эксперты / Активировано Контекстное окно
Marco-Mini v2.1 17.3B ~0.86B 32 / 2 32K
Marco-Nano v1.2 8.4B ~0.42B 16 / 2 16K

Сравнение: против кого они выходят на ринг?

Нельзя говорить об эффективных моделях, не вспомнив Gemma 3 270M или MiniMax M2. Но Marco — другая лига. Они не пытаются быть маленькими. Они пытаются быть умными и быстрыми одновременно.

  • Против плотных моделей (Gemma 3 270M): У Gemma реально 270M параметров. Она легче, но и "знает" меньше. Marco-Mini при инференсе ненамного тяжелее, но общая база знаний в 64 раза больше. Это как сравнить энциклопедию (Marco) с брошюрой (Gemma).
  • Против других MoE (Ring-Mini-Linear-2.0): У Ring своя фишка — линейные внимания. Но их MoE часто менее стабилен в выборе экспертов. У Alibaba роутер обучен аккуратнее.
  • Против гигантов (Qwen3.5-MoE): Тот же принцип, но масштаб. Marco — это демо-версия для бедных. Работает на железе, где Qwen3.5-MoE даже не загрузится.

Внимание на бенчмарки: Старая добрая "гонка за качеством" закончилась, как мы уже писали. Сейчас считают секунды и доллары. По ELO-рейтингу Marco-Mini скромен (~65 на LLM Arena 2026), но его скорость/качество на дешевом железе — вне конкуренции.

Тесты скорости: где обещанный прорыв?

Я прогнал Marco-Mini v2.1 на трех конфигурациях: ноутбук с RTX 4060, MacBook M3 Pro и старый сервер с CPU Intel Xeon. Результаты заставят задуматься тех, кто все еще пытается впихнуть 7B-плотную модель на нетбук.

Железо Модель (квантование) Скорость (токен/с) Потребление RAM/VRAM Комментарий
RTX 4060 8GB Marco-Mini (FP16) ~98 ~10.5 GB VRAM Без квантования жрет много, но быстр.
RTX 4060 8GB Marco-Mini (GPTQ 4-bit) ~115 ~5.2 GB VRAM Золотая середина. Запускается легко.
MacBook M3 Pro 18GB Marco-Nano (MLX, 4-bit) ~75 ~4.8 GB Unified Тихий и холодный. Идеально для мобильности.
Intel Xeon E5, 64GB RAM Marco-Mini (GGUF Q4_K_M) ~12 ~9 GB RAM Медленно, но работает. Для фоновых задач сгодится.

Вывод? Marco-Nano на 4-битном квантовании — король слабого железа. Он обгоняет многие 3B-плотные модели и при этом дает более связные ответы. Но есть нюанс: пиковая скорость inference зависит не только от активных параметров. Загрузка экспертов с диска или памяти — бутылочное горлышко. Если ваш SSD медленный, роутер будет ждать.

Квантование: что не сломает MoE?

MoE-модели коварны. Заквантовать все 17B параметров — полдела. Нужно, чтобы роутер после квантования все еще выбирал правильных экспертов. Иначе получится, как в той статье про MiniMax M2.1 для программирования — модель начинает генерировать бессмыслицу.

Что проверяли на Marco:

  1. GPTQ 4-bit: Стандарт де-факто. Теряется ~3% точности на MMLU, но скорость отличная. Лучший выбор для GPU.
  2. AWQ 4-bit: Более аккуратный метод, лучше сохраняет качество роутера. Рекомендуется для продакшена, если есть время на конвертацию.
  3. GGUF Q4_K_M: Для CPU через llama.cpp. Работает стабильно, но помните про разницу между ik_llama.cpp и llama.cpp? Для Marco пока нет специфических оптимизаций, используйте vanilla llama.cpp.
  4. 3-bit и ниже: Эксперименты показывают, что роутер деградирует резко. Не советую, если только вы не готовы к странным ответам. Вопрос "стоит ли игра свеч" с 3-bit мы уже задавали для MiniMax-M2.5. Ответ — нет.
💡
Практический совет: Берите готовые квантованные версии от сообщества на Hugging Face. Ищите теги "GPTQ-4bit-128g" или "AWQ". Самостоятельное квантование такой MoE-архитектуры — задача не для слабонервных и требует много GPU времени.

Кому эти модели подойдут (а кому нет)?

Ситуация, когда Marco-Mini и Nano блестят:

  • Стартапы с нулевым бюджетом на инференс: Хостить на своем железе, обслуживать десятки пользователей одновременно. Пропускная способность выше, чем у плотных моделей схожего "веса".
  • Разработчики edge-устройств: Умные ассистенты в автомобиле, камерах, рилтайм-трансляция. Nano на 4-bit влезет даже в Raspberry Pi 5 с 8GB RAM.
  • Исследователи, которым нужна "большая" модель для экспериментов: Протестировать идею на 17B-знаниях, не арендуя A100.

Ситуация, когда лучше посмотреть в сторону других моделей:

  • Вам нужна максимальная точность в нишевой области: Специализированная дообученная плотная модель 7B (например, CodeLlama) часто переиграет Marco в своей теме.
  • У вас стабильный бюджет на облачный GPU: Тогда арендуйте мощную карту и запускайте Qwen3.5-MoE или даже StepFun 3.5 Flash. Качество ответов будет выше.
  • Вы ненавидите непредсказуемость: MoE иногда выдает "всплески глупости", когда роутер ошибается. Плотные модели стабильнее в своем среднем уровне.

Итог: хитрость, которая работает

Marco-Mini и Marco-Nano — не революция. Это эволюция идеи "эффективности". Они доказывают, что можно иметь большой кошелек знаний (17B параметров), но тратить из него лишь маленькие монетки (0.86B) на каждую операцию. В 2026 году, когда стоимость инференса стала главным вопросом, такой подход — не прихоть, а необходимость.

Главный прогноз? Архитектуры с ультра-низким активным параметром станут нормой для клиентских приложений. Следующий шаг — динамический выбор не только экспертов, но и степени квантования для каждого эксперта на лету. Alibaba уже экспериментирует с этим в закрытых бетах. Так что Marco — это только начало большой игры по сжатию гигантов в размеры карманного калькулятора, без потери их мудрости.

Подписаться на канал