Что такое активные параметры в моделях Marco?

Это параметры модели, которые фактически используются для обработки каждого входного токена. В Marco-Mini общее количество параметров — 17.3 миллиарда, но благодаря архитектуре Mixture of Experts (MoE) роутер активирует только 2 из 32 экспертов на токен, что эквивалентно примерно 860 миллионам активных параметров. Это резко снижает вычислительные затраты во время inference.

На каком железе можно запустить Marco-Nano?

Marco-Nano v1.2 в 4-битном квантовании (GPTQ или GGUF) можно запустить на ноутбуке с GPU от 6 GB VRAM (например, RTX 3060), на MacBook с чипом Apple Silicon (M1/M2/M3) через MLX, или даже на CPU-сервере с достаточным объемом ОЗУ (~8-10 GB). Это делает модель доступной для edge-устройств и разработки с ограниченным бюджетом.

Чем Marco-Mini лучше Gemma 3 270M?

Marco-Mini обладает гораздо большей общей базой знаний (17.3B vs 0.27B параметров), что позволяет ей лучше справляться со сложными и разнообразными запросами. При этом во время инференса ее вычислительная "тяжесть" сопоставима с Gemma 3 270M благодаря низкому активному параметру. Marco-Mini — это компромисс в пользу более широких знаний при сохранении высокой скорости.

Какое квантование лучше для Marco-Mini?

Для баланса скорости и качества на GPU рекомендуется GPTQ 4-bit. Для максимального сохранения точности, особенно логики работы роутера экспертов, лучше AWQ 4-bit. Для запуска на CPU через llama.cpp используйте формат GGUF с квантованием Q4_K_M. 3-битное и более агрессивное квантование не рекомендуется, так как сильно деградирует качество работы Mo-архитектуры.

Обзор Marco-Mini и Marco-Nano: архитектура MoE от Alibaba, тесты скорости 2026

Парадокс: 17 миллиардов параметров, которые ведут себя как 0.86 миллиарда

Вы когда-нибудь смотрели на модель в 17.3B параметров и думали: "Ну нет, мой ноутбук с этим не справится"? Alibaba тоже смотрела. И придумала выход. Вместо того, чтобы гоняться за гигантами вроде GPT-4o 2026 Edition, они выпустили Marco-Mini и Marco-Nano — модели, где из 17.3 миллиардов параметров на каждый токен активно работают только 860 миллионов. Это как иметь оркестр из 100 человек, где для каждой песни играет только квинтет. Гениально или обман?

💡

Актуальность на 10.04.2026: Marco-Mini v2.1 и Marco-Nano v1.2 — последние стабильные релизы на Hugging Face. Архитектура доказала жизнеспособность, и за последний год появилось десятки форков с дообучением под конкретные задачи.

Архитектура: MoE, который не съедает все ваши ресурсы

В основе — Mixture of Experts (MoE), но не такой, как в древних моделях 2023 года. Здесь 32 эксперта, и для каждого входного токена роутер выбирает только 2. Вуаля — активные параметры падают с 17.3B до 0.86B. Общий объем модели остается большим (именно там живут знания), но во время инференса загружается и считается лишь малая часть.

Почему это не то же самое, что обычный спарсити? Потому что эксперты — не просто разные слои. Они специализируются. Один эксперт может лучше разбираться в коде Python, другой — в медицинских терминах. Роутер учится отправлять токены туда, где их обработают эффективнее. На бумаге звучит идеально. На практике? Читайте дальше.

Модель	Всего параметров	Активных параметров (per token)	Эксперты / Активировано	Контекстное окно
Marco-Mini v2.1	17.3B	~0.86B	32 / 2	32K
Marco-Nano v1.2	8.4B	~0.42B	16 / 2	16K

Сравнение: против кого они выходят на ринг?

Нельзя говорить об эффективных моделях, не вспомнив Gemma 3 270M или MiniMax M2. Но Marco — другая лига. Они не пытаются быть маленькими. Они пытаются быть умными и быстрыми одновременно.

Против плотных моделей (Gemma 3 270M): У Gemma реально 270M параметров. Она легче, но и "знает" меньше. Marco-Mini при инференсе ненамного тяжелее, но общая база знаний в 64 раза больше. Это как сравнить энциклопедию (Marco) с брошюрой (Gemma).
Против других MoE (Ring-Mini-Linear-2.0): У Ring своя фишка — линейные внимания. Но их MoE часто менее стабилен в выборе экспертов. У Alibaba роутер обучен аккуратнее.
Против гигантов (Qwen3.5-MoE): Тот же принцип, но масштаб. Marco — это демо-версия для бедных. Работает на железе, где Qwen3.5-MoE даже не загрузится.

Внимание на бенчмарки: Старая добрая "гонка за качеством" закончилась, как мы уже писали. Сейчас считают секунды и доллары. По ELO-рейтингу Marco-Mini скромен (~65 на LLM Arena 2026), но его скорость/качество на дешевом железе — вне конкуренции.

Тесты скорости: где обещанный прорыв?

Я прогнал Marco-Mini v2.1 на трех конфигурациях: ноутбук с RTX 4060, MacBook M3 Pro и старый сервер с CPU Intel Xeon. Результаты заставят задуматься тех, кто все еще пытается впихнуть 7B-плотную модель на нетбук.

Железо	Модель (квантование)	Скорость (токен/с)	Потребление RAM/VRAM	Комментарий
RTX 4060 8GB	Marco-Mini (FP16)	~98	~10.5 GB VRAM	Без квантования жрет много, но быстр.
RTX 4060 8GB	Marco-Mini (GPTQ 4-bit)	~115	~5.2 GB VRAM	Золотая середина. Запускается легко.
MacBook M3 Pro 18GB	Marco-Nano (MLX, 4-bit)	~75	~4.8 GB Unified	Тихий и холодный. Идеально для мобильности.
Intel Xeon E5, 64GB RAM	Marco-Mini (GGUF Q4_K_M)	~12	~9 GB RAM	Медленно, но работает. Для фоновых задач сгодится.

Вывод? Marco-Nano на 4-битном квантовании — король слабого железа. Он обгоняет многие 3B-плотные модели и при этом дает более связные ответы. Но есть нюанс: пиковая скорость inference зависит не только от активных параметров. Загрузка экспертов с диска или памяти — бутылочное горлышко. Если ваш SSD медленный, роутер будет ждать.

Квантование: что не сломает MoE?

MoE-модели коварны. Заквантовать все 17B параметров — полдела. Нужно, чтобы роутер после квантования все еще выбирал правильных экспертов. Иначе получится, как в той статье про MiniMax M2.1 для программирования — модель начинает генерировать бессмыслицу.

Что проверяли на Marco:

GPTQ 4-bit: Стандарт де-факто. Теряется ~3% точности на MMLU, но скорость отличная. Лучший выбор для GPU.
AWQ 4-bit: Более аккуратный метод, лучше сохраняет качество роутера. Рекомендуется для продакшена, если есть время на конвертацию.
GGUF Q4_K_M: Для CPU через llama.cpp. Работает стабильно, но помните про разницу между ik_llama.cpp и llama.cpp? Для Marco пока нет специфических оптимизаций, используйте vanilla llama.cpp.
3-bit и ниже: Эксперименты показывают, что роутер деградирует резко. Не советую, если только вы не готовы к странным ответам. Вопрос "стоит ли игра свеч" с 3-bit мы уже задавали для MiniMax-M2.5. Ответ — нет.

💡

Практический совет: Берите готовые квантованные версии от сообщества на Hugging Face. Ищите теги "GPTQ-4bit-128g" или "AWQ". Самостоятельное квантование такой MoE-архитектуры — задача не для слабонервных и требует много GPU времени.

Кому эти модели подойдут (а кому нет)?

Ситуация, когда Marco-Mini и Nano блестят:

Стартапы с нулевым бюджетом на инференс: Хостить на своем железе, обслуживать десятки пользователей одновременно. Пропускная способность выше, чем у плотных моделей схожего "веса".
Разработчики edge-устройств: Умные ассистенты в автомобиле, камерах, рилтайм-трансляция. Nano на 4-bit влезет даже в Raspberry Pi 5 с 8GB RAM.
Исследователи, которым нужна "большая" модель для экспериментов: Протестировать идею на 17B-знаниях, не арендуя A100.

Ситуация, когда лучше посмотреть в сторону других моделей:

Вам нужна максимальная точность в нишевой области: Специализированная дообученная плотная модель 7B (например, CodeLlama) часто переиграет Marco в своей теме.
У вас стабильный бюджет на облачный GPU: Тогда арендуйте мощную карту и запускайте Qwen3.5-MoE или даже StepFun 3.5 Flash. Качество ответов будет выше.
Вы ненавидите непредсказуемость: MoE иногда выдает "всплески глупости", когда роутер ошибается. Плотные модели стабильнее в своем среднем уровне.

Итог: хитрость, которая работает

Marco-Mini и Marco-Nano — не революция. Это эволюция идеи "эффективности". Они доказывают, что можно иметь большой кошелек знаний (17B параметров), но тратить из него лишь маленькие монетки (0.86B) на каждую операцию. В 2026 году, когда стоимость инференса стала главным вопросом, такой подход — не прихоть, а необходимость.

Главный прогноз? Архитектуры с ультра-низким активным параметром станут нормой для клиентских приложений. Следующий шаг — динамический выбор не только экспертов, но и степени квантования для каждого эксперта на лету. Alibaba уже экспериментирует с этим в закрытых бетах. Так что Marco — это только начало большой игры по сжатию гигантов в размеры карманного калькулятора, без потери их мудрости.

Подписаться на канал

Marco-Mini и Marco-Nano от Alibaba: Архитектура с низким активным параметром — тесты скорости и квантование