Парадокс: 17 миллиардов параметров, которые ведут себя как 0.86 миллиарда
Вы когда-нибудь смотрели на модель в 17.3B параметров и думали: "Ну нет, мой ноутбук с этим не справится"? Alibaba тоже смотрела. И придумала выход. Вместо того, чтобы гоняться за гигантами вроде GPT-4o 2026 Edition, они выпустили Marco-Mini и Marco-Nano — модели, где из 17.3 миллиардов параметров на каждый токен активно работают только 860 миллионов. Это как иметь оркестр из 100 человек, где для каждой песни играет только квинтет. Гениально или обман?
Архитектура: MoE, который не съедает все ваши ресурсы
В основе — Mixture of Experts (MoE), но не такой, как в древних моделях 2023 года. Здесь 32 эксперта, и для каждого входного токена роутер выбирает только 2. Вуаля — активные параметры падают с 17.3B до 0.86B. Общий объем модели остается большим (именно там живут знания), но во время инференса загружается и считается лишь малая часть.
Почему это не то же самое, что обычный спарсити? Потому что эксперты — не просто разные слои. Они специализируются. Один эксперт может лучше разбираться в коде Python, другой — в медицинских терминах. Роутер учится отправлять токены туда, где их обработают эффективнее. На бумаге звучит идеально. На практике? Читайте дальше.
| Модель | Всего параметров | Активных параметров (per token) | Эксперты / Активировано | Контекстное окно |
|---|---|---|---|---|
| Marco-Mini v2.1 | 17.3B | ~0.86B | 32 / 2 | 32K |
| Marco-Nano v1.2 | 8.4B | ~0.42B | 16 / 2 | 16K |
Сравнение: против кого они выходят на ринг?
Нельзя говорить об эффективных моделях, не вспомнив Gemma 3 270M или MiniMax M2. Но Marco — другая лига. Они не пытаются быть маленькими. Они пытаются быть умными и быстрыми одновременно.
- Против плотных моделей (Gemma 3 270M): У Gemma реально 270M параметров. Она легче, но и "знает" меньше. Marco-Mini при инференсе ненамного тяжелее, но общая база знаний в 64 раза больше. Это как сравнить энциклопедию (Marco) с брошюрой (Gemma).
- Против других MoE (Ring-Mini-Linear-2.0): У Ring своя фишка — линейные внимания. Но их MoE часто менее стабилен в выборе экспертов. У Alibaba роутер обучен аккуратнее.
- Против гигантов (Qwen3.5-MoE): Тот же принцип, но масштаб. Marco — это демо-версия для бедных. Работает на железе, где Qwen3.5-MoE даже не загрузится.
Внимание на бенчмарки: Старая добрая "гонка за качеством" закончилась, как мы уже писали. Сейчас считают секунды и доллары. По ELO-рейтингу Marco-Mini скромен (~65 на LLM Arena 2026), но его скорость/качество на дешевом железе — вне конкуренции.
Тесты скорости: где обещанный прорыв?
Я прогнал Marco-Mini v2.1 на трех конфигурациях: ноутбук с RTX 4060, MacBook M3 Pro и старый сервер с CPU Intel Xeon. Результаты заставят задуматься тех, кто все еще пытается впихнуть 7B-плотную модель на нетбук.
| Железо | Модель (квантование) | Скорость (токен/с) | Потребление RAM/VRAM | Комментарий |
|---|---|---|---|---|
| RTX 4060 8GB | Marco-Mini (FP16) | ~98 | ~10.5 GB VRAM | Без квантования жрет много, но быстр. |
| RTX 4060 8GB | Marco-Mini (GPTQ 4-bit) | ~115 | ~5.2 GB VRAM | Золотая середина. Запускается легко. |
| MacBook M3 Pro 18GB | Marco-Nano (MLX, 4-bit) | ~75 | ~4.8 GB Unified | Тихий и холодный. Идеально для мобильности. |
| Intel Xeon E5, 64GB RAM | Marco-Mini (GGUF Q4_K_M) | ~12 | ~9 GB RAM | Медленно, но работает. Для фоновых задач сгодится. |
Вывод? Marco-Nano на 4-битном квантовании — король слабого железа. Он обгоняет многие 3B-плотные модели и при этом дает более связные ответы. Но есть нюанс: пиковая скорость inference зависит не только от активных параметров. Загрузка экспертов с диска или памяти — бутылочное горлышко. Если ваш SSD медленный, роутер будет ждать.
Квантование: что не сломает MoE?
MoE-модели коварны. Заквантовать все 17B параметров — полдела. Нужно, чтобы роутер после квантования все еще выбирал правильных экспертов. Иначе получится, как в той статье про MiniMax M2.1 для программирования — модель начинает генерировать бессмыслицу.
Что проверяли на Marco:
- GPTQ 4-bit: Стандарт де-факто. Теряется ~3% точности на MMLU, но скорость отличная. Лучший выбор для GPU.
- AWQ 4-bit: Более аккуратный метод, лучше сохраняет качество роутера. Рекомендуется для продакшена, если есть время на конвертацию.
- GGUF Q4_K_M: Для CPU через llama.cpp. Работает стабильно, но помните про разницу между ik_llama.cpp и llama.cpp? Для Marco пока нет специфических оптимизаций, используйте vanilla llama.cpp.
- 3-bit и ниже: Эксперименты показывают, что роутер деградирует резко. Не советую, если только вы не готовы к странным ответам. Вопрос "стоит ли игра свеч" с 3-bit мы уже задавали для MiniMax-M2.5. Ответ — нет.
Кому эти модели подойдут (а кому нет)?
Ситуация, когда Marco-Mini и Nano блестят:
- Стартапы с нулевым бюджетом на инференс: Хостить на своем железе, обслуживать десятки пользователей одновременно. Пропускная способность выше, чем у плотных моделей схожего "веса".
- Разработчики edge-устройств: Умные ассистенты в автомобиле, камерах, рилтайм-трансляция. Nano на 4-bit влезет даже в Raspberry Pi 5 с 8GB RAM.
- Исследователи, которым нужна "большая" модель для экспериментов: Протестировать идею на 17B-знаниях, не арендуя A100.
Ситуация, когда лучше посмотреть в сторону других моделей:
- Вам нужна максимальная точность в нишевой области: Специализированная дообученная плотная модель 7B (например, CodeLlama) часто переиграет Marco в своей теме.
- У вас стабильный бюджет на облачный GPU: Тогда арендуйте мощную карту и запускайте Qwen3.5-MoE или даже StepFun 3.5 Flash. Качество ответов будет выше.
- Вы ненавидите непредсказуемость: MoE иногда выдает "всплески глупости", когда роутер ошибается. Плотные модели стабильнее в своем среднем уровне.
Итог: хитрость, которая работает
Marco-Mini и Marco-Nano — не революция. Это эволюция идеи "эффективности". Они доказывают, что можно иметь большой кошелек знаний (17B параметров), но тратить из него лишь маленькие монетки (0.86B) на каждую операцию. В 2026 году, когда стоимость инференса стала главным вопросом, такой подход — не прихоть, а необходимость.
Главный прогноз? Архитектуры с ультра-низким активным параметром станут нормой для клиентских приложений. Следующий шаг — динамический выбор не только экспертов, но и степени квантования для каждого эксперта на лету. Alibaba уже экспериментирует с этим в закрытых бетах. Так что Marco — это только начало большой игры по сжатию гигантов в размеры карманного калькулятора, без потери их мудрости.