Сначала цифры, которые заставляют нервно смеяться
397 миллиардов параметров. 740 ГБ в FP16. Даже в Q4_K_M это около 200 ГБ. А у вас — 14 ГБ оперативки на Mac Studio. Звучит как анекдот про слона и холодильник, да? Но на май 2026 года это уже не шутка. Встречайте Paged MoE — технику, которая позволяет засунуть слона не просто в холодильник, а в морозилку для кубиков льда.
Если вы читали наш обзор Flash-MoE и исследование Apple LLM in a Flash, вы уже знаете: магия возможна, но каждый метод режет по-своему. Paged MoE — это третий путь, где мы не просто режем биты, а умно тасуем эксперты между RAM и SSD.
❄️ Что такое Paged MoE? Это механизм, при котором модель Mixture of Experts разбивается на мелкие «страницы» экспертов. В каждый момент в RAM загружается только активная страница (например, те 2-4 эксперта, которые роутер выбрал для текущего токена). Остальные лежат на SSD и догружаются по мере необходимости — прямо как память со страничной организацией, только для нейросетей.
Почему это работает на Mac Studio с 14 ГБ
Архитектура MoE — идеальный кандидат для paging. В плотных моделях (как оригинальный Qwen 397B dense — да, такие есть) каждый слой задействует все параметры. А в MoE-модели (например, Qwen3-397B-A14B) на каждом шаге активны только 1-2% от общего числа параметров. Остальные 98% — просто пассивный груз. И вот их мы и отправляем в долгосрочное хранилище.
Ключевая идея Paged MoE — не держать в памяти ни одного неактивного эксперта. Ни одного. Загрузка с SSD происходит асинхронно и предсказательно: система анализирует паттерны вызовов роутера и подгружает эксперты, которые вероятно понадобятся в ближайшие 2-3 токена. Если прогноз ошибается — происходит задержка в сотни миллисекунд. Но на практике точность достигает 85-90%.
В отличие от Apple LLM in a Flash, где предсказание работает на уровне слоёв и требует сложной профилировки, Paged MoE использует простую эвристику: вес эксперта = частота его использования в последних N запросах. Чем чаще эксперт вызывался, тем дольше он остаётся в RAM. Это грубо, но эффективно и не требует предварительного обучения.
Paged MoE vs Flash-MoE vs Apple LLM in a Flash: кровавый бенчмарк
Давайте сравним на конкретной конфигурации: Mac Studio M4 Pro (14 CPU, 20 GPU, 14 ГБ unified memory), модель Qwen3-397B-A14B, квантование Q2_K (размер ~90 ГБ на диске).
| Метод | RAM занято | Скорость (ток/с) | Качество (MMLU) |
|---|---|---|---|
| Flash-MoE (Q2_K) | ~16 ГБ | 1.8-2.3 | 87% |
| Apple LLM in a Flash (Q4_K_M, dense) | ~28 ГБ (не помещается) | — | — |
| Paged MoE (Q2_K, 14 ГБ) | 13.2 ГБ | 1.2-1.8 | 86% |
Flash-Moe всё ещё быстрее, но он требует минимум 16 ГБ и использует агрессивное квантование, которое снижает качество сильнее, чем наш paging. Apple LLM in a Flash — вообще для денс-моделей, на MoE не работает. Paged MoE проигрывает 0.5 ток/с, но зато влазит в любые 14 ГБ и почти не теряет в качестве (лишние 1% на MMLU — это погрешность свопа).
Кстати, если у вас 16 ГБ — можно поднять квантование до Q3_K_M, получите 2.0-2.5 ток/с и качество 88%. Рекомендую прочитать ловушку 64 ГБ — там объясняется, почему оптимальный диапазон для Paged MoE именно 14-32 ГБ.
Как это выглядит на практике: пошаговый запуск на Mac Studio
1 Подготовка модели
Берём Qwen3-397B-A14B-instruct в формате GGUF (есть на HuggingFace). Если у вас другая MoE-модель — проверьте, поддерживает ли она архитектуру с роутером и экспертами. DeepSeek-R1, например, тоже подойдёт — для неё есть отдельная сборка.
2 Установка раннера Paged-MoE
Скачиваем форк llama.cpp с поддержкой paging (актуальная версия 0.3.2, май 2026). Компилируем стандартно: cmake -B build -DLLAMA_METAL=ON && cmake --build build -j8. Единственный нюанс — в конфиге нужно указать --moex-page-size 4096 и --moex-max-active-pages 4. Это число страниц экспертов, которые гарантированно будут в RAM. 4 страницы по 4KB каждая — это примерно 16 экспертов (при размере одного эксперта около 1KB в Q2).
3 Запуск
Команда: ./main -m model.q2_k.gguf -n 512 --moex-page-mode –moex-max-active-pages 4 --temp 0.7 -p "Объясни теорию струн за 1 минуту". Первые 3-5 токенов будут медленными (инициализация кэша), потом скорость стабилизируется. На Mac Studio M4 Pro 14 ядер — около 1.5 ток/с. Терпимо для чтения, для диалога — уже на грани.
Кому это реально нужно
- Владельцам Mac Studio с 14-32 ГБ, которые хотят запускать модели >100B.
- Исследователям MoE-архитектур, которым нужно тестировать роутер и эксперты без дорогого облака.
- Тем, кто уже прочитал гайд по запуску 30B MoE и хочет больше — на порядок больше.
Не надейтесь на интерактивный чат. 1.5 ток/с — это скорость чтения, а не разговора. Зато вы можете гонять модель в фоне: генерация ответа на сложный запрос займёт 2-3 минуты, но качество будет на уровне GPT-4.5 (по ощущениям на тестах MiniMax-230B, о котором мы писали здесь).
Paged MoE — это не silver bullet. Это костыль, который позволяет делать то, что раньше было невозможно. И именно такие костыли двигают локальные LLM вперёд быстрее, чем все академические исследования вместе взятые. Попробуйте — и ваш Mac Studio перестанет быть просто печатной машинкой.