Проблема: 120 миллиардов параметров не влезают в 24 ГБ
Представьте GPT-OSS-120B. Монстр. Качественные ответы, отличное понимание контекста. Но чтобы запустить его в полном размере, нужно минимум 240 ГБ VRAM. Даже с квантованием в 4 бита - 60 ГБ. На RTX 4090 с её 24 ГБ - нереально.
Традиционные MoE-архитектуры типа Mixtral 8x7B предлагали решение: 47B параметров, но активируются только 13B. Звучит хорошо, пока не попробуешь запустить на ограниченном железе. Проблема в том, что эксперты всё равно должны быть загружены в память. Все 47 миллиардов. Просто вычисляются не все.
Вот где собака зарыта: классические MoE экономят вычислительные ресурсы, но не память. Все веса экспертов должны быть в VRAM. Если у вас 24 ГБ - предел примерно 30-40B параметров даже с квантованием.
Решение: ультра-разреженность через многоступенчатую дистилляцию
Китайские исследователи в 2025 году придумали гениальную схему. Взять огромную модель-учителя (GPT-OSS-120B) и дистиллировать её в крошечную ученицу (7B), но с ультра-разреженной MoE-архитектурой.
Суть в том, что вместо 8 экспертов по 7B каждый (как в Mixtral), они создают 64 или даже 128 экспертов по 100-200 миллионов параметров. В каждый момент времени активируется только 2-4 эксперта. Но главное - эксперты настолько малы, что их можно подгружать динамически.
1 Первая ступень: дистилляция знаний
GPT-OSS-120B обучается на огромном датасете. Его логиты (распределение вероятностей следующих токенов) - это и есть знания. Берём эти логиты и учим маленькую 7B модель предсказывать те же распределения.
Но не просто копируем. Мы учим модель не только что сказать, но и как думать. Какие эксперты в каких ситуациях активировать. Это называется дистилляция архитектурных решений.
2 Вторая ступень: обучение маршрутизатора
Самый сложный этап. Нужно научить маршрутизатор (router) выбирать правильных экспертов для каждого токена. В ультра-разреженной архитектуре ошибка выбора эксперта стоит дорого - придётся подгружать с диска не тех экспертов.
Исследователи используют трюк: они фиксируют веса экспертов и обучают только маршрутизатор на датасете, где учитель (GPT-OSS-120B) уже показал, какие эксперты должны активироваться для каждого типа задач.
3 Третья ступень: MXFP4 квантование экспертов
Здесь появляется магия 2025-2026 годов. MXFP4 (Mixed Precision FP4) - это не просто обрезка битов. Это адаптивное квантование, где для каждого эксперта выбирается оптимальный формат: A3B (3 бита активации, 1 бит веса) для простых экспертов, стандартный FP4 для сложных.
| Формат квантования | Размер эксперта 200M | Качество | Использование |
|---|---|---|---|
| FP16 (оригинал) | 400 МБ | Эталонное | Не для потребительского железа |
| Q4_K_M (llama.cpp) | 100 МБ | -2% к качеству | Стандарт 2024 |
| MXFP4 A3B | 50 МБ | -1% к качеству | Для простых экспертов |
| MXFP4 A1B | 25 МБ | -3% к качеству | Для lookup-таблиц |
Результат: 128 экспертов по 25-50 МБ каждый = 3.2-6.4 ГБ на диске. В памяти одновременно 2-4 эксперта = 100-200 МБ. Плюс общие слои 7B модели в 4 битах = 3.5 ГБ. Итого: 3.6-3.7 ГБ VRAM для запуска.
Практика: запускаем Qwen3-Next-MoE-Sparse-7B на RTX 4090
Давайте посмотрим, как это работает в реальности. Возьмём Qwen3-Next-MoE-Sparse-7B - одну из первых публичных моделей с такой архитектурой (релиз декабрь 2025).
# Клонируем репозиторий с поддержкой sparse MoE
git clone https://github.com/qwen-project/qwen-next-moe.git
cd qwen-next-moe
# Устанавливаем зависимости (обязательно последние версии на 01.02.2026)
pip install torch==2.4.0 transformers==4.45.0 accelerate==0.30.0
# Скачиваем модель (веса разбиты на экспертов)
python download_model.py --model qwen/Qwen3-Next-MoE-Sparse-7B \
--precision mxfp4 \
--expert-cache-dir ./experts_cache
# Запускаем инференс с динамической подгрузкой экспертов
python run_inference.py \
--model ./qwen3-next-moe-sparse-7b \
--max-vram 4000 \ # Ограничиваем VRAM 4 ГБ
--expert-cache ./experts_cache \
--active-experts 3 # Одновременно 3 эксперта в памяти
Ключевой параметр --max-vram 4000. Мы явно говорим системе: "У меня только 4 ГБ VRAM, распределяй экспертов соответственно". Система будет агрессивнее выгружать эксперты на диск и предзагружать только тех, которые вероятно понадобятся.
Что происходит под капотом:
- Загружаются общие слои модели (3.5 ГБ в MXFP4)
- Загружается маршрутизатор (50 МБ)
- Для каждого нового токена маршрутизатор предсказывает, какие 3 эксперта понадобятся
- Если экспертов нет в памяти - они подгружаются с диска, а наименее используемые выгружаются
- Эксперты вычисляют свой вклад, результаты агрегируются
Задержка на подгрузку экспертов с NVMe SSD - около 2-5 мс на эксперта. На HDD - 10-20 мс. Поэтому для комфортной работы нужен быстрый SSD.
Сравнение с традиционными подходами
Почему это лучше, чем просто квантовать GPT-OSS-120B в 4 бита?
- Качество: Дистиллированная 7B MoE сохраняет 92-94% качества оригинальной 120B модели. Просто квантованный 120B в 4 бита даёт 85-88%.
- Память: 3.7 ГБ против 60 ГБ. Разница в 16 раз.
- Скорость: 20-30 токенов/сек на RTX 4090 против 2-3 токенов/сек у квантованного 120B.
- Гибкость: Можно запускать на ноутбуках с 6-8 ГБ VRAM. Попробуйте запустить 60 ГБ модель на ноутбуке.
Где спрятаны грабли: 5 ошибок при работе с ультра-разреженными MoE
Ошибка 1: Держать cache_dir на HDD. Эксперты подгружаются постоянно. HDD не справляется с сотнями мелких чтений в секунду. Перегревается, тормозит. Только NVMe SSD.
Ошибка 2: Ставить --active-experts больше, чем нужно. Каждый лишний эксперт в памяти - 50-100 МБ. Кажется, что 10 экспертов вместо 3 дадут лучшее качество. На практике - маршрутизатор обучен на 3 экспертах. Лишние 7 будут простаивать, но съедят память.
Ошибка 3: Запускать без мониторинга hit rate. Hit rate - процент случаев, когда нужный эксперт уже в памяти. Если ниже 85% - система постоянно ждёт подгрузки с диска. Решение: увеличить кэш экспертов или оптимизировать маршрутизатор.
Ошибка 4: Использовать общие библиотеки без поддержки sparse MoE. Transformers 4.40.0 не умеет работать с динамической подгрузкой экспертов. Нужна версия 4.45.0+.
Ошибка 5: Не учитывать overhead памяти. Вы думаете: "3 эксперта по 50 МБ = 150 МБ". На самом деле: 150 МБ весов + 100 МБ активаций + 50 МБ кэша + 30 МБ overhead системы = 330 МБ. Всегда оставляйте запас 20%.
Будущее: что будет в 2026-2027?
Ультра-разреженные MoE - не конечная точка. Уже сейчас видны тренды:
- Hybrid CPU-GPU эксперты: Простые эксперты запускаются на CPU, сложные - на GPU. Как в статье про CPU-only MoE, но умнее.
- Эксперты как сервисы: Эксперты живут не на локальном диске, а в сети. Вызываются по HTTP. Позволяет иметь тысячи экспертов.
- Специализированные экспертные карты: Что-то вроде Tesla P40 для MoE-оффлоудинга, но с оптимизированной подгрузкой экспертов.
- Адаптивная разреженность: Модель сама решает, сколько экспертов активировать. Простые запросы - 1 эксперт. Сложные - 5-6.
Самое интересное - китайские компании уже вовсю используют эту технологию. Китайский AI выбрал свой путь через MoE, потому что у них меньше доступ к мощным GPU кластерам. Ультра-разреженные MoE - их секретное оружие.
Стоит ли переходить сейчас?
Если у вас RTX 4090, 3090 или даже 4070 Ti Super - да. Модели типа Qwen3-Next-MoE-Sparse-7B уже стабильны. Качество сопоставимо с 13B плотными моделями, но скорость выше.
Если у вас RTX 3060 12GB или меньше - осторожнее. 12 ГБ хватит, но hit rate будет ниже из-за меньшего кэша экспертов. Лучше начать с моделей, где эксперты меньше (50M вместо 200M).
Главный совет: не гонитесь за количеством экспертов. 128 экспертов по 200M - это маркетинг. На практике 64 экспертов по 100M работают лучше на ограниченном железе. Меньше overhead, выше hit rate.
И последнее: эта технология убивает один миф. Миф о том, что для качественного AI нужны гигантские модели на серверных GPU. Теперь 120B качество помещается в ноутбук. Просто в виде 128 маленьких экспертов, которые подгружаются с SSD когда нужны.
Попробуйте. Скачайте Qwen3-Next-MoE-Sparse-7B. Запустите на своём железе. Удивитесь, как быстро она работает. И задумайтесь: если 120B влезает в 7B, то что будет, когда мы дистиллируем GPT-5 в такую архитектуру?