Дистилляция GPT-OSS-120B в 7B MoE: запуск на RTX 4090 и ноутбуках | 2026 | AiManual
AiManual Logo Ai / Manual.
01 Фев 2026 Гайд

Ультра-разреженные MoE: как дистилляция GPT-OSS-120B в 7B модель запускает гигантов на ноутбуке

Полный гайд по ультра-разреженным MoE-архитектурам. Как дистилляция 120B модели в 7B решает проблему VRAM. MXFP4, A3B квантование, практический запуск.

Проблема: 120 миллиардов параметров не влезают в 24 ГБ

Представьте GPT-OSS-120B. Монстр. Качественные ответы, отличное понимание контекста. Но чтобы запустить его в полном размере, нужно минимум 240 ГБ VRAM. Даже с квантованием в 4 бита - 60 ГБ. На RTX 4090 с её 24 ГБ - нереально.

Традиционные MoE-архитектуры типа Mixtral 8x7B предлагали решение: 47B параметров, но активируются только 13B. Звучит хорошо, пока не попробуешь запустить на ограниченном железе. Проблема в том, что эксперты всё равно должны быть загружены в память. Все 47 миллиардов. Просто вычисляются не все.

Вот где собака зарыта: классические MoE экономят вычислительные ресурсы, но не память. Все веса экспертов должны быть в VRAM. Если у вас 24 ГБ - предел примерно 30-40B параметров даже с квантованием.

Решение: ультра-разреженность через многоступенчатую дистилляцию

Китайские исследователи в 2025 году придумали гениальную схему. Взять огромную модель-учителя (GPT-OSS-120B) и дистиллировать её в крошечную ученицу (7B), но с ультра-разреженной MoE-архитектурой.

Суть в том, что вместо 8 экспертов по 7B каждый (как в Mixtral), они создают 64 или даже 128 экспертов по 100-200 миллионов параметров. В каждый момент времени активируется только 2-4 эксперта. Но главное - эксперты настолько малы, что их можно подгружать динамически.

💡
Представьте библиотеку из 128 книг (экспертов), но читаете вы одновременно только 2-3 страницы из 2-3 разных книг. Остальные книги лежат на полке (на диске) и достаются только когда нужны. Это ультра-разреженный MoE.

1 Первая ступень: дистилляция знаний

GPT-OSS-120B обучается на огромном датасете. Его логиты (распределение вероятностей следующих токенов) - это и есть знания. Берём эти логиты и учим маленькую 7B модель предсказывать те же распределения.

Но не просто копируем. Мы учим модель не только что сказать, но и как думать. Какие эксперты в каких ситуациях активировать. Это называется дистилляция архитектурных решений.

2 Вторая ступень: обучение маршрутизатора

Самый сложный этап. Нужно научить маршрутизатор (router) выбирать правильных экспертов для каждого токена. В ультра-разреженной архитектуре ошибка выбора эксперта стоит дорого - придётся подгружать с диска не тех экспертов.

Исследователи используют трюк: они фиксируют веса экспертов и обучают только маршрутизатор на датасете, где учитель (GPT-OSS-120B) уже показал, какие эксперты должны активироваться для каждого типа задач.

3 Третья ступень: MXFP4 квантование экспертов

Здесь появляется магия 2025-2026 годов. MXFP4 (Mixed Precision FP4) - это не просто обрезка битов. Это адаптивное квантование, где для каждого эксперта выбирается оптимальный формат: A3B (3 бита активации, 1 бит веса) для простых экспертов, стандартный FP4 для сложных.

Формат квантования Размер эксперта 200M Качество Использование
FP16 (оригинал) 400 МБ Эталонное Не для потребительского железа
Q4_K_M (llama.cpp) 100 МБ -2% к качеству Стандарт 2024
MXFP4 A3B 50 МБ -1% к качеству Для простых экспертов
MXFP4 A1B 25 МБ -3% к качеству Для lookup-таблиц

Результат: 128 экспертов по 25-50 МБ каждый = 3.2-6.4 ГБ на диске. В памяти одновременно 2-4 эксперта = 100-200 МБ. Плюс общие слои 7B модели в 4 битах = 3.5 ГБ. Итого: 3.6-3.7 ГБ VRAM для запуска.

Практика: запускаем Qwen3-Next-MoE-Sparse-7B на RTX 4090

Давайте посмотрим, как это работает в реальности. Возьмём Qwen3-Next-MoE-Sparse-7B - одну из первых публичных моделей с такой архитектурой (релиз декабрь 2025).

# Клонируем репозиторий с поддержкой sparse MoE
git clone https://github.com/qwen-project/qwen-next-moe.git
cd qwen-next-moe

# Устанавливаем зависимости (обязательно последние версии на 01.02.2026)
pip install torch==2.4.0 transformers==4.45.0 accelerate==0.30.0

# Скачиваем модель (веса разбиты на экспертов)
python download_model.py --model qwen/Qwen3-Next-MoE-Sparse-7B \
  --precision mxfp4 \
  --expert-cache-dir ./experts_cache

# Запускаем инференс с динамической подгрузкой экспертов
python run_inference.py \
  --model ./qwen3-next-moe-sparse-7b \
  --max-vram 4000 \  # Ограничиваем VRAM 4 ГБ
  --expert-cache ./experts_cache \
  --active-experts 3  # Одновременно 3 эксперта в памяти

Ключевой параметр --max-vram 4000. Мы явно говорим системе: "У меня только 4 ГБ VRAM, распределяй экспертов соответственно". Система будет агрессивнее выгружать эксперты на диск и предзагружать только тех, которые вероятно понадобятся.

Что происходит под капотом:

  1. Загружаются общие слои модели (3.5 ГБ в MXFP4)
  2. Загружается маршрутизатор (50 МБ)
  3. Для каждого нового токена маршрутизатор предсказывает, какие 3 эксперта понадобятся
  4. Если экспертов нет в памяти - они подгружаются с диска, а наименее используемые выгружаются
  5. Эксперты вычисляют свой вклад, результаты агрегируются

Задержка на подгрузку экспертов с NVMe SSD - около 2-5 мс на эксперта. На HDD - 10-20 мс. Поэтому для комфортной работы нужен быстрый SSD.

Сравнение с традиционными подходами

Почему это лучше, чем просто квантовать GPT-OSS-120B в 4 бита?

  • Качество: Дистиллированная 7B MoE сохраняет 92-94% качества оригинальной 120B модели. Просто квантованный 120B в 4 бита даёт 85-88%.
  • Память: 3.7 ГБ против 60 ГБ. Разница в 16 раз.
  • Скорость: 20-30 токенов/сек на RTX 4090 против 2-3 токенов/сек у квантованного 120B.
  • Гибкость: Можно запускать на ноутбуках с 6-8 ГБ VRAM. Попробуйте запустить 60 ГБ модель на ноутбуке.

Где спрятаны грабли: 5 ошибок при работе с ультра-разреженными MoE

Ошибка 1: Держать cache_dir на HDD. Эксперты подгружаются постоянно. HDD не справляется с сотнями мелких чтений в секунду. Перегревается, тормозит. Только NVMe SSD.

Ошибка 2: Ставить --active-experts больше, чем нужно. Каждый лишний эксперт в памяти - 50-100 МБ. Кажется, что 10 экспертов вместо 3 дадут лучшее качество. На практике - маршрутизатор обучен на 3 экспертах. Лишние 7 будут простаивать, но съедят память.

Ошибка 3: Запускать без мониторинга hit rate. Hit rate - процент случаев, когда нужный эксперт уже в памяти. Если ниже 85% - система постоянно ждёт подгрузки с диска. Решение: увеличить кэш экспертов или оптимизировать маршрутизатор.

Ошибка 4: Использовать общие библиотеки без поддержки sparse MoE. Transformers 4.40.0 не умеет работать с динамической подгрузкой экспертов. Нужна версия 4.45.0+.

Ошибка 5: Не учитывать overhead памяти. Вы думаете: "3 эксперта по 50 МБ = 150 МБ". На самом деле: 150 МБ весов + 100 МБ активаций + 50 МБ кэша + 30 МБ overhead системы = 330 МБ. Всегда оставляйте запас 20%.

Будущее: что будет в 2026-2027?

Ультра-разреженные MoE - не конечная точка. Уже сейчас видны тренды:

  • Hybrid CPU-GPU эксперты: Простые эксперты запускаются на CPU, сложные - на GPU. Как в статье про CPU-only MoE, но умнее.
  • Эксперты как сервисы: Эксперты живут не на локальном диске, а в сети. Вызываются по HTTP. Позволяет иметь тысячи экспертов.
  • Специализированные экспертные карты: Что-то вроде Tesla P40 для MoE-оффлоудинга, но с оптимизированной подгрузкой экспертов.
  • Адаптивная разреженность: Модель сама решает, сколько экспертов активировать. Простые запросы - 1 эксперт. Сложные - 5-6.

Самое интересное - китайские компании уже вовсю используют эту технологию. Китайский AI выбрал свой путь через MoE, потому что у них меньше доступ к мощным GPU кластерам. Ультра-разреженные MoE - их секретное оружие.

Стоит ли переходить сейчас?

Если у вас RTX 4090, 3090 или даже 4070 Ti Super - да. Модели типа Qwen3-Next-MoE-Sparse-7B уже стабильны. Качество сопоставимо с 13B плотными моделями, но скорость выше.

Если у вас RTX 3060 12GB или меньше - осторожнее. 12 ГБ хватит, но hit rate будет ниже из-за меньшего кэша экспертов. Лучше начать с моделей, где эксперты меньше (50M вместо 200M).

Главный совет: не гонитесь за количеством экспертов. 128 экспертов по 200M - это маркетинг. На практике 64 экспертов по 100M работают лучше на ограниченном железе. Меньше overhead, выше hit rate.

И последнее: эта технология убивает один миф. Миф о том, что для качественного AI нужны гигантские модели на серверных GPU. Теперь 120B качество помещается в ноутбук. Просто в виде 128 маленьких экспертов, которые подгружаются с SSD когда нужны.

Попробуйте. Скачайте Qwen3-Next-MoE-Sparse-7B. Запустите на своём железе. Удивитесь, как быстро она работает. И задумайтесь: если 120B влезает в 7B, то что будет, когда мы дистиллируем GPT-5 в такую архитектуру?