EMO: эмерджентная модульность в MoE — обзор парадигмы обучения

Вы когда-нибудь задумывались, почему в эпоху гигантских моделей с сотнями миллиардов параметров мы всё ещё тратим уйму вычислений на полную активацию всех экспертов? Mixture of Experts (MoE) давно стал де-факто архитектурой для масштабирования — китайские компании вроде DeepSeek, Qwen и MiniMax уже давно строят на нём свои модели. Но у классического MoE есть дурная привычка: он требует токсичного load balancing и auxiliary loss, чтобы эксперты не схлопнулись в одного уродца. И вот на сцену выходит EMO — подход, который бросает эти костыли и позволяет модели самой решать, какие эксперты ей нужны. Без предопределённых priors, без дополнительных потерь, с активацией всего 12.5% экспертов на токен. Звучит как фантастика? Разбираемся.

💡

EMO расшифровывается как Emergent Modularity — эмерджентная модульность. Модули (эксперты) не назначаются заранее, а возникают сами в процессе обучения.

Чем плох старый добрый MoE?

Классический MoE — это роутер, который для каждого токена выбирает top-k экспертов. Чтобы они не перекосились, инженеры прикручивают дополнительную нагрузку — auxiliary loss, штрафующую за дисбаланс. В полном руководстве по MoE в Hugging Face я подробно описал, как это работает на практике. Но проблема в том, что load balancing — это костыль, который не даёт экспертам по-настоящему специализироваться. Они всё равно дублируют друг друга, а роутер просто пытается равномерно размазать токены.

Более того, top-k — это всегда компромисс. Чем больше k, тем дороже инференс. Чем меньше — тем больше риск потерять важные знания. Попытки ужать активацию до 10-20% экспертов обычно ведут к падению качества. EMO же доказывает, что можно обойтись одним-двумя экспертами (12.5% от общего числа) без потери производительности.

Как работает EMO: никакого load balancing, одна эмерджентность

Авторы из Allen AI и University of Washington предложили радикально простую вещь: убрать auxiliary loss вообще. Вместо этого они ввели динамический маршрутизатор, который сам настраивает «жёсткость» выбора экспертов через параметр температуры. На ранних этапах обучения роутер почти равновероятно распределяет токены — эксперты получают разнообразные данные. Но к концу обучения температура падает, и роутер начинает выбирать одного-двух экспертов для каждого токена с высокой уверенностью. Это и есть эмерджентная модульность: специализация возникает сама, без внешних стимулов.

В результате EMO-модель, обученная с 64 экспертами, активирует в среднем 8 экспертов на токен (12.5%). И при этом обгоняет плотные модели и классические MoE с полной активацией по качеству на бенчмарках вроде GSM8K, MMLU, HumanEval. В отдельном обзоре архитектуры я показал, как можно загрузить и запустить EMO самостоятельно.

Важный нюанс: EMO требует больше памяти на этапе обучения, потому что все эксперты должны быть загружены для forward pass (хотя градиенты считаются только для выбранных). Но на инференсе — 8-кратная экономия FLOPs по сравнению с полной активацией.

Сравнение с альтернативами: кто кого?

На рынке MoE-архитектур сейчас доминируют два подхода: sparse MoE от DeepSeek (с auxiliary loss и load balancing) и так называемые «китайские смеси» — Qwen-MoE, Kimi, MiniMax. В статье про архитектурный стандарт китайских моделей я сравнивал их тонкости. EMO принципиально отличается тем, что не требует тюнинга гиперпараметров для load balancing.

Характеристика	Классический MoE (DeepSeek-MoE)	EMO
Auxiliary loss	Есть (load balancing)	Нет
Предопределённые expert roles	Да (фиксированная топология)	Нет (эмерджентные)
Доля активных экспертов	Обычно 30-50%	~12.5% (1-2 эксперта)
Изменение качества при уменьшении k	Деградирует	Не деградирует
Вычислительная эффективность инференса	Умеренная	Высокая (до 8x FLOPs reduction)

Конечно, EMO пока не обкатан на моделях размера DeepSeek-V3 (671B параметров). Но первые эксперименты на 8B и 16B параметрах выглядят многообещающе. В обсуждении разреженных MoE для локального запуска я отмечал, что главная проблема — утилизация GPU. EMO может сделать местный запуск больших моделей ещё доступнее.

Когда размер имеет значение: 12.5% как норма

EMO демонстрирует, что для решения большинства задач достаточно активировать 1-2 эксперта из 64. Это контринтуитивно: мы привыкли, что большему числу экспертов нужна большая активация. Но эмерджентная модульность меняет правила. Каждый эксперт учится быть «специалистом по ситуации» — для кода свой, для математики другой, для общих рассуждений третий. Роутер, обученный без ограничений, почти всегда отправляет токен к одному-двум экспертам с уверенностью >90%.

На практике это означает, что можно собирать модели с сотнями экспертов (чтобы покрыть все возможные знания) и при этом иметь инференс, аналогичный по скорости плотной модели в 10 раз меньшего размера. Модели на триллионы параметров — неминуемое будущее, и EMO даёт ключ к тому, как их запускать не на фермах суперкомпьютеров.

Кому это нужно прямо сейчас?

Исследователям MoE — EMO открывает новое направление: отказ от load balancing и эмерджентная специализация. Можно копать в сторону более динамичных роутеров, адаптивных температур, даже нейросетевых маршрутизаторов.
Инженерам, которые хотят запустить большую модель на ограниченном GPU — если модель обучена в парадигме EMO, вы сможете держать на карте 100+ экспертов, но вычислять только 2. Это прямой путь к AGI на домашнем железе.
Компаниям, строящим экспертные системы на базе LLM — EMO естественным образом порождает модули, которые можно интерпретировать (один эксперт лучше отвечает за химию, другой за юриспруденцию). Это открывает возможность тонкой настройки отдельных модулей без переобучения всей модели.

🔮

Если тренд сохранится, через год мы увидим модели, где 90% экспертов «спят» на большинстве токенов — и это нормально. Эмерджентная модульность перевернёт наше представление о специализации в нейросетях.

Грань, о которой молчат

EMO — не серебряная пуля. Да, на инференсе вы экономите в 8 раз. Но на обучении придётся держать все 64 эксперта в памяти (хотя градиенты считаются только по выбранным). Это значит, что размер батча может упереться в VRAM. Кроме того, эмерджентная модульность пока не гарантирует, что эксперты не будут переобучаться на одни и те же паттерны — исследования на эту тему ещё ведутся. Авторы сравнивают LLM с биологическими организмами, и эмерджентная модульность может оказаться аналогом того, как у животных специализируются нейроны — не всегда предсказуемо.

Но факт остаётся фактом: впервые мы получили MoE, который не требует балансировки и позволяет использовать лишь 12.5% экспертов без падения качества. Если добавить к этому технику из регулятора креатива LLaMA 3.2 (одна строка кода меняет тон ответов), мы получим модели, которые ещё и управляемы до уровня отдельных экспертов. Будущее ближе, чем кажется.

Подписаться на канал

EMO: эмерджентная модульность в MoE — новая парадигма обучения языковых моделей