Вы когда-нибудь задумывались, почему в эпоху гигантских моделей с сотнями миллиардов параметров мы всё ещё тратим уйму вычислений на полную активацию всех экспертов? Mixture of Experts (MoE) давно стал де-факто архитектурой для масштабирования — китайские компании вроде DeepSeek, Qwen и MiniMax уже давно строят на нём свои модели. Но у классического MoE есть дурная привычка: он требует токсичного load balancing и auxiliary loss, чтобы эксперты не схлопнулись в одного уродца. И вот на сцену выходит EMO — подход, который бросает эти костыли и позволяет модели самой решать, какие эксперты ей нужны. Без предопределённых priors, без дополнительных потерь, с активацией всего 12.5% экспертов на токен. Звучит как фантастика? Разбираемся.
Чем плох старый добрый MoE?
Классический MoE — это роутер, который для каждого токена выбирает top-k экспертов. Чтобы они не перекосились, инженеры прикручивают дополнительную нагрузку — auxiliary loss, штрафующую за дисбаланс. В полном руководстве по MoE в Hugging Face я подробно описал, как это работает на практике. Но проблема в том, что load balancing — это костыль, который не даёт экспертам по-настоящему специализироваться. Они всё равно дублируют друг друга, а роутер просто пытается равномерно размазать токены.
Более того, top-k — это всегда компромисс. Чем больше k, тем дороже инференс. Чем меньше — тем больше риск потерять важные знания. Попытки ужать активацию до 10-20% экспертов обычно ведут к падению качества. EMO же доказывает, что можно обойтись одним-двумя экспертами (12.5% от общего числа) без потери производительности.
Как работает EMO: никакого load balancing, одна эмерджентность
Авторы из Allen AI и University of Washington предложили радикально простую вещь: убрать auxiliary loss вообще. Вместо этого они ввели динамический маршрутизатор, который сам настраивает «жёсткость» выбора экспертов через параметр температуры. На ранних этапах обучения роутер почти равновероятно распределяет токены — эксперты получают разнообразные данные. Но к концу обучения температура падает, и роутер начинает выбирать одного-двух экспертов для каждого токена с высокой уверенностью. Это и есть эмерджентная модульность: специализация возникает сама, без внешних стимулов.
В результате EMO-модель, обученная с 64 экспертами, активирует в среднем 8 экспертов на токен (12.5%). И при этом обгоняет плотные модели и классические MoE с полной активацией по качеству на бенчмарках вроде GSM8K, MMLU, HumanEval. В отдельном обзоре архитектуры я показал, как можно загрузить и запустить EMO самостоятельно.
Важный нюанс: EMO требует больше памяти на этапе обучения, потому что все эксперты должны быть загружены для forward pass (хотя градиенты считаются только для выбранных). Но на инференсе — 8-кратная экономия FLOPs по сравнению с полной активацией.
Сравнение с альтернативами: кто кого?
На рынке MoE-архитектур сейчас доминируют два подхода: sparse MoE от DeepSeek (с auxiliary loss и load balancing) и так называемые «китайские смеси» — Qwen-MoE, Kimi, MiniMax. В статье про архитектурный стандарт китайских моделей я сравнивал их тонкости. EMO принципиально отличается тем, что не требует тюнинга гиперпараметров для load balancing.
| Характеристика | Классический MoE (DeepSeek-MoE) | EMO |
|---|---|---|
| Auxiliary loss | Есть (load balancing) | Нет |
| Предопределённые expert roles | Да (фиксированная топология) | Нет (эмерджентные) |
| Доля активных экспертов | Обычно 30-50% | ~12.5% (1-2 эксперта) |
| Изменение качества при уменьшении k | Деградирует | Не деградирует |
| Вычислительная эффективность инференса | Умеренная | Высокая (до 8x FLOPs reduction) |
Конечно, EMO пока не обкатан на моделях размера DeepSeek-V3 (671B параметров). Но первые эксперименты на 8B и 16B параметрах выглядят многообещающе. В обсуждении разреженных MoE для локального запуска я отмечал, что главная проблема — утилизация GPU. EMO может сделать местный запуск больших моделей ещё доступнее.
Когда размер имеет значение: 12.5% как норма
EMO демонстрирует, что для решения большинства задач достаточно активировать 1-2 эксперта из 64. Это контринтуитивно: мы привыкли, что большему числу экспертов нужна большая активация. Но эмерджентная модульность меняет правила. Каждый эксперт учится быть «специалистом по ситуации» — для кода свой, для математики другой, для общих рассуждений третий. Роутер, обученный без ограничений, почти всегда отправляет токен к одному-двум экспертам с уверенностью >90%.
На практике это означает, что можно собирать модели с сотнями экспертов (чтобы покрыть все возможные знания) и при этом иметь инференс, аналогичный по скорости плотной модели в 10 раз меньшего размера. Модели на триллионы параметров — неминуемое будущее, и EMO даёт ключ к тому, как их запускать не на фермах суперкомпьютеров.
Кому это нужно прямо сейчас?
- Исследователям MoE — EMO открывает новое направление: отказ от load balancing и эмерджентная специализация. Можно копать в сторону более динамичных роутеров, адаптивных температур, даже нейросетевых маршрутизаторов.
- Инженерам, которые хотят запустить большую модель на ограниченном GPU — если модель обучена в парадигме EMO, вы сможете держать на карте 100+ экспертов, но вычислять только 2. Это прямой путь к AGI на домашнем железе.
- Компаниям, строящим экспертные системы на базе LLM — EMO естественным образом порождает модули, которые можно интерпретировать (один эксперт лучше отвечает за химию, другой за юриспруденцию). Это открывает возможность тонкой настройки отдельных модулей без переобучения всей модели.
Грань, о которой молчат
EMO — не серебряная пуля. Да, на инференсе вы экономите в 8 раз. Но на обучении придётся держать все 64 эксперта в памяти (хотя градиенты считаются только по выбранным). Это значит, что размер батча может упереться в VRAM. Кроме того, эмерджентная модульность пока не гарантирует, что эксперты не будут переобучаться на одни и те же паттерны — исследования на эту тему ещё ведутся. Авторы сравнивают LLM с биологическими организмами, и эмерджентная модульность может оказаться аналогом того, как у животных специализируются нейроны — не всегда предсказуемо.
Но факт остаётся фактом: впервые мы получили MoE, который не требует балансировки и позволяет использовать лишь 12.5% экспертов без падения качества. Если добавить к этому технику из регулятора креатива LLaMA 3.2 (одна строка кода меняет тон ответов), мы получим модели, которые ещё и управляемы до уровня отдельных экспертов. Будущее ближе, чем кажется.