Двадцать седьмой плотный LLM на вашей видеокарте - это уже не круто
До конца 2025 года все было просто. Хочешь запустить модель локально - выбираешь плотную архитектуру, смотришь, сколько параметров влезет в VRAM, и терпишь компромисс между качеством и скоростью. Llama 3.1 8B, Gemma 2 9B, DeepSeek Coder 7B - знакомые имена, которые жгли память видеокарт по всему миру. Потом появился Qwen 3.5.
И все сломалось.
Цифры, которые меняют правила игры: Qwen 3.5-397B (MoE) показывает результаты, сравнимые с плотными моделями на 1 триллион параметров, активируя при инференсе всего 17-24 миллиарда параметров. Это не эволюция - это революция в эффективности.
Плотная модель - это как таскать рояль на третий этаж каждый раз
Представьте, что вы спрашиваете у модели, как приготовить омлет. Плотная архитектура загружает в память ВСЕ свои знания: от квантовой физики до древнегреческой поэзии. Каждый нейрон, каждый параметр - активен. Вы платите вычислительную цену за триллионы связей, чтобы получить ответ про яйца и сковородку.
MoE-архитектура Qwen 3.5 работает иначе. Внутри нее - не монолитная сеть, а «комитет экспертов». Есть эксперт по кулинарии, эксперт по программированию, эксперт по медицинским вопросам. Когда вы спрашиваете про омлет - активируется только кулинарный эксперт (плюс роутер, который решает, кого вызывать). Остальные 90% модели спокойно спят в памяти, не потребляя ресурсы.
| Модель | Архитектура | Всего параметров | Активных при инференсе | Качество (MMLU) |
|---|---|---|---|---|
| Qwen 3.5-397B (MoE) | MoE (разреженная) | 397B | ~17-24B | 88.7 |
| Llama 3.1 405B | Плотная (dense) | 405B | 405B (все) | 89.2 |
| Gemma 2 27B | Плотная (dense) | 27B | 27B (все) | 84.5 |
Посмотрите на эти цифры. Qwen 3.5 почти догоняет Llama 3.1 405B по качеству, но требует для вычислений в 20 раз меньше активных параметров. Это как сравнивать реактивный двигатель с паровозом - технически оба двигаются, но эффективность несопоставима.
«Но у MoE же есть проблемы!» - скажет скептик. И будет прав. Частично
Да, первые MoE-модели были капризными. Роутинг мог ошибаться, активация экспертов создавала латентность, а управление памятью превращалось в кошмар. Помните ранние версии Mixtral? Запустить их на потребительском железе было настоящим подвигом.
Но Qwen 3.5 - это уже третье поколение MoE-архитектур. Китайские инженеры из Alibaba Cloud не просто скопировали западные наработки - они переосмыслили подход. Вместо 8 экспертов, как у Mixtral, в Qwen 3.5 их может быть 128 или даже 256. Каждый эксперт - узкоспециализированная небольшая сеть. Роутинг стал точнее, а активация - предсказуемее.
Видеокарта вздохнула с облегчением
Вот где MoE бьет плотные модели особенно жестоко - в требованиях к аппаратному обеспечению. Возьмем типичный сценарий: у вас RTX 4090 с 24 ГБ VRAM.
- Плотная модель Llama 3.1 70B в 4-битном квантовании занимает ~35 ГБ. Не влезает. Придется использовать CPU offloading, что убьет скорость. Или брать меньшую модель 34B и терять в качестве.
- MoE-модель Qwen 3.5-32B (с 4 активными экспертами из 16) занимает в памяти те же ~20-24 ГБ, но дает качество, сравнимое с плотной 70B. И все это - без танцев с бубном вокруг памяти.
На самом деле, с MoE вы можете запускать на потребительском железе модели, которые раньше были доступны только в облаках. 120B, 240B, даже 397B - все это теперь не абстрактные числа, а реальность для локального запуска. В нашей статье про запуск Qwen3.5-397B локально мы подробно разбираем, как это сделать даже без топового железа.
Важный нюанс: MoE требует больше памяти для ХРАНЕНИЯ модели (все эксперты должны быть загружены), но меньше для ВЫЧИСЛЕНИЙ. Поэтому 24 ГБ VRAM хватит для инференса на Qwen 3.5-72B, но для загрузки самой модели может потребоваться 40+ ГБ. Решение - интеллектуальная загрузка экспертов или использование системной памяти.
А что с качеством? Не страдает ли оно от этой «разреженности»?
Вот самый частый вопрос. И самый неожиданный ответ: часто MoE-модели показывают ЛУЧШЕЕ качество в специализированных задачах.
Почему? Потому что эксперты могут быть обучены на узких доменах. Один эксперт знает все про Python, другой - про медицинскую диагностику, третий - про финансовый анализ. Когда роутер правильно выбирает эксперта, вы получаете ответ от «специалиста», а не от «универсального солдата».
Особенно это заметно в задачах tool calling и работы с файлами. В нашем тестировании 20-30B MoE для tool calling показали значительно меньше галлюцинаций при работе с реальными данными, чем плотные модели аналогичного размера.
Будущее уже здесь, и оно разреженное
К началу 2026 года все крупные игроки либо уже выпустили MoE-модели, либо анонсируют их. Alibaba с Qwen 3.5, Meta с Llama 3.2 MoE (ожидается в марте 2026), Google с Gemini Ultra MoE-версией. Плотные модели не исчезнут полностью - они останутся для edge-устройств с крайне ограниченными ресурсами или для специфических задач, где предсказуемость важнее эффективности.
Но для локального запуска на ПК, ноутбуках, серверах - выбор очевиден. Зачем платить (вычислительной мощностью) за триллионы параметров, если можно активировать только нужные миллиарды?
Что делать, если у вас уже есть пайплайн под плотные модели?
Паниковать не нужно. Миграция с плотных на MoE-модели требует некоторых изменений, но не переписывания всего с нуля.
- Пересмотрите требования к памяти. Теперь вам нужно учитывать два параметра: общий размер модели и размер активных параметров. Для инференса важен второй.
- Настройте батчинг. MoE-модели особенно хорошо масштабируются при батчинге, так как могут параллельно активировать разных экспертов для разных запросов.
- Изучите особенности роутинга. В MoE есть гиперпараметры, которые влияют на то, сколько экспертов активируется. Иногда лучше активировать 4 эксперта вместо 2 для сложных запросов.
- Протестируйте на ваших данных. Возьмите Qwen 3.5 MoE (например, 32B версию) и сравните с вашей текущей плотной моделью. Разница в качестве и скорости часто оказывается разочаровывающе (для плотных моделей) очевидной.
И последнее: не верьте слепо бенчмаркам. Запустите модель локально, дайте ей свои задачи. Только так вы поймете, насколько MoE архитектура изменила правила игры именно для вашего кейса.
Плотные модели не умрут завтра. Но они уже стали legacy-технологией для локального AI. А legacy, как известно, живет долго, но с каждым годом все менее комфортно.