Mixture of Experts в китайских LLM: архитектура Kimi K2, Qwen3, анализ трендов 2026 | AiManual
AiManual Logo Ai / Manual.
27 Янв 2026 Новости

MoE-мания: Почему Китай строит ИИ на «комитетах экспертов» и как это меняет правила игры

Глубокий разбор, почему MoE стала стандартом для китайских open-source моделей. Архитектура Kimi K2.5, Qwen3, сравнение с плотными сетями, аппаратные причины.

От плотных сетей к «политинформации»: как китайские модели научились экономить триллионы

Помните 2024 год? Все гонялись за параметрами. Больше – значит лучше. Llama 3 с 70B, GPT-4 – монстры, пожирающие вычислительные ресурсы. Китайские разработчики смотрели на это и чесали затылки. Их аппаратная база – не всегда последние H100 от Nvidia. Чаще – Ascend 910B от Huawei, или собственные разработки вроде тех, что используют в Kimi K2.5. Железо другое. Подход должен быть другим.

И он появился. Взгляните на ландшафт open-source ИИ начала 2026: GLM-4.7, Qwen3-MoE, Kimi K2.5, свежая MiniMax M2.1. Что их объединяет? Архитектура Mixture of Experts. Это не случайность. Это осознанная стратегия, рожденная из трех факторов: санкций, экономики и чистой инженерии.

Актуальность на 27.01.2026: GLM-4.7 (релиз Q4 2025) и Kimi K2.5 (январь 2026) – флагманы китайского MoE. Qwen3-MoE (72B активированных параметров из 1.4T общего пула) задает новый стандарт для сообщества. Архитектурный тренд полностью утвердился.

Простая математика, которую все игнорировали

Обучение плотной модели на 300 миллиардов параметров в 2025 году обходилось в десятки миллионов долларов. Не каждый китайский стартап или академическая лаборатория могла себе это позволить. MoE меняет уравнение. Вы создаете пул экспертов – допустим, 128 сетей по 10 миллиардов каждая. Итого 1.28 триллиона параметров. Звучит безумно.

Но фишка в другом. Для обработки одного токена (слова) активируется только 2-4 эксперта. Остальные 124 спят. Вы тратите вычислительные ресурсы не на триллион параметров, а на 20-40 миллиардов. Вуаля. Вы получаете «ум» большой модели за стоимость и скорость маленькой. На бумаге – гениально. На практике, как всегда, есть подводные камни.

Модель (2025-2026) Архитектура Всего параметров Активируется за шаг Ключевая фишка
Kimi K2.5 (Moonshot AI) MoE (384 эксперта) ~1.1 трлн 12 экспертов Оптимизация под 4x H100, SOTA в reasoning
Qwen3-MoE (Alibaba) MoE 1.4 трлн 24 эксперта Лучшая цена/качество, сильный код
GLM-4.7 (Zhipu AI) MoE ~1 трлн ~16 экспертов Общий SOTA, победил в независимых тестах
MiniMax M2.1 MoE + специализация Не раскрыто Не раскрыто Фокус на кодинг и агентов

Железная логика: почему MoE идеально ложится на китайские чипы

Западные модели часто проектировались под идеальные условия: кластеры из тысяч GPU Nvidia с быстрыми межсоединениями NVLink. Китайским инженерам приходится думать иначе. Их системы гетерогенны. Ascend от Huawei, GPGPU от Cambricon, иногда те же H100, но в ограниченном количестве.

MoE здесь не просто эффективна – она спасительна. Поскольку эксперты работают относительно независимо, их можно распределить по разным устройствам, даже с неидеальной связью между ними. Задача маршрутизатора (router) – отправить запрос нужным экспертам. Если эксперты физически находятся на разных чипах – добавляется задержка, но система все еще работает. Плотная сеть в таких условиях просто захлебнется.

«В Kimi K2.5 мы агрессивно оптимизировали маршрутизатор и шаблоны активации экспертов под типичные кластеры из 4-8 ускорителей, которые реально есть у наших партнеров», – примерно так звучит техническое обоснование, если читать между строк их публикаций. Они не строят модель для абстрактного суперкомпьютера. Они строят ее для железа, которое стоит в дата-центрах Alibaba Cloud или Tencent Cloud прямо сейчас.

💡
Контекст: Идея «комитета экспертов» перекликается с более новыми research-направлениями вроде Society of Thought (SoT), где модель имитирует дискуссию между агентами. MoE – это как бы аппаратная, низкоуровневая реализация похожей философии: разные части сети специализируются на разных аспектах мышления. Подробнее о reasoning-подходах – в отдельном материале.

Темная сторона MoE: проблемы, о которых не кричат в пресс-релизах

Все выглядит прекрасно, пока вы не попробуете развернуть такую модель у себя. Первая головная боль – размер. Да, активируется мало параметров. Но хранить-то нужно всех экспертов! Модель на 1.4 трлн параметров – это сотни гигабайт весов. Для локального развертывания это часто неприемлемо.

Вторая проблема – несбалансированная загрузка экспертов. Маршрутизатор может полюбить пару «звездных» экспертов и гонять только их, пока остальные простаивают. Это сводит на нет преимущество распределения. Китайские команды тратят уйму времени на тонкую настройку функции потерь для маршрутизатора и техники вроде auxiliary balancing losses, чтобы эксперты грузились равномерно.

Третье – сложность дообучения (fine-tuning). Как дообучить модель, где 384 эксперта? Всех? Дорого. Только маршрутизатор? Бесполезно. Стратегии selective fine-tuning становятся отдельной областью исследований. Команда Qwen, кстати, в своих последних работах (конец 2025) предлагает интересный метод послойного замораживания экспертов.

Предупреждение от практиков: Не обманывайтесь большими цифрами «триллионов параметров». При выборе модели для своего проекта смотрите в первую очередь на количество активируемых параметров (active parameters) и требования к видеопамяти для инференса. MoE-модель может быть легче в работе, чем плотная сопоставимого качества, но только если у вас есть инфраструктура для ее эффективной загрузки.

Будущее: MoE как платформа, а не просто архитектура

Китайские компании уже смотрят дальше простой экономии. MoE становится платформой для модульных ИИ-систем. Представьте: вы кастомизируете модель для своей больницы. Вы не трогаете экспертов по коду или поэзии. Вы добавляете нескольких новых экспертов, обученных на медицинских статьях и историях болезней, и тонко настраиваете маршрутизатор, чтобы он обращался к ним при медицинских вопросах.

Такой подход превращает монолитную LLM в конструктор. Это уже виднеется в анонсах MiniMax M2.1, где делают упрос на агентов и специализацию на кодинге, и в мультимодальных экспериментах, подобных Qwen-Image-2512, где MoE-принципы пробуют переносить на генерацию изображений.

Западные гиганты (Google с Gemini 2.0, OpenAI с гипотетическим GPT-5) тоже активно экспериментируют с MoE. Но именно в китайском open-source сегменте эта архитектура стала стандартом де-факто. Почему? Потому что у них не было выбора. И этот вынужденный выбор, возможно, дал им архитектурное преимущество на следующие пару лет.

Так что, когда в следующий раз будете выбирать модель для своего проекта и увидите в гиде по лучшим opensource LLM пометку «MoE» – вы будете знать, что стоит за этими тремя буквами. Не просто модная архитектура. А целая философия построения ИИ в условиях ограничений, которая, как это часто бывает, породила более изящное и прагматичное решение.

И да, если кто-то предложит вам «легкую» модель на 500B параметров – спросите, сколько из них активируется за раз. Если ответ будет «все» – бегите. В 2026 году так уже не делают.