Почему китайские AI-компании перешли на архитектуру MoE?

Основная причина - экономическая. После экспортных ограничений на чипы NVIDIA китайские компании столкнулись с дефицитом и высокой стоимостью железа. MoE-архитектура позволяет создавать модели с триллионами параметров, но активировать только небольшую часть при инференсе, что резко снижает требования к вычислительным ресурсам.

Какие китайские MoE-модели самые известные в 2026 году?

DeepSeek R1 (1.2 триллиона параметров, 128 экспертов), Kimi K2.5 (1.1 триллиона параметров, 384 эксперта) и MiniMax M2 (900 миллиардов параметров, 256 экспертов). Эти модели конкурируют с GPT-4.5 при значительно меньших затратах на инференс.

Как MoE-архитектура повлияла на рынок железа в Китае?

MoE-модели требуют много памяти (VRAM), но меньше вычислительной мощности. Это сыграло на руку китайским производителям чипов вроде Huawei, чьи карты Ascend 910B имеют 64 ГБ памяти при меньшей стоимости. Требования к пропускной способности шины также изменили приоритеты в проектировании железа.

Китайский AI: почему MoE стал стандартом и как это меняет рынок железа в 2026

Год, когда Китай перестал копировать Запад

Еще в начале 2025 года китайские AI-компании пытались догнать OpenAI и Google, строя монолитные модели вроде GPT-4. К февралю 2026 ситуация перевернулась с ног на голову. Теперь западные разработчики изучают архитектуры DeepSeek R1, Kimi K2.5 и MiniMax M2, пытаясь понять, как китайцам удалось сделать модели умнее при вдвое меньших вычислительных затратах.

По данным на 01.02.2026, 87% новых китайских open-source моделей используют архитектуру Mixture of Experts. Для сравнения: в январе 2024 этот показатель составлял всего 23%.

MoE: не выбор, а необходимость

Почему именно MoE? Ответ прост: деньги. Точнее, их отсутствие. После ужесточения экспортных ограничений в 2024-2025 годах китайские компании столкнулись с дефицитом H100 и даже более старых A100. Цена на один H100 на черном рынке достигала 80 000 долларов. Обучение 700-миллиардной монолитной модели требовало минимум 4000 таких чипов на 3-4 месяца. Счет шел на сотни миллионов долларов.

MoE решал проблему радикально. Вместо одной огромной сети – множество небольших «экспертов», каждый из которых специализируется на своей задаче. При инференсе активируется только 2-4 эксперта из 128-384 возможных. Результат? Модель с триллионом параметров ведет себя в работе как модель на 20-30 миллиардов.

💡

Ключевой момент: MoE-архитектура позволяет обучать модель частями. Сначала тренируете экспертов по отдельности на разных кластерах, потом собираете в единую систему. Это снижает требования к памяти и ускоряет итерации в 3-4 раза.

DeepSeek R1: выстрел, изменивший все

Выпуск DeepSeek R1 в ноябре 2025 стал переломным. Модель с 1.2 триллионами параметров (из которых активировалось 37 миллиардов) обошла GPT-4.5 в 12 из 15 китайских и 7 из 10 международных бенчмарков. Но главное – ее можно было запустить на 8 картах H800 (китайской версии H100) вместо 64 карт для аналогичной монолитной модели.

Разработчики из DeepSeek открыли архитектуру и выложили веса. За два месяца появилось больше 50 форков и модификаций. Сообщество быстро поняло: эта штука работает не только на дорогом железе. MoE-мания охватила китайский open-source.

Эффект домино: от архитектуры к железу

Вот где начинается самое интересное. MoE-архитектуры изменили требования к железу:

Память важнее FLOPS. Для MoE нужна огромная VRAM, чтобы загрузить всех экспертов, но вычисления идут только с парой из них. Скорость матричных умножений отходит на второй план.
Пропускная способность шины – новый bottleneck. Эксперты лежат в памяти, их нужно быстро подгружать. NVLink и аналогичные технологии становятся критичными.
Гетерогенные кластеры работают. Можно обучать экспертов на разных типах карт, даже смешивая NVIDIA с китайскими аналогами.

Именно эти требования сыграли на руку китайским производителям железа. Huawei Ascend 910B с 64 ГБ HBM и собственной высокоскоростной шиной оказался идеальным для MoE. Да, его FP16 производительность на 40% ниже, чем у H100. Но когда нужно хранить 128 экспертов по 10 миллиардов параметров каждый, 64 ГБ памяти решают все.

Модель (2025-2026)	Архитектура	Параметры (активные)	Рекомендуемое железо	Стоимость инференса vs GPT-4.5
DeepSeek R1	MoE (128 экспертов)	1.2T (37B)	8x H800 или 8x Ascend 910B	-65%
Kimi K2.5	MoE (384 эксперта)	1.1T (24B)	4x H100 + оптимизация	-72%
MiniMax M2	MoE (256 экспертов)	900B (45B)	Китайские чипы + гибрид	-58%

Локальное железо: не патриотизм, а математика

Западные аналитики долго думали, что китайцы используют свое железо из-за санкций. Частично это так. Но к 2026 году экономика MoE-моделей сама по себе толкает к альтернативам NVIDIA.

Возьмем Kimi K2.5. Их инженеры выжали из архитектуры максимум: 384 эксперта, но каждый – узкий специалист. Система маршрутизации определяет, какие 2 эксперта нужны для ответа, с точностью 94%. Результат? Модель работает на 4 картах H100 вместо 16. А на китайском железе с бóльшей памятью – вообще на 2 картах.

Важный нюанс: китайские MoE-модели оптимизированы под азиатские языки с иероглифической письменностью. Их эксперты часто специализируются на распознавании контекста в коротких, многозначных фразах. Западные модели с этим традиционно справляются хуже.

Теперь посмотрите на рынок. Huawei продает Ascend 910B в 3 раза дешевле, чем NVIDIA H100 в Китае (с учетом всех надбавок). Cambricon, Iluvatar и другие местные производители предлагают решения с 96-128 ГБ памяти на карту. Для MoE это идеально. NVIDIA же продолжает гнаться за FLOPS, увеличивая вычислительную мощность, но оставляя память на уровне 80-96 ГБ в топовых картах.

Что будет, когда санкции ослабнут?

Вот здесь начинается самое интересное. Слухи об ослаблении экспортного контроля ходят с декабря 2025. Предположим, NVIDIA снова сможет свободно продавать H100 и даже более новые чипы в Китай. Изменит ли это ситуацию?

Скорее нет, чем да. По трем причинам:

Инфраструктура уже построена. Крупные дата-центры заточены под китайское железо. Переучивать персонал, переписывать софт – дорого и долго.
Архитектуры оптимизированы. MoE-модели 2026 года рождены на китайском железе. Они используют его особенности (большая память, специфические инструкции).
Экономика. Локальные чипы дешевле на 40-60%. При равной эффективности для MoE-задач бизнес выберет экономию.

Кстати, о бизнесе. Новые китайские правила для AI с human-like interaction требуют, чтобы «критические» модели работали на локальном железе. Это не только вопрос безопасности, но и поддержки местных производителей.

Западный ответ: уже опаздывают

OpenAI анонсировала свою MoE-архитектуру только в январе 2026. Google работает над похожими решениями. Но у них проблема: вся экосистема заточена под монолитные модели. Их фреймворки, инструменты развертывания, даже бизнес-модели (продажа доступа к API) построены вокруг идеи одной большой модели.

Китайцы же с самого начала думали об эффективности. Их open-source сообщество мгновенно адаптировалось: появились десятки библиотек для работы с MoE на разнородном железе, системы динамической загрузки экспертов, даже специальные форматы хранения весов.

💡

Показательный пример: проект Ling 17B. В сентябре 2025 это была обычная 17-миллиардная модель. К декабрю ее переделали в MoE-архитектуру с 64 экспертами. Скорость инференса выросла на 100% при том же качестве. История успеха, которая повторяется десятки раз.

Что это значит для разработчиков за пределами Китая?

Если вы работаете с AI, готовьтесь к изменениям:

Железо с большой памятью станет стандартом. При выборе между картой с 48 ТФлопс и 64 ГБ памяти или картой с 80 ТФлопс и 48 ГБ – выбирайте первую. Особенно если планируете работать с китайскими моделями.
Изучайте MoE-архитектуры сейчас. Через год это будет must-have навык. Начинайте с open-source реализаций от DeepSeek и Qwen.
Следите за китайским open-source. Именно там рождаются самые интересные инновации в области эффективного AI. AGI-NEXT 2025 показал: разрыв сокращается быстрее, чем кажется.

И последнее: не повторяйте ошибку западных гигантов, которые считали китайский AI «второсортным». DeepSeek R1 обходит GPT-4.5 в математике и коде. Kimi K2.5 лучше работает с длинными контекстами. MiniMax M2 превосходит конкурентов в мультимодальных задачах. И все они делают это на железе, которое стоит в 2-3 раза дешевле.

Мораль проста: когда нет доступа к лучшему железу, вы создаете архитектуры, которые делают лучшее из того, что есть. А потом оказывается, что ваши архитектуры лучше даже при доступе к лучшему железу. Китай прошел этот путь за 18 месяцев. Остальному миру придется догонять.

Китайский AI выбрал свой путь: MoE-архитектуры и локальное железо против западных гигантов