Год, когда Китай перестал копировать Запад
Еще в начале 2025 года китайские AI-компании пытались догнать OpenAI и Google, строя монолитные модели вроде GPT-4. К февралю 2026 ситуация перевернулась с ног на голову. Теперь западные разработчики изучают архитектуры DeepSeek R1, Kimi K2.5 и MiniMax M2, пытаясь понять, как китайцам удалось сделать модели умнее при вдвое меньших вычислительных затратах.
По данным на 01.02.2026, 87% новых китайских open-source моделей используют архитектуру Mixture of Experts. Для сравнения: в январе 2024 этот показатель составлял всего 23%.
MoE: не выбор, а необходимость
Почему именно MoE? Ответ прост: деньги. Точнее, их отсутствие. После ужесточения экспортных ограничений в 2024-2025 годах китайские компании столкнулись с дефицитом H100 и даже более старых A100. Цена на один H100 на черном рынке достигала 80 000 долларов. Обучение 700-миллиардной монолитной модели требовало минимум 4000 таких чипов на 3-4 месяца. Счет шел на сотни миллионов долларов.
MoE решал проблему радикально. Вместо одной огромной сети – множество небольших «экспертов», каждый из которых специализируется на своей задаче. При инференсе активируется только 2-4 эксперта из 128-384 возможных. Результат? Модель с триллионом параметров ведет себя в работе как модель на 20-30 миллиардов.
DeepSeek R1: выстрел, изменивший все
Выпуск DeepSeek R1 в ноябре 2025 стал переломным. Модель с 1.2 триллионами параметров (из которых активировалось 37 миллиардов) обошла GPT-4.5 в 12 из 15 китайских и 7 из 10 международных бенчмарков. Но главное – ее можно было запустить на 8 картах H800 (китайской версии H100) вместо 64 карт для аналогичной монолитной модели.
Разработчики из DeepSeek открыли архитектуру и выложили веса. За два месяца появилось больше 50 форков и модификаций. Сообщество быстро поняло: эта штука работает не только на дорогом железе. MoE-мания охватила китайский open-source.
Эффект домино: от архитектуры к железу
Вот где начинается самое интересное. MoE-архитектуры изменили требования к железу:
- Память важнее FLOPS. Для MoE нужна огромная VRAM, чтобы загрузить всех экспертов, но вычисления идут только с парой из них. Скорость матричных умножений отходит на второй план.
- Пропускная способность шины – новый bottleneck. Эксперты лежат в памяти, их нужно быстро подгружать. NVLink и аналогичные технологии становятся критичными.
- Гетерогенные кластеры работают. Можно обучать экспертов на разных типах карт, даже смешивая NVIDIA с китайскими аналогами.
Именно эти требования сыграли на руку китайским производителям железа. Huawei Ascend 910B с 64 ГБ HBM и собственной высокоскоростной шиной оказался идеальным для MoE. Да, его FP16 производительность на 40% ниже, чем у H100. Но когда нужно хранить 128 экспертов по 10 миллиардов параметров каждый, 64 ГБ памяти решают все.
| Модель (2025-2026) | Архитектура | Параметры (активные) | Рекомендуемое железо | Стоимость инференса vs GPT-4.5 |
|---|---|---|---|---|
| DeepSeek R1 | MoE (128 экспертов) | 1.2T (37B) | 8x H800 или 8x Ascend 910B | -65% |
| Kimi K2.5 | MoE (384 эксперта) | 1.1T (24B) | 4x H100 + оптимизация | -72% |
| MiniMax M2 | MoE (256 экспертов) | 900B (45B) | Китайские чипы + гибрид | -58% |
Локальное железо: не патриотизм, а математика
Западные аналитики долго думали, что китайцы используют свое железо из-за санкций. Частично это так. Но к 2026 году экономика MoE-моделей сама по себе толкает к альтернативам NVIDIA.
Возьмем Kimi K2.5. Их инженеры выжали из архитектуры максимум: 384 эксперта, но каждый – узкий специалист. Система маршрутизации определяет, какие 2 эксперта нужны для ответа, с точностью 94%. Результат? Модель работает на 4 картах H100 вместо 16. А на китайском железе с бóльшей памятью – вообще на 2 картах.
Важный нюанс: китайские MoE-модели оптимизированы под азиатские языки с иероглифической письменностью. Их эксперты часто специализируются на распознавании контекста в коротких, многозначных фразах. Западные модели с этим традиционно справляются хуже.
Теперь посмотрите на рынок. Huawei продает Ascend 910B в 3 раза дешевле, чем NVIDIA H100 в Китае (с учетом всех надбавок). Cambricon, Iluvatar и другие местные производители предлагают решения с 96-128 ГБ памяти на карту. Для MoE это идеально. NVIDIA же продолжает гнаться за FLOPS, увеличивая вычислительную мощность, но оставляя память на уровне 80-96 ГБ в топовых картах.
Что будет, когда санкции ослабнут?
Вот здесь начинается самое интересное. Слухи об ослаблении экспортного контроля ходят с декабря 2025. Предположим, NVIDIA снова сможет свободно продавать H100 и даже более новые чипы в Китай. Изменит ли это ситуацию?
Скорее нет, чем да. По трем причинам:
- Инфраструктура уже построена. Крупные дата-центры заточены под китайское железо. Переучивать персонал, переписывать софт – дорого и долго.
- Архитектуры оптимизированы. MoE-модели 2026 года рождены на китайском железе. Они используют его особенности (большая память, специфические инструкции).
- Экономика. Локальные чипы дешевле на 40-60%. При равной эффективности для MoE-задач бизнес выберет экономию.
Кстати, о бизнесе. Новые китайские правила для AI с human-like interaction требуют, чтобы «критические» модели работали на локальном железе. Это не только вопрос безопасности, но и поддержки местных производителей.
Западный ответ: уже опаздывают
OpenAI анонсировала свою MoE-архитектуру только в январе 2026. Google работает над похожими решениями. Но у них проблема: вся экосистема заточена под монолитные модели. Их фреймворки, инструменты развертывания, даже бизнес-модели (продажа доступа к API) построены вокруг идеи одной большой модели.
Китайцы же с самого начала думали об эффективности. Их open-source сообщество мгновенно адаптировалось: появились десятки библиотек для работы с MoE на разнородном железе, системы динамической загрузки экспертов, даже специальные форматы хранения весов.
Что это значит для разработчиков за пределами Китая?
Если вы работаете с AI, готовьтесь к изменениям:
- Железо с большой памятью станет стандартом. При выборе между картой с 48 ТФлопс и 64 ГБ памяти или картой с 80 ТФлопс и 48 ГБ – выбирайте первую. Особенно если планируете работать с китайскими моделями.
- Изучайте MoE-архитектуры сейчас. Через год это будет must-have навык. Начинайте с open-source реализаций от DeepSeek и Qwen.
- Следите за китайским open-source. Именно там рождаются самые интересные инновации в области эффективного AI. AGI-NEXT 2025 показал: разрыв сокращается быстрее, чем кажется.
И последнее: не повторяйте ошибку западных гигантов, которые считали китайский AI «второсортным». DeepSeek R1 обходит GPT-4.5 в математике и коде. Kimi K2.5 лучше работает с длинными контекстами. MiniMax M2 превосходит конкурентов в мультимодальных задачах. И все они делают это на железе, которое стоит в 2-3 раза дешевле.
Мораль проста: когда нет доступа к лучшему железу, вы создаете архитектуры, которые делают лучшее из того, что есть. А потом оказывается, что ваши архитектуры лучше даже при доступе к лучшему железу. Китай прошел этот путь за 18 месяцев. Остальному миру придется догонять.