Смена курса на 180 градусов
Когда IBM выпустила Granite 4.0 с архитектурой Mixture of Experts, многие восприняли это как догнать тренд — все крупные игроки (Mistral, Arcee, Google) уже обкатывали MoE. Но спустя несколько месяцев выходит Granite 4.1, и в спецификациях вместо «sparse MoE» написано скучное «pure transformer». Инженеры IBM развернулись на 180 градусов. Почему? Давайте копать.
На первый взгляд — безумие. MoE обещает ту же производительность при меньших вычислительных затратах за счёт активации только части экспертов. Ещё недавно мы ждали MoE-гигантов от IBM на 100B параметров. Но вместо монстра IBM выпустила несколько компактных dense-моделей, которые бьют гигантов в своих весовых категориях. Значит, не всё так просто.
Важно: Granite 4.1 — не просто апдейт, это принципиально иная философия. IBM сознательно пожертвовала теоретической эффективностью MoE в пользу практической простоты.
Проклятие fine-tuning: MoE — ад для настройщиков
Главная боль любой MoE-модели — дообучение. В dense transformer все параметры равны, градиенты текут естественно. В MoE каждый токен маршрутизируется к разным экспертам, и при fine-tuning нужно одновременно учить и router, и экспертов. Балансировка загрузки экспертов — отдельный цирк с конями.
IBM внедрила в Granite 4.1 алгоритм DAPO (Dual-Agent Policy Optimization) для reinforcement learning. Этот метод требует стабильной архитектуры. А MoE с её недетерминированным routing'ом вносит шум в градиенты. Проще говоря, DAPO на MoE — как учить жонглёра жонглировать, меняя количество шаров каждую секунду.
«Pure transformer — это предсказуемость. MoE — это геморрой. Мы выбираем предсказуемость», — так перефразируют внутренние источники IBM позицию команды разработчиков Granite 4.1.
Железо не резиновое: проблемы памяти и fuse-ядер
MoE красива на бумаге, но в реальности она пожирает память. Каждый эксперт — это отдельный набор весов. Даже если вы активируете только 2 из 8 экспертов, все веса должны быть загружены в GPU. Мы уже видели, как Granite 4.0 H 1B сжирает всю память A100. Для моделей поменьше MoE — ещё терпимо, но для enterprise-развёртывания на обычных серверах это катастрофа.
Кроме того, MoE требует кастомных fuse-ядер для эффективного исполнения. Без них вы получаете разницу в 5 запусков против 24 — прирост 4.9x на Mixtral, если использовать fused kernel. IBM не хочет зависеть от хрупких Triton-ядер, которые могут сломаться при обновлении библиотек. Pure transformer работает на любом железе из коробки.
Практика > теория: зачем enterprise простота?
IBM — корпоративный вендор. Их клиенты — банки, страховые, госсектор. Им не нужна модель, которая работает только на кластере из 8 H100 с кастомным софтом. Им нужно нечто, что можно дообучить на своих данных за вечер и запустить на одном GPU. Pure transformer даёт эту простоту.
Сравните: запуск 30B MoE-модели на ноутбуке — это квест с квантованием. А dense модель того же размера работает без танцев с бубном. IBM выбрала путь наименьшего сопротивления для внедрения.
MoE не умерла — просто ушла в другое место
Не думайте, что IBM навсегда похоронила MoE. Предыдущие статьи намекают, что гигантская 100B модель всё ещё в разработке — и там MoE может быть уместна, потому что dense 100B просто не влезет в разумные бюджеты. Но для целевого сегмента Granite 4.1 (от 1B до 8B параметров) pure transformer оказался практичнее.
Показательно, что Granite 4.0 1B Speech для распознавания речи тоже использует dense архитектуру. MoE остаётся для тех, кому нужно выжать максимум при ограниченном compute на этапе инференса, но при этом они готовы мириться с адом сложностью fine-tuning. IBM же делает ставку на тех, кто не хочет ада.
Что дальше?
Решение IBM — это сигнал рынку: MoE не панацея. Для большинства enterprise-задач dense transformer проще, дешевле и надёжнее. Даже эмбеддинги IBM не нуждаются в MoE. Возможно, через год мы увидим возвращение MoE в больших моделях, но сейчас тренд — упрощение. И IBM, со своим опытом работы с реальными заказчиками, оказалась чутким барометром рынка.
Любопытно, что рекуррентные модели тоже пытаются вернуться. Может, 2026-й станет годом переосмысления архитектур, где простота побеждает сложность? IBM сделала ставку. Посмотрим, кто подхватит.