Что такое Gemma 4 MoE?

Gemma 4 MoE - это модель с архитектурой Mixture of Experts от Google, которая активирует только часть параметров (экспертов) для каждого токена. Это позволяет достичь высокой производительности и качества при меньших вычислительных затратах.

Как достигнуты 120 TPS на двух RTX 3090?

Рекорд достигнут благодаря сочетанию архитектуры MoE, квантования Q4_K_M, оптимизации в последней версии llama.cpp (март 2026) и использованию NVLink для объединения памяти двух графических карт RTX 3090.

Gemma 4 MoE: 120 TPS на 2x RTX 3090 для локальных AI агентов

120 токенов в секунду? На двух картах 2020 года?

Когда Google анонсировал Gemma 4 MoE, все ждали прорыва в эффективности. Но чтобы такой - 120 TPS на паре RTX 3090, которые сегодня можно купить за копейки на вторичке? Это меняет правила игры для локальных агентов.

MoE (Mixture of Experts) - архитектура, где модель делится на "экспертов", и для каждого токена активируется только часть. Так можно создать огромную модель, но считать только небольшую ее часть. Gemma 4 MoE, актуальная на 04.04.2026, использует 8 экспертов с 12B параметров каждый, но активирует 2. Итог - качество крупной модели при скорости компактной.

Как они этого добились? Секретный соус - не только железо

Секрет не только в архитектуре. Тестовая команда использовала последнюю версию llama.cpp с нативной поддержкой MoE (коммит от марта 2026) и квантование Q4_K_M. Плюс - оптимизация под NVLink, который связывает две RTX 3090 в единый пул памяти. Да, 48 ГБ GDDR6X в режиме SLI - это серьезно. И нет, вам не нужна новая RTX 5090, чтобы это повторить.

Модель	Железо	TPS	Контекст
Gemma 4 MoE (8x12B) Q4_K_M	2x RTX 3090 (NVLink)	120	128K
Qwen 3.5 32B	2x RTX 3090	45	32K
Gemma 4 31B	1x RTX 5090	85	256K

Цифры говорят сами за себя. Gemma 4 MoE обходит даже более новые модели на более мощном железе. Почему? MoE. Активация только части параметров ускоряет все - от инференса до обучения. Сравните с полным тестом 19 LLM для homelab - там Gemma 4 уже лидировала, но MoE-версия ставит новый стандарт.

Агенты, которые не заставляют ждать

Представьте роя из десятков AI-агентов, каждый из которых принимает решения в реальном времени. Как в нашем руководстве по развертыванию роя агентов. С 120 TPS задержки между запросом и ответом становятся незаметными. Агенты могут общаться, координироваться, искать информацию - и все это локально, без облачных API.

💡

Gemma 4 MoE особенно хороша как координатор для мультиагентных систем. Она быстро обрабатывает сообщения от других агентов и принимает решения. Вот практическое руководство по настройке такой системы.

Но есть нюанс. MoE-модели требуют careful balancing экспертов. Если запрос попадает к неправильному эксперту, качество падает. В Gemma 4 MoE это минимизировано за счет улучшенного маршрутизатора, обученного на разнородных данных. В теории это работает, но на практике проверьте свои промпты.

А что с железом? RTX 3090 - новый king бюджетных homelab?

После выхода RTX 5090 цены на 3090 упали. Теперь это, возможно, лучший выбор для сборки сервера с AI. 24 ГБ памяти на карту, NVLink для объединения - и вы получаете 48 ГБ для моделей. Как в случае с GLM-4.7 на четырех RTX 3090, но здесь всего две карты. Ищите б/у варианты на площадках вроде Amazon, но проверяйте состояние.

Сравните с расчетом стоимости self-hosted решений. Gemma 4 MoE на двух RTX 3090 - это производительность уровня облака за фиксированную стоимость железа. Электричество, конечно, будет кушать, но для постоянной работы агентов это оправдано.

Внимание: NVLink не всегда удваивает память. В некоторых конфигурациях он используется только для ускорения обмена данными. Для llama.cpp с поддержкой MoE важно, чтобы память была объединена, поэтому проверьте настройки драйверов. И да, мост NVLink - отдельная покупка.

Как попробовать? Не ждите - тестируйте

Хотите протестировать Gemma 4 MoE? Самый простой способ - использовать Ollama с последней версией (v0.6.2 на 04.04.2026), которая поддерживает MoE. Или llama.cpp с компиляцией из исходников.

Скачайте модель в формате GGUF с квантованием Q4_K_M. На 04.04.2026 последняя версия - Gemma 4 MoE 8x12B Q4_K_M от TheBloke.
Убедитесь, что у вас установлены последние драйверы NVIDIA (v560.xx) и CUDA 12.6 (актуально на 2026 год).
Для двух карт с NVLink используйте флаг --n-gpu-layers 99 и --tensor-split 1 для распределения по картам. Подробности по запуску есть в нашем руководстве по многомодальной Gemma 4.

Звучит логично, но есть нюанс: если у вас нет NVLink, производительность упадет до ~80 TPS из-за обмена данными через PCIe. Все еще неплохо, но не рекорд.

Что дальше? Прогноз от инсайдеров

MoE - это будущее локальных LLM. Следующий шаг - динамическое количество экспертов, где модель сама решает, сколько экспертов активировать. Или кросс-модальные эксперты для видео и аудио. Уже сейчас в тестах multi-agent дебатов модели с MoE показывают лучшее соотношение скорости и качества.

Держите пару RTX 3090 - они еще послужат. А если хочется еще большей производительности, посмотрите как запустить Gemma 4 31B с контекстом 256K на одной RTX 5090. Но для агентов скорость ответа часто важнее размера контекста.

И да, если у вас MacBook, не расстраивайтесь. Gemma 4 26B на M5 MacBook Air показывает отличную энергоэффективность. Но для серьезных агентских систем все же нужен сервер. Или партизанский MLOps на Kaggle, если хотите сэкономить.

Совет: не гонитесь за последним железом. Иногда старые карты в связке дают большую производительность за те же деньги. Проверьте на полном тесте для homelab, какая конфигурация подходит для ваших задач. И помните: 120 TPS - это не предел. С новыми оптимизациями в llama.cpp, цифры будут расти. Главное - начать экспериментировать. И следите за обновлениями Gemma 4 MoE - Google уже анонсировал улучшенный маршрутизатор для версии 4.1, которая выйдет в конце 2026.

Подписаться на канал

Gemma 4 MoE: рекордные 120 TPS на двух RTX 3090 для локальных LLM и агентов