120 токенов в секунду? На двух картах 2020 года?
Когда Google анонсировал Gemma 4 MoE, все ждали прорыва в эффективности. Но чтобы такой - 120 TPS на паре RTX 3090, которые сегодня можно купить за копейки на вторичке? Это меняет правила игры для локальных агентов.
MoE (Mixture of Experts) - архитектура, где модель делится на "экспертов", и для каждого токена активируется только часть. Так можно создать огромную модель, но считать только небольшую ее часть. Gemma 4 MoE, актуальная на 04.04.2026, использует 8 экспертов с 12B параметров каждый, но активирует 2. Итог - качество крупной модели при скорости компактной.
Как они этого добились? Секретный соус - не только железо
Секрет не только в архитектуре. Тестовая команда использовала последнюю версию llama.cpp с нативной поддержкой MoE (коммит от марта 2026) и квантование Q4_K_M. Плюс - оптимизация под NVLink, который связывает две RTX 3090 в единый пул памяти. Да, 48 ГБ GDDR6X в режиме SLI - это серьезно. И нет, вам не нужна новая RTX 5090, чтобы это повторить.
| Модель | Железо | TPS | Контекст |
|---|---|---|---|
| Gemma 4 MoE (8x12B) Q4_K_M | 2x RTX 3090 (NVLink) | 120 | 128K |
| Qwen 3.5 32B | 2x RTX 3090 | 45 | 32K |
| Gemma 4 31B | 1x RTX 5090 | 85 | 256K |
Цифры говорят сами за себя. Gemma 4 MoE обходит даже более новые модели на более мощном железе. Почему? MoE. Активация только части параметров ускоряет все - от инференса до обучения. Сравните с полным тестом 19 LLM для homelab - там Gemma 4 уже лидировала, но MoE-версия ставит новый стандарт.
Агенты, которые не заставляют ждать
Представьте роя из десятков AI-агентов, каждый из которых принимает решения в реальном времени. Как в нашем руководстве по развертыванию роя агентов. С 120 TPS задержки между запросом и ответом становятся незаметными. Агенты могут общаться, координироваться, искать информацию - и все это локально, без облачных API.
Но есть нюанс. MoE-модели требуют careful balancing экспертов. Если запрос попадает к неправильному эксперту, качество падает. В Gemma 4 MoE это минимизировано за счет улучшенного маршрутизатора, обученного на разнородных данных. В теории это работает, но на практике проверьте свои промпты.
А что с железом? RTX 3090 - новый king бюджетных homelab?
После выхода RTX 5090 цены на 3090 упали. Теперь это, возможно, лучший выбор для сборки сервера с AI. 24 ГБ памяти на карту, NVLink для объединения - и вы получаете 48 ГБ для моделей. Как в случае с GLM-4.7 на четырех RTX 3090, но здесь всего две карты. Ищите б/у варианты на площадках вроде Amazon, но проверяйте состояние.
Сравните с расчетом стоимости self-hosted решений. Gemma 4 MoE на двух RTX 3090 - это производительность уровня облака за фиксированную стоимость железа. Электричество, конечно, будет кушать, но для постоянной работы агентов это оправдано.
Внимание: NVLink не всегда удваивает память. В некоторых конфигурациях он используется только для ускорения обмена данными. Для llama.cpp с поддержкой MoE важно, чтобы память была объединена, поэтому проверьте настройки драйверов. И да, мост NVLink - отдельная покупка.
Как попробовать? Не ждите - тестируйте
Хотите протестировать Gemma 4 MoE? Самый простой способ - использовать Ollama с последней версией (v0.6.2 на 04.04.2026), которая поддерживает MoE. Или llama.cpp с компиляцией из исходников.
- Скачайте модель в формате GGUF с квантованием Q4_K_M. На 04.04.2026 последняя версия - Gemma 4 MoE 8x12B Q4_K_M от TheBloke.
- Убедитесь, что у вас установлены последние драйверы NVIDIA (v560.xx) и CUDA 12.6 (актуально на 2026 год).
- Для двух карт с NVLink используйте флаг
--n-gpu-layers 99и--tensor-split 1для распределения по картам. Подробности по запуску есть в нашем руководстве по многомодальной Gemma 4.
Звучит логично, но есть нюанс: если у вас нет NVLink, производительность упадет до ~80 TPS из-за обмена данными через PCIe. Все еще неплохо, но не рекорд.
Что дальше? Прогноз от инсайдеров
MoE - это будущее локальных LLM. Следующий шаг - динамическое количество экспертов, где модель сама решает, сколько экспертов активировать. Или кросс-модальные эксперты для видео и аудио. Уже сейчас в тестах multi-agent дебатов модели с MoE показывают лучшее соотношение скорости и качества.
Держите пару RTX 3090 - они еще послужат. А если хочется еще большей производительности, посмотрите как запустить Gemma 4 31B с контекстом 256K на одной RTX 5090. Но для агентов скорость ответа часто важнее размера контекста.
И да, если у вас MacBook, не расстраивайтесь. Gemma 4 26B на M5 MacBook Air показывает отличную энергоэффективность. Но для серьезных агентских систем все же нужен сервер. Или партизанский MLOps на Kaggle, если хотите сэкономить.
Совет: не гонитесь за последним железом. Иногда старые карты в связке дают большую производительность за те же деньги. Проверьте на полном тесте для homelab, какая конфигурация подходит для ваших задач. И помните: 120 TPS - это не предел. С новыми оптимизациями в llama.cpp, цифры будут расти. Главное - начать экспериментировать. И следите за обновлениями Gemma 4 MoE - Google уже анонсировал улучшенный маршрутизатор для версии 4.1, которая выйдет в конце 2026.