Запускаем Gemma 4 на своем железе: от видеокарты до первого ответа

Все говорят про локальные модели. «Скачал, запустил, работает». Пока не попробуешь запустить Gemma 4 31B на своей RTX 3070 и не получишь ошибку CUDA out of memory. В этот момент понимаешь, что между хайпом и реальностью — пропасть, заполненная техническими деталями.

Я потратил две недели, тестируя разные конфигурации, квантования и инструменты. Этот гайд — сжатый результат, который сэкономит вам десятки часов и, возможно, несколько тысяч рублей на апгрейде.

Почему все сходят с ума по Gemma 4? (И стоит ли)

Google выкатила Gemma 4 в начале 2026 года, и это был не просто апдейт. Архитектура Chinchilla scaling, улучшенный training mix и — самое главное — модель 31B параметров, которая по некоторым задачам бьет 70B конкурентов. В бенчмарке FoodTruck она показала результаты, которые заставили многих пересмотреть свои стеки.

Но вот парадокс: в синтетических тестах вроде Winogrande Gemma 4 иногда проваливается. Как так? Разбор этого явления показывает, что бенчмарки давно не отражают реальную полезность.

Локальный запуск — это контроль. Никаких API лимитов, цен за токен, проблем с приватностью. Но контроль требует знаний. Давайте разбираться.

Железо: правда о VRAM, которую не говорят блогеры

Здесь нет магии. Есть математика. Вес модели в памяти зависит от трех вещей: размера параметров, точности (precision) и контекста (KV cache).

Модель	Параметры	FP16 (ГБ)	INT8 (ГБ)	INT4 (ГБ)
Gemma 4 2B	2.5B	~5	~2.5	~1.3
Gemma 4 7B	7.8B	~16	~8	~4
Gemma 4 31B	31.4B	~63	~31	~16

Цифры выше — только вес модели. Добавьте минимум 20% на KV cache, особенно для длинных диалогов. Если у вас 8K контекст, cache съест еще 2-4 ГБ в зависимости от точности.

Почему cache так важен? Потому что Gemma 4 использует оптимизированную, но прожорливую реализацию. В отдельном разборе я показывал, как при 16K контексте память улетает в космос.

Конкретные сборки под ваш бюджет

Забудьте про «минимум 8 ГБ VRAM». Это не работает для 31B модели. Вот что вам нужно на самом деле:

Бюджетная (7B в INT4): GTX 1660 Super (6 ГБ) хватит, но скорость будет 2-3 токена в секунду. Для экспериментов — ок.
Базовая (31B в INT8): RTX 3090 (24 ГБ) или RTX 4090 (24 ГБ). 31 ГБ модели не влезут? Влезут, если использовать --gpu-split в llama.cpp или offload слои на CPU. Скорость: 15-25 токенов/с.
Идеальная (31B в FP16): Две RTX 4090 в NVLink или одна RTX 6000 Ada (48 ГБ). Да, это дорого. Зато полная точность и скорость под 40 токенов/с.

А как насчет Mac Studio? M3 Ultra с 128 ГБ unified memory — отличный вариант, но сравнение с Qwen 3.5 показывает, что на Apple Silicon есть свои нюансы с компиляцией.

Квантование: где теряется качество и как этого избежать

Квантование — это сжатие весов модели из 16-битных чисел в 8, 4 или даже 3 бита. Теоретически — потеря точности. Практически — если сделать умно, разница почти незаметна.

Какой квант выбрать для Gemma 4 31B?

Не все GGUF кванты одинаковы. Q4_K_M — золотая середина для большинства задач. Но если вы перфекционист:

Q8_0: Почти нет потерь, но модель весит почти как FP16. Берите, если VRAM хватает.
Q6_K: Идеальный баланс для 31B. Потери минимальны, размер ~24 ГБ.
Q4_K_M: Основной выбор для 16 ГБ карт. Некоторые математические задачи могут страдать.
Q3_K_M: Для крайних случаев, когда память в дефиците. Качество заметно ниже.

💡

Подробный разбор метрик KL divergence для разных квантов Gemma 4 я делал в отдельном материале. Спойлер: разница между Q6_K и Q8_0 в большинстве тестов меньше 1%.

Инструменты для квантования в 2026 году

llama.cpp — король. Но появились альтернативы:

# Конвертация Hugging Face -> GGUF (FP16)
python llama.cpp/convert-hf-to-gguf.py ./gemma-4-31b --outfile ./gemma-4-31b-f16.gguf

# Квантование в Q6_K
./llama-quantize ./gemma-4-31b-f16.gguf ./gemma-4-31b-q6_k.gguf q6_k

Новый инструмент exllamav2 предлагает формат EXL2, который эффективнее на NVIDIA картах. Но поддержка пока сыровата.

Пошаговый запуск: Linux и Windows за 10 минут

1 Скачиваем модель

Не качайте с random GitHub. Официальный источник — Hugging Face, но нужно принять лицензию. Альтернатива — Hugging Face Model Hub (там есть квантованные версии).

2 Собираем llama.cpp

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean && make LLAMA_CUDA=1 -j$(nproc)

Для Windows есть pre-built бинарники, но со сборкой под свои драйвера CUDA выигрыш в скорости до 20%.

3 Запускаем с правильными флагами

# Для RTX 3090 (24 ГБ) и модели 31B Q4_K_M
./main -m ../models/gemma-4-31b-q4_k_m.gguf \
  -n 512 \
  -t 10 \
  -ngl 40 \
  -c 8192 \
  --temp 0.7 \
  --repeat-penalty 1.1 \
  -p "Кто написал 'Войну и мир'?"

Ключевой флаг -ngl 40 (layers to GPU). Для 31B модели всего 60 слоев. 40 на GPU, 20 на CPU — и модель влезает в 24 ГБ. Медленнее, но работает.

4 Интегрируем в Oobabooga или Open WebUI

Для регулярного использования CLI неудобен. Oobabooga (Text Generation WebUI) поддерживает GGUF из коробки. Просто укажите путь к файлу .gguf и выберите llama.cpp loader.

Сравнение: Gemma 4 против Llama 3.3, Qwen 3.5 и других

Цифры из бенчмарков скучны. Вот что я обнаружил на практике:

Код: Gemma 4 31B генерирует более читаемый код, чем Llama 3.3 70B, но иногда пропускает edge cases. Qwen 3.5 выдает больше комментариев.
Рассуждение: Для цепочек мыслей (chain-of-thought) Llama 3.3 все еще лидер. Но Gemma 4 делает это быстрее на том же железе.
Мультиязычность: Qwen 3.5 вне конкуренции для азиатских языков. Gemma 4 хорошо понимает русский, но акцент явно на английский.

В свежем сравнении на 2026 год видно, что Gemma 4 выигрывает в tasks-per-dollar, особенно если использовать хитрости вроде Harness оптимизаций.

Модель	Размер	Качество кода	Требуемая VRAM (INT4)	Токенов/с (RTX 4090)
Gemma 4 31B	31B	9/10	~16 ГБ	28
Llama 3.3 70B	70B	9.5/10	~40 ГБ	12
Qwen 3.5 32B	32B	8.5/10	~18 ГБ	25

Вывод прост: если у вас одна видеокарта с 24 ГБ, Gemma 4 31B — лучший компромисс между качеством и скоростью. Нужен максимум качества и есть две карты — собирайте Llama 3.3 70B.

Ошибки, которые превратят ваш запуск в кошмар

Я наступил на эти грабли, чтобы вам не пришлось.

Ошибка 1: Забыть про --rocm на AMD картах. Llama.cpp поддерживает ROCm, но нужно пересобирать. И да, производительность будет ниже, чем на NVIDIA.

Ошибка 2: Скачать «оптимизированную» версию модели с GitHub, которая на самом деле содержит malware или сломанные веса. Всегда проверяйте хэши.

Ошибка 3: Использовать флаг -t (количество потоков) равным количеству ядер CPU. Для llama.cpp оптимально — физические ядра минус 2-3 для системы.

И главное: не ожидайте, что локальная 31B модель заменит GPT-5. Она другая. Иногда глупее в общих знаниях, но часто более послушная и предсказуемая.

А что на счет телефона?

Да, Gemma 4 2B в INT4 формате запускается на флагманских смартфонах 2025-2026 года. Но полезность ограничена. Полный гайд по запуску на смартфоне без интернета показывает, что это скорее proof-of-concept, чем daily driver.

Вместо заключения: куда смотреть дальше

Локальные модели развиваются не по дням, а по часам. К концу 2026 ждите появления efficient MoE архитектур, которые будут давать качество 70B моделей при размере 20B. Gemma 4 — отличная точка входа.

Начните с 7B модели на том железе, что есть. Поймите, как она работает, какие prompts дают лучшие результаты. Затем переходите к 31B, если нужна глубина.

И помните: самая дорогая ошибка — купить RTX 5090, не попробовав запустить модель на том, что уже есть под столом.

Подписаться на канал

Gemma 4 локально: полный гайд по железу, квантованию и сравнению с конкурентами