Запускаем Gemma 4 на своем железе: от видеокарты до первого ответа
Все говорят про локальные модели. «Скачал, запустил, работает». Пока не попробуешь запустить Gemma 4 31B на своей RTX 3070 и не получишь ошибку CUDA out of memory. В этот момент понимаешь, что между хайпом и реальностью — пропасть, заполненная техническими деталями.
Я потратил две недели, тестируя разные конфигурации, квантования и инструменты. Этот гайд — сжатый результат, который сэкономит вам десятки часов и, возможно, несколько тысяч рублей на апгрейде.
Почему все сходят с ума по Gemma 4? (И стоит ли)
Google выкатила Gemma 4 в начале 2026 года, и это был не просто апдейт. Архитектура Chinchilla scaling, улучшенный training mix и — самое главное — модель 31B параметров, которая по некоторым задачам бьет 70B конкурентов. В бенчмарке FoodTruck она показала результаты, которые заставили многих пересмотреть свои стеки.
Но вот парадокс: в синтетических тестах вроде Winogrande Gemma 4 иногда проваливается. Как так? Разбор этого явления показывает, что бенчмарки давно не отражают реальную полезность.
Локальный запуск — это контроль. Никаких API лимитов, цен за токен, проблем с приватностью. Но контроль требует знаний. Давайте разбираться.
Железо: правда о VRAM, которую не говорят блогеры
Здесь нет магии. Есть математика. Вес модели в памяти зависит от трех вещей: размера параметров, точности (precision) и контекста (KV cache).
| Модель | Параметры | FP16 (ГБ) | INT8 (ГБ) | INT4 (ГБ) |
|---|---|---|---|---|
| Gemma 4 2B | 2.5B | ~5 | ~2.5 | ~1.3 |
| Gemma 4 7B | 7.8B | ~16 | ~8 | ~4 |
| Gemma 4 31B | 31.4B | ~63 | ~31 | ~16 |
Цифры выше — только вес модели. Добавьте минимум 20% на KV cache, особенно для длинных диалогов. Если у вас 8K контекст, cache съест еще 2-4 ГБ в зависимости от точности.
Почему cache так важен? Потому что Gemma 4 использует оптимизированную, но прожорливую реализацию. В отдельном разборе я показывал, как при 16K контексте память улетает в космос.
Конкретные сборки под ваш бюджет
Забудьте про «минимум 8 ГБ VRAM». Это не работает для 31B модели. Вот что вам нужно на самом деле:
- Бюджетная (7B в INT4): GTX 1660 Super (6 ГБ) хватит, но скорость будет 2-3 токена в секунду. Для экспериментов — ок.
- Базовая (31B в INT8): RTX 3090 (24 ГБ) или RTX 4090 (24 ГБ). 31 ГБ модели не влезут? Влезут, если использовать
--gpu-splitв llama.cpp или offload слои на CPU. Скорость: 15-25 токенов/с. - Идеальная (31B в FP16): Две RTX 4090 в NVLink или одна RTX 6000 Ada (48 ГБ). Да, это дорого. Зато полная точность и скорость под 40 токенов/с.
А как насчет Mac Studio? M3 Ultra с 128 ГБ unified memory — отличный вариант, но сравнение с Qwen 3.5 показывает, что на Apple Silicon есть свои нюансы с компиляцией.
Квантование: где теряется качество и как этого избежать
Квантование — это сжатие весов модели из 16-битных чисел в 8, 4 или даже 3 бита. Теоретически — потеря точности. Практически — если сделать умно, разница почти незаметна.
Какой квант выбрать для Gemma 4 31B?
Не все GGUF кванты одинаковы. Q4_K_M — золотая середина для большинства задач. Но если вы перфекционист:
- Q8_0: Почти нет потерь, но модель весит почти как FP16. Берите, если VRAM хватает.
- Q6_K: Идеальный баланс для 31B. Потери минимальны, размер ~24 ГБ.
- Q4_K_M: Основной выбор для 16 ГБ карт. Некоторые математические задачи могут страдать.
- Q3_K_M: Для крайних случаев, когда память в дефиците. Качество заметно ниже.
Инструменты для квантования в 2026 году
llama.cpp — король. Но появились альтернативы:
# Конвертация Hugging Face -> GGUF (FP16)
python llama.cpp/convert-hf-to-gguf.py ./gemma-4-31b --outfile ./gemma-4-31b-f16.gguf
# Квантование в Q6_K
./llama-quantize ./gemma-4-31b-f16.gguf ./gemma-4-31b-q6_k.gguf q6_k
Новый инструмент exllamav2 предлагает формат EXL2, который эффективнее на NVIDIA картах. Но поддержка пока сыровата.
Пошаговый запуск: Linux и Windows за 10 минут
1 Скачиваем модель
Не качайте с random GitHub. Официальный источник — Hugging Face, но нужно принять лицензию. Альтернатива — Hugging Face Model Hub (там есть квантованные версии).
2 Собираем llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean && make LLAMA_CUDA=1 -j$(nproc)
Для Windows есть pre-built бинарники, но со сборкой под свои драйвера CUDA выигрыш в скорости до 20%.
3 Запускаем с правильными флагами
# Для RTX 3090 (24 ГБ) и модели 31B Q4_K_M
./main -m ../models/gemma-4-31b-q4_k_m.gguf \
-n 512 \
-t 10 \
-ngl 40 \
-c 8192 \
--temp 0.7 \
--repeat-penalty 1.1 \
-p "Кто написал 'Войну и мир'?"
Ключевой флаг -ngl 40 (layers to GPU). Для 31B модели всего 60 слоев. 40 на GPU, 20 на CPU — и модель влезает в 24 ГБ. Медленнее, но работает.
4 Интегрируем в Oobabooga или Open WebUI
Для регулярного использования CLI неудобен. Oobabooga (Text Generation WebUI) поддерживает GGUF из коробки. Просто укажите путь к файлу .gguf и выберите llama.cpp loader.
Сравнение: Gemma 4 против Llama 3.3, Qwen 3.5 и других
Цифры из бенчмарков скучны. Вот что я обнаружил на практике:
- Код: Gemma 4 31B генерирует более читаемый код, чем Llama 3.3 70B, но иногда пропускает edge cases. Qwen 3.5 выдает больше комментариев.
- Рассуждение: Для цепочек мыслей (chain-of-thought) Llama 3.3 все еще лидер. Но Gemma 4 делает это быстрее на том же железе.
- Мультиязычность: Qwen 3.5 вне конкуренции для азиатских языков. Gemma 4 хорошо понимает русский, но акцент явно на английский.
В свежем сравнении на 2026 год видно, что Gemma 4 выигрывает в tasks-per-dollar, особенно если использовать хитрости вроде Harness оптимизаций.
| Модель | Размер | Качество кода | Требуемая VRAM (INT4) | Токенов/с (RTX 4090) |
|---|---|---|---|---|
| Gemma 4 31B | 31B | 9/10 | ~16 ГБ | 28 |
| Llama 3.3 70B | 70B | 9.5/10 | ~40 ГБ | 12 |
| Qwen 3.5 32B | 32B | 8.5/10 | ~18 ГБ | 25 |
Вывод прост: если у вас одна видеокарта с 24 ГБ, Gemma 4 31B — лучший компромисс между качеством и скоростью. Нужен максимум качества и есть две карты — собирайте Llama 3.3 70B.
Ошибки, которые превратят ваш запуск в кошмар
Я наступил на эти грабли, чтобы вам не пришлось.
Ошибка 1: Забыть про --rocm на AMD картах. Llama.cpp поддерживает ROCm, но нужно пересобирать. И да, производительность будет ниже, чем на NVIDIA.
Ошибка 2: Скачать «оптимизированную» версию модели с GitHub, которая на самом деле содержит malware или сломанные веса. Всегда проверяйте хэши.
Ошибка 3: Использовать флаг -t (количество потоков) равным количеству ядер CPU. Для llama.cpp оптимально — физические ядра минус 2-3 для системы.
И главное: не ожидайте, что локальная 31B модель заменит GPT-5. Она другая. Иногда глупее в общих знаниях, но часто более послушная и предсказуемая.
А что на счет телефона?
Да, Gemma 4 2B в INT4 формате запускается на флагманских смартфонах 2025-2026 года. Но полезность ограничена. Полный гайд по запуску на смартфоне без интернета показывает, что это скорее proof-of-concept, чем daily driver.
Вместо заключения: куда смотреть дальше
Локальные модели развиваются не по дням, а по часам. К концу 2026 ждите появления efficient MoE архитектур, которые будут давать качество 70B моделей при размере 20B. Gemma 4 — отличная точка входа.
Начните с 7B модели на том железе, что есть. Поймите, как она работает, какие prompts дают лучшие результаты. Затем переходите к 31B, если нужна глубина.
И помните: самая дорогая ошибка — купить RTX 5090, не попробовав запустить модель на том, что уже есть под столом.