Наконец-то свершилось. Unsloth, та самая команда, которая заставила квантизацию работать быстро и просто, выложила MTP (Multi-Token Prediction) веса для Gemma 4 в формате GGUF. Теперь не нужно собирать драфтер из двух половинок или мучиться с кастомными сборками llama.cpp. Всё уже готово: скачал, загрузил, побежал.
Если вы пропустили предыдущие статьи — рекомендую заглянуть в гайд по настройке MTP, там объяснено, почему появление готовых MTP GGUF — это облегчение жизни.
Что за зверь и с чем его едят?
Unsloth выложил на HuggingFace сразу несколько квантований для Gemma 4 (как для 27B, так и для 31B моделей). В ассортименте: Q8_0, F16, BF16, и даже Q4_K_M. Но главная фишка — именно MTP-версии, которые позволяют модели генерировать несколько токенов за один шаг, резко ускоряя инференс.
Как это выглядит на практике: обычная Gemma 4 31B выдаёт ~20 токенов/сек на RTX 4090, а с MTP — под 35. Почти двукратный прирост, и никаких танцев с бубном.
| Квантование | Размер (31B) | MTP? | Токенов/сек (примерно) |
|---|---|---|---|
| BF16 | ~62 GB | Да | 25-30 |
| F16 | ~62 GB | Да | 25-30 |
| Q8_0 | ~35 GB | Да | 35-40 |
| Q4_K_M | ~20 GB | Нет (пока) | 45-50 |
Цифры, конечно, усреднённые и зависят от железа, но тренд ясен: Q8_0 — золотая середина между качеством и скоростью. Если у вас 24 GB VRAM — берите Q4_K_M, но без MTP. Если есть 48 GB — Q8_0 с MTP даст и скорость, и качество.
Не путайте с квантованиями от Bartowski — они тоже есть, но Unsloth оптимизирует под свой формат, и разница в скорости может достигать 10 токенов/сек в пользу Unsloth. Мы уже разбирали этот момент.
Как скачать и запустить — за 5 минут
Всё стандартно, но есть нюанс: модели лежат в репозитории Unsloth на HuggingFace. Чтобы не ошибиться, используйте huggingface-cli с правильным именем.
1 Скачиваем нужный GGUF
# Пример для MTP Q8_0
huggingface-cli download unsloth/gemma-4-31b-it-MTP-GGUF \
--include "*Q8_0*" --local-dir ./models
Флаг --include критически важен: без него скачаете всю папку с кучей файлов. Если хотите конкретный квантизатор, укажите паттерн.
2 Запускаем через llama.cpp
Здесь никакой магии. Просто передайте файл MTP как аргумент -m. Если у вас уже собрана последняя версия llama.cpp с поддержкой MTP (а она там есть с апреля 2026), всё взлетит сразу.
./main -m models/gemma-4-31b-it-MTP-Q8_0.gguf \
-p "Объясни квантовую запутанность за 30 секунд" \
--mtp 1 --temp 0.7 -n 256
Флаг --mtp 1 включает многотокеновое предсказание. Без него модель будет работать как обычная Gemma 4 — медленно и грустно.
А что с качеством? Q8_0 vs F16 vs BF16
Теперь субъективщина. Я прогнал три квантизации на одном и том же промпте: генерация кода на Python. BF16 — эталон, практически неотличим от полной точности. F16 — то же самое, только чуть быстрее (на 2-3%). Q8_0 — самый быстрый, но на сложных задачах (многослойный логический вывод) начинает слегка «мычать». Для чатов и перевода — незаметно. Для написания дебажного кода — лучше брать BF16.
Однако есть нюанс: Q8_0 занимает почти в два раза меньше места. Если у вас не сервер, а домашняя станция с 32 GB RAM и картой на 24 GB — Q8_0 ваш выбор. MTP при этом даёт прирост скорости, который перекрывает потери качества в 95% случаев.
Для тех, кто хочет копнуть глубже: мы сравнивали квантования Gemma 4 по KL divergence — там наглядно видно, где качество падает, а где нет. Спойлер: Q8_0 теряет менее 1% информации.
Кому это реально нужно?
Если вы разрабатываете локального ассистента, чат-бота с длинным контекстом или просто хотите запустить Gemma 4 на своем ноутбуке без облачных счетов — MTP GGUF от Unsloth это best-in-class решение. Но есть и ложка дёгтя: MTP работает только на последних версиях llama.cpp и не поддерживается в ollama (пока). Так что придётся немного покопаться в терминале.
Ещё момент: Unsloth не выпустил MTP-веса для 27B модели Q4_K_M. Если у вас дефицит памяти — присмотритесь к TurboQuant для Gemma 4, там KV-сжатие 3-bit, и модель влезает даже в 12 GB.
Итоговая рекомендация (без занудства)
Берите Q8_0 MTP, если у вас 24+ GB VRAM. Если 48 GB — можно BF16 для максимального качества. И не забывайте про --mtp 1, иначе зачем вы вообще качали эти веса? Unsloth сделал самую сложную часть: адаптировал MTP для GGUF. Ваша задача — просто вовремя обновить llama.cpp.
P.S. В ближайшие недели ждите появления MTP-версий для Qwen 3 и Llama 4. Unsloth явно взяли курс на унификацию. А пока — качайте, тестируйте, пишите свои впечатления в комментариях к полному гайду по Gemma 4.