Публикация AiManual

Unsloth выпустил MTP GGUF веса для Gemma 4: инструкция по использованию и сравнение квантований

Unsloth выпустил MTP GGUF веса для Gemma 4. Как загрузить, запустить и выбрать квантование (Q8, F16, BF16). Подробное сравнение и гайд.

5 мин чтения 05.06.2026

Коротко

Что будет в материале

01
Что за зверь и с чем его едят?
02
Как скачать и запустить — за 5 минут
03
А что с качеством? Q8_0 vs F16 vs BF16
04
Кому это реально нужно?

Наконец-то свершилось. Unsloth, та самая команда, которая заставила квантизацию работать быстро и просто, выложила MTP (Multi-Token Prediction) веса для Gemma 4 в формате GGUF. Теперь не нужно собирать драфтер из двух половинок или мучиться с кастомными сборками llama.cpp. Всё уже готово: скачал, загрузил, побежал.

Если вы пропустили предыдущие статьи — рекомендую заглянуть в гайд по настройке MTP, там объяснено, почему появление готовых MTP GGUF — это облегчение жизни.

Что за зверь и с чем его едят?

Unsloth выложил на HuggingFace сразу несколько квантований для Gemma 4 (как для 27B, так и для 31B моделей). В ассортименте: Q8_0, F16, BF16, и даже Q4_K_M. Но главная фишка — именно MTP-версии, которые позволяют модели генерировать несколько токенов за один шаг, резко ускоряя инференс.

Как это выглядит на практике: обычная Gemma 4 31B выдаёт ~20 токенов/сек на RTX 4090, а с MTP — под 35. Почти двукратный прирост, и никаких танцев с бубном.

Квантование	Размер (31B)	MTP?	Токенов/сек (примерно)
BF16	~62 GB	Да	25-30
F16	~62 GB	Да	25-30
Q8_0	~35 GB	Да	35-40
Q4_K_M	~20 GB	Нет (пока)	45-50

Цифры, конечно, усреднённые и зависят от железа, но тренд ясен: Q8_0 — золотая середина между качеством и скоростью. Если у вас 24 GB VRAM — берите Q4_K_M, но без MTP. Если есть 48 GB — Q8_0 с MTP даст и скорость, и качество.

Не путайте с квантованиями от Bartowski — они тоже есть, но Unsloth оптимизирует под свой формат, и разница в скорости может достигать 10 токенов/сек в пользу Unsloth. Мы уже разбирали этот момент.

Как скачать и запустить — за 5 минут

Всё стандартно, но есть нюанс: модели лежат в репозитории Unsloth на HuggingFace. Чтобы не ошибиться, используйте huggingface-cli с правильным именем.

1 Скачиваем нужный GGUF

# Пример для MTP Q8_0
huggingface-cli download unsloth/gemma-4-31b-it-MTP-GGUF \
    --include "*Q8_0*" --local-dir ./models

Флаг --include критически важен: без него скачаете всю папку с кучей файлов. Если хотите конкретный квантизатор, укажите паттерн.

2 Запускаем через llama.cpp

Здесь никакой магии. Просто передайте файл MTP как аргумент -m. Если у вас уже собрана последняя версия llama.cpp с поддержкой MTP (а она там есть с апреля 2026), всё взлетит сразу.

./main -m models/gemma-4-31b-it-MTP-Q8_0.gguf \
       -p "Объясни квантовую запутанность за 30 секунд" \
       --mtp 1 --temp 0.7 -n 256

Флаг --mtp 1 включает многотокеновое предсказание. Без него модель будет работать как обычная Gemma 4 — медленно и грустно.

💡

Если вы впервые сталкиваетесь с MTP, прочитайте подробную инструкцию по настройке MTP — там расписаны все тонкости.

А что с качеством? Q8_0 vs F16 vs BF16

Теперь субъективщина. Я прогнал три квантизации на одном и том же промпте: генерация кода на Python. BF16 — эталон, практически неотличим от полной точности. F16 — то же самое, только чуть быстрее (на 2-3%). Q8_0 — самый быстрый, но на сложных задачах (многослойный логический вывод) начинает слегка «мычать». Для чатов и перевода — незаметно. Для написания дебажного кода — лучше брать BF16.

Однако есть нюанс: Q8_0 занимает почти в два раза меньше места. Если у вас не сервер, а домашняя станция с 32 GB RAM и картой на 24 GB — Q8_0 ваш выбор. MTP при этом даёт прирост скорости, который перекрывает потери качества в 95% случаев.

Для тех, кто хочет копнуть глубже: мы сравнивали квантования Gemma 4 по KL divergence — там наглядно видно, где качество падает, а где нет. Спойлер: Q8_0 теряет менее 1% информации.

Кому это реально нужно?

Если вы разрабатываете локального ассистента, чат-бота с длинным контекстом или просто хотите запустить Gemma 4 на своем ноутбуке без облачных счетов — MTP GGUF от Unsloth это best-in-class решение. Но есть и ложка дёгтя: MTP работает только на последних версиях llama.cpp и не поддерживается в ollama (пока). Так что придётся немного покопаться в терминале.

Ещё момент: Unsloth не выпустил MTP-веса для 27B модели Q4_K_M. Если у вас дефицит памяти — присмотритесь к TurboQuant для Gemma 4, там KV-сжатие 3-bit, и модель влезает даже в 12 GB.

Итоговая рекомендация (без занудства)

Берите Q8_0 MTP, если у вас 24+ GB VRAM. Если 48 GB — можно BF16 для максимального качества. И не забывайте про --mtp 1, иначе зачем вы вообще качали эти веса? Unsloth сделал самую сложную часть: адаптировал MTP для GGUF. Ваша задача — просто вовремя обновить llama.cpp.

P.S. В ближайшие недели ждите появления MTP-версий для Qwen 3 и Llama 4. Unsloth явно взяли курс на унификацию. А пока — качайте, тестируйте, пишите свои впечатления в комментариях к полному гайду по Gemma 4.

Подписаться на канал