Зачем вообще это читать? У вас есть 8 ГБ VRAM и вы хотите запустить 70B модель
Знакомо? Скачиваете очередную Llama 3.2 70B в GGUF, запускаете через llama.cpp - и система падает. Не хватает памяти. Вы идете на Hugging Face, видите десятки вариантов: Q4_K_M, Q5_K_S, IQ3_XXS, Q2_K, Q8_0. Глаза разбегаются, а времени на эксперименты нет.
Проблема не в вас. Проблема в том, что сообщество создало слишком много форматов, и никто не объясняет простым языком, что выбрать. Сегодня разберемся раз и навсегда.
Важно: Все данные актуальны на 21 января 2026 года. Если читаете это позже - проверьте, не появились ли новые форматы квантования. За последний год многое изменилось.
Базовый ликбез: что такое Q и IQ?
Представьте, что у вас есть фотография в RAW (50 МБ). Вы хотите отправить ее в мессенджер. Можно сжать до JPEG с потерями (2 МБ) или до PNG без потерь (15 МБ). С нейросетями та же история, только вместо пикселей - веса модели.
Q-квантование (K-Quants) - проверенный временем формат
Разработан Georgi Gerganov для llama.cpp. Работает по принципу "группового квантования": берет блоки весов (обычно 32 или 64 значения) и сжимает их вместе. Как архиватор ZIP для чисел.
- Q4_0 - самый простой, 4 бита на вес, никаких дополнительных оптимизаций
- Q4_K_M - золотой стандарт 2024-2025 годов, баланс качества и размера
- Q6_K - почти lossless, но жрет память как не в себя
- Q2_K - экстремальное сжатие, качество страдает заметно
IQ-квантование (I-Quants) - новый игрок на поле
Появился в 2025 году как ответ на проблему "квантование убивает редкие токены". Использует imatrix - матрицу важности, которая вычисляется на датасете. Проще говоря: IQ знает, какие веса важнее, и квантует их аккуратнее.
Таблица выживания: какой формат под какое железо
| Ваш VRAM | Модель 7B | Модель 13B | Модель 70B | Что выбрать |
|---|---|---|---|---|
| 4-6 ГБ (GTX 1060, 1650) | IQ3_XXS или Q2_K | IQ2_XXS (если повезет) | Забудьте | IQ3_XXS - меньше потерь при том же размере |
| 8 ГБ (RTX 3070, 4060) | Любой, даже Q8_0 | Q4_K_M или IQ3_M | IQ3_XXS или Q2_K | Для 13B: IQ3_M если есть, иначе Q4_K_M |
| 12 ГБ (RTX 3060, 4070) | Излишество | Q6_K или IQ4_XS | Q4_K_M или IQ3_M | Для 70B: IQ3_M дает +5% качества к Q4_K_M |
| 16+ ГБ (RTX 4080, 4090) | FP16, если хотите | Q8_0 или IQ5_M | Q6_K или IQ4_XS | Не экономьте - берите Q6_K для максимального качества |
Практический пример: Llama 3.2 11B на RTX 3060 (12 ГБ)
У вас есть карта с 12 ГБ. Хотите запустить свежую Llama 3.2 11B. Что скачивать?
1 Смотрим размеры файлов
- Q4_K_M: ~6.5 ГБ
- IQ3_M: ~5.8 ГБ
- Q6_K: ~9.1 ГБ
- IQ4_XS: ~7.2 ГБ
2 Оцениваем качество
По тестам на 21.01.2026 (MMLU, HumanEval, GSM8K):
| Формат | MMLU (5-shot) | Скорость (токен/с) | VRAM под нагрузкой |
|---|---|---|---|
| Q4_K_M | 78.2% | 45 | 8.1 ГБ |
| IQ3_M | 79.1% (+0.9%) | 42 | 7.3 ГБ |
| Q6_K | 79.8% | 38 | 10.5 ГБ |
3 Принимаем решение
Если у вас 12 ГБ VRAM:
- Выбирайте IQ3_M - экономия 0.7 ГБ против Q4_K_M, качество лучше
- Оставшиеся 4.7 ГБ хватит на контекст 32K и небольшой веб-интерфейс
- Q6_K съест почти всю память, прирост качества всего 0.7% - не стоит того
Где IQ выигрывает, а где проигрывает
IQ лучше когда:
- Мало VRAM - IQ3_XXS при том же размере что Q2_K дает значительно лучшее качество
- Специализированные задачи - если модель обучалась на медицинских данных, и вы квантовали с медицинским imatrix
- Длинный контекст - IQ лучше сохраняет внимание на дальних дистанциях
Q лучше когда:
- Нет imatrix - многие модели выкладывают только с стандартными Q-квантованиями
- Максимальная скорость - Q4_K_M все еще быстрее аналогичных IQ форматов на 5-10%
- Совместимость - старые версии llama.cpp могут не поддерживать IQ
Про совместимость: На 21.01.2026 все основные бэкенды (llama.cpp, ollama, text-generation-webui) поддерживают IQ квантования. Но если используете кастомную сборку - проверьте.
Частые ошибки и как их избежать
Ошибка 1: Брать самый маленький файл
Видите модель 70B в IQ2_XXS (всего 20 ГБ вместо 40). Качаете. Запускаете. Результат: модель путает даты, имена, факты. Потому что IQ2 - это экстремальное сжатие, даже с imatrix.
Как правильно: Для 70B моделей минимально адекватное качество - IQ3_XXS или Q2_K. Все что ниже - только для экспериментов.
Ошибка 2: Игнорировать imatrix источник
IQ квантование зависит от датасета, на котором считали imatrix. Если взяли модель, квантованную на датасете программирования, а используете для творческого письма - можете получить странные результаты.
Как правильно: Проверяйте описание модели на Hugging Face. Хорошие авторы указывают, на каком датасете считали imatrix. Или читайте наше полное руководство по выбору GGUF-модели.
Ошибка 3: Сравнивать битность напрямую
"Q4 против IQ4 - значит одинаковое качество". Неправда. Из-за imatrix IQ4 часто ближе к Q5 по качеству при том же размере.
Как правильно: Смотрите реальные бенчмарки. У нас есть подробное сравнение точности разных квантований.
Что делать, если нет подходящей квантованной модели?
Ситуация: хотите запустить свежую модель, которую только выложили, а квантованных версий еще нет. Или хотите специализированное квантование под ваши задачи.
1 Квантовать самим через llama.cpp
# Конвертируем модель в GGUF
python convert.py модель_исходная --outtype f16
# Создаем imatrix (для IQ)
./llama-bench -m модель.f16.gguf -f imatrix.dat -t 8
# Квантуем с imatrix
./quantize модель.f16.gguf модель.iq4_xs.gguf iq4_xs imatrix.dat
Это требует времени и знаний. Неочевидный момент: качество imatrix сильно зависит от датасета. Берите датасет, близкий к вашим задачам.
2 Использовать GGUF Tool Suite
Веб-интерфейс для квантования прямо в браузере. Подробно разбирали в обзоре GGUF Tool Suite Web UI.
Специфичные случаи: кодинг, медицина, творчество
Для программирования
Код чувствителен к точности. Одна ошибка в символе - и код не работает. Рекомендации:
- Минимум Q4_K_M или IQ3_M
- Идеально Q6_K или IQ4_XS
- Избегайте Q2_K и IQ2_XXS - сломают логику
На примере MiniMax M2.1: какой квант не сломает код?
Для медицинских/юридических моделей
Точность терминов критична. Ошибка в дозировке или статье закона недопустима.
- Только Q6_K, Q8_0 или FP16
- Если мало памяти - лучше взять меньшую модель в высоком качестве
- Подробнее в гайде по выбору формата для медицинских моделей
Для творческого письма, чатов
Здесь можно сэкономить. Человеческий мозг додумывает недостающее.
- Q4_K_M - отлично
- IQ3_M - даже лучше, если есть
- Можно попробовать Q3_K_M для максимальной экономии
Что будет дальше? Прогноз на 2026-2027
На основе трендов 2024-2025:
- IQ вытеснит Q для средних битностей - зачем брать Q4_K_M, если IQ3_M меньше и качественнее?
- Появится адаптивное квантование - модель сама будет решать, какие слои квантовать сильнее
- Квантование на лету - загрузка модели в высоком качестве, сжатие в процессе работы под текущую задачу
- Специализированные imatrix - не просто "общий датасет", а библиотеки imatrix под конкретные use cases
Мой совет: Не закупайтесь моделями в Q4_K_M на годы вперед. Форматы меняются. Качайте модели, которые вам нужны сейчас. Через полгода появятся лучшие варианты.
Итоговый чеклист перед скачиванием
- Сколько VRAM у вас реально свободно? (Не всего, а с учетом системы и других программ)
- Какую задачу решаете? (Кодинг - меньше сжатия, чат - можно сжать)
- Есть ли модель в нужном формате? (Проверьте Hugging Face по фильтрам)
- Если берете IQ - на каком датасете imatrix? (Должно быть указано)
- Проверили бенчмарки? (MMLU, HumanEval для кодинга)
- Совместим ли формат с вашим софтом? (Проверьте версию llama.cpp)
Самая частая ситуация: у вас 8 ГБ VRAM, хотите запустить модель 13B для общего использования. Ответ: ищите IQ3_M. Если нет - Q4_K_M. Все остальное - либо не влезет, либо качество будет заметно хуже.
И помните: иногда лучше взять модель 7B в Q6_K, чем модель 13B в Q2_K. Размер не главное. Главное - что модель может сделать с вашими данными. И насколько точно она это сделает.