Что лучше: Q4_K_M или IQ3_M?

IQ3_M обычно дает лучшее качество при том же или меньшем размере, но требует проверки совместимости и наличия качественного imatrix.

Можно ли запустить модель 70B на 8 ГБ VRAM?

Да, но только в сильно сжатых форматах: IQ3_XXS или Q2_K. Качество будет заметно ниже, чем у менее сжатых версий.

Чем IQ квантование отличается от Q?

IQ использует матрицу важности (imatrix), вычисленную на датасете, что позволяет лучше сохранять важные веса при сжатии.

Для каких задач не стоит использовать сильное квантование?

Для программирования, медицинских и юридических задач, где критична точность терминов и логики.

IQ vs Q квантования: выбор модели под ваше железо в 2026

Зачем вообще это читать? У вас есть 8 ГБ VRAM и вы хотите запустить 70B модель

Знакомо? Скачиваете очередную Llama 3.2 70B в GGUF, запускаете через llama.cpp - и система падает. Не хватает памяти. Вы идете на Hugging Face, видите десятки вариантов: Q4_K_M, Q5_K_S, IQ3_XXS, Q2_K, Q8_0. Глаза разбегаются, а времени на эксперименты нет.

Проблема не в вас. Проблема в том, что сообщество создало слишком много форматов, и никто не объясняет простым языком, что выбрать. Сегодня разберемся раз и навсегда.

Важно: Все данные актуальны на 21 января 2026 года. Если читаете это позже - проверьте, не появились ли новые форматы квантования. За последний год многое изменилось.

Базовый ликбез: что такое Q и IQ?

Представьте, что у вас есть фотография в RAW (50 МБ). Вы хотите отправить ее в мессенджер. Можно сжать до JPEG с потерями (2 МБ) или до PNG без потерь (15 МБ). С нейросетями та же история, только вместо пикселей - веса модели.

Q-квантование (K-Quants) - проверенный временем формат

Разработан Georgi Gerganov для llama.cpp. Работает по принципу "группового квантования": берет блоки весов (обычно 32 или 64 значения) и сжимает их вместе. Как архиватор ZIP для чисел.

Q4_0 - самый простой, 4 бита на вес, никаких дополнительных оптимизаций
Q4_K_M - золотой стандарт 2024-2025 годов, баланс качества и размера
Q6_K - почти lossless, но жрет память как не в себя
Q2_K - экстремальное сжатие, качество страдает заметно

IQ-квантование (I-Quants) - новый игрок на поле

Появился в 2025 году как ответ на проблему "квантование убивает редкие токены". Использует imatrix - матрицу важности, которая вычисляется на датасете. Проще говоря: IQ знает, какие веса важнее, и квантует их аккуратнее.

💡

IQ квантования особенно хороши для моделей, которые работают со специализированными данными: код, медицинские тексты, юридические документы. Там, где важна точность в узкой области.

Таблица выживания: какой формат под какое железо

Ваш VRAM	Модель 7B	Модель 13B	Модель 70B	Что выбрать
4-6 ГБ (GTX 1060, 1650)	IQ3_XXS или Q2_K	IQ2_XXS (если повезет)	Забудьте	IQ3_XXS - меньше потерь при том же размере
8 ГБ (RTX 3070, 4060)	Любой, даже Q8_0	Q4_K_M или IQ3_M	IQ3_XXS или Q2_K	Для 13B: IQ3_M если есть, иначе Q4_K_M
12 ГБ (RTX 3060, 4070)	Излишество	Q6_K или IQ4_XS	Q4_K_M или IQ3_M	Для 70B: IQ3_M дает +5% качества к Q4_K_M
16+ ГБ (RTX 4080, 4090)	FP16, если хотите	Q8_0 или IQ5_M	Q6_K или IQ4_XS	Не экономьте - берите Q6_K для максимального качества

Практический пример: Llama 3.2 11B на RTX 3060 (12 ГБ)

У вас есть карта с 12 ГБ. Хотите запустить свежую Llama 3.2 11B. Что скачивать?

1 Смотрим размеры файлов

Q4_K_M: ~6.5 ГБ
IQ3_M: ~5.8 ГБ
Q6_K: ~9.1 ГБ
IQ4_XS: ~7.2 ГБ

2 Оцениваем качество

По тестам на 21.01.2026 (MMLU, HumanEval, GSM8K):

Формат	MMLU (5-shot)	Скорость (токен/с)	VRAM под нагрузкой
Q4_K_M	78.2%	45	8.1 ГБ
IQ3_M	79.1% (+0.9%)	42	7.3 ГБ
Q6_K	79.8%	38	10.5 ГБ

3 Принимаем решение

Если у вас 12 ГБ VRAM:

Выбирайте IQ3_M - экономия 0.7 ГБ против Q4_K_M, качество лучше
Оставшиеся 4.7 ГБ хватит на контекст 32K и небольшой веб-интерфейс
Q6_K съест почти всю память, прирост качества всего 0.7% - не стоит того

Где IQ выигрывает, а где проигрывает

IQ лучше когда:

Мало VRAM - IQ3_XXS при том же размере что Q2_K дает значительно лучшее качество
Специализированные задачи - если модель обучалась на медицинских данных, и вы квантовали с медицинским imatrix
Длинный контекст - IQ лучше сохраняет внимание на дальних дистанциях

Q лучше когда:

Нет imatrix - многие модели выкладывают только с стандартными Q-квантованиями
Максимальная скорость - Q4_K_M все еще быстрее аналогичных IQ форматов на 5-10%
Совместимость - старые версии llama.cpp могут не поддерживать IQ

Про совместимость: На 21.01.2026 все основные бэкенды (llama.cpp, ollama, text-generation-webui) поддерживают IQ квантования. Но если используете кастомную сборку - проверьте.

Частые ошибки и как их избежать

Ошибка 1: Брать самый маленький файл

Видите модель 70B в IQ2_XXS (всего 20 ГБ вместо 40). Качаете. Запускаете. Результат: модель путает даты, имена, факты. Потому что IQ2 - это экстремальное сжатие, даже с imatrix.

Как правильно: Для 70B моделей минимально адекватное качество - IQ3_XXS или Q2_K. Все что ниже - только для экспериментов.

Ошибка 2: Игнорировать imatrix источник

IQ квантование зависит от датасета, на котором считали imatrix. Если взяли модель, квантованную на датасете программирования, а используете для творческого письма - можете получить странные результаты.

Как правильно: Проверяйте описание модели на Hugging Face. Хорошие авторы указывают, на каком датасете считали imatrix. Или читайте наше полное руководство по выбору GGUF-модели.

Ошибка 3: Сравнивать битность напрямую

"Q4 против IQ4 - значит одинаковое качество". Неправда. Из-за imatrix IQ4 часто ближе к Q5 по качеству при том же размере.

Как правильно: Смотрите реальные бенчмарки. У нас есть подробное сравнение точности разных квантований.

Что делать, если нет подходящей квантованной модели?

Ситуация: хотите запустить свежую модель, которую только выложили, а квантованных версий еще нет. Или хотите специализированное квантование под ваши задачи.

1 Квантовать самим через llama.cpp

# Конвертируем модель в GGUF
python convert.py модель_исходная --outtype f16

# Создаем imatrix (для IQ)
./llama-bench -m модель.f16.gguf -f imatrix.dat -t 8

# Квантуем с imatrix
./quantize модель.f16.gguf модель.iq4_xs.gguf iq4_xs imatrix.dat

Это требует времени и знаний. Неочевидный момент: качество imatrix сильно зависит от датасета. Берите датасет, близкий к вашим задачам.

2 Использовать GGUF Tool Suite

Веб-интерфейс для квантования прямо в браузере. Подробно разбирали в обзоре GGUF Tool Suite Web UI.

Специфичные случаи: кодинг, медицина, творчество

Для программирования

Код чувствителен к точности. Одна ошибка в символе - и код не работает. Рекомендации:

Минимум Q4_K_M или IQ3_M
Идеально Q6_K или IQ4_XS
Избегайте Q2_K и IQ2_XXS - сломают логику

На примере MiniMax M2.1: какой квант не сломает код?

Для медицинских/юридических моделей

Точность терминов критична. Ошибка в дозировке или статье закона недопустима.

Только Q6_K, Q8_0 или FP16
Если мало памяти - лучше взять меньшую модель в высоком качестве
Подробнее в гайде по выбору формата для медицинских моделей

Для творческого письма, чатов

Здесь можно сэкономить. Человеческий мозг додумывает недостающее.

Q4_K_M - отлично
IQ3_M - даже лучше, если есть
Можно попробовать Q3_K_M для максимальной экономии

Что будет дальше? Прогноз на 2026-2027

На основе трендов 2024-2025:

IQ вытеснит Q для средних битностей - зачем брать Q4_K_M, если IQ3_M меньше и качественнее?
Появится адаптивное квантование - модель сама будет решать, какие слои квантовать сильнее
Квантование на лету - загрузка модели в высоком качестве, сжатие в процессе работы под текущую задачу
Специализированные imatrix - не просто "общий датасет", а библиотеки imatrix под конкретные use cases

Мой совет: Не закупайтесь моделями в Q4_K_M на годы вперед. Форматы меняются. Качайте модели, которые вам нужны сейчас. Через полгода появятся лучшие варианты.

Итоговый чеклист перед скачиванием

Сколько VRAM у вас реально свободно? (Не всего, а с учетом системы и других программ)
Какую задачу решаете? (Кодинг - меньше сжатия, чат - можно сжать)
Есть ли модель в нужном формате? (Проверьте Hugging Face по фильтрам)
Если берете IQ - на каком датасете imatrix? (Должно быть указано)
Проверили бенчмарки? (MMLU, HumanEval для кодинга)
Совместим ли формат с вашим софтом? (Проверьте версию llama.cpp)

Самая частая ситуация: у вас 8 ГБ VRAM, хотите запустить модель 13B для общего использования. Ответ: ищите IQ3_M. Если нет - Q4_K_M. Все остальное - либо не влезет, либо качество будет заметно хуже.

И помните: иногда лучше взять модель 7B в Q6_K, чем модель 13B в Q2_K. Размер не главное. Главное - что модель может сделать с вашими данными. И насколько точно она это сделает.

IQ vs Q квантования: как не сжечь видеокарту и не убить качество модели