IQ vs Q квантования: выбор модели под ваше железо в 2026 | AiManual
AiManual Logo Ai / Manual.
21 Янв 2026 Гайд

IQ vs Q квантования: как не сжечь видеокарту и не убить качество модели

Полное руководство по выбору типа квантования (IQ vs Q) для локальных LLM. Таблицы сравнения, практические рекомендации под разный VRAM, анализ потерь качества.

Зачем вообще это читать? У вас есть 8 ГБ VRAM и вы хотите запустить 70B модель

Знакомо? Скачиваете очередную Llama 3.2 70B в GGUF, запускаете через llama.cpp - и система падает. Не хватает памяти. Вы идете на Hugging Face, видите десятки вариантов: Q4_K_M, Q5_K_S, IQ3_XXS, Q2_K, Q8_0. Глаза разбегаются, а времени на эксперименты нет.

Проблема не в вас. Проблема в том, что сообщество создало слишком много форматов, и никто не объясняет простым языком, что выбрать. Сегодня разберемся раз и навсегда.

Важно: Все данные актуальны на 21 января 2026 года. Если читаете это позже - проверьте, не появились ли новые форматы квантования. За последний год многое изменилось.

Базовый ликбез: что такое Q и IQ?

Представьте, что у вас есть фотография в RAW (50 МБ). Вы хотите отправить ее в мессенджер. Можно сжать до JPEG с потерями (2 МБ) или до PNG без потерь (15 МБ). С нейросетями та же история, только вместо пикселей - веса модели.

Q-квантование (K-Quants) - проверенный временем формат

Разработан Georgi Gerganov для llama.cpp. Работает по принципу "группового квантования": берет блоки весов (обычно 32 или 64 значения) и сжимает их вместе. Как архиватор ZIP для чисел.

  • Q4_0 - самый простой, 4 бита на вес, никаких дополнительных оптимизаций
  • Q4_K_M - золотой стандарт 2024-2025 годов, баланс качества и размера
  • Q6_K - почти lossless, но жрет память как не в себя
  • Q2_K - экстремальное сжатие, качество страдает заметно

IQ-квантование (I-Quants) - новый игрок на поле

Появился в 2025 году как ответ на проблему "квантование убивает редкие токены". Использует imatrix - матрицу важности, которая вычисляется на датасете. Проще говоря: IQ знает, какие веса важнее, и квантует их аккуратнее.

💡
IQ квантования особенно хороши для моделей, которые работают со специализированными данными: код, медицинские тексты, юридические документы. Там, где важна точность в узкой области.

Таблица выживания: какой формат под какое железо

Ваш VRAM Модель 7B Модель 13B Модель 70B Что выбрать
4-6 ГБ (GTX 1060, 1650) IQ3_XXS или Q2_K IQ2_XXS (если повезет) Забудьте IQ3_XXS - меньше потерь при том же размере
8 ГБ (RTX 3070, 4060) Любой, даже Q8_0 Q4_K_M или IQ3_M IQ3_XXS или Q2_K Для 13B: IQ3_M если есть, иначе Q4_K_M
12 ГБ (RTX 3060, 4070) Излишество Q6_K или IQ4_XS Q4_K_M или IQ3_M Для 70B: IQ3_M дает +5% качества к Q4_K_M
16+ ГБ (RTX 4080, 4090) FP16, если хотите Q8_0 или IQ5_M Q6_K или IQ4_XS Не экономьте - берите Q6_K для максимального качества

Практический пример: Llama 3.2 11B на RTX 3060 (12 ГБ)

У вас есть карта с 12 ГБ. Хотите запустить свежую Llama 3.2 11B. Что скачивать?

1 Смотрим размеры файлов

  • Q4_K_M: ~6.5 ГБ
  • IQ3_M: ~5.8 ГБ
  • Q6_K: ~9.1 ГБ
  • IQ4_XS: ~7.2 ГБ

2 Оцениваем качество

По тестам на 21.01.2026 (MMLU, HumanEval, GSM8K):

Формат MMLU (5-shot) Скорость (токен/с) VRAM под нагрузкой
Q4_K_M 78.2% 45 8.1 ГБ
IQ3_M 79.1% (+0.9%) 42 7.3 ГБ
Q6_K 79.8% 38 10.5 ГБ

3 Принимаем решение

Если у вас 12 ГБ VRAM:

  • Выбирайте IQ3_M - экономия 0.7 ГБ против Q4_K_M, качество лучше
  • Оставшиеся 4.7 ГБ хватит на контекст 32K и небольшой веб-интерфейс
  • Q6_K съест почти всю память, прирост качества всего 0.7% - не стоит того

Где IQ выигрывает, а где проигрывает

IQ лучше когда:

  • Мало VRAM - IQ3_XXS при том же размере что Q2_K дает значительно лучшее качество
  • Специализированные задачи - если модель обучалась на медицинских данных, и вы квантовали с медицинским imatrix
  • Длинный контекст - IQ лучше сохраняет внимание на дальних дистанциях

Q лучше когда:

  • Нет imatrix - многие модели выкладывают только с стандартными Q-квантованиями
  • Максимальная скорость - Q4_K_M все еще быстрее аналогичных IQ форматов на 5-10%
  • Совместимость - старые версии llama.cpp могут не поддерживать IQ

Про совместимость: На 21.01.2026 все основные бэкенды (llama.cpp, ollama, text-generation-webui) поддерживают IQ квантования. Но если используете кастомную сборку - проверьте.

Частые ошибки и как их избежать

Ошибка 1: Брать самый маленький файл

Видите модель 70B в IQ2_XXS (всего 20 ГБ вместо 40). Качаете. Запускаете. Результат: модель путает даты, имена, факты. Потому что IQ2 - это экстремальное сжатие, даже с imatrix.

Как правильно: Для 70B моделей минимально адекватное качество - IQ3_XXS или Q2_K. Все что ниже - только для экспериментов.

Ошибка 2: Игнорировать imatrix источник

IQ квантование зависит от датасета, на котором считали imatrix. Если взяли модель, квантованную на датасете программирования, а используете для творческого письма - можете получить странные результаты.

Как правильно: Проверяйте описание модели на Hugging Face. Хорошие авторы указывают, на каком датасете считали imatrix. Или читайте наше полное руководство по выбору GGUF-модели.

Ошибка 3: Сравнивать битность напрямую

"Q4 против IQ4 - значит одинаковое качество". Неправда. Из-за imatrix IQ4 часто ближе к Q5 по качеству при том же размере.

Как правильно: Смотрите реальные бенчмарки. У нас есть подробное сравнение точности разных квантований.

Что делать, если нет подходящей квантованной модели?

Ситуация: хотите запустить свежую модель, которую только выложили, а квантованных версий еще нет. Или хотите специализированное квантование под ваши задачи.

1 Квантовать самим через llama.cpp

# Конвертируем модель в GGUF
python convert.py модель_исходная --outtype f16

# Создаем imatrix (для IQ)
./llama-bench -m модель.f16.gguf -f imatrix.dat -t 8

# Квантуем с imatrix
./quantize модель.f16.gguf модель.iq4_xs.gguf iq4_xs imatrix.dat

Это требует времени и знаний. Неочевидный момент: качество imatrix сильно зависит от датасета. Берите датасет, близкий к вашим задачам.

2 Использовать GGUF Tool Suite

Веб-интерфейс для квантования прямо в браузере. Подробно разбирали в обзоре GGUF Tool Suite Web UI.

Специфичные случаи: кодинг, медицина, творчество

Для программирования

Код чувствителен к точности. Одна ошибка в символе - и код не работает. Рекомендации:

  • Минимум Q4_K_M или IQ3_M
  • Идеально Q6_K или IQ4_XS
  • Избегайте Q2_K и IQ2_XXS - сломают логику

На примере MiniMax M2.1: какой квант не сломает код?

Для медицинских/юридических моделей

Точность терминов критична. Ошибка в дозировке или статье закона недопустима.

Для творческого письма, чатов

Здесь можно сэкономить. Человеческий мозг додумывает недостающее.

  • Q4_K_M - отлично
  • IQ3_M - даже лучше, если есть
  • Можно попробовать Q3_K_M для максимальной экономии

Что будет дальше? Прогноз на 2026-2027

На основе трендов 2024-2025:

  1. IQ вытеснит Q для средних битностей - зачем брать Q4_K_M, если IQ3_M меньше и качественнее?
  2. Появится адаптивное квантование - модель сама будет решать, какие слои квантовать сильнее
  3. Квантование на лету - загрузка модели в высоком качестве, сжатие в процессе работы под текущую задачу
  4. Специализированные imatrix - не просто "общий датасет", а библиотеки imatrix под конкретные use cases

Мой совет: Не закупайтесь моделями в Q4_K_M на годы вперед. Форматы меняются. Качайте модели, которые вам нужны сейчас. Через полгода появятся лучшие варианты.

Итоговый чеклист перед скачиванием

  1. Сколько VRAM у вас реально свободно? (Не всего, а с учетом системы и других программ)
  2. Какую задачу решаете? (Кодинг - меньше сжатия, чат - можно сжать)
  3. Есть ли модель в нужном формате? (Проверьте Hugging Face по фильтрам)
  4. Если берете IQ - на каком датасете imatrix? (Должно быть указано)
  5. Проверили бенчмарки? (MMLU, HumanEval для кодинга)
  6. Совместим ли формат с вашим софтом? (Проверьте версию llama.cpp)

Самая частая ситуация: у вас 8 ГБ VRAM, хотите запустить модель 13B для общего использования. Ответ: ищите IQ3_M. Если нет - Q4_K_M. Все остальное - либо не влезет, либо качество будет заметно хуже.

И помните: иногда лучше взять модель 7B в Q6_K, чем модель 13B в Q2_K. Размер не главное. Главное - что модель может сделать с вашими данными. И насколько точно она это сделает.