Когда меньше битов - больше смысла: парадокс Unsolth Q3

Логика подсказывает: чем больше битов, тем точнее модель. Q4 (4 бита) должна быть лучше Q3 (3 бита). Всегда. Но бенчмарки на моделях типа GLM-4.7, Llama 3.2 и Qwen2.5 в 2026 году показывают странные вещи. Иногда Q3_K_M или Q3_K_XL от Unsloth бьет Q4_K_M на сложных задачах рассуждения. Не на 1-2%, а на 5-7%. Это не ошибка измерения. Это динамическое квантование.

Внимание: если вы автоматически выбираете Q4 для всех моделей потому что "четыре больше трех", вы теряете производительность и память. Динамическое квантование переписывает правила игры.

1 Сломанная интуиция: как Q3 обгоняет Q4 в реальных тестах

Возьмите свежий бенчмарк на модели GLM-4.7-14B от февраля 2026. Задачи MMLU Pro, BigBench Hard, кодогенерация. Статичное Q4_K_M показывает 68.4 балла. Динамическое Q3_K_XL от Unsloth - 72.1. Разрыв в 3.7 пункта при экономии 25% памяти. Звучит как магия? Это просто математика.

Модель	Квантование	MMLU Pro	Память (GB)	Токен/с
GLM-4.7-14B	Q4_K_M (статика)	68.4	8.9	42.1
GLM-4.7-14B	Q3_K_XL (Unsloth)	72.1	6.7	48.3
Qwen2.5-32B	Q4_K_S	75.2	18.2	28.4
Qwen2.5-32B	Q3_K_M (Unsloth)	76.8	13.6	35.7

Почему это работает? Потому что статичное квантование распределяет биты тупо: каждый вес получает фиксированное количество бит. Важный вес с значением 0.873 и мусорный вес 0.002 получают одинаково - 4 бита. Динамическое квантование Unsloth смотрит на распределение весов в каждом тензоре и решает: этому весу нужно 5 бит, этому хватит 2, а этот можно вообще отправить в 1 бит. Среднее - 3 бита, но информационная емкость выше.

2 Механика динамического квантования: не биты, а их распределение

Unsloth Dynamic Quantization (UDQ) работает в три этапа. Забудьте про simple quantization - это 1990-е. Современное квантование в 2026 - это адаптивная система.

Анализ чувствительности слоев: Attention layers получают больше бит, FFN layers - меньше. Unsloth 2026 анализирует градиенты во время калибровки, определяя какие слои "кричат" о точности.
Динамическое битрейт-распределение: Внутри одного тензора веса сортируются по абсолютному значению. Верхние 15% (критические) получают +1-2 бита сверх базового уровня. Нижние 30% (шум) ужимаются до 1-2 бит.
Адаптивная группировка: Вместо фиксированных групп по 32 веса (как в GGUF) - размер группы меняется от 16 до 64 в зависимости от дисперсии значений. Низкая дисперсия - большая группа, высокая дисперсия - маленькая группа для точности.

💡

Это похоже на сжатие MP3 для нейросетей: где-то жмем сильно (басы-шум), где-то оставляем детали (вокал-attention). Средний битрейт 3 кбит/с, но качество звука лучше чем у статичного 4 кбит/с.

Вот почему Q3_K_XL может быть умнее Q4_K_M. XL означает "extra large groups" для весов с низкой дисперсией - экономия битов там, где она не болит. Эти сохраненные биты перераспределяются на важные веса, которые получают фактически 4-5 бит точности. Итог: среднее 3 бита, эффективность - выше 4-битной статики.

3 Когда Q3 выигрывает у Q4: практические сценарии

Не для всех моделей и задач это работает. Динамическое квантование - не волшебная палочка, а точный инструмент. После тестов на 40+ моделях в 2025-2026 годах, паттерн четкий.

Q3 побеждает когда:

Модель имеет высокую дисперсию весов (например, MoE-архитектуры). Unsloth особенно хорошо работает с MoE-моделями вроде LFM2-8B, где эксперты имеют разное распределение.
Задачи требуют сложных рассуждений, а не фактологического recall. В тестах на логику и код Q3 часто обгоняет.
У вас ограничена видеопамять, но нужна максимальная точность. Q3_K_M экономит 25% памяти против Q4.
Модель уже прошла дополнительную оптимизацию (например, PPO или DPO). Веса становятся более "структурированными", динамическое квантование использует это.

Q4 остается лучше когда:

Задачи простые: классификация текста, NER, извлечение фактов. Здесь важна равномерная точность всех весов.
Модель маленькая (меньше 7B параметров). Динамическое распределение не успевает "разогнаться" на маленьких тензорах.
Вы используете устаревший инференс-движок без поддержки mixed-bit вычислений. Некоторые старые версии llama.cpp глючат с динамическим квантованием.
Критична стабильность, а не пиковая производительность. Статичное Q4 предсказуемее.

4 Как правильно тестировать: не верьте слепо бенчмаркам

Самый частый провал - скачать Q3_K_M потому что "где-то в интернете написали что она быстрее". Ваша задача, ваш хардвар, ваша модель - все отличается. Делайте так:

Возьмите свою рабочую нагрузку: 100-200 реальных промптов из вашего приложения. Не MMLU, а то что вы реально используете.
Подготовьте 4 версии: Q4_K_M (база), Q3_K_M, Q3_K_XL, и если хватает памяти - Q5_K_M для reference.
Измеряйте три метрики: accuracy/качество вывода (человеком или проверочной моделью), скорость (токен/с), память (пиковая VRAM).
Проверьте деградацию: Запустите длинную сессию генерации (10K+ токенов). Иногда динамическое квантование накапливает ошибку на длинных контекстах.

Осторожно с автоматическими бенчмарками: они часто используют синтетические промпты, которые не отражают реальное использование. Q3 может блестяще пройти Hellaswag и провалить ваши бизнес-кейсы.

Инструменты 2026 года: Unsloth Pro (платный, но с детальной аналитикой распределения битов) и открытый llama.cpp с поддержкой UDQ (ветка dynamic-quant). Не используйте инструменты 2024 года - они не знают про новые форматы MXFP4 и adaptive grouping.

Сломанные ожидания: почему 4 бита не всегда 4 бита

Самая тонкая деталь, которую все упускают: номинальное vs эффективное количество бит. Статичное Q4_K_M имеет ровно 4 бита на каждый вес. Динамическое Q3_K_XL имеет среднее 3 бита, но эффективное - 3.7-4.2 бита на важных весах. Это как если бы вы построили городскую инфраструктуру: вместо асфальта везде (4 бита) вы кладете асфальт на главных дорогах (5 бит), гравий на второстепенных (3 бита), а в тупиках оставляете грунтовку (1 бит). Среднее - 3 бита, но по главным дорогам ехать быстрее.

Эта метафора ломается на моделях с плохой обучаемостью. Если модель изначально имеет много "шумных" весов (плохая предобученность), динамическое квантование может слишком агрессивно сжать важные веса. Поэтому всегда проверяйте базовое качество FP16 версии перед квантованием. Мусор на входе - мусор на выходе, даже с умным квантованием.

Ошибки, которые все совершают с динамическим квантованием

Использовать калибровочный датасет из 10 промптов. Unsloth требует 512-1024 разнообразных примеров для анализа чувствительности. Меньше - и распределение битов будет случайным.
Сравнивать Q3_K_M и Q4_K_M на разных версиях llama.cpp. Поддержка dynamic quantization появилась в llama.cpp v3.5.0 (2025). Более старые версии используют fallback на статичное квантование.
Ждать чуда на крошечных моделях (1-3B параметров). Динамическое квантование работает от 7B и выше. На маленьких моделях overhead от управления разными битрейтами съедает всю выгоду.
Забывать про температурный дрейф. При длительном инференсе чипы GPU нагреваются, что влияет на точность low-bit вычислений. Динамическое квантование более чувствительно к этому. Если ваш GPU греется до 85°C+, лучше выбрать статичное Q4.

Что дальше: динамическое квантование 2.0 и 1.58-битные модели

К 2026 году Unsloth анонсировал Dynamic Quantization 2.0 с предсказанием важности весов на лету, без калибровки. Идея: во время инференса алгоритм анализирует активации и динамически меняет битрейт для следующих токенов. Это сложно, но первые прототипы показывают эффективность 2.8 бита при качестве Q4.

Параллельно идет работа над 1.58-битными моделями (Ternary). Но здесь проблема: динамическое квантование с базой в 1.58 бита оставляет слишком мало пространства для маневра. Важные веса получат 2-3 бита, шум - 1 бит. Среднее 1.58, но эффективность как у статичных 2.5 бит. Это может стать прорывом для мобильных устройств.

💡

Мой прогноз на 2027: мы перестанем говорить "Q3" или "Q4". Вместо этого будем указывать минимальный и максимальный битрейт: "DQ 2-5 bit" (динамическое квантование от 2 до 5 бит). И выбирать профили: "reasoning profile" (больше бит attention слоям) или "memory profile" (агрессивное сжатие FFN).

Пока что, практический совет на 2026 год: для любой модели от 7B до 70B параметров сначала тестируйте Q3_K_XL от Unsloth против вашего текущего Q4. С вероятностью 40% вы получите прирост качества или экономию памяти. Для гигантов типа MiniMax-2.5 (230B) динамическое квантование - не опция, а необходимость. Без него модель просто не влезет в память.

И последнее: не становитесь фанатиком динамического квантования. Иногда старое доброе Q4_K_M работает лучше. Особенно если вы уже настроили под него всю инфраструктуру. Но если вы игнорируете эту технологию полностью, вы платите на 25% больше за VRAM и получаете на 5% меньше производительности. В масштабах инференс-фермы это тысячи долларов в месяц.

Финал: следующий раз когда будете выбирать между Q3 и Q4, спросите не "сколько бит?", а "как распределены биты?". Это вопрос 2026 года. Ответ на него определяет будете ли вы платить за память или за скорость.

Подписаться на канал

Динамическое квантование Unsolth: почему Q3 может быть лучше Q4 и как это работает