Что такое суб-1-битное квантование?

Метод, при котором на каждый вес модели приходится в среднем меньше одного бита информации за счет группового квантования и энтропийного кодирования.

Чем NanoQuant лучше GPTQ?

NanoQuant сжимает модели в 4 раза сильнее (21x против 5.3x у GPTQ 3-bit) при сопоставимой потере точности (3.5% против 2.1%).

Какие недостатки у NanoQuant?

Требует большого калибровочного датасета (10-100x больше GPTQ), специальных ядер для инференса и больше времени на квантование (6-24 часа для больших моделей).

Кому подойдет NanoQuant?

Разработчикам мобильных и edge-приложений, исследователям с ограниченными аппаратными ресурсами, всем, кому критически важен размер модели.

NanoQuant: обзор суб-1-битного квантования LLM и сравнение с GPTQ

За гранью возможного: что такое суб-битное квантование?

Представьте, что у вас есть модель на 70 миллиардов параметров. Она занимает 140 ГБ в формате FP16. Вы квантуете её до 4 бит — получается 35 ГБ. Довольно неплохо. А теперь представьте, что можно сжать её до 0.75 бита на вес. Это не опечатка. Речь идет о 6.5 ГБ вместо 140. NanoQuant делает именно это.

💡

Суб-1-битное квантование (sub-1-bit quantization) — это метод, при котором на каждый вес модели приходится в среднем меньше одного бита информации. Достигается за счет группового квантования и энтропийного кодирования, когда схожие веса в матрицах объединяются в «супер-группы».

Как NanoQuant обманывает математику (и почему это работает)

Традиционное квантование, вроде GPTQ или AWQ, работает по принципу «один вес — N бит». 4 бита, 3 бита, даже 2 бита. Но меньше одного? Физически невозможно, если рассматривать каждый вес отдельно. NanoQuant использует трюк: он квантует не отдельные веса, а группы весов вместе, используя статистические зависимости между ними.

Вот как это выглядит на практике:

Группировка по чувствительности: Веса в attention-слоях и MLP-слоях обрабатываются по-разному. Критически важные веса (те, что сильнее всего влияют на выход) получают больше бит, второстепенные — меньше.
Адаптивное распределение бит: Вместо фиксированной схемы (например, W4A16) NanoQuant динамически распределяет битовый бюджет между слоями. Некоторые слои могут быть квантованы до 0.5 бита, другим достанется 1.2 бита.
Кастомные ядра для инференса: Для работы с такими экзотическими форматами нужны специальные ядра. NanoQuant поставляет их для CUDA и, с недавних пор, для AMD ROCm 6.2.

NanoQuant vs GPTQ: битва экстремалов

GPTQ долгое время был королем посттренировочного квантования. Но в 2026 году его трон пошатнулся. Давайте сравним цифры на примере Llama 3.1 405B (последняя версия на февраль 2026).

Метод	Битность	Размер	MMLU (точность)	Скорость инференса
Оригинал (FP16)	16 бит	810 ГБ	85.2%	1.0x (база)
GPTQ (последняя версия)	3 бита	152 ГБ	83.1%	1.8x
NanoQuant	0.75 бита (средн.)	38 ГБ	81.7%	2.3x

Цифры говорят сами за себя. NanoQuant сжимает модель в 21 раз против 5.3 раз у GPTQ. Потеря точности? Всего 3.5 процентных пункта против 2.1 у GPTQ. Но когда размер имеет значение (в буквальном смысле), эти 1.4% — приемлемая плата.

Важный нюанс: NanoQuant требует калибровочного датасета в 10-100 раз больше, чем GPTQ. Если у вас нет 10 000 репрезентативных примеров для калибровки, качество просядет сильнее заявленного.

Под капотом: почему это не работает «из коробки»

В теории всё прекрасно. На практике NanoQuant — инструмент для инженеров, а не для любителей. Вот что нужно знать перед использованием:

1. Подготовка данных — это 80% работы

Калибровочный датасет должен максимально точно отражать распределение данных, с которыми модель будет работать в продакшене. Если вы калибруете на общих текстах, а потом используете модель для генерации кода — ждите проблем. В нашем обзоре Quantization-Aware Distillation мы как раз разбирали, как неправильная калибровка убивает модели.

2. Аппаратные требования

Кастомные ядра NanoQuant требуют CUDA 12.4+ или ROCm 6.2+. На старом железе (например, на картах с архитектурой Ampere) прирост скорости может быть меньше заявленного. И да, для квантования самой модели нужна видеокарта с минимум 24 ГБ памяти — процесс занимает в 2-3 раза больше памяти, чем конечная модель.

3. Совместимость с фреймворками

NanoQuant не интегрирован в vLLM или Hugging Face Transformers «из коробки». Нужно использовать их собственный рантайм или патчить существующие фреймворки. Если вы привыкли к простоте GGUF-формата, приготовьтесь к боли. Кстати, о сравнении форматов мы писали в полном гайде по квантованию в vLLM.

Кому действительно нужен NanoQuant (а кому стоит держаться подальше)

Идеальные кандидаты:

Мобильные разработчики: Хотите запустить Llama 3.1 70B на iPhone 18 Pro? С NanoQuant это возможно. Модель уместится в 6.5 ГБ против 26 ГБ в 4-битном формате.
Edge-устройства: Промышленные контроллеры, автономные дроны, носимые гаджеты — везде, где каждый мегабайт памяти на счету.
Исследователи с ограниченным бюджетом: Хотите экспериментировать с большими моделями, но у вас только одна карта с 24 ГБ памяти? NanoQuant позволит загрузить модель, которая в обычном виде требует 4 таких карты.

Лучше поискать альтернативы:

Стартапы на ранней стадии: Если у вас нет dedicated ML-инженера, который разберется с кастомными ядрами и калибровкой, вы потратите недели на настройку.
Критически важные системы: Медицинская диагностика, финансовый анализ — там, где потеря даже 1% точности недопустима. Используйте менее агрессивные методы вроде INT4.
Те, кто часто меняет модели: Процесс квантования в NanoQuant занимает от 6 до 24 часов для больших моделей. Если вы каждый день тестируете новые чекпоинты — это не ваш инструмент.

Что будет дальше? Прогноз на 2026-2027

NanoQuant — не конечная точка. Уже сейчас в лабораториях тестируют методы квантования до 0.5 бита на вес с использованием квантово-вдохновленных алгоритмов. Но главный тренд 2026 года — не экстремальное сжатие, а гибридные подходы.

Представьте: первые слои модели (которые извлекают низкоуровневые признаки) квантуются до 0.8 бита, средние слои — до 1.2 бита, а последние слои (которые отвечают за сложные рассуждения) остаются в FP16. Именно об этом мы говорили в статье про квантование и размер модели.

Ещё один тренд — аппаратная поддержка. NVIDIA в анонсах Blackwell Next (ожидается в конце 2026) намекает на специализированные блоки для суб-битного инференса. Когда это случится, NanoQuant из экзотики превратится в стандарт.

Совет напоследок: если вы только начинаете работать с квантованием, не прыгайте сразу в суб-1-битную пучину. Освойте сначала GPTQ и AWQ, поймите, как калибровка влияет на качество. А когда упретесь в ограничения по памяти — тогда и посмотрите в сторону NanoQuant. Дорога в ад вымощена оптимизациями, которые применили слишком рано.

P.S. Если решитесь попробовать — начинайте с небольших моделей вроде Gemma 3 1B. Ошибки в калибровке будут стоить вам часов, а не дней вычислений. И да, обязательно прочитайте наш гайд по квантованию Gemma 3, там много пересекающихся концепций.

NanoQuant: когда 0.75 бита на вес — это не шутка, а реальность