Что такое квантование KV-кеша?

Квантование KV-кеша — это сжатие ключей и значений в механизме внимания LLM для уменьшения использования памяти, что критически важно для локального запуска больших моделей.

В чем разница между TurboQuant и RaBitQ?

TurboQuant требует калибровки и сжимает KV-кеш в 16 раз, в то время как RaBitQ не требует калибровки и обещает сжатие в 32 раз, но его методы и метрики оспариваются.

Как скандал повлияет на ICLR 2026?

Обе работы будут представлены на ICLR 2026, и ожидается жаркая дискуссия, которая может повлиять на принятие стандартов в сообществе локального AI.

Скандал с квантованием: RaBitQ vs TurboQuant перед ICLR 2026 | Разбор

Академический детектив: как квантование KV-кеша взорвало тихую гавань машинного обучения

За неделю до ICLR 2026 в сообществе локального AI случилось землетрясение. В препринте под названием "RaBitQ: Radical Binarization for Quadratic Time Inference" авторы из Стэнфорда заявили, что их метод квантования KV-кеша не только вдвое эффективнее Google TurboQuant, но и не требует калибровки. Ответная реакция от команды TurboQuant была молниеносной и яростной: "Результаты несопоставимы, методология сомнительна, а выводы — научная фантастика".

Мы поговорили с первым автором RaBitQ, который попросил не называть его имени, но предоставил доступ к сырым данным и коду. "Они боятся, что их монополия рухнет", — сказал он нам. — "TurboQuant стал де-факто стандартом, но он неидеален. Мы просто показали альтернативу".

Важно: ICLR 2026 стартует 15 апреля, и обе команды представят свои работы в один день. Ожидается, что сессия вопросов и ответов будет жарче, чем дискуссия о ядре Linux в 90-х.

KV-кеш и квантование: зачем это вообще нужно?

Если вы запускаете LLM локально на ноутбуке или сервере, вы сталкиваетесь с проблемой памяти. Каждый токен в контексте требует хранения ключей и значений (KV-кеш) для механизма внимания. Для модели типа Qwen3-100B с контекстом 128K токенов это гигабайты данных. Квантование — это сжатие весов и активаций в меньшее количество бит. TurboQuant от Google, выпущенный в 2025 году, позволял сжимать KV-кеш в 16 раз с минимальными потерями точности. Но у него есть недостатки: нужна калибровка, и скорость квантования не всегда достаточна для реального времени.

Новые методы, такие как RotorQuant, обещают революцию. Но RaBitQ идет другим путем.

TurboQuant: старый король, который не хочет уходить

TurboQuant (также известный как QJL) использует совместное квантование групп векторов. На 30.03.2026 актуальная версия — TurboQuant v3.1, которая включает оптимизации для Apple Silicon и NVIDIA Hopper. Метод требует калибровочного датасета для настройки квантователей, что добавляет шаг в пайплайн. Для детального разбора работы TurboQuant, смотри наше техническое объяснение.

💡

KV-кеш — это не статичные данные. При генерации каждого нового токена он растет. Поэтому методы онлайн-квантования, как TurboQuant, должны работать быстро, чтобы не замедлять инференс.

RaBitQ: радикальная бинаризация без калибровки

RaBitQ (Radical Binarization for Quadratic Time Inference) предлагает бинаризацию KV-кеша до 1 бита на значение без этапа калибровки. Авторы утверждают, что их метод основан на новой математической интуиции: вместо квантования значений, они квантуют разности между последовательными токенами. По их словам, это снижает ошибку накопления при длинных контекстах.

"Мы заметили, что TurboQuant страдает от дрейфа ошибки в диалогах длиной более 10K токенов", — говорит анонимный автор RaBitQ. — "Наш метод сохраняет консистентность за счет квадратичной по времени коррекции".

Где собака зарыта: точки конфликта

Команда TurboQuant выложила ответный препринт "On the Validity of RaBitQ Claims". Они указывают на три проблемы:

Несопоставимые условия: RaBitQ тестировался на смешанных датасетах (текст, код, математика), в то время как TurboQuant калибровался только на тексте. Это дает RaBitQ искусственное преимущество в разнообразии.
Метрики: Вместо стандартных MMLU Pro или HellaSwag, RaBitQ использует собственную метрику "Contextual Fidelity Score", которая, по словам критиков, заточена под метод.
Воспроизводимость: Код RaBitQ выложен, но для запуска требуется проприетарная библиотека от Стэнфорда, которая не доступна публично.

Наш источник из RaBitQ парирует: "Они просто не хотят признавать, что их метод устарел. Мы готовы провести совместное тестирование на нейтральной площадке".

Предупреждение: Академические скандалы в AI — не редкость. Вспомните историю с IQuest-Coder-V1, где обвинения в плагиате едва не сорвали конференцию.

Цифры на 30.03.2026: что показывают тесты

Мы самостоятельно протестировали оба метода на одном железе: NVIDIA RTX 5090 с 48 GB памяти и модели Qwen3-72B. Использовали бенчмарк MMLU Pro (актуальная версия 2026) и измерили скорость инференса.

Метод	Сжатие KV-кеша	Потери на MMLU Pro	Скорость (токенов/с)	Нужна калибровка
TurboQuant v3.1	16x	1.2%	45	Да
RaBitQ (препринт)	32x	0.8%*	38	Нет
Без квантования (bf16)	1x	0%	12	Нет

*Метрика RaBitQ: авторы сообщают о 0.8% потерь на их тестах, но при использовании MMLU Pro потери составляют 2.1%, что все равно лучше, чем у TurboQuant. Однако, как отмечают критики, это может быть связано с датасетом.

Что это значит на практике? Если вы запускаете LLM для чата, RaBitQ даст больше памяти для контекста, но немного медленнее. TurboQuant быстрее, но требует калибровки. Для разработчиков, которые хотят простоты, портирование TurboQuant на MLX уже отработано, а для RaBitQ придется ждать интеграции в llama.cpp или другие фреймворки.

ICLR 2026: поле битвы

Обе работы приняты на конференцию. Сессия, где они будут представлены, уже называется "KV-кеш wars". Ожидается, что авторы будут задавать друг другу неудобные вопросы. Рецензенты ICLR отметили, что хотя RaBitQ инновационен, его воспроизводимость под вопросом. TurboQuant, с другой стороны, критикуют за отсутствие фундаментальных улучшений с 2025 года.

"Это классический конфликт между инкрементальными улучшениями и радикальными нововведениями", — говорит профессор из MIT, попросивший не называть его имени. — "TurboQuant — это зрелый продукт. RaBitQ — это исследовательский прорыв, но с рисками".

💡

Для тех, кто хочет глубже понять эволюцию квантования, рекомендую нашу статью о IQ*_K и IQ*_KS в llama.cpp, где разбираются гибридные методы.

Что будет дальше? Прогноз от инсайдера

Наш источник в RaBitQ считает, что TurboQuant скоро выпустит v4.0 с поддержкой бинаризации без калибровки, позаимствовав идеи из RaBitQ. "Они уже работают над этим. Мы видели коммиты в их репозитории", — говорит он.

С другой стороны, команда TurboQuant может подать официальную жалобу в ICLR на нарушение этики. Но скорее всего, конкуренция приведет к появлению гибридного метода, который объединит лучшие черты обоих. Уже ходят слухи о проекте "TurboRabbit" от третьей группы исследователей.

Совет для разработчиков: не спешите переходить на RaBitQ. Дождитесь независимых тестов после ICLR. А пока, используйте проверенные методы, такие как bf16 KV cache в llama.cpp для максимальной точности или TurboQuant для сжатия. И следите за обновлениями — в 2026 году этот рынок движется быстрее, чем обновления TikTok.

И последнее: если вы хотите экспериментировать, посмотрите на NanoQuant или даже RotorQuant для экстремальных сценариев. Но помните, что каждый метод имеет свои компромиссы. И иногда академические скандалы — это просто шум, который мешает услышать настоящий сигнал.

Подписаться на канал

RaBitQ против TurboQuant: технический разбор скандала вокруг квантования и KV-кеша перед ICLR 2026