Селективное квантование LLM: KV-кэш, слои, MoE vs Dense — гайд | AiManual
AiManual Logo Ai / Manual.
15 Июн 2026 Гайд

Селективное квантование LLM: Как квантование KV-кэша, слоёв и архитектуры (MoE vs Dense) меняет всё

Глубокий разбор селективного квантования LLM: почему квантование разных частей модели (KV cache, слои, MoE vs Dense) даёт разные результаты. Практические советы

Реклама
partv1

Вы когда-нибудь задумывались, почему две модели одинакового размера, обе сжатые до 4 бит, ведут себя как день и ночь? Одна сыплет перлами, другая — галлюцинациями. Дело не в магии, а в селективном квантовании. Большинство гайдов учат: «Возьми Q4_K_M — и будет счастье». Но реальность сложнее. Квантование весов — лишь часть картины. KV-кэш, слои внимания, FFN, да и сама архитектура (MoE или Dense) реагируют на сжатие по-разному. Игнорируешь это — получаешь модель, которая вроде работает, но на сложных запросах тупит.

Подписаться на канал