Селективное квантование LLM: KV-кэш, слои, MoE vs Dense — гайд

Селективное квантование LLM: Как квантование KV-кэша, слоёв и архитектуры (MoE vs Dense) меняет всё

Глубокий разбор селективного квантования LLM: почему квантование разных частей модели (KV cache, слои, MoE vs Dense) даёт разные результаты. Практические советы

Вы когда-нибудь задумывались, почему две модели одинакового размера, обе сжатые до 4 бит, ведут себя как день и ночь? Одна сыплет перлами, другая — галлюцинациями. Дело не в магии, а в селективном квантовании. Большинство гайдов учат: «Возьми Q4_K_M — и будет счастье». Но реальность сложнее. Квантование весов — лишь часть картины. KV-кэш, слои внимания, FFN, да и сама архитектура (MoE или Dense) реагируют на сжатие по-разному. Игнорируешь это — получаешь модель, которая вроде работает, но на сложных запросах тупит.

Подписаться на канал

Подписывайтесь на наш канал!