Вы когда-нибудь задумывались, почему две модели одинакового размера, обе сжатые до 4 бит, ведут себя как день и ночь? Одна сыплет перлами, другая — галлюцинациями. Дело не в магии, а в селективном квантовании. Большинство гайдов учат: «Возьми Q4_K_M — и будет счастье». Но реальность сложнее. Квантование весов — лишь часть картины. KV-кэш, слои внимания, FFN, да и сама архитектура (MoE или Dense) реагируют на сжатие по-разному. Игнорируешь это — получаешь модель, которая вроде работает, но на сложных запросах тупит.
15 Июн 2026
•
Гайд
Селективное квантование LLM: Как квантование KV-кэша, слоёв и архитектуры (MoE vs Dense) меняет всё
Глубокий разбор селективного квантования LLM: почему квантование разных частей модели (KV cache, слои, MoE vs Dense) даёт разные результаты. Практические советы