Q4_K_M vs Q8_0: TTFT 230ms быстрее на Qwen2.5-7B — инструмент sweep CLI | AiManual
AiManual Logo Ai / Manual.
28 Май 2026 Инструмент

Q4_K_M опережает Q8_0 на 230ms TTFT на Qwen2.5-7B: как config sweep CLI для llama.cpp и vLLM переворачивает бенчмарки

Почему Q4_K_M оказался быстрее Q8_0 на 230ms TTFT в Qwen2.5-7B? Обзор нового CLI для перебора конфигураций llama.cpp и vLLM, находки и практические рекомендации

Ты сидишь с чашкой кофе, глаза бегают по экрану. Снова выбираешь квантизацию для Qwen2.5-7B — Q4_K_M или Q8_0? В голове стереотип: чем выше битность, тем быстрее TTFT (time-to-first-token). Но практика — дама хитрая. Недавний конфигурационный sweep по llama.cpp и vLLM выявил сюрприз: Q4_K_M опережает Q8_0 на целых 230ms по TTFT. Как такое возможно? И что за зверь этот sweep CLI?

Подписаться на канал