Ты сидишь с чашкой кофе, глаза бегают по экрану. Снова выбираешь квантизацию для Qwen2.5-7B — Q4_K_M или Q8_0? В голове стереотип: чем выше битность, тем быстрее TTFT (time-to-first-token). Но практика — дама хитрая. Недавний конфигурационный sweep по llama.cpp и vLLM выявил сюрприз: Q4_K_M опережает Q8_0 на целых 230ms по TTFT. Как такое возможно? И что за зверь этот sweep CLI?

Q4_K_M опережает Q8_0 на 230ms TTFT на Qwen2.5-7B: как config sweep CLI для llama.cpp и vLLM переворачивает бенчмарки

Подписывайтесь на наш канал!