10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型
CalibQuant团队提出一种高效的1-bit KV cache量化方案,针对多模态大语言模型中的视觉KV cache设计,通过后缩放和校准技术显著降低显存与计算成本。该方法在InternVL-2.5模型上实现10倍吞吐量提升,且模型性能几乎无损失。实验结果表明,CalibQuant在captioning、VQA等任务中表现优于现有方法,Runtime分析显示其吞吐量较16比特基线提升9.88至11.24倍,有效解决显存占用瓶颈问题。来源:https://mp.weixin.qq.com/s/P_iS6BEPy7YfQJzC2lp1IA
页:
[1]