10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型

[复制链接]
周大 发表于 昨天 13:07 | 显示全部楼层 |阅读模式
CalibQuant团队提出一种高效的1-bit KV cache量化方案,针对多模态大语言模型中的视觉KV cache设计,通过后缩放和校准技术显著降低显存与计算成本。该方法在InternVL-2.5模型上实现10倍吞吐量提升,且模型性能几乎无损失。实验结果表明,CalibQuant在captioning、VQA等任务中表现优于现有方法,Runtime分析显示其吞吐量较16比特基线提升9.88至11.24倍,有效解决显存占用瓶颈问题。
来源:https://mp.weixin.qq.com/s/P_iS6BEPy7YfQJzC2lp1IA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-4 11:19 , Processed in 0.303116 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表