大模型压缩KV缓存新突破，中科大提出自适应预算分配，工业界已落地vLLM框架

周大发表于 2024-11-3 14:58:13

中科大研究团队提出Ada-KV，通过自适应预算分配算法优化KV缓存压缩，解决大模型推理中的显存瓶颈。传统方法在各注意力头间平均分配预算，未能考虑其特性差异。Ada-KV团队发现不同注意力头的关注度存在显著差异，通过适配性压缩预算分配显著提升了压缩质量。实验结果显示，Ada-KV在多个数据集上均优于传统方法。代码已完全开源，并被Cloudflare Workers AI团队应用于工业部署。
来源：https://mp.weixin.qq.com/s/DsfIOj6qzDuYd3bU_Zmn0A

页: [1]

靠浦ai课堂's Archiver

大模型压缩KV缓存新突破，中科大提出自适应预算分配，工业界已落地vLLM框架