周大 发表于 2024-11-3 14:58:13

大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架

中科大研究团队提出Ada-KV,通过自适应预算分配算法优化KV缓存压缩,解决大模型推理中的显存瓶颈。传统方法在各注意力头间平均分配预算,未能考虑其特性差异。Ada-KV团队发现不同注意力头的关注度存在显著差异,通过适配性压缩预算分配显著提升了压缩质量。实验结果显示,Ada-KV在多个数据集上均优于传统方法。代码已完全开源,并被Cloudflare Workers AI团队应用于工业部署。
来源:https://mp.weixin.qq.com/s/DsfIOj6qzDuYd3bU_Zmn0A
页: [1]
查看完整版本: 大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架