大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架

[复制链接]
周大 发表于 2024-11-3 14:58:13 | 显示全部楼层 |阅读模式
中科大研究团队提出Ada-KV,通过自适应预算分配算法优化KV缓存压缩,解决大模型推理中的显存瓶颈。传统方法在各注意力头间平均分配预算,未能考虑其特性差异。Ada-KV团队发现不同注意力头的关注度存在显著差异,通过适配性压缩预算分配显著提升了压缩质量。实验结果显示,Ada-KV在多个数据集上均优于传统方法。代码已完全开源,并被Cloudflare Workers AI团队应用于工业部署。
来源:https://mp.weixin.qq.com/s/DsfIOj6qzDuYd3bU_Zmn0A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-17 18:23 , Processed in 0.276580 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表