跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

[复制链接]
周大 发表于 2025-11-13 17:37:22 | 显示全部楼层 |阅读模式
一项被EMNLP 2025接收的新研究UNComp提出截断矩阵熵理论,揭示大型语言模型深层稀疏性的成因——信息熵随层数加深而递减。该理论指导下的UNCOMP框架通过分析信息流模式,精准识别检索层与检索头,并首次实现从隐藏状态压缩到KV Cache优化的联合推理加速。实验表明,系统在KV Cache压缩至4.74%、吞吐量提升6.4倍的同时,仍保持模型性能,甚至在特定任务上超越基线,为高效推理提供了兼具理论深度与实践价值的新路径。
来源:https://mp.weixin.qq.com/s/GwdNCPEw8JUCzb9eOE6j9A

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-28 03:03 , Processed in 0.475025 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表