跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

周大发表于 2025-11-13 17:37:22

一项被EMNLP 2025接收的新研究UNComp提出截断矩阵熵理论，揭示大型语言模型深层稀疏性的成因——信息熵随层数加深而递减。该理论指导下的UNCOMP框架通过分析信息流模式，精准识别检索层与检索头，并首次实现从隐藏状态压缩到KV Cache优化的联合推理加速。实验表明，系统在KV Cache压缩至4.74%、吞吐量提升6.4倍的同时，仍保持模型性能，甚至在特定任务上超越基线，为高效推理提供了兼具理论深度与实践价值的新路径。
来源：https://mp.weixin.qq.com/s/GwdNCPEw8JUCzb9eOE6j9A

		自动登录	找回密码
密码			立即注册

课程导航

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!