将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了

[复制链接]
周大 发表于 前天 14:43 | 显示全部楼层 |阅读模式
EvolKV 是一种基于进化算法的 KV cache 压缩框架,通过任务性能反馈动态优化 transformer 各层的缓存预算分配。相比传统启发式方法,EvolKV 实现了更细粒度、任务感知的压缩策略。实验表明,在仅使用 1.5% KV cache 预算时,其性能优于完整模型。在多个基准测试中,包括 GSM8K 数学任务和 NIAH 长上下文检索,EvolKV 均显著优于现有方法,展现出良好的泛化能力和实用性。
来源:https://mp.weixin.qq.com/s/55WixgmHnpsKc9q5hnS7bA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-16 08:44 , Processed in 0.300173 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表