周大 发表于 2025-9-14 14:43:05

将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了

EvolKV 是一种基于进化算法的 KV cache 压缩框架,通过任务性能反馈动态优化 transformer 各层的缓存预算分配。相比传统启发式方法,EvolKV 实现了更细粒度、任务感知的压缩策略。实验表明,在仅使用 1.5% KV cache 预算时,其性能优于完整模型。在多个基准测试中,包括 GSM8K 数学任务和 NIAH 长上下文检索,EvolKV 均显著优于现有方法,展现出良好的泛化能力和实用性。
来源:https://mp.weixin.qq.com/s/55WixgmHnpsKc9q5hnS7bA
页: [1]
查看完整版本: 将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了