将KV Cache预算降至1.5%！他们用进化算法把大模型内存占用砍下来了

周大发表于 2025-9-14 14:43:05

EvolKV 是一种基于进化算法的 KV cache 压缩框架，通过任务性能反馈动态优化 transformer 各层的缓存预算分配。相比传统启发式方法，EvolKV 实现了更细粒度、任务感知的压缩策略。实验表明，在仅使用 1.5% KV cache 预算时，其性能优于完整模型。在多个基准测试中，包括 GSM8K 数学任务和 NIAH 长上下文检索，EvolKV 均显著优于现有方法，展现出良好的泛化能力和实用性。
来源：https://mp.weixin.qq.com/s/55WixgmHnpsKc9q5hnS7bA

页: [1]

靠浦ai课堂's Archiver

将KV Cache预算降至1.5%！他们用进化算法把大模型内存占用砍下来了