R-KV开源方法登场，10% KV Cache实现无损数学推理，解决大模型推理「记忆过载」难题

周大发表于 2025-6-16 14:53:29

R-KV是一种高效压缩大模型KV缓存的方法，可降低显存90%，提升吞吐量6.6倍，准确率保持100%。通过实时排序和筛选token，去除冗余并保留关键信息。相比现有方法，R-KV无需改动模型结构，灵活性强，在数学推理任务中表现突出，同时显著提升端到端吞吐量，适用于边端设备及强化学习场景。
来源：https://mp.weixin.qq.com/s/eexIc83xQ-pUyi847IE6lw

页: [1]

靠浦ai课堂's Archiver

R-KV开源方法登场，10% KV Cache实现无损数学推理，解决大模型推理「记忆过载」难题