周大 发表于 7 天前

R-KV开源方法登场,10% KV Cache实现无损数学推理,解决大模型推理「记忆过载」难题

R-KV是一种高效压缩大模型KV缓存的方法,可降低显存90%,提升吞吐量6.6倍,准确率保持100%。通过实时排序和筛选token,去除冗余并保留关键信息。相比现有方法,R-KV无需改动模型结构,灵活性强,在数学推理任务中表现突出,同时显著提升端到端吞吐量,适用于边端设备及强化学习场景。
来源:https://mp.weixin.qq.com/s/eexIc83xQ-pUyi847IE6lw
页: [1]
查看完整版本: R-KV开源方法登场,10% KV Cache实现无损数学推理,解决大模型推理「记忆过载」难题