MFA:KV缓存消耗直降93.7%,性能不减反增

[复制链接]
周大 发表于 2025-1-17 14:08:36 | 显示全部楼层 |阅读模式
近年来,大语言模型的广泛应用使传统注意力机制中的KV Cache成为“内存杀手”。清华大学等机构提出新型注意力机制架构——多矩阵分解注意力(MFA)及其变体MFA-Key-Reuse。该研究通过广义多头注意力概念框架,突破传统设计局限,在大幅降低KV Cache使用量(高达93.7%)的同时,实现了性能的显著提升。实验结果表明,MFA不仅在大规模模型上实现显著内存节省,还具备与传统MHA相当的扩展能力,有望加速大语言模型的应用落地。
来源:https://mp.weixin.qq.com/s/q1HCHpzT665BeL54dNVTsA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 16:55 , Processed in 0.259978 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表