MFA:KV缓存消耗直降93.7%,性能不减反增
近年来,大语言模型的广泛应用使传统注意力机制中的KV Cache成为“内存杀手”。清华大学等机构提出新型注意力机制架构——多矩阵分解注意力(MFA)及其变体MFA-Key-Reuse。该研究通过广义多头注意力概念框架,突破传统设计局限,在大幅降低KV Cache使用量(高达93.7%)的同时,实现了性能的显著提升。实验结果表明,MFA不仅在大规模模型上实现显著内存节省,还具备与传统MHA相当的扩展能力,有望加速大语言模型的应用落地。来源:https://mp.weixin.qq.com/s/q1HCHpzT665BeL54dNVTsA
页:
[1]