MFA：KV缓存消耗直降93.7%，性能不减反增

周大发表于 2025-1-17 14:08:36

近年来，大语言模型的广泛应用使传统注意力机制中的KV Cache成为“内存杀手”。清华大学等机构提出新型注意力机制架构——多矩阵分解注意力（MFA）及其变体MFA-Key-Reuse。该研究通过广义多头注意力概念框架，突破传统设计局限，在大幅降低KV Cache使用量（高达93.7%）的同时，实现了性能的显著提升。实验结果表明，MFA不仅在大规模模型上实现显著内存节省，还具备与传统MHA相当的扩展能力，有望加速大语言模型的应用落地。
来源：https://mp.weixin.qq.com/s/q1HCHpzT665BeL54dNVTsA

		自动登录	找回密码
密码			立即注册

课程导航

MFA：KV缓存消耗直降93.7%，性能不减反增