时空压缩！剑桥大学提出注意力机制MTLA：推理加速5倍，显存减至1/8

周大发表于 2025-6-11 16:04:15

剑桥大学机器智能实验室提出 Multi-head Temporal Latent Attention（MTLA），一种新型自注意力机制，通过结合时序压缩与隐空间压缩优化 KV 缓存表示，有效缓解大语言模型推理中的显存与计算瓶颈。相比现有方法如 MQA 和 MLA，MTLA 在保持甚至略优于传统注意力机制性能的同时，显著降低了推理显存占用（最高减少 8 倍）并提升推理速度（超 5 倍）。实验验证了 MTLA 在语音翻译、文本摘要等任务中的卓越表现，其灵活的时间压缩率设计为效率与性能间的权衡提供了新思路。尽管工程落地仍具挑战，MTLA 的开源代码将促进高效注意力机制在大模型时代的普及与应用。
来源：https://mp.weixin.qq.com/s/uzuASmRbP1hsvxD3eFXL-Q

		自动登录	找回密码
密码			立即注册

课程导航

时空压缩！剑桥大学提出注意力机制MTLA：推理加速5倍，显存减至1/8