时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
剑桥大学机器智能实验室提出 Multi-head Temporal Latent Attention(MTLA),一种新型自注意力机制,通过结合时序压缩与隐空间压缩优化 KV 缓存表示,有效缓解大语言模型推理中的显存与计算瓶颈。相比现有方法如 MQA 和 MLA,MTLA 在保持甚至略优于传统注意力机制性能的同时,显著降低了推理显存占用(最高减少 8 倍)并提升推理速度(超 5 倍)。实验验证了 MTLA 在语音翻译、文本摘要等任务中的卓越表现,其灵活的时间压缩率设计为效率与性能间的权衡提供了新思路。尽管工程落地仍具挑战,MTLA 的开源代码将促进高效注意力机制在大模型时代的普及与应用。来源:https://mp.weixin.qq.com/s/uzuASmRbP1hsvxD3eFXL-Q
页:
[1]