时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8

[复制链接]
周大 发表于 前天 16:04 | 显示全部楼层 |阅读模式
剑桥大学机器智能实验室提出 Multi-head Temporal Latent Attention(MTLA),一种新型自注意力机制,通过结合时序压缩与隐空间压缩优化 KV 缓存表示,有效缓解大语言模型推理中的显存与计算瓶颈。相比现有方法如 MQA 和 MLA,MTLA 在保持甚至略优于传统注意力机制性能的同时,显著降低了推理显存占用(最高减少 8 倍)并提升推理速度(超 5 倍)。实验验证了 MTLA 在语音翻译、文本摘要等任务中的卓越表现,其灵活的时间压缩率设计为效率与性能间的权衡提供了新思路。尽管工程落地仍具挑战,MTLA 的开源代码将促进高效注意力机制在大模型时代的普及与应用。
来源:https://mp.weixin.qq.com/s/uzuASmRbP1hsvxD3eFXL-Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-13 11:13 , Processed in 0.281405 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表