Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer

[复制链接]
周大 发表于 2025-4-4 14:03:59 | 显示全部楼层 |阅读模式
研究者针对标准注意力机制的局限性,提出了一种新型注意力机制——Multi-Token Attention(MTA)。该机制通过键-查询卷积和头混合卷积,有效组合多个Token的信息。实验结果表明,MTA在toy任务、大型语言建模及长距离依赖任务中均优于基线模型,且参数仅增加0.001%。这为提升Transformer模型性能提供了新思路。
来源:https://mp.weixin.qq.com/s/kdX1fSiNbloLzkL0EGV-DQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 19:37 , Processed in 0.313921 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表