Multi-Token突破注意力机制瓶颈，Meta发明了一种很新的Transformer

周大发表于 2025-4-4 14:03:59

研究者针对标准注意力机制的局限性，提出了一种新型注意力机制——Multi-Token Attention（MTA）。该机制通过键-查询卷积和头混合卷积，有效组合多个Token的信息。实验结果表明，MTA在toy任务、大型语言建模及长距离依赖任务中均优于基线模型，且参数仅增加0.001%。这为提升Transformer模型性能提供了新思路。
来源：https://mp.weixin.qq.com/s/kdX1fSiNbloLzkL0EGV-DQ

		自动登录	找回密码
密码			立即注册

课程导航

Multi-Token突破注意力机制瓶颈，Meta发明了一种很新的Transformer