周大 发表于 2025-4-4 14:03:59

Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer

研究者针对标准注意力机制的局限性,提出了一种新型注意力机制——Multi-Token Attention(MTA)。该机制通过键-查询卷积和头混合卷积,有效组合多个Token的信息。实验结果表明,MTA在toy任务、大型语言建模及长距离依赖任务中均优于基线模型,且参数仅增加0.001%。这为提升Transformer模型性能提供了新思路。
来源:https://mp.weixin.qq.com/s/kdX1fSiNbloLzkL0EGV-DQ
页: [1]
查看完整版本: Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer