Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer
研究者针对标准注意力机制的局限性,提出了一种新型注意力机制——Multi-Token Attention(MTA)。该机制通过键-查询卷积和头混合卷积,有效组合多个Token的信息。实验结果表明,MTA在toy任务、大型语言建模及长距离依赖任务中均优于基线模型,且参数仅增加0.001%。这为提升Transformer模型性能提供了新思路。来源:https://mp.weixin.qq.com/s/kdX1fSiNbloLzkL0EGV-DQ
页:
[1]