清华微软最新力作：用物理学革新Transformer注意力，「大海捞针」精度暴涨30%！

周大发表于 2024-10-9 17:19:45

微软与清华大学联合提出Differential Transformer模型架构，通过改进注意力机制解决了传统Transformer存在的注意力缺陷问题。实验表明，新架构在长上下文任务及关键信息检索方面表现出色，尤其在处理长序列时检索精度更高，同时有助于缓解LLM幻觉现象。此外，Differential Transformer展现出优越的缩放特性。
来源：https://mp.weixin.qq.com/s/tKcuX_59fZbjtkCy7mWg7A

页: [1]

靠浦ai课堂's Archiver

清华微软最新力作：用物理学革新Transformer注意力，「大海捞针」精度暴涨30%！