周大 发表于 2024-10-9 17:19:45

清华微软最新力作:用物理学革新Transformer注意力,「大海捞针」精度暴涨30%!

微软与清华大学联合提出Differential Transformer模型架构,通过改进注意力机制解决了传统Transformer存在的注意力缺陷问题。实验表明,新架构在长上下文任务及关键信息检索方面表现出色,尤其在处理长序列时检索精度更高,同时有助于缓解LLM幻觉现象。此外,Differential Transformer展现出优越的缩放特性。
来源:https://mp.weixin.qq.com/s/tKcuX_59fZbjtkCy7mWg7A
页: [1]
查看完整版本: 清华微软最新力作:用物理学革新Transformer注意力,「大海捞针」精度暴涨30%!