清华微软最新力作:用物理学革新Transformer注意力,「大海捞针」精度暴涨30%!

[复制链接]
周大 发表于 2024-10-9 17:19:45 | 显示全部楼层 |阅读模式
微软与清华大学联合提出Differential Transformer模型架构,通过改进注意力机制解决了传统Transformer存在的注意力缺陷问题。实验表明,新架构在长上下文任务及关键信息检索方面表现出色,尤其在处理长序列时检索精度更高,同时有助于缓解LLM幻觉现象。此外,Differential Transformer展现出优越的缩放特性。
来源:https://mp.weixin.qq.com/s/tKcuX_59fZbjtkCy7mWg7A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 00:50 , Processed in 0.283900 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表