Differential Transformer:大幅提升语言模型上下文能力

[复制链接]
周大 发表于 2024-10-9 17:27:54 | 显示全部楼层 |阅读模式
微软研究院与清华大学合作提出新型 Transformer 架构——Differential Transformer,通过引入差分注意力机制有效消除注意力噪声,实现在语言建模、长上下文处理及关键信息检索等多项任务上的显著提升。实验表明,该架构相比传统 Transformer 具有更强的可扩展性和更低的上下文幻觉,同时能够减少激活异常值,提高量化效率。
来源:https://mp.weixin.qq.com/s/hG_S85HkyAkTFAI2iQjl6g

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 01:37 , Processed in 0.273629 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表