Differential Transformer：大幅提升语言模型上下文能力

周大发表于 2024-10-9 17:27:54

微软研究院与清华大学合作提出新型 Transformer 架构——Differential Transformer，通过引入差分注意力机制有效消除注意力噪声，实现在语言建模、长上下文处理及关键信息检索等多项任务上的显著提升。实验表明，该架构相比传统 Transformer 具有更强的可扩展性和更低的上下文幻觉，同时能够减少激活异常值，提高量化效率。
来源：https://mp.weixin.qq.com/s/hG_S85HkyAkTFAI2iQjl6g

		自动登录	找回密码
密码			立即注册

课程导航

Differential Transformer：大幅提升语言模型上下文能力