Differential Transformer:大幅提升语言模型上下文能力
微软研究院与清华大学合作提出新型 Transformer 架构——Differential Transformer,通过引入差分注意力机制有效消除注意力噪声,实现在语言建模、长上下文处理及关键信息检索等多项任务上的显著提升。实验表明,该架构相比传统 Transformer 具有更强的可扩展性和更低的上下文幻觉,同时能够减少激活异常值,提高量化效率。来源:https://mp.weixin.qq.com/s/hG_S85HkyAkTFAI2iQjl6g
页:
[1]