Lucas Beyer从谷歌跳槽至OpenAI后,分析了微软提出的DiffTranformer论文。该模型通过两个信号差值提升信噪比,解决长上下文中信息淹没问题。Beyer最初持怀疑态度,但在研究团队详尽且公平的实验后改变看法。尽管存在一些技术细节上的疑问,如λ参数计算等,实验结果显示DIFF Transformer在长文本评测和输入样本顺序鲁棒性方面优于经典Transformer,但推理速度略慢。研究展现了有前景的火花,仍需进一步验证其普适性。
来源:https://mp.weixin.qq.com/s/zzyKTZ6hBIjB1freidb05A