Transformer长度外推，全新位置编码DAPE大幅提升模型性能

周大发表于 2024-10-12 14:54:40

NeurIPS 2024接收的一篇论文提出了一种名为Data-Adaptive Positional Encoding（DAPE）的新方法，该方法通过动态调整位置编码，显著提升了Transformer模型在处理长文本时的性能。与传统的固定位置编码方法相比，DAPE结合了语义信息和位置信息，实现了更好的长度泛化能力和更低的困惑度。实验结果显示，DAPE在不同模型规模和多种任务中均表现出色。
来源：https://mp.weixin.qq.com/s/-7YsAMYYO92nItRJbqSrpw

页: [1]

靠浦ai课堂's Archiver

Transformer长度外推，全新位置编码DAPE大幅提升模型性能