周大 发表于 2024-10-12 14:54:40

Transformer长度外推,全新位置编码DAPE大幅提升模型性能

NeurIPS 2024接收的一篇论文提出了一种名为Data-Adaptive Positional Encoding(DAPE)的新方法,该方法通过动态调整位置编码,显著提升了Transformer模型在处理长文本时的性能。与传统的固定位置编码方法相比,DAPE结合了语义信息和位置信息,实现了更好的长度泛化能力和更低的困惑度。实验结果显示,DAPE在不同模型规模和多种任务中均表现出色。
来源:https://mp.weixin.qq.com/s/-7YsAMYYO92nItRJbqSrpw
页: [1]
查看完整版本: Transformer长度外推,全新位置编码DAPE大幅提升模型性能