长文本有了专属困惑度!北大、MIT、阿里推出LongPPL新指标

[复制链接]
周大 发表于 2025-3-9 14:56:46 | 显示全部楼层 |阅读模式
近期研究发现,传统困惑度(PPL)在评估长文本处理能力时存在局限。北大王奕森团队联合MIT和阿里研究发现,困惑度对所有token平均计算,无法关注依赖长上下文的关键token。为此,他们提出新指标LongPPL,聚焦关键token预测质量,更准确反映长文本处理能力,相关性达-0.96。同时提出长文本交叉熵损失(LongCE),通过赋予关键token更高权重提升长文本处理能力。实验表明,采用LongCE的大模型在长文本处理上显著优于传统方法。
来源:https://mp.weixin.qq.com/s/pAF0YeJ3MAsJWmVsUZI5ew

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-19 22:53 , Processed in 0.280528 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表