长文本有了专属困惑度！北大、MIT、阿里推出LongPPL新指标

周大发表于 2025-3-9 14:56:46

近期研究发现，传统困惑度（PPL）在评估长文本处理能力时存在局限。北大王奕森团队联合MIT和阿里研究发现，困惑度对所有token平均计算，无法关注依赖长上下文的关键token。为此，他们提出新指标LongPPL，聚焦关键token预测质量，更准确反映长文本处理能力，相关性达-0.96。同时提出长文本交叉熵损失（LongCE），通过赋予关键token更高权重提升长文本处理能力。实验表明，采用LongCE的大模型在长文本处理上显著优于传统方法。
来源：https://mp.weixin.qq.com/s/pAF0YeJ3MAsJWmVsUZI5ew

页: [1]

靠浦ai课堂's Archiver

长文本有了专属困惑度！北大、MIT、阿里推出LongPPL新指标