长文本有了专属困惑度!北大、MIT、阿里推出LongPPL新指标
近期研究发现,传统困惑度(PPL)在评估长文本处理能力时存在局限。北大王奕森团队联合MIT和阿里研究发现,困惑度对所有token平均计算,无法关注依赖长上下文的关键token。为此,他们提出新指标LongPPL,聚焦关键token预测质量,更准确反映长文本处理能力,相关性达-0.96。同时提出长文本交叉熵损失(LongCE),通过赋予关键token更高权重提升长文本处理能力。实验表明,采用LongCE的大模型在长文本处理上显著优于传统方法。来源:https://mp.weixin.qq.com/s/pAF0YeJ3MAsJWmVsUZI5ew
页:
[1]