无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成

[复制链接]
周大 发表于 2024-8-7 16:36:26 | 显示全部楼层 |阅读模式
北大与北京通用人工智能研究院合作推出LooGLE数据集,专门评估大语言模型的长文本理解能力。结果显示,无论是商业模型还是开源模型,在处理复杂的长依赖任务时,准确率普遍偏低,分别为40%和10%。LooGLE涵盖多种任务类型,旨在全面评估模型处理长文本的能力。
来源:https://mp.weixin.qq.com/s/__qOO8Tm_Tg_Mxvud8zgJA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 00:33 , Processed in 0.274757 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表