靠浦ai课堂's Archiver
版块
›
靠浦ai资讯
› 无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成
周大
发表于 2024-8-7 16:36:26
无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成
北大与北京通用人工智能研究院合作推出LooGLE数据集,专门评估大语言模型的长文本理解能力。结果显示,无论是商业模型还是开源模型,在处理复杂的长依赖任务时,准确率普遍偏低,分别为40%和10%。LooGLE涵盖多种任务类型,旨在全面评估模型处理长文本的能力。
来源:https://mp.weixin.qq.com/s/__qOO8Tm_Tg_Mxvud8zgJA
页:
[1]
查看完整版本:
无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成