周大 发表于 2024-8-7 16:36:26

无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成

北大与北京通用人工智能研究院合作推出LooGLE数据集,专门评估大语言模型的长文本理解能力。结果显示,无论是商业模型还是开源模型,在处理复杂的长依赖任务时,准确率普遍偏低,分别为40%和10%。LooGLE涵盖多种任务类型,旨在全面评估模型处理长文本的能力。
来源:https://mp.weixin.qq.com/s/__qOO8Tm_Tg_Mxvud8zgJA
页: [1]
查看完整版本: 无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成