无一大模型及格！北大/通研院提出超难基准，专门评估长文本理解生成

周大发表于 2024-8-7 16:36:26

北大与北京通用人工智能研究院合作推出LooGLE数据集，专门评估大语言模型的长文本理解能力。结果显示，无论是商业模型还是开源模型，在处理复杂的长依赖任务时，准确率普遍偏低，分别为40%和10%。LooGLE涵盖多种任务类型，旨在全面评估模型处理长文本的能力。
来源：https://mp.weixin.qq.com/s/__qOO8Tm_Tg_Mxvud8zgJA

页: [1]

靠浦ai课堂's Archiver

无一大模型及格！ 北大/通研院提出超难基准，专门评估长文本理解生成

无一大模型及格！北大/通研院提出超难基准，专门评估长文本理解生成