周大 发表于 2024-7-23 15:08:19

LLM长上下文理解力不从心 最强GPT-4o正确率仅55.8%

近期两项独立研究挑战了大型语言模型(LLM)在处理超长上下文方面的能力。NoCha(小说挑战)数据集测试显示,即使是最先进的模型如GPT-4o,面对长篇小说时的准确率仅为55.75%,远低于预期。此外,UCSB的研究揭示,视觉大模型(VLM)在长上下文视觉问答任务上的性能随上下文长度增加而显著下降,表明当前LLM和VLM在长上下文推理上还有很大的提升空间。
来源:https://mp.weixin.qq.com/s/ZZpODFWZw4hu8tQtLvZtcg
页: [1]
查看完整版本: LLM长上下文理解力不从心 最强GPT-4o正确率仅55.8%