LLM长上下文理解力不从心最强GPT-4o正确率仅55.8%

周大发表于 2024-7-23 15:08:19

近期两项独立研究挑战了大型语言模型(LLM)在处理超长上下文方面的能力。NoCha(小说挑战)数据集测试显示，即使是最先进的模型如GPT-4o，面对长篇小说时的准确率仅为55.75%，远低于预期。此外，UCSB的研究揭示，视觉大模型(VLM)在长上下文视觉问答任务上的性能随上下文长度增加而显著下降，表明当前LLM和VLM在长上下文推理上还有很大的提升空间。
来源：https://mp.weixin.qq.com/s/ZZpODFWZw4hu8tQtLvZtcg

页: [1]

靠浦ai课堂's Archiver

LLM长上下文理解力不从心 最强GPT-4o正确率仅55.8%

LLM长上下文理解力不从心最强GPT-4o正确率仅55.8%