LLM长上下文理解力不从心 最强GPT-4o正确率仅55.8%

[复制链接]
周大 发表于 2024-7-23 15:08:19 | 显示全部楼层 |阅读模式
近期两项独立研究挑战了大型语言模型(LLM)在处理超长上下文方面的能力。NoCha(小说挑战)数据集测试显示,即使是最先进的模型如GPT-4o,面对长篇小说时的准确率仅为55.75%,远低于预期。此外,UCSB的研究揭示,视觉大模型(VLM)在长上下文视觉问答任务上的性能随上下文长度增加而显著下降,表明当前LLM和VLM在长上下文推理上还有很大的提升空间。
来源:https://mp.weixin.qq.com/s/ZZpODFWZw4hu8tQtLvZtcg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 02:06 , Processed in 0.271968 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表