多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

[复制链接]
周大 发表于 2025-1-2 14:38:55 | 显示全部楼层 |阅读模式
新评测集LongDocURL由中科院自动化所与淘天集团推出,专注于评估模型对50~150页长文档的理解能力。该数据集平均含85.6页、43622.6个标记,涵盖理解、数值推理和跨元素定位三大任务。测试结果显示,GPT-4o得分64.5,仅达及格线;闭源模型整体优于开源模型,图像输入模型表现更佳。这表明当前模型在处理复杂长文档方面仍面临挑战。
来源:https://mp.weixin.qq.com/s/rwbZsJeQMg3W91yzRadM5w

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 06:03 , Processed in 0.288860 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表