多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

周大发表于 2025-1-2 14:38:55

新评测集LongDocURL由中科院自动化所与淘天集团推出，专注于评估模型对50～150页长文档的理解能力。该数据集平均含85.6页、43622.6个标记，涵盖理解、数值推理和跨元素定位三大任务。测试结果显示，GPT-4o得分64.5，仅达及格线；闭源模型整体优于开源模型，图像输入模型表现更佳。这表明当前模型在处理复杂长文档方面仍面临挑战。
来源：https://mp.weixin.qq.com/s/rwbZsJeQMg3W91yzRadM5w

页: [1]

靠浦ai课堂's Archiver

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格