多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格
新评测集LongDocURL由中科院自动化所与淘天集团推出,专注于评估模型对50~150页长文档的理解能力。该数据集平均含85.6页、43622.6个标记,涵盖理解、数值推理和跨元素定位三大任务。测试结果显示,GPT-4o得分64.5,仅达及格线;闭源模型整体优于开源模型,图像输入模型表现更佳。这表明当前模型在处理复杂长文档方面仍面临挑战。来源:https://mp.weixin.qq.com/s/rwbZsJeQMg3W91yzRadM5w
页:
[1]