MMSI-Bench成多图空间智能试金石，开源模型准确率不足30%，最强商业模型仅41%

周大发表于 2025-6-11 15:55:23

MMSI-Bench是一项专为评估多图像空间智能设计的基准测试，由上海人工智能实验室等多家机构联合开发。研究显示，当前主流多模态大模型（MLLM）在多图像空间推理上的表现远不及人类，例如顶级商业模型OpenAI o3准确率仅为41%，而人类可达97.2%。该基准涵盖了位置关系、属性和运动等多种任务，并基于真实场景构建。通过对34个模型的评估发现，开源模型普遍落后于商业模型，尤其在多步推理和相机运动理解上存在明显短板。研究还归纳出四种主要错误类型，并提供了自动化错误分析工具以支持模型改进。MMSI-Bench有望成为推动多模态AI系统发展的关键资源。
来源：https://mp.weixin.qq.com/s/2YAvQeGib137tjfnULpRng

页: [1]

靠浦ai课堂's Archiver

MMSI-Bench成多图空间智能试金石，开源模型准确率不足30%，最强商业模型仅41%