周大 发表于 2025-6-11 15:55:23

MMSI-Bench成多图空间智能试金石,开源模型准确率不足30%,最强商业模型仅41%

MMSI-Bench是一项专为评估多图像空间智能设计的基准测试,由上海人工智能实验室等多家机构联合开发。研究显示,当前主流多模态大模型(MLLM)在多图像空间推理上的表现远不及人类,例如顶级商业模型OpenAI o3准确率仅为41%,而人类可达97.2%。该基准涵盖了位置关系、属性和运动等多种任务,并基于真实场景构建。通过对34个模型的评估发现,开源模型普遍落后于商业模型,尤其在多步推理和相机运动理解上存在明显短板。研究还归纳出四种主要错误类型,并提供了自动化错误分析工具以支持模型改进。MMSI-Bench有望成为推动多模态AI系统发展的关键资源。
来源:https://mp.weixin.qq.com/s/2YAvQeGib137tjfnULpRng
页: [1]
查看完整版本: MMSI-Bench成多图空间智能试金石,开源模型准确率不足30%,最强商业模型仅41%