MMSI-Bench成多图空间智能试金石,开源模型准确率不足30%,最强商业模型仅41%

[复制链接]
周大 发表于 前天 15:55 | 显示全部楼层 |阅读模式
MMSI-Bench是一项专为评估多图像空间智能设计的基准测试,由上海人工智能实验室等多家机构联合开发。研究显示,当前主流多模态大模型(MLLM)在多图像空间推理上的表现远不及人类,例如顶级商业模型OpenAI o3准确率仅为41%,而人类可达97.2%。该基准涵盖了位置关系、属性和运动等多种任务,并基于真实场景构建。通过对34个模型的评估发现,开源模型普遍落后于商业模型,尤其在多步推理和相机运动理解上存在明显短板。研究还归纳出四种主要错误类型,并提供了自动化错误分析工具以支持模型改进。MMSI-Bench有望成为推动多模态AI系统发展的关键资源。
来源:https://mp.weixin.qq.com/s/2YAvQeGib137tjfnULpRng

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-13 09:49 , Processed in 0.290490 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表