周大 发表于 2025-6-2 14:58:37

浙大等联合发布ViewSpatial-Bench:5700问答对全面评估AI多视角空间推理能力

浙江大学等研究团队提出了首个评估视觉语言大模型(VLMs)多视角空间推理能力的基准体系——ViewSpatial-Bench,涵盖五种任务类型,包含5700个问答对。实验表明,当前主流VLMs如GPT-4o、Qwen2.5-VL等在多视角空间推理任务中表现欠佳,尤其是在人物面朝方向判断上准确率仅为25.6%。为解决这一问题,团队开发了Multi-View Spatial Model(MVSM),通过约43000个高质量样本的训练,在ViewSpatial-Bench上实现了46.24%的性能提升,并在实际场景中展现出优异的空间推理能力。该研究为AI系统获得类人空间认知能力提供了重要路径。
来源:https://mp.weixin.qq.com/s/LOtgY5OZjln9Wg3qzV7FuQ
页: [1]
查看完整版本: 浙大等联合发布ViewSpatial-Bench:5700问答对全面评估AI多视角空间推理能力