浙大等联合发布ViewSpatial-Bench：5700问答对全面评估AI多视角空间推理能力

周大发表于 2025-6-2 14:58:37

浙江大学等研究团队提出了首个评估视觉语言大模型（VLMs）多视角空间推理能力的基准体系——ViewSpatial-Bench，涵盖五种任务类型，包含5700个问答对。实验表明，当前主流VLMs如GPT-4o、Qwen2.5-VL等在多视角空间推理任务中表现欠佳，尤其是在人物面朝方向判断上准确率仅为25.6%。为解决这一问题，团队开发了Multi-View Spatial Model（MVSM），通过约43000个高质量样本的训练，在ViewSpatial-Bench上实现了46.24%的性能提升，并在实际场景中展现出优异的空间推理能力。该研究为AI系统获得类人空间认知能力提供了重要路径。
来源：https://mp.weixin.qq.com/s/LOtgY5OZjln9Wg3qzV7FuQ

页: [1]

靠浦ai课堂's Archiver

浙大等联合发布ViewSpatial-Bench：5700问答对全面评估AI多视角空间推理能力