多视图理解新基准All-Angles Bench发布

周大发表于 2025-5-14 14:38:21

研究人员提出了新的多视图理解基准All-Angles Bench，涵盖2100组多视图问答对和六大任务，用于评估多模态大语言模型（MLLMs）的能力。结果显示，包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o在内的27个领先模型与人类水平存在显著差距，尤其是在遮挡情况下的跨视图对应和相机位姿估计方面表现不佳。实验还发现，开源模型Ovis2-34B和Qwen2.5-VL-72B在某些任务上超越了闭源模型，但整体模型在处理方向变化时存在较大困难。研究指出，仅靠优化提示词无法根本提升多视图理解能力，需进行专门训练。
来源：https://mp.weixin.qq.com/s/YaR4Bf53smn36WB251YQ0Q

页: [1]

靠浦ai课堂's Archiver

多视图理解新基准All-Angles Bench发布