周大 发表于 2025-5-14 14:38:21

多视图理解新基准All-Angles Bench发布

研究人员提出了新的多视图理解基准All-Angles Bench,涵盖2100组多视图问答对和六大任务,用于评估多模态大语言模型(MLLMs)的能力。结果显示,包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o在内的27个领先模型与人类水平存在显著差距,尤其是在遮挡情况下的跨视图对应和相机位姿估计方面表现不佳。实验还发现,开源模型Ovis2-34B和Qwen2.5-VL-72B在某些任务上超越了闭源模型,但整体模型在处理方向变化时存在较大困难。研究指出,仅靠优化提示词无法根本提升多视图理解能力,需进行专门训练。
来源:https://mp.weixin.qq.com/s/YaR4Bf53smn36WB251YQ0Q
页: [1]
查看完整版本: 多视图理解新基准All-Angles Bench发布