多视图理解新基准All-Angles Bench发布

[复制链接]
周大 发表于 6 天前 | 显示全部楼层 |阅读模式
研究人员提出了新的多视图理解基准All-Angles Bench,涵盖2100组多视图问答对和六大任务,用于评估多模态大语言模型(MLLMs)的能力。结果显示,包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o在内的27个领先模型与人类水平存在显著差距,尤其是在遮挡情况下的跨视图对应和相机位姿估计方面表现不佳。实验还发现,开源模型Ovis2-34B和Qwen2.5-VL-72B在某些任务上超越了闭源模型,但整体模型在处理方向变化时存在较大困难。研究指出,仅靠优化提示词无法根本提升多视图理解能力,需进行专门训练。
来源:https://mp.weixin.qq.com/s/YaR4Bf53smn36WB251YQ0Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-20 13:45 , Processed in 0.289401 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表