大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

[复制链接]
周大 发表于 6 小时前 | 显示全部楼层 |阅读模式
纽约大学研究团队提出“类人视觉搜索”(HVS)新任务,并构建涵盖火车站、商场等复杂场景的H*Bench基准,含约3000个任务、12000个搜索回合。通过监督微调与强化学习,Qwen2.5-VL-3B模型在物体搜索准确率从14.83%提升至47.38%,路径搜索从6.44%升至24.94%。实验表明主动旋转视角优于被动分析,且小模型有时优于大模型,凸显尺寸非唯一性能因素。研究揭示当前多模态大模型在物理与社会常识上的推理瓶颈,推动视觉推理向具身化发展。
来源:https://mp.weixin.qq.com/s/1RSe4qvYema7iYBvgN628w

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-27 22:26 , Processed in 0.245301 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表