大模型首次拥有“脖子”！纽大团队实现360度类人视觉搜索

周大发表于 6 小时前

纽约大学研究团队提出“类人视觉搜索”（HVS）新任务，并构建涵盖火车站、商场等复杂场景的H*Bench基准，含约3000个任务、12000个搜索回合。通过监督微调与强化学习，Qwen2.5-VL-3B模型在物体搜索准确率从14.83%提升至47.38%，路径搜索从6.44%升至24.94%。实验表明主动旋转视角优于被动分析，且小模型有时优于大模型，凸显尺寸非唯一性能因素。研究揭示当前多模态大模型在物理与社会常识上的推理瓶颈，推动视觉推理向具身化发展。
来源：https://mp.weixin.qq.com/s/1RSe4qvYema7iYBvgN628w

		自动登录	找回密码
密码			立即注册

课程导航

大模型首次拥有“脖子”！纽大团队实现360度类人视觉搜索