化解机器人的「幻觉」：北大发布OmniManip，VLM结合双闭环系统，3D理解能力大幅提升

周大发表于 2025-1-22 14:44:44

北京大学与智元机器人联合实验室针对视觉语言基础模型应用于机器人存在的缺少精确3D理解能力和无法输出低层次动作两大挑战，提出了OmniManip架构。该架构基于以对象为中心的3D交互基元，将VLM高层次推理能力转化为机器人低层次高精度动作，并创新性地引入了VLM规划和机器人执行的双闭环系统设计。实验结果显示，OmniManip作为免训练的开放词汇操作方法具备强大的零样本泛化能力，在12个真机短程任务上展现卓越性能，且双闭环系统带来约17%的性能提升。此外，OmniManip具有强大的拓展性，能与high - level任务规划器结合实现长程任务操作，可迁移至不同形态本体。
来源：https://mp.weixin.qq.com/s/nMbWrysJm524vvWOA0C1pA

		自动登录	找回密码
密码			立即注册

课程导航

化解机器人的「幻觉」：北大发布OmniManip，VLM结合双闭环系统，3D理解能力大幅提升