化解机器人的「幻觉」:北大发布OmniManip,VLM结合双闭环系统,3D理解能力大幅提升

[复制链接]
周大 发表于 2025-1-22 14:44:44 | 显示全部楼层 |阅读模式
北京大学与智元机器人联合实验室针对视觉语言基础模型应用于机器人存在的缺少精确3D理解能力和无法输出低层次动作两大挑战,提出了OmniManip架构。该架构基于以对象为中心的3D交互基元,将VLM高层次推理能力转化为机器人低层次高精度动作,并创新性地引入了VLM规划和机器人执行的双闭环系统设计。实验结果显示,OmniManip作为免训练的开放词汇操作方法具备强大的零样本泛化能力,在12个真机短程任务上展现卓越性能,且双闭环系统带来约17%的性能提升。此外,OmniManip具有强大的拓展性,能与high - level任务规划器结合实现长程任务操作,可迁移至不同形态本体。
来源:https://mp.weixin.qq.com/s/nMbWrysJm524vvWOA0C1pA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 17:11 , Processed in 0.288527 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表