北京智源研究院等提出UniVLA新架构,引领具身智能,刷新多项SOTA纪录
北京智源研究院与中国科学院自动化研究所联合提出全新视觉-语言-动作(VLA)模型架构UniVLA,采用全离散、自回归机制,统一建模视觉、语言与动作信号,并引入世界模型以增强时序建模与因果推理。该模型在CALVIN、LIBERO、SimplerEnv等主流具身智能基准上刷新多项SOTA记录,且在双臂操控与自动驾驶等现实任务中展现应用潜力。相较传统方法,UniVLA更强调视觉时序信息的重要性,仅凭海量视频即可高效学习,显著提升训练效率与扩展性,为多模态感知与决策融合提供了新路径。来源:https://mp.weixin.qq.com/s/k8GW4oO7BEwo-7GaG8gMOw
页:
[1]