北京智源研究院等提出UniVLA新架构，引领具身智能，刷新多项SOTA纪录

周大发表于 2025-7-10 14:39:06

北京智源研究院与中国科学院自动化研究所联合提出全新视觉-语言-动作（VLA）模型架构UniVLA，采用全离散、自回归机制，统一建模视觉、语言与动作信号，并引入世界模型以增强时序建模与因果推理。该模型在CALVIN、LIBERO、SimplerEnv等主流具身智能基准上刷新多项SOTA记录，且在双臂操控与自动驾驶等现实任务中展现应用潜力。相较传统方法，UniVLA更强调视觉时序信息的重要性，仅凭海量视频即可高效学习，显著提升训练效率与扩展性，为多模态感知与决策融合提供了新路径。
来源：https://mp.weixin.qq.com/s/k8GW4oO7BEwo-7GaG8gMOw

页: [1]

靠浦ai课堂's Archiver

北京智源研究院等提出UniVLA新架构，引领具身智能，刷新多项SOTA纪录