北京智源研究院等提出UniVLA新架构,引领具身智能,刷新多项SOTA纪录

[复制链接]
周大 发表于 2025-7-10 14:39:06 | 显示全部楼层 |阅读模式
北京智源研究院与中国科学院自动化研究所联合提出全新视觉-语言-动作(VLA)模型架构UniVLA,采用全离散、自回归机制,统一建模视觉、语言与动作信号,并引入世界模型以增强时序建模与因果推理。该模型在CALVIN、LIBERO、SimplerEnv等主流具身智能基准上刷新多项SOTA记录,且在双臂操控与自动驾驶等现实任务中展现应用潜力。相较传统方法,UniVLA更强调视觉时序信息的重要性,仅凭海量视频即可高效学习,显著提升训练效率与扩展性,为多模态感知与决策融合提供了新路径。
来源:https://mp.weixin.qq.com/s/k8GW4oO7BEwo-7GaG8gMOw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-24 03:56 , Processed in 0.284334 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表