VLA模型推动具身智能新发展
VLA(视觉-语言-动作模型)作为多模态技术的重要分支,在2025年初迎来快速发展。谷歌、英伟达、微软等头部企业以及Figure AI、银河通用等创业团队相继发布各自VLA模型,展现了在机器人控制任务上的优越性能。VLA起源于谷歌DeepMind的RT-2模型,其多模态特性使其在复杂环境中具备更强的灵活性与泛化能力。中科院自动化所研究者进一步总结了VLA的五种技术方案,而Sergey Levine团队提出的π0模型则被视为“通用机器人策略”,为行业发展提供了新方向。来源:https://mp.weixin.qq.com/s/w5p_6b8P8AnPfWg6lTmcJw
页:
[1]