北大-灵初重磅发布具身VLA全面综述!一文看清VLA技术路线与未来趋势

[复制链接]
周大 发表于 2025-7-25 13:46:22 | 显示全部楼层 |阅读模式
多模态基础模型推动机器人迈向具身智能,VLA(视觉-语言-动作模型)成为关键方向。北京大学与灵初智能联合团队首次从动作词元化视角提出统一理论框架,系统梳理八种 action token 的发展趋势与挑战。灵初智能已实现 Psi R1 模型在麻将机器人等场景的应用,并将在 WAIC 2025 展示技术成果。综述指出,VLA 未来将采用分层架构,结合语言、轨迹、目标状态等多种动作表示,依赖模型、数据与硬件协同发展,推动机器人在复杂任务中的泛化与落地。
来源:https://mp.weixin.qq.com/s/wp_6A0BYJQA_omZBWWLcfw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 03:53 , Processed in 0.286081 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表