北大-灵初重磅发布具身VLA全面综述！一文看清VLA技术路线与未来趋势

周大发表于 2025-7-25 13:46:22

多模态基础模型推动机器人迈向具身智能，VLA（视觉-语言-动作模型）成为关键方向。北京大学与灵初智能联合团队首次从动作词元化视角提出统一理论框架，系统梳理八种 action token 的发展趋势与挑战。灵初智能已实现 Psi R1 模型在麻将机器人等场景的应用，并将在 WAIC 2025 展示技术成果。综述指出，VLA 未来将采用分层架构，结合语言、轨迹、目标状态等多种动作表示，依赖模型、数据与硬件协同发展，推动机器人在复杂任务中的泛化与落地。
来源：https://mp.weixin.qq.com/s/wp_6A0BYJQA_omZBWWLcfw

页: [1]

靠浦ai课堂's Archiver

北大-灵初重磅发布具身VLA全面综述！一文看清VLA技术路线与未来趋势