伯克利与Meta提出PEVA模型，用全身动作预测视觉，探索具身智能新方向

周大发表于 2025-7-1 14:39:39

本研究由加州大学伯克利分校与 Meta 团队联合开展，提出了一种新型视觉预测模型 PEVA，通过结合人体3D姿态与历史视频帧，模拟人类在执行动作后可能看到的视觉效果。该模型支持最长16秒的第一视角视频预测，并具备原子动作控制、反事实推断与多动作序列规划能力。研究强调了身体驱动对未来视觉预测的重要性，为构建更具身智能的世界模型提供了新思路。尽管目前仍存在目标意图表达粗糙等局限，但其短期预测准确性与长期连贯性已展现出良好潜力。
来源：https://mp.weixin.qq.com/s/id_ISbf7wVvk3pl2GCIgWA

		自动登录	找回密码
密码			立即注册

课程导航

伯克利与Meta提出PEVA模型，用全身动作预测视觉，探索具身智能新方向