本研究由加州大学伯克利分校与 Meta 团队联合开展,提出了一种新型视觉预测模型 PEVA,通过结合人体3D姿态与历史视频帧,模拟人类在执行动作后可能看到的视觉效果。该模型支持最长16秒的第一视角视频预测,并具备原子动作控制、反事实推断与多动作序列规划能力。研究强调了身体驱动对未来视觉预测的重要性,为构建更具身智能的世界模型提供了新思路。尽管目前仍存在目标意图表达粗糙等局限,但其短期预测准确性与长期连贯性已展现出良好潜力。
来源:https://mp.weixin.qq.com/s/id_ISbf7wVvk3pl2GCIgWA