伯克利与Meta提出PEVA模型,用全身动作预测视觉,探索具身智能新方向

[复制链接]
周大 发表于 4 天前 | 显示全部楼层 |阅读模式
本研究由加州大学伯克利分校与 Meta 团队联合开展,提出了一种新型视觉预测模型 PEVA,通过结合人体3D姿态与历史视频帧,模拟人类在执行动作后可能看到的视觉效果。该模型支持最长16秒的第一视角视频预测,并具备原子动作控制、反事实推断与多动作序列规划能力。研究强调了身体驱动对未来视觉预测的重要性,为构建更具身智能的世界模型提供了新思路。尽管目前仍存在目标意图表达粗糙等局限,但其短期预测准确性与长期连贯性已展现出良好潜力。
来源:https://mp.weixin.qq.com/s/id_ISbf7wVvk3pl2GCIgWA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-5 23:15 , Processed in 0.268986 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表