首次实现第一视角视频与人体动作同步生成！新框架攻克视角-动作对齐两大技术壁垒

周大发表于 2025-10-1 15:31:05

新加坡国立大学等机构联合推出EgoTwin，首个实现第一视角视频与人体动作联合生成的扩散模型。通过以头部为中心的动作表征、双向因果注意力机制与异步扩散训练框架，解决了视角对齐与因果交互难题。实验显示其在跨模态匹配精度上显著优于基线模型，支持多模态输入输出，并可用于3D场景重建，为可穿戴设备、AR及具身智能提供新基础。
来源：https://mp.weixin.qq.com/s/wnYJlcUP4RVZBznmKhnyZw

		自动登录	找回密码
密码			立即注册

课程导航

首次实现第一视角视频与人体动作同步生成！新框架攻克视角-动作对齐两大技术壁垒