首次实现第一视角视频与人体动作同步生成!新框架攻克视角-动作对齐两大技术壁垒

[复制链接]
周大 发表于 2025-10-1 15:31:05 | 显示全部楼层 |阅读模式
新加坡国立大学等机构联合推出EgoTwin,首个实现第一视角视频与人体动作联合生成的扩散模型。通过以头部为中心的动作表征、双向因果注意力机制与异步扩散训练框架,解决了视角对齐与因果交互难题。实验显示其在跨模态匹配精度上显著优于基线模型,支持多模态输入输出,并可用于3D场景重建,为可穿戴设备、AR及具身智能提供新基础。
来源:https://mp.weixin.qq.com/s/wnYJlcUP4RVZBznmKhnyZw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-10-9 23:58 , Processed in 0.295801 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表