同时提升摄像机控制效率、视频质量,可控视频生成架构AC3D来了

[复制链接]
周大 发表于 2025-1-14 14:21:57 | 显示全部楼层 |阅读模式
近期,多伦多大学等机构推出AC3D技术,通过低频运动建模、摄像机信息表示及高质量数据集改进,显著提升视频生成中的摄像机控制精度与效率。AC3D基于VDiT模型,采用T5编码器生成文本嵌入,并通过交叉注意力机制融合文本与视频特征。研究者通过分析摄像机运动特性,优化训练调度,将摄像机条件注入特定子层,减少干扰,提高训练速度。新构建的20,000段动态视频数据集进一步增强了模型区分摄像机运动与场景运动的能力,使AC3D在摄像机控制视频合成方面达到先进水平,为高质量文本生成视频提供了新的技术基准。
来源:https://mp.weixin.qq.com/s/xdSdY_pBts8LMkilGnRmqQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 19:41 , Processed in 0.271159 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表