同时提升摄像机控制效率、视频质量,可控视频生成架构AC3D来了
近期,多伦多大学等机构推出AC3D技术,通过低频运动建模、摄像机信息表示及高质量数据集改进,显著提升视频生成中的摄像机控制精度与效率。AC3D基于VDiT模型,采用T5编码器生成文本嵌入,并通过交叉注意力机制融合文本与视频特征。研究者通过分析摄像机运动特性,优化训练调度,将摄像机条件注入特定子层,减少干扰,提高训练速度。新构建的20,000段动态视频数据集进一步增强了模型区分摄像机运动与场景运动的能力,使AC3D在摄像机控制视频合成方面达到先进水平,为高质量文本生成视频提供了新的技术基准。来源:https://mp.weixin.qq.com/s/xdSdY_pBts8LMkilGnRmqQ
页:
[1]