字节Seed与斯坦福等机构联合提出一种名为Mixture of Contexts(MoC)的新模型,用于高效生成长视频。MoC通过稀疏注意力机制,将视频生成重构为上下文检索任务,使生成一分钟480P视频的计算量从1.66×10¹³FLOPs降至2.32×10¹²FLOPs,削减85%。在多镜头和单镜头视频中也分别节省约86%和78%的计算资源,同时在主题一致性、动作连贯性等关键指标上优于基线模型。MoC通过动态分块、路由机制及工程优化,提升了长视频生成的效率与稳定性,为长视频生成提供了新思路。
来源:https://mp.weixin.qq.com/s/0JTfrSnf76WrmpchpCcrhQ