迈向长上下文视频生成！NUS团队新作FAR同时实现短视频和长视频预测SOTA，代码已开源

周大发表于 2025-4-23 14:39:45

新加坡国立大学 ShowLab 提出一种新型长上下文视频生成模型 FAR，解决了传统方法在长视频生成中的计算瓶颈与时间不一致性问题。通过引入帧自回归模型、长短时上下文建模及多层 KV Cache 机制，FAR 在短视频生成任务中展现出更快的收敛速度和更优性能，同时在长视频生成场景中实现了显著的长时序一致性。实验结果表明，FAR 不仅无需额外微调即可达到 SOTA 水平，还具备出色的长期记忆能力，为高效利用海量长视频数据提供了新路径。
来源：https://mp.weixin.qq.com/s/ZNeMG4hWGo6vntNfbFWydg

页: [1]

靠浦ai课堂's Archiver

迈向长上下文视频生成！NUS团队新作FAR同时实现短视频和长视频预测SOTA，代码已开源