周大 发表于 2025-4-23 14:39:45

迈向长上下文视频生成!NUS团队新作FAR同时实现短视频和长视频预测SOTA,代码已开源

新加坡国立大学 ShowLab 提出一种新型长上下文视频生成模型 FAR,解决了传统方法在长视频生成中的计算瓶颈与时间不一致性问题。通过引入帧自回归模型、长短时上下文建模及多层 KV Cache 机制,FAR 在短视频生成任务中展现出更快的收敛速度和更优性能,同时在长视频生成场景中实现了显著的长时序一致性。实验结果表明,FAR 不仅无需额外微调即可达到 SOTA 水平,还具备出色的长期记忆能力,为高效利用海量长视频数据提供了新路径。
来源:https://mp.weixin.qq.com/s/ZNeMG4hWGo6vntNfbFWydg
页: [1]
查看完整版本: 迈向长上下文视频生成!NUS团队新作FAR同时实现短视频和长视频预测SOTA,代码已开源