周大 发表于 2025-6-12 15:07:20

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

微软研究院与北大合作开发的Next-Frame Diffusion (NFD)框架,通过帧内并行采样与帧间自回归方法,显著提升了视频生成效率和质量。在NVIDIA A100 GPU上,310M参数模型可实现每秒超30帧的高质量视频生成。NFD采用一致性蒸馏、投机采样及块状因果注意力机制优化推理效率,实验结果显示其在FVD、PSNR等指标上优于现有模型,速度提升超过2倍。此外,加速版NFD+实现了更高的帧率(最高达42.46FPS),为未来游戏引擎和世界模型的高效生成提供了重要参考。
来源:https://mp.weixin.qq.com/s/1dEhcwTw6WcLcvmNoXJhEA
页: [1]
查看完整版本: 每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率