周大 发表于 2025-5-31 14:26:44

斯坦福团队创新结合SSM与扩散模型,打造高效长时记忆视频世界模型

斯坦福大学等机构提出一种融合状态空间模型与扩散模型的新型“视频世界模型”,通过逐块扫描及帧局部注意力机制,解决了长期记忆受限问题,提升了时间记忆与空间一致性。实验显示,该方法在长期记忆任务中表现最优,且具备线性扩展的训练时间和恒定的推理成本,为交互式视频生成提供了新思路。
来源:https://mp.weixin.qq.com/s/TMv5qsPaP3IMGunMWGi32w
页: [1]
查看完整版本: 斯坦福团队创新结合SSM与扩散模型,打造高效长时记忆视频世界模型