数据减少超千倍，500 美金就可训练一流视频模型，港城、华为Pusa来了

周大发表于 2025-6-19 14:41:46

香港城市大学与香港中文大学的研究团队提出帧感知视频扩散模型 (FVDM)，通过引入向量化时间步变量 (VTV)，突破传统标量时间步的限制，大幅提升视频生成的时序建模能力。基于此理论，团队与华为合作推出 Pusa 项目，利用非破坏性微调策略，仅以 500 美元的成本便超越官方模型效果，成本降低超 200 倍。Pusa 不仅支持图生视频、首尾帧生成等多样化任务，还保留文生视频能力。此外，Pusa-Mochi 更将成本降至 100 美元。目前，Pusa 已全面开源，旨在推动视频生成技术的进一步发展。
来源：https://mp.weixin.qq.com/s/MCOrbgJvqWwFnYmavSde6w

页: [1]

靠浦ai课堂's Archiver

数据减少超千倍，500 美金就可训练一流视频模型，港城、华为Pusa来了