周大 发表于 5 天前

数据减少超千倍,500 美金就可训练一流视频模型,港城、华为Pusa来了

香港城市大学与香港中文大学的研究团队提出帧感知视频扩散模型 (FVDM),通过引入向量化时间步变量 (VTV),突破传统标量时间步的限制,大幅提升视频生成的时序建模能力。基于此理论,团队与华为合作推出 Pusa 项目,利用非破坏性微调策略,仅以 500 美元的成本便超越官方模型效果,成本降低超 200 倍。Pusa 不仅支持图生视频、首尾帧生成等多样化任务,还保留文生视频能力。此外,Pusa-Mochi 更将成本降至 100 美元。目前,Pusa 已全面开源,旨在推动视频生成技术的进一步发展。
来源:https://mp.weixin.qq.com/s/MCOrbgJvqWwFnYmavSde6w
页: [1]
查看完整版本: 数据减少超千倍,500 美金就可训练一流视频模型,港城、华为Pusa来了