周大 发表于 2025-3-13 14:33:35

11B模型拿下开源视频生成新SOTA!仅用224张GPU训练,训练成本省10倍

Open-Sora 2.0作为开源视频生成模型正式发布,采用11B参数规模,在性能上可匹敌30B参数的闭源模型。其训练成本从数百万美元降至20万美元,支持720P、24FPS高画质视频生成。该模型在VBench评测中表现出色,接近OpenAI Sora水平。团队通过引入3D全注意力机制和MMDiT架构优化模型架构,并实现高效训练方法,大幅降低成本。此外,高压缩比自编码器的应用使推理速度提升10倍,成为开源视频生成领域的重要突破。
来源:https://mp.weixin.qq.com/s/byQvN4NjnghK_AX85O9H_w
页: [1]
查看完整版本: 11B模型拿下开源视频生成新SOTA!仅用224张GPU训练,训练成本省10倍