微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora

[复制链接]
周大 发表于 2024-12-26 14:52:04 | 显示全部楼层 |阅读模式
微软联合高校推出开源视频Tokenizer——VidTok,在连续与离散设定下性能全面领先现有模型。它支持多种视频压缩率和隐空间通道数,并兼容因果和非因果模型。实验表明,VidTok不仅在常见评估指标上超越其他模型,还通过创新性地结合3D、2D和1D卷积降低计算需求。此外,其采用的有限标量量化技术和分阶段训练策略进一步提升了稳定性和效率。这一工具为视频生成领域提供了新的解决方案,尤其适合研究者进行特定领域的优化工作。
来源:https://mp.weixin.qq.com/s/-b5yhTWX9KUBlOpFJT39ZA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 16:58 , Processed in 0.288161 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表