周大 发表于 2024-12-26 14:52:04

微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora

微软联合高校推出开源视频Tokenizer——VidTok,在连续与离散设定下性能全面领先现有模型。它支持多种视频压缩率和隐空间通道数,并兼容因果和非因果模型。实验表明,VidTok不仅在常见评估指标上超越其他模型,还通过创新性地结合3D、2D和1D卷积降低计算需求。此外,其采用的有限标量量化技术和分阶段训练策略进一步提升了稳定性和效率。这一工具为视频生成领域提供了新的解决方案,尤其适合研究者进行特定领域的优化工作。
来源:https://mp.weixin.qq.com/s/-b5yhTWX9KUBlOpFJT39ZA
页: [1]
查看完整版本: 微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora