港科大开源VideoVAE+，视频重建质量全面超越最新模型

周大发表于 2024-12-30 15:35:59

港科大团队近日开源了VideoVAE+，这是一种跨模态的视频变分自编码器，通过创新的时空分离压缩机制和文本指导，实现了对大幅运动视频的高效压缩与精准重建。该模型在保持时间一致性和运动恢复方面表现出色，大幅超越了包括英伟达Cosmos Tokenizer和腾讯Hunyuan Video在内的最新模型。研究团队还引入了智能特征分块、跨模态注意力机制等技术，进一步提升了细节保留和生成质量。实验结果显示，VideoVAE+在多个数据集上的表现优异，并提供了Demo视频供直观查看。
来源：https://mp.weixin.qq.com/s/ldL2pfViOXrdZ5k_f6fRFA

页: [1]

靠浦ai课堂's Archiver

港科大开源VideoVAE+，视频重建质量全面超越最新模型