港科大开源VideoVAE+,视频重建质量全面超越最新模型
港科大团队近日开源了VideoVAE+,这是一种跨模态的视频变分自编码器,通过创新的时空分离压缩机制和文本指导,实现了对大幅运动视频的高效压缩与精准重建。该模型在保持时间一致性和运动恢复方面表现出色,大幅超越了包括英伟达Cosmos Tokenizer和腾讯Hunyuan Video在内的最新模型。研究团队还引入了智能特征分块、跨模态注意力机制等技术,进一步提升了细节保留和生成质量。实验结果显示,VideoVAE+在多个数据集上的表现优异,并提供了Demo视频供直观查看。来源:https://mp.weixin.qq.com/s/ldL2pfViOXrdZ5k_f6fRFA
页:
[1]