港科大开源VideoVAE+,视频重建质量全面超越最新模型

[复制链接]
周大 发表于 2024-12-30 15:35:59 | 显示全部楼层 |阅读模式
港科大团队近日开源了VideoVAE+,这是一种跨模态的视频变分自编码器,通过创新的时空分离压缩机制和文本指导,实现了对大幅运动视频的高效压缩与精准重建。该模型在保持时间一致性和运动恢复方面表现出色,大幅超越了包括英伟达Cosmos Tokenizer和腾讯Hunyuan Video在内的最新模型。研究团队还引入了智能特征分块、跨模态注意力机制等技术,进一步提升了细节保留和生成质量。实验结果显示,VideoVAE+在多个数据集上的表现优异,并提供了Demo视频供直观查看。
来源:https://mp.weixin.qq.com/s/ldL2pfViOXrdZ5k_f6fRFA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-15 17:08 , Processed in 0.277282 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表