腾讯开源语音数字人模型HunyuanVideo-Avatar:照片+音频即可生成动态演唱视频
腾讯混元团队与腾讯音乐天琴实验室联合推出开源语音数字人模型HunyuanVideo-Avatar,用户只需提供一张人物图像和音频文件,即可生成自然表情和精准动作的动态视频。该模型基于多模态技术开发,突破传统数字人技术局限,支持多种景别和艺术风格,并已应用于QQ音乐、酷狗音乐等平台。其核心架构采用多模态扩散Transformer,确保主体一致性和音画同步达到行业领先水平。目前单主体功能已开放体验,未来将持续开源更多功能,助力短视频创作、电商营销等领域发展。来源:https://tech.ifeng.com/c/8jj6e5DujCb
页:
[1]