腾讯开源语音数字人模型HunyuanVideo-Avatar：照片+音频即可生成动态演唱视频

周大发表于 2025-5-29 13:44:00

腾讯混元团队与腾讯音乐天琴实验室联合推出开源语音数字人模型HunyuanVideo-Avatar，用户只需提供一张人物图像和音频文件，即可生成自然表情和精准动作的动态视频。该模型基于多模态技术开发，突破传统数字人技术局限，支持多种景别和艺术风格，并已应用于QQ音乐、酷狗音乐等平台。其核心架构采用多模态扩散Transformer，确保主体一致性和音画同步达到行业领先水平。目前单主体功能已开放体验，未来将持续开源更多功能，助力短视频创作、电商营销等领域发展。
来源：https://tech.ifeng.com/c/8jj6e5DujCb

页: [1]

靠浦ai课堂's Archiver

腾讯开源语音数字人模型HunyuanVideo-Avatar：照片+音频即可生成动态演唱视频