周大 发表于 2024-10-30 15:43:12

港中大与趣丸科技推出超自然语音克隆模型 MaskGCT

港中大(深圳)与趣丸科技联合推出新一代大规模声音克隆 TTS 模型 MaskGCT。该模型在 10 万小时多语言数据上训练,具备超自然的语音克隆、风格迁移和跨语言生成能力。MaskGCT 采用全非自回归掩码生成编解码器 Transformer,无需文本与语音对齐监督。实验表明,其在语音质量、相似度和可理解性方面优于当前最先进的零样本 TTS 系统。MaskGCT 已在开源系统 Amphion 发布,并应用于多语种速译智能视听平台“趣丸千音”,显著降低视频翻译成本和制作周期。
来源:https://mp.weixin.qq.com/s/7QZi0IpILyl3R8wpHXSbtA
页: [1]
查看完整版本: 港中大与趣丸科技推出超自然语音克隆模型 MaskGCT