小红书智创音频技术团队:SOTA对话生成模型FireRedTTS-2来了,轻松做出AI播客!
小红书音频技术团队推出新一代对话合成模型 FireRedTTS-2,针对现有模型灵活性差、发音错误多、说话人切换不稳定等问题,通过升级离散语音编码器与文本语音合成模型显著提升合成效果。该模型支持多语言、多说话人合成,具备音色克隆能力,仅需一句语音样本即可模仿说话人风格。采用“双 Transformer”架构与两阶段训练策略,在140万小时数据上训练,显著提升自然度与稳定性。评测显示,其在多项主客观指标中均优于开源模型 MoonCast、ZipVoice-Dialogue、MOSS-TTSD,微调后 CER 低至1.66%,56% 测例自然度达或超真人水平,为播客生成与对话交互提供高效解决方案。来源:https://mp.weixin.qq.com/s/XUiCDtUqrYGsy-LkE6aKwA
页:
[1]