小红书智创音频技术团队：SOTA对话生成模型FireRedTTS-2来了，轻松做出AI播客！

周大发表于 2025-9-14 14:43:31

小红书音频技术团队推出新一代对话合成模型 FireRedTTS-2，针对现有模型灵活性差、发音错误多、说话人切换不稳定等问题，通过升级离散语音编码器与文本语音合成模型显著提升合成效果。该模型支持多语言、多说话人合成，具备音色克隆能力，仅需一句语音样本即可模仿说话人风格。采用“双 Transformer”架构与两阶段训练策略，在140万小时数据上训练，显著提升自然度与稳定性。评测显示，其在多项主客观指标中均优于开源模型 MoonCast、ZipVoice-Dialogue、MOSS-TTSD，微调后 CER 低至1.66%，56% 测例自然度达或超真人水平，为播客生成与对话交互提供高效解决方案。
来源：https://mp.weixin.qq.com/s/XUiCDtUqrYGsy-LkE6aKwA

页: [1]

靠浦ai课堂's Archiver

小红书智创音频技术团队：SOTA对话生成模型FireRedTTS-2来了，轻松做出AI播客！