小红书智创音频技术团队:SOTA对话生成模型FireRedTTS-2来了,轻松做出AI播客!

[复制链接]
周大 发表于 前天 14:43 | 显示全部楼层 |阅读模式
小红书音频技术团队推出新一代对话合成模型 FireRedTTS-2,针对现有模型灵活性差、发音错误多、说话人切换不稳定等问题,通过升级离散语音编码器与文本语音合成模型显著提升合成效果。该模型支持多语言、多说话人合成,具备音色克隆能力,仅需一句语音样本即可模仿说话人风格。采用“双 Transformer”架构与两阶段训练策略,在140万小时数据上训练,显著提升自然度与稳定性。评测显示,其在多项主客观指标中均优于开源模型 MoonCast、ZipVoice-Dialogue、MOSS-TTSD,微调后 CER 低至1.66%,56% 测例自然度达或超真人水平,为播客生成与对话交互提供高效解决方案。
来源:https://mp.weixin.qq.com/s/XUiCDtUqrYGsy-LkE6aKwA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-16 08:41 , Processed in 0.283800 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表