周大 发表于 2025-4-19 16:21:22

语音合成突破:F5R-TTS首次实现非自回归模型的GRPO优化,零样本克隆性能显著提升

腾讯PCG社交线团队开发的 F5R-TTS 系统,首次将强化学习引入非自回归语音合成领域,通过概率化输出转换和 GRPO 方法,显著提升了语义准确性和音色保真度(WER 降低 29.5%,SIM 提升 4.6%)。该系统采用两阶段训练策略,结合大规模实验验证,证明了其在复杂场景下的优越性能。这一突破不仅解决了非自回归模型的技术瓶颈,还为生成式 AI 模型优化提供了新思路,未来有望进一步拓展强化学习算法及奖励函数设计。
来源:https://mp.weixin.qq.com/s/Qw9i0utDmsOFW3kHIs8apg
页: [1]
查看完整版本: 语音合成突破:F5R-TTS首次实现非自回归模型的GRPO优化,零样本克隆性能显著提升