语音合成突破：F5R-TTS首次实现非自回归模型的GRPO优化，零样本克隆性能显著提升

周大发表于 2025-4-19 16:21:22

腾讯PCG社交线团队开发的 F5R-TTS 系统，首次将强化学习引入非自回归语音合成领域，通过概率化输出转换和 GRPO 方法，显著提升了语义准确性和音色保真度（WER 降低 29.5%，SIM 提升 4.6%）。该系统采用两阶段训练策略，结合大规模实验验证，证明了其在复杂场景下的优越性能。这一突破不仅解决了非自回归模型的技术瓶颈，还为生成式 AI 模型优化提供了新思路，未来有望进一步拓展强化学习算法及奖励函数设计。
来源：https://mp.weixin.qq.com/s/Qw9i0utDmsOFW3kHIs8apg

页: [1]

靠浦ai课堂's Archiver

语音合成突破：F5R-TTS首次实现非自回归模型的GRPO优化，零样本克隆性能显著提升