语音合成也遵循Scaling Law,太乙真人“原声放送”讲解论文

[复制链接]
周大 发表于 2025-2-27 16:06:08 | 显示全部楼层 |阅读模式
香港科技大学等机构推出的Llasa框架,采用单层VQ编解码器与单个Transformer架构,提供1B、3B、8B规模的TTS模型及训练代码。通过验证Scaling Law,研究显示增加模型参数(1B至8B)和训练数据(80k小时至250k小时),能显著提升语音自然度、韵律准确性等。该框架还引入PRM和ORM方法优化推理阶段语音质量,在多个数据集上表现出色,现已开源供研究使用。
来源:https://mp.weixin.qq.com/s/ZlT6ww-SAzq5v2m_b2NQPQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 06:23 , Processed in 0.299825 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表