语音合成也遵循Scaling Law,太乙真人“原声放送”讲解论文
香港科技大学等机构推出的Llasa框架,采用单层VQ编解码器与单个Transformer架构,提供1B、3B、8B规模的TTS模型及训练代码。通过验证Scaling Law,研究显示增加模型参数(1B至8B)和训练数据(80k小时至250k小时),能显著提升语音自然度、韵律准确性等。该框架还引入PRM和ORM方法优化推理阶段语音质量,在多个数据集上表现出色,现已开源供研究使用。来源:https://mp.weixin.qq.com/s/ZlT6ww-SAzq5v2m_b2NQPQ
页:
[1]