语音合成也遵循Scaling Law，太乙真人“原声放送”讲解论文

周大发表于 2025-2-27 16:06:08

香港科技大学等机构推出的Llasa框架，采用单层VQ编解码器与单个Transformer架构，提供1B、3B、8B规模的TTS模型及训练代码。通过验证Scaling Law，研究显示增加模型参数（1B至8B）和训练数据（80k小时至250k小时），能显著提升语音自然度、韵律准确性等。该框架还引入PRM和ORM方法优化推理阶段语音质量，在多个数据集上表现出色，现已开源供研究使用。
来源：https://mp.weixin.qq.com/s/ZlT6ww-SAzq5v2m_b2NQPQ

页: [1]

靠浦ai课堂's Archiver

语音合成也遵循Scaling Law，太乙真人“原声放送”讲解论文