周大 发表于 2024-9-24 15:29:32

车圈最大AI「黑马」吉利:自研语音大模型登顶,性能超SOTA 10%

吉利汽车研发的HAM-TTS大模型在发音准确性、自然度和说话人相似度上超越现有SOTA成果VALL-E,字符错误率降低1.5%-2.3%,风格一致性提升10%。该模型支持跨语种无缝切换,仅需3秒样本即可复刻声音,显著改善了智能座舱体验。通过引入分层声学建模方法,吉利解决了传统TTS模型的发音错误和风格突变问题。
来源:https://mp.weixin.qq.com/s/es2jFmFiu5VKaslWDV0-xA
页: [1]
查看完整版本: 车圈最大AI「黑马」吉利:自研语音大模型登顶,性能超SOTA 10%