首个全面梳理语音大模型发展脉络的权威综述，入选ACL 2025主会

周大发表于 2025-6-17 15:13:21

香港中文大学团队的语音语言模型（SpeechLM）综述论文被ACL 2025接收，这是该领域的首个系统性综述。SpeechLM针对传统语音交互系统的信息丢失、延迟及错误累积问题，通过端到端处理语音提升了交互自然度。其技术架构由语音分词器、语言模型和声码器三大组件构成，并采用预训练、指令微调和后对齐的训练策略。SpeechLM可通过全双工建模实现自然对话，应用场景覆盖语义理解、说话人识别及情感生成等多方面。性能评估包含自动与人工两类指标，但仍面临组件优化、实时性及安全性等诸多挑战。未来，SpeechLM有望重新定义人机交互方式，开启语音AI新纪元。
来源：https://mp.weixin.qq.com/s/sIa9qIzPuykCysAVgeGxew

页: [1]

靠浦ai课堂's Archiver

首个全面梳理语音大模型发展脉络的权威综述，入选ACL 2025主会