开源数字人实时对话：形象可自定义，支持语音输入，对话首包延迟可低至3s

周大发表于 2024-10-23 15:51:49

阿里巴巴ModelScope魔搭社区推出了一款开源数字人实时对话Demo，支持语音输入和实时对话，数字人形象和音色可自定义，对话首包延迟低至3秒。项目基于开源技术，采用模块化设计，各模块可快速更换和优化，适用于直播、新闻播报和聊天助手等场景。技术选型包括FunASR进行语音识别、通义千问生成文本、GPT-SoVITS合成语音和MuseTalk生成说话视频。项目使用Gradio 5实现流式视频输出，方便部署和构建交互式应用。未来计划进行链路优化、端到端语音聊天和流式视频播放等方面的优化。 ###
来源：https://mp.weixin.qq.com/s/jpoB8O2IyjhXeAWNWnAj7A

		自动登录	找回密码
密码			立即注册

课程导航

开源数字人实时对话：形象可自定义，支持语音输入，对话首包延迟可低至3s