开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s

[复制链接]
周大 发表于 2024-10-23 15:51:49 | 显示全部楼层 |阅读模式
阿里巴巴ModelScope魔搭社区推出了一款开源数字人实时对话Demo,支持语音输入和实时对话,数字人形象和音色可自定义,对话首包延迟低至3秒。项目基于开源技术,采用模块化设计,各模块可快速更换和优化,适用于直播、新闻播报和聊天助手等场景。技术选型包括FunASR进行语音识别、通义千问生成文本、GPT-SoVITS合成语音和MuseTalk生成说话视频。项目使用Gradio 5实现流式视频输出,方便部署和构建交互式应用。未来计划进行链路优化、端到端语音聊天和流式视频播放等方面的优化。 ###
来源:https://mp.weixin.qq.com/s/jpoB8O2IyjhXeAWNWnAj7A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 01:40 , Processed in 0.275798 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表