OpenAI发布革命性语音模型gpt-realtime,音质与智能逼近真人,支持多语言无缝切换
OpenAI发布新一代语音模型gpt-realtime和Realtime API,实现语音直接处理、图像输入和SIP拨号功能。gpt-realtime在音质、理解力、指令遵循和函数调用方面显著提升,语音自然接近真人,并支持多语言切换和语气调整。其在Big Bench Audio评测中准确率达82.8%,指令遵循测试得分30.5%,函数调用准确率66.5%。Realtime API新增远程MCP服务器支持、图像识别和可重用提示词功能,提升集成灵活性。两位华人研究员Beichen Li和Liyu Chen参与此次更新。来源:https://mp.weixin.qq.com/s/pFQV5OVJ2OjVXJQAcO-HzA
页:
[1]