OpenAI发布革命性语音模型gpt-realtime,音质与智能逼近真人,支持多语言无缝切换

[复制链接]
周大 发表于 2025-8-29 15:00:06 | 显示全部楼层 |阅读模式
OpenAI发布新一代语音模型gpt-realtime和Realtime API,实现语音直接处理、图像输入和SIP拨号功能。gpt-realtime在音质、理解力、指令遵循和函数调用方面显著提升,语音自然接近真人,并支持多语言切换和语气调整。其在Big Bench Audio评测中准确率达82.8%,指令遵循测试得分30.5%,函数调用准确率66.5%。Realtime API新增远程MCP服务器支持、图像识别和可重用提示词功能,提升集成灵活性。两位华人研究员Beichen Li和Liyu Chen参与此次更新。
来源:https://mp.weixin.qq.com/s/pFQV5OVJ2OjVXJQAcO-HzA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 18:40 , Processed in 0.304368 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表