OpenAI发布革命性语音模型gpt-realtime，音质与智能逼近真人，支持多语言无缝切换

周大发表于 2025-8-29 15:00:06

OpenAI发布新一代语音模型gpt-realtime和Realtime API，实现语音直接处理、图像输入和SIP拨号功能。gpt-realtime在音质、理解力、指令遵循和函数调用方面显著提升，语音自然接近真人，并支持多语言切换和语气调整。其在Big Bench Audio评测中准确率达82.8%，指令遵循测试得分30.5%，函数调用准确率66.5%。Realtime API新增远程MCP服务器支持、图像识别和可重用提示词功能，提升集成灵活性。两位华人研究员Beichen Li和Liyu Chen参与此次更新。
来源：https://mp.weixin.qq.com/s/pFQV5OVJ2OjVXJQAcO-HzA

页: [1]

靠浦ai课堂's Archiver

OpenAI发布革命性语音模型gpt-realtime，音质与智能逼近真人，支持多语言无缝切换