OpenAI 近日面向全球开发者推出了两项关键 API 更新,旨在大幅提升 AI 智能体在语音交互与复杂任务流中的性能表现。
在模型层面,全新的实时模型 gpt-realtime-1.5 及其配套音频模型正式登场,其核心目标是提高语音命令的可靠性。根据 OpenAI 内部测试数据,新模型在处理数字和字母的转录准确率上提升了约 10%,逻辑音频任务准确率提高了 5%,而指令执行的准确率也相应提升了 7%,有效解决了 AI 在听取关键短语或执行复杂语音指令时的偏差问题。
在架构层面,Responses API 现已支持 WebSocket 协议,这标志着 AI 通信模式的重大变革。与以往每次请求都必须重新传输完整上下文的模式不同,WebSocket 允许开发者建立持久连接,系统仅在产生新数据时进行增量发送。
OpenAI 指出,这一改进对于需要频繁调用大量工具的复杂 AI 代理尤为关键,能够将其运行速度直接提升 20% 到40%。这两项更新不仅让 AI 的“听力”更敏锐,更让其“行动”效率迈向了全新的台阶。