tradingkey.logo
搜索

GPT-Realtime-2 将 GPT-5 智能引入语音 API

Cryptopolitan2026年5月7日 23:50
facebooktwitterlinkedin

OpenAI 于周三在其 API 中发布了新一代语音模型,为开发者提供了构建应用程序的工具,这些应用程序可以对口语请求进行推理,翻译 70 多种语言,并实时转录语音。.

这三个模型分别命名为 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。它们将人工智能语音界面从简单的问答交流提升到了一个全新的领域,在这个领域中,人工智能代理可以在对话过程中聆听、思考和行动。.

GPT-Realtime-2 为语音识别带来更敏锐的推理能力

GPT-Realtime-2 是旗舰产品。OpenAI 表示,它提供了与 GPT-5 相当的推理能力,相比其前代产品 GPT-Realtime-1.5 有了显著提升。.

基准测试 Big Bench Audio 上的得分提高了 15.2%, 音频智能在测试多轮口语对话中指令遵循能力的 Audio MultiChallenge 测试中得分提高了 13.8%。

此次实用性升级主要面向构建生产级语音代理的开发者。该模型现在支持 128K 的上下文窗口,是之前 32K 限制的四倍,并提供五个可调节的推理强度等级,从“最低”到“极高”。

它可以同时调用多个工具,通过语音确认从错误中恢复,并在处理请求时生成“让我检查一下”之类的简短过渡短语。.

GPT-Realtime-Translate 可进行实时语音翻译。它接受 70 多种输入语言,并以 13 种语言输出,旨在与说话者的语速保持实时同步。.

GPT-Realtime-Whisper 提供流式语音转文本 (STT) 功能,在说话的同时转录单词,而不是等待完整说话。.

Zillow 和德国电信正在测试量产模型。

多家公司获得了早期使用权限。Zillow 正在开发一款语音助手,它可以处理复杂的房地产查询,处理用于搜索房源的工具调用,并遵守公平住房法规。.

该公司报告称,在使用 GPT-Realtime-2 进行快速优化后,其最难的对抗性基准测试的呼叫成功率提高了 26 个百分点,达到 95%,而此前为 69%。.

德国电信 正在测试客户支持的实时翻译功能,允许来电者使用他们喜欢的语言进行交流,而系统会自动处理双方的语言转换。

Priceline 正在探索一种基于语音的旅行助手,该助手可以在一次会话中管理航班搜索、酒店更改和现场翻译。.

这些模型的目标客户是希望扩大客户服务能力的公司,但也指出了其在教育、媒体、活动和创作平台等领域的潜在应用。.

OpenAI 表示, 他们在新模型中内置了内容审核功能,一旦检测到违反有害内容准则的对话,就会触发相应的拦截机制。该公司将这些防护措施定义为防止垃圾邮件、欺诈和其他形式的滥用行为。

在定价方面,Translate 和 Whisper 模型按分钟计费,而 GPT-Realtime-2 按令牌消耗量计费。这三款模型均可通过 OpenAI 的实时 API 使用,并支持 WebRTC、WebSocket 和 SIP 连接方式。.

如果你正在阅读这篇文章,你已经领先一步了。 订阅我们的新闻简报,继续保持领先优势。

免责声明:本网站提供的信息仅供教育和参考之用,不应视为财务或投资建议。

推荐文章

KeyAI