tradingkey.logo
搜尋

GPT-Realtime-2 將 GPT-5 智能引入語音 API

Cryptopolitan2026年5月7日 23:50
facebooktwitterlinkedin

OpenAI 於週三在其 API 中發佈了新一代語音模型,爲開發者提供了構建應用程序的工具,這些應用程序可以對口語請求進行推理,翻譯 70 多種語言,並實時轉錄語音。.

這三個模型分別命名爲 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。它們將人工智能語音界面從簡單的問答交流提升到了一個全新的領域,在這個領域中,人工智能代理可以在對話過程中聆聽、思考和行動。.

GPT-Realtime-2 爲語音識別帶來更敏銳的推理能力

GPT-Realtime-2 是旗艦產品。OpenAI 表示,它提供了與 GPT-5 相當的推理能力,相比其前代產品 GPT-Realtime-1.5 有了顯著提升。.

基準測試 Big Bench Audio 上的得分提高了 15.2%, 音頻智能在測試多輪口語對話中指令遵循能力的 Audio MultiChallenge 測試中得分提高了 13.8%。

此次實用性升級主要面向構建生產級語音代理的開發者。該模型現在支持 128K 的上下文窗口,是之前 32K 限制的四倍,並提供五個可調節的推理強度等級,從“最低”到“極高”。

它可以同時調用多個工具,通過語音確認從錯誤中恢復,並在處理請求時生成“讓我檢查一下”之類的簡短過渡短語。.

GPT-Realtime-Translate 可進行實時語音翻譯。它接受 70 多種輸入語言,並以 13 種語言輸出,旨在與說話者的語速保持實時同步。.

GPT-Realtime-Whisper 提供流式語音轉文本 (STT) 功能,在說話的同時轉錄單詞,而不是等待完整說話。.

Zillow 和德國電信正在測試量產模型。

多家公司獲得了早期使用權限。Zillow 正在開發一款語音助手,它可以處理複雜的房地產查詢,處理用於搜索房源的工具調用,並遵守公平住房法規。.

該公司報告稱,在使用 GPT-Realtime-2 進行快速優化後,其最難的對抗性基準測試的呼叫成功率提高了 26 個百分點,達到 95%,而此前爲 69%。.

德國電信 正在測試客戶支持的實時翻譯功能,允許來電者使用他們喜歡的語言進行交流,而系統會自動處理雙方的語言轉換。

Priceline 正在探索一種基於語音的旅行助手,該助手可以在一次會話中管理航班搜索、酒店更改和現場翻譯。.

這些模型的目標客戶是希望擴大客戶服務能力的公司,但也指出了其在教育、媒體、活動和創作平臺等領域的潛在應用。.

OpenAI 表示, 他們在新模型中內置了內容審覈功能,一旦檢測到違反有害內容準則的對話,就會觸發相應的攔截機制。該公司將這些防護措施定義爲防止垃圾郵件、欺詐和其他形式的濫用行爲。

在定價方面,Translate 和 Whisper 模型按分鐘計費,而 GPT-Realtime-2 按令牌消耗量計費。這三款模型均可通過 OpenAI 的實時 API 使用,並支持 WebRTC、WebSocket 和 SIP 連接方式。.

如果你正在閱讀這篇文章,你已經領先一步了。 訂閱我們的新聞簡報,繼續保持領先優勢。

免責聲明:本網站提供的資訊僅供教育和參考之用,不應視為財務或投資建議。

推薦文章

Tradingkey
KeyAI