GPT-Realtime-2 erweitert die Sprach-API um die Intelligenz von GPT-5
OpenAI hat am Mittwoch eine neue Generation von Sprachmodellen in seiner API veröffentlicht und bietet Entwicklern damit Werkzeuge, um Anwendungen zu erstellen, die gesprochene Anfragen analysieren, in über 70 Sprachen übersetzen und Sprache in Echtzeit transkribieren können.
Die drei Modelle tragen die Namen GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Sie erweitern die Möglichkeiten von KI-Sprachschnittstellen über einfache Frage-Antwort-Interaktionen hinaus und ermöglichen es einem KI-Agenten, während des Gesprächs zuzuhören, mitzudenken und zu handeln.
GPT-Realtime-2 ermöglicht präzisere logische Schlussfolgerungen in der Sprachverarbeitung
GPT-Realtime-2 ist das Flaggschiff. Laut OpenAI bietet es logisches Denken auf dem Niveau von GPT-5, eine deutliche Verbesserung gegenüber seinem Vorgänger GPT-Realtime-1.5.
Das Modell erzielte bei Big Bench Audio, einem Benchmark für Audio-Intelligenz, ein um 15,2 % höheres Ergebnis und bei Audio MultiChallenge, einem Test für das Befolgen von Anweisungen in mehrteiligen gesprochenen Dialogen, ein um 13,8 % höheres Ergebnis.
Die praktischen Verbesserungen richten sich an Entwickler, die produktive Sprachagenten erstellen. Das Modell unterstützt nun ein Kontextfenster von 128.000, das Vierfache des vorherigen Limits von 32.000, und bietet fünf Stufen des anpassbaren Schlussfolgerungsaufwands von „minimal“ bis „extrem hoch“
Es kann mehrere Tools gleichzeitig aufrufen, Fehler mit gesprochenen Bestätigungen beheben und während der Bearbeitung einer Anfrage kurze Überleitungsphrasen wie „Ich prüfe das kurz“ ausgeben.
GPT-Realtime-Translate ermöglicht die Live-Sprachübersetzung. Es akzeptiert über 70 Eingabesprachen und gibt 13 Sprachen aus, die so konzipiert sind, dass sie in Echtzeit mit dem Sprecher Schritt halten.
GPT-Realtime-Whisper bietet Streaming Speech-to-Text (STT) und transkribiert Wörter, während sie gesprochen werden, anstatt auf eine vollständige Äußerung zu warten.
Zillow und Deutsche Telekom testen die Modelle in der Produktion
Mehrere Unternehmen erhielten frühzeitigen Zugang. Zillow entwickelt einen Sprachassistenten, der komplexe Immobilienanfragen verarbeiten, Suchfunktionen für Immobilienangebote bereitstellen und die Richtlinien für faires Wohnen einhalten kann.
Das Unternehmen meldete eine Verbesserung der Erfolgsquote bei Anrufen um 26 Punkte nach einer schnellen Optimierung mit GPT-Realtime-2, wodurch 95 % im Vergleich zu zuvor 69 % erreicht wurden.
Die Deutsche Telekom testet Echtzeitübersetzung für den Kundensupport. Anrufer können in ihrer bevorzugten Sprache sprechen, während das System die Konvertierung auf beiden Seiten übernimmt.
Priceline prüft die Möglichkeit eines sprachgesteuerten Reiseassistenten, der Flugsuche, Hoteländerungen und Übersetzungen vor Ort in einer einzigen Sitzung durchführen könnte.
Die Modelle richten sich an Unternehmen, die ihre Kundenservicekapazitäten erweitern möchten, weisen aber auch auf mögliche Anwendungsbereiche in den Bereichen Bildung, Medien, Veranstaltungen und Kreativplattformen hin.
OpenAI gab an, die neuen Modelle um eine Inhaltsmoderation erweitert zu haben, die durch Auslöser Konversationen stoppen kann, die gegen die Richtlinien für schädliche Inhalte verstoßen. Das Unternehmen bezeichnete diese Schutzmechanismen als Schutz vor Spam, Betrug und anderen Formen des Missbrauchs.
Die Modelle Translate und Whisper rechnen minutengenau ab, GPT-Realtime-2 hingegen nach Token-Verbrauch. Alle drei Modelle sind über die OpenAI Realtime API verfügbar und können über WebRTC, WebSocket und SIP genutzt werden.
Lesen Sie Krypto-News nicht nur, sondern verstehen Sie sie. Abonnieren Sie unseren Newsletter. Er ist kostenlos.
Empfohlene Artikel










