tradingkey.logo
tradingkey.logo
Buscar

GPT-Realtime-2 incorpora la inteligencia de GPT-5 a la API de voz

Cryptopolitan7 de may de 2026 23:50
facebooktwitterlinkedin

OpenAI lanzó el miércoles una nueva generación de modelos de voz en su API, proporcionando a los desarrolladores herramientas para crear aplicaciones capaces de interpretar solicitudes habladas, traducir a más de 70 idiomas y transcribir el habla en tiempo real.

Los tres modelos se denominan GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. Estos modelos llevan las interfaces de voz con IA más allá de los simples intercambios de preguntas y respuestas, a un terreno donde un agente de IA puede escuchar, pensar y actuar en medio de una conversación.

GPT-Realtime-2 aporta un razonamiento más preciso a la voz

GPT-Realtime-2 es el producto estrella. OpenAI afirma que ofrece un razonamiento de la clase GPT-5, un avance significativo con respecto a su predecesor, GPT-Realtime-1.5.

El modelo obtuvo una puntuación un 15,2 % superior en Big Bench Audio, una prueba de referencia para la inteligencia auditiva, y un 13,8 % superior en Audio MultiChallenge, que evalúa la capacidad de seguir instrucciones en diálogos hablados de varios turnos.

Las mejoras prácticas están dirigidas a desarrolladores que crean agentes de voz para producción. El modelo ahora admite una ventana de contexto de 128 KB, cuadruplicando el límite anterior de 32 KB, y ofrece cinco niveles de esfuerzo de razonamiento ajustable, desde "mínimo" hasta "extremadamente alto"

Puede llamar a varias herramientas simultáneamente, recuperarse de errores con confirmaciones habladas y producir frases cortas de transición como "déjame comprobarlo" mientras procesa una solicitud.

GPT-Realtime-Translate gestiona la traducción de voz en directo. Acepta más de 70 idiomas de entrada y genera la salida en 13, y está diseñado para seguir el ritmo del hablante en tiempo real.

GPT-Realtime-Whisper proporciona conversión de voz a texto (STT) en tiempo real, transcribiendo las palabras a medida que se pronuncian en lugar de esperar a que se complete la frase.

Zillow y Deutsche Telekom prueban los modelos en producción

Varias empresas obtuvieron acceso anticipado. Zillow está desarrollando un asistente de voz capaz de procesar consultas inmobiliarias complejas, gestionar llamadas a herramientas para buscar anuncios y cumplir con las regulaciones de Vivienda Justa.

La compañía informó de una mejora de 26 puntos en la tasa de éxito de las llamadas en su prueba de referencia adversaria más difícil tras la optimización inmediata con GPT-Realtime-2, alcanzando el 95% en comparación con el 69% anterior.

Deutsche Telekom está probando la traducción en tiempo real para la atención al cliente, lo que permite a quienes llaman hablar en su idioma preferido mientras el sistema se encarga de la conversión en ambos extremos.

Priceline está estudiando la posibilidad de desarrollar un asistente de viajes basado en la voz que pueda gestionar búsquedas de vuelos, cambios de hotel y traducciones in situ en una sola sesión.

Estos modelos están dirigidos a empresas que buscan ampliar sus capacidades de atención al cliente, pero también señalan posibles aplicaciones en los sectores de educación, medios de comunicación, eventos y plataformas para creadores de contenido.

OpenAI afirmó haber integrado la moderación de contenido en sus nuevos modelos, con mecanismos que permiten detener las conversaciones que infrinjan las directrices sobre contenido dañino. La compañía explicó que estas medidas de seguridad protegen contra el spam, el fraude y otras formas de abuso.

En cuanto a precios, los modelos Translate y Whisper facturan por minuto. GPT-Realtime-2 factura por consumo de tokens. Los tres están disponibles a través de la API Realtime de OpenAI, accesible mediante conexiones WebRTC, WebSocket y SIP.

Tu banco está usando tu dinero. Tú solo recibes las sobras. Mira nuestro video gratuito sobre cómo convertirte en tu propio banco.

Descargo de responsabilidad: La información proporcionada en este sitio web es solo para fines educativos e informativos, y no debe considerarse como asesoramiento financiero o de inversión.

Artículos Recomendados

KeyAI