O GPT-Realtime-2 traz a inteligência do GPT-5 para a API de voz
A OpenAI lançou na quarta-feira uma nova geração de modelos de voz em sua API, fornecendo aos desenvolvedores ferramentas para criar aplicativos capazes de analisar solicitações faladas, traduzir entre mais de 70 idiomas e transcrever a fala em tempo real.
Os três modelos são chamados GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. Eles levam as interfaces de voz com IA além de simples trocas de perguntas e respostas, para um território onde um agente de IA pode ouvir, pensar e agir durante a conversa.
O GPT-Realtime-2 traz um raciocínio mais preciso para a voz
O GPT-Realtime-2 é o carro-chefe. A OpenAI afirma que ele oferece raciocínio equivalente ao do GPT-5, um avanço significativo em relação ao seu antecessor, o GPT-Realtime-1.5.
O modelo obteve uma pontuação 15,2% superior no Big Bench Audio, um teste de referência para inteligência de áudio, e 13,8% superior no Audio MultiChallenge, que testa o seguimento de instruções em diálogos falados com múltiplas interações.
As melhorias práticas são direcionadas a desenvolvedores que criam agentes de voz para produção. O modelo agora suporta uma janela de contexto de 128 mil caracteres, quatro vezes maior que o limite anterior de 32 mil, e oferece cinco níveis de esforço de raciocínio ajustável, de "mínimo" a "extremamente alto"
Ele pode chamar várias ferramentas simultaneamente, recuperar-se de erros com confirmações de voz e produzir frases curtas de transição, como "deixe-me verificar isso", durante o processamento de uma solicitação.
O GPT-Realtime-Translate realiza a tradução de fala em tempo real. Ele aceita mais de 70 idiomas de entrada e produz traduções em 13, projetado para acompanhar o ritmo do falante em tempo real.
O GPT-Realtime-Whisper oferece conversão de fala em texto (STT) em tempo real, transcrevendo as palavras à medida que são faladas, em vez de esperar que a frase seja concluída.
Zillow e Deutsche Telekom testam os modelos em produção
Diversas empresas tiveram acesso antecipado. A Zillow está desenvolvendo um assistente de voz capaz de processar consultas complexas sobre imóveis, gerenciar chamadas de ferramentas para busca de anúncios e estar em conformidade com as regulamentações de Habitação Justa.
A empresa reportou uma melhoria de 26 pontos percentuais na taxa de sucesso das chamadas em seu benchmark adversário mais difícil, após otimização imediata com o GPT-Realtime-2, atingindo 95% em comparação com os 69% anteriores.
A Deutsche Telekom está testando a tradução em tempo real para o suporte ao cliente, permitindo que os usuários falem em seu idioma preferido enquanto o sistema cuida da conversão em ambas as partes.
A Priceline está explorando um assistente de viagens baseado em voz que poderá gerenciar buscas de voos, alterações de hotéis e traduções no local em uma única sessão.
Os modelos são direcionados a empresas que buscam expandir suas capacidades de atendimento ao cliente, mas também apontam aplicações potenciais em educação, mídia, eventos e plataformas para criadores de conteúdo.
A OpenAI afirmou ter incorporado moderação de conteúdo aos novos modelos, com gatilhos que podem interromper conversas detectadas como violando as diretrizes de conteúdo prejudicial. A empresa apresentou as medidas de segurança como proteção contra spam, fraude e outras formas de abuso.
Em relação aos preços, os modelos Translate e Whisper são cobrados por minuto. O GPT-Realtime-2 é cobrado por consumo de tokens. Os três estão disponíveis através da API Realtime da OpenAI, acessível via WebRTC, WebSocket e SIP.
Seu banco está usando seu dinheiro. Você está ficando com as sobras. Assista ao nosso vídeo gratuito sobre como se tornar seu próprio banco.
Artigos recomendados














Comentários (0)
Clique no botão $, digite o código do ativo e selecione para vincular uma ação, ETF ou outro ticker.