OpenAI lançou três modelos de voz: GPT‑Realtime‑2, com raciocínio anunciado como de nível GPT‑5 e janela de contexto ampliada para 128.000 tokens; GPT‑Realtime‑Translate, para traduções ao vivo entre dezenas de línguas; e GPT‑Realtime‑Whisper, voltado a transcrições em streaming, todos com preços específicos por token ou por minuto e foco em fluxos de voz mais complexos.
OpenAI lançou três modelos focados em voz: GPT‑Realtime‑2, GPT‑Realtime‑Translate e GPT‑Realtime‑Whisper.
O destaque é o GPT‑Realtime‑2, apresentado como o primeiro modelo de voz com raciocínio comparável ao que a empresa descreve como “GPT‑5‑class reasoning”.
Em termos de desempenho, a nova versão anuncia uma melhoria de cerca de 11% em relação ao GPT‑Realtime‑1.5.
A janela de contexto também cresceu significativamente, saindo de 32.000 para 128.000 tokens, o que facilita conversas mais longas e interações mais complexas.
Além da velocidade e do som natural, a atualização traz raciocínio mais robusto para que agentes de voz entendam intenções, mantenham contexto e se recuperem quando pedidos mudam.
“building useful voice products takes more than fast turn-taking and a natural-sounding voice.
A voice agent needs to understand what someone means, keep track of context, recover when a request changes, use tools while the conversation continues, and respond in a way that feels appropriate to the moment.”
Por padrão, o esforço de raciocínio do GPT‑Realtime‑2 vem configurado como ‘low’, e desenvolvedores podem escolher entre os níveis minimal, low, medium, high e xhigh.
Os preços mantêm a estrutura da versão anterior: US$32 por 1 milhão de tokens de áudio de entrada e US$64 por 1 milhão de tokens de saída.
O GPT‑Realtime‑Translate é a opção dedicada a traduções ao vivo, aceitando mais de 70 idiomas de entrada e traduzindo para 13 idiomas de saída.
No acesso via API, o custo para uso do sistema de tradução é de US$0,034 por minuto.
O GPT‑Realtime‑Whisper fica como a solução de transcrição em streaming, com preço de US$0,017 por minuto.
OpenAI aponta três padrões principais de uso para voz: voice‑to‑action (comandos que geram ações), system‑to‑voice (orientações faladas do sistema) e voice‑to‑voice (conversas interativas que mudam de contexto).
As novidades são voltadas a permitir aplicações mais reais e complexas, como assistentes de voz que precisam combinar entendimento de contexto, uso de ferramentas e manutenção de diálogos dinâmicos.