OpenAI traz raciocínio do nível GPT‑5 para modelos de voz com GPT‑Realtime‑2

OpenAI lançou três modelos de voz: GPT‑Realtime‑2, com raciocínio anunciado como de nível GPT‑5 e janela de contexto ampliada para 128.000 tokens; GPT‑Realtime‑Translate, para traduções ao vivo entre dezenas de línguas; e GPT‑Realtime‑Whisper, voltado a transcrições em streaming, todos com preços específicos por token ou por minuto e foco em fluxos de voz mais complexos.

OpenAI lançou três modelos focados em voz: GPT‑Realtime‑2, GPT‑Realtime‑Translate e GPT‑Realtime‑Whisper.

O destaque é o GPT‑Realtime‑2, apresentado como o primeiro modelo de voz com raciocínio comparável ao que a empresa descreve como “GPT‑5‑class reasoning”.

Em termos de desempenho, a nova versão anuncia uma melhoria de cerca de 11% em relação ao GPT‑Realtime‑1.5.

A janela de contexto também cresceu significativamente, saindo de 32.000 para 128.000 tokens, o que facilita conversas mais longas e interações mais complexas.





Além da velocidade e do som natural, a atualização traz raciocínio mais robusto para que agentes de voz entendam intenções, mantenham contexto e se recuperem quando pedidos mudam.

“building useful voice products takes more than fast turn-taking and a natural-sounding voice.

A voice agent needs to understand what someone means, keep track of context, recover when a request changes, use tools while the conversation continues, and respond in a way that feels appropriate to the moment.”

Por padrão, o esforço de raciocínio do GPT‑Realtime‑2 vem configurado como ‘low’, e desenvolvedores podem escolher entre os níveis minimal, low, medium, high e xhigh.

Os preços mantêm a estrutura da versão anterior: US$32 por 1 milhão de tokens de áudio de entrada e US$64 por 1 milhão de tokens de saída.

O GPT‑Realtime‑Translate é a opção dedicada a traduções ao vivo, aceitando mais de 70 idiomas de entrada e traduzindo para 13 idiomas de saída.

No acesso via API, o custo para uso do sistema de tradução é de US$0,034 por minuto.

O GPT‑Realtime‑Whisper fica como a solução de transcrição em streaming, com preço de US$0,017 por minuto.

OpenAI aponta três padrões principais de uso para voz: voice‑to‑action (comandos que geram ações), system‑to‑voice (orientações faladas do sistema) e voice‑to‑voice (conversas interativas que mudam de contexto).

As novidades são voltadas a permitir aplicações mais reais e complexas, como assistentes de voz que precisam combinar entendimento de contexto, uso de ferramentas e manutenção de diálogos dinâmicos.

Artigo anterior

Google corrige falha crítica no Gemini CLI que permitia execução de código em CI; Cursor também tem vulnerabilidades

Próximo artigo

Temporal lança Serverless Workers, Standalone Activities e Workflow Streams no Replay 2026



Artigos relacionados