OpenAI traz raciocínio do nível GPT‑5 para modelos de voz com GPT‑Realtime‑2

OpenAI lançou três modelos de voz: GPT‑Realtime‑2, com raciocínio anunciado como de nível GPT‑5 e janela de contexto ampliada para 128.000 tokens; GPT‑Realtime‑Translate, para traduções ao vivo entre dezenas de línguas; e GPT‑Realtime‑Whisper, voltado a transcrições em streaming, todos com preços específicos por token ou por minuto e foco em fluxos de voz mais complexos.

OpenAI lançou três modelos focados em voz: GPT‑Realtime‑2, GPT‑Realtime‑Translate e GPT‑Realtime‑Whisper.

O destaque é o GPT‑Realtime‑2, apresentado como o primeiro modelo de voz com raciocínio comparável ao que a empresa descreve como “GPT‑5‑class reasoning”.

Em termos de desempenho, a nova versão anuncia uma melhoria de cerca de 11% em relação ao GPT‑Realtime‑1.5.

A janela de contexto também cresceu significativamente, saindo de 32.000 para 128.000 tokens, o que facilita conversas mais longas e interações mais complexas.

Além da velocidade e do som natural, a atualização traz raciocínio mais robusto para que agentes de voz entendam intenções, mantenham contexto e se recuperem quando pedidos mudam.

“building useful voice products takes more than fast turn-taking and a natural-sounding voice.

A voice agent needs to understand what someone means, keep track of context, recover when a request changes, use tools while the conversation continues, and respond in a way that feels appropriate to the moment.”

Por padrão, o esforço de raciocínio do GPT‑Realtime‑2 vem configurado como ‘low’, e desenvolvedores podem escolher entre os níveis minimal, low, medium, high e xhigh.

Os preços mantêm a estrutura da versão anterior: US$32 por 1 milhão de tokens de áudio de entrada e US$64 por 1 milhão de tokens de saída.

O GPT‑Realtime‑Translate é a opção dedicada a traduções ao vivo, aceitando mais de 70 idiomas de entrada e traduzindo para 13 idiomas de saída.

No acesso via API, o custo para uso do sistema de tradução é de US$0,034 por minuto.

O GPT‑Realtime‑Whisper fica como a solução de transcrição em streaming, com preço de US$0,017 por minuto.

OpenAI aponta três padrões principais de uso para voz: voice‑to‑action (comandos que geram ações), system‑to‑voice (orientações faladas do sistema) e voice‑to‑voice (conversas interativas que mudam de contexto).

As novidades são voltadas a permitir aplicações mais reais e complexas, como assistentes de voz que precisam combinar entendimento de contexto, uso de ferramentas e manutenção de diálogos dinâmicos.

Artigos Recentes

Temporal lança Serverless Workers, Standalone Activities e Workflow Streams no Replay 2026

OpenAI traz raciocínio do nível GPT‑5 para modelos de voz com GPT‑Realtime‑2

Google corrige falha crítica no Gemini CLI que permitia execução de código em CI; Cursor também tem vulnerabilidades

OpenAI traz raciocínio do nível GPT‑5 para modelos de voz com GPT‑Realtime‑2

Artigo anterior

Google corrige falha crítica no Gemini CLI que permitia execução de código em CI; Cursor também tem vulnerabilidades

Próximo artigo

Temporal lança Serverless Workers, Standalone Activities e Workflow Streams no Replay 2026

OpenAI traz raciocínio do nível GPT‑5 para modelos de voz com GPT‑Realtime‑2

Artigo anterior

Próximo artigo

Artigos relacionados