OpenSearch Serverless da AWS: infraestrutura da nuvem redesenhada para agentes de IA

A AWS lançou uma nova geração do OpenSearch Serverless pensada para a explosão de tráfego gerado por agentes de IA, com desacoplamento entre computação e armazenamento para escalabilidade instantânea e cobrança $0 quando ocioso, um movimento que reflete como provedores de nuvem estão adaptando sistemas projetados para humanos a uma internet cada vez mais habitada por máquinas.

A infraestrutura de nuvem foi projetada para humanos que pesquisam, clicam e consomem mídia de forma previsível.

Agentes de IA, por outro lado, provocam rajadas de atividade: criam sub-agentes que consultam centenas de bases, pesquisam documentos e chamam APIs em segundos, sumindo logo em seguida.

Com isso em mente, a AWS lançou uma nova geração do OpenSearch Serverless, um serviço totalmente gerenciado de busca e banco vetorial pensado para cargas agenticas.

O grande diferencial técnico é o desacoplamento entre computação e armazenamento, permitindo que a computação escale em segundos e caia a zero quando o sistema fica ocioso, cobrando $0 nesse período.

Antes, mesmo na versão serverless anterior, era preciso manter ao menos uma instância ligada porque armazenamento e computação estavam acoplados, o que deixava capacidade ociosa reservada e sendo cobrada.

“O tráfego não humano vai superar o tráfego humano em algum momento no primeiro semestre de 2027.”

– Lai Yi Ohlsen, senior product manager na Cloudflare.

Na prática, a nova geração do OpenSearch Serverless também se integra nativamente a plataformas de desenvolvimento de IA como Vercel e Kiro, permitindo que desenvolvedores implementem backends de busca e vetores prontos para produção sem gerenciar infraestrutura.

Outros provedores estão fazendo movimentos parecidos: Databricks e Snowflake vêm se reposicionando como sistemas de memória e recuperação para dados empresariais.

A Microsoft atualizou o Azure para lidar com picos de agentes e permitir compartilhamento de memória entre eles, e a Cloudflare lançou soluções para oferecer ambientes persistentes e escalabilidade instantânea a agentes.

Essas mudanças mostram que sistemas originalmente pensados para tráfego humano não dão conta dos padrões imprevisíveis dos agentes e precisam ser repensados.

À medida que mais empresas colocarem agentes em produção, a pressão para redesenhar a infraestrutura só aumenta, o que tende a tornar esses agentes mais baratos e fáceis de escalar.