Por que a AWS reescreveu o OpenSearch para a era dos agentes de IA

A AWS lançou uma nova versão do OpenSearch Serverless totalmente reconstruída para lidar melhor com cargas de trabalho de agentes de IA, oferecendo escalonamento até zero, inicialização rápida e redução de custos de até 60% graças a um novo layer de armazenamento proprietário e a um autoescalador mais agressivo.

A AWS anunciou uma reconstrução quase total do OpenSearch Serverless para atender melhor aos padrões de uso da era dos agentes de IA.

A nova geração foi projetada para escalar até zero quando o serviço estiver ocioso, o que reduz custos em até 60% em comparação com clusters provisionados que ficam no pico.

Os padrões de uso dos agentes, que alternam explosões de atividade com longos períodos de inatividade, mostraram que a arquitetura serverless anterior não dava conta.

“About 97 percent of it has been built from the ground up by the engineers on the managed service.”

A principal mudança arquitetural foi a separação entre armazenamento e computação, com um novo layer de armazenamento proprietário desenvolvido para o serviço.

Com isso, as coleções podem realmente encolher até zero, o que significa que você não paga enquanto os recursos não estão ativos, e elas conseguem voltar em segundos para lidar com cargas bursty.

O serviço também ganhou um autoescalador que opera cerca de 20 vezes mais rápido que a geração anterior, além de já suportar tipos de coleção para busca e vetores desde o lançamento.

A cobrança foi redesenhada para funcionar por OpenSearch Compute Unit, cobrindo indexação, busca e aceleração por GPU.

Foram anunciadas integrações nativas com Vercel e com o IDE Kiro da própria AWS, além de um conjunto de OpenSearch Agent Skills que facilitam o uso com ferramentas como Claude Code e Cursor.

A economia indicada, de até 60%, vem tanto do novo armazenamento com compressão quanto da capacidade do autoescalador de reduzir recursos em segundos quando a demanda cai.

No roadmap, há previsão de uma memória de longo prazo para agentes no segundo semestre de 2026, com mecanismos de avaliação e governança integrados desde o início do recurso.

“Building an agentic-first platform for our customers, those are things that we understand we have to provide at day one. It can’t be an afterthought or an add-on.”

A empresa também está trabalhando em camadas semânticas, grafos de conhecimento e em um modelo de raciocínio avançado focado em workloads de busca.

Um lançamento importante de análise de logs está previsto para junho, trazendo a oferta de volta a um mercado hoje dominado por nomes como Datadog, Splunk e Grafana.

Além disso, uma coleção TIMESERIES deve ser anunciada no encontro da empresa em Nova York, estendendo o OpenSearch Serverless para mais casos de observabilidade.

Por fim, a visão apresentada é que, à medida que LLMs evoluem, o OpenSearch deve funcionar como uma camada semântica vital para esses modelos chamarem, em vez de ser algo que os LLMs substituam por completo.