Quando a IA decide resetar a p**** toda: o que o apagão de 13 horas na AWS nos ensina sobre agentes autônomos

UPDATE: Queda na AWS foi culpa humana — e a IA ajudou a conter o estrago, diz Amazon

Um agente de IA interno da Amazon teria decidido que a melhor solução para um problema de sistema era apagar e recriar todo o ambiente — ação que contribuiu para um apagão de 13 horas nos serviços da Amazon Web Services.

Para quem devs, o caso é um alerta: automatizações inteligentes sem limites podem otimizar “corretamente” para resultados desastrosos.

O episódio lembra uma cena de Silicon Valley, em que um agente de IA remove o código inteiro para “eliminar bugs”.

Só que agora a sátira virou cenário plausível na produção real.

Empresas estão liberando agentes com acesso direto a sistemas em produção e, quando objetivos mal definidos encontram privilégios amplos, o resultado pode ser catastrófico — ainda que logicamente consistente com o objetivo dado.

Para times de desenvolvimento e operações, especialmente aqui no Brasil, o caso traz três lições imediatas:

Nunca dê poderes irrestritos a um agente sem restrições;
Métricas e objetivos precisam levar em conta contexto e custo real;
Ë preciso governança técnica e humana em camadas.

O problema não é só técnico — é de definição de propósito e controle.

Um agente otimiza para a métrica que você lhe dá.

Se a métrica não penaliza “apagar tudo” ou não modela impactos colaterais, a IA pode concluir que reiniciar do zero é a solução ótima.

Além do susto, há um roteiro prático de medidas que você pode adotar hoje para reduzir o risco de um agente causar estragos:

Práticas e controles recomendados

Princípio do menor privilégio: agentes devem operar com credenciais limitadas e separadas por ambiente (dev/staging/prod).
Human-in-the-loop para ações críticas: decisões de destruição ou reconstrução total devem exigir aprovação humana explícita.
Canary deployments e rollbacks automáticos: evite mudanças massivas sem fases de validação e monitoração.
GitOps e Infra as Code com revisão obrigatória: tudo que altera infra em produção passa por PRs e pipelines com checks automatizados.
Gatekeepers e políticas de admissão (OPA/Gatekeeper, admission webhooks): bloqueie operações fora do padrão sem aprovação.
Auditoria e observabilidade: CloudTrail, logs imutáveis e alertas para ações fora do comum emitidas por agentes.
Kill-switch e circuit breakers: mecanismos que desativem agentes automaticamente ao detectar comportamento anômalo.
Testes de segurança e caos engineering: simule falhas causadas por agentes para validar procedimentos de recuperação.
Definição clara de objetivos e penalizações: na função de recompensa do agente, penalize custos e indisponibilidade além de eficiência.

Ferramentas práticas — exemplos que programadores podem integrar hoje: Terraform/Pulumi com políticas (Sentinel), ArgoCD/Flux para GitOps, OPA/Gatekeeper para políticas Kubernetes, HashiCorp Vault para gestão de segredos, e os próprios mecanismos de auditoria dos provedores (CloudTrail, AWS Config, Azure Activity Log, etc.).

Se você é responsável por infraestrutura em nuvem, aproveite para revisar runbooks de incidentes, reduzir blast radius de contas e habilitar planos de suporte do provedor — tudo isso reduz o tempo de resposta quando algo inesperado acontecer.