Como as alucinações de IA estão criando riscos reais para a segurança

As alucinações de IA são respostas convincentes mas incorretas que podem comprometer decisões de segurança e fluxos automatizados; modelos tendem a gerar a resposta estatisticamente mais provável mesmo sem verificar fatos, e um benchmark de 2025 indicou que a maioria dos modelos avaliados deu mais respostas incorretas e confiantes em perguntas difíceis; isso se traduz em três impactos principais — ameaças não detectadas, ameaças fabricadas e remediações erradas — e exige controles como revisão humana, governança dos dados de treino, princípio do menor privilégio, treinamento em engenharia de prompts e foco na segurança de identidades para reduzir danos.

As chamadas alucinações de IA são saídas que soam confiantes e plausíveis, mas que estão factualmente incorretas.

Modelos de linguagem base não recuperam informações verificadas; eles constroem respostas prevendo palavras e padrões a partir dos dados em que foram treinados.

Assim, mesmo quando o modelo não tem certeza, ele tende a apresentar a opção mais provável estatisticamente, que pode estar errada e ainda assim parecer autoritária.

Isso se torna particularmente perigoso quando essas respostas influenciam decisões de segurança ou acionam sistemas automatizados em infraestruturas críticas.

Uma avaliação de 2025 usando o benchmark AA-Omniscience, que testou 40 modelos, mostrou que a maioria deles era mais propensa a dar uma resposta confiante e incorreta do que uma correta em questões difíceis.

Para organizações, o problema não é apenas a imprecisão técnica, mas a confiança indevida que humanos podem depositar em saídas que soam definitivas.

Na prática de cibersegurança, decisões baseadas em informações erradas podem causar interrupções, perdas financeiras e a introdução de novas vulnerabilidades.

As causas das alucinações são múltiplas: dados de treinamento com erros ou desatualizados, vieses nos conjuntos, falta de verificação das respostas e prompts ambíguos que deixam lacunas para suposições.

Quando o input é vago, o modelo tem mais margem para preencher com suposições que podem ser incorretas.

As alucinações impactam a detecção de ameaças de três formas principais: ameaças não detectadas, ameaças fabricadas e remediações incorretas.

Ameaças não detectadas ocorrem quando técnicas novas ou pouco representadas não aparecem no histórico de treinamento, fazendo com que ataques desconhecidos passem sem alerta.

Ameaças fabricadas surgem quando atividade normal é classificada como maliciosa, gerando falsos positivos que podem interromper operações e levar à fadiga de alertas.

Recomendações de remediação incorretas são especialmente perigosas porque chegam depois que a confiança já foi estabelecida — instruções da IA podem levar à exclusão de arquivos, alteração de configurações ou desativação de proteções.

Se ações sensíveis forem executadas com privilégios excessivos, uma sugestão errada da IA pode transformar um incidente contido em uma violação ampla.

Embora seja impossível eliminar totalmente as alucinações, é possível reduzir bastante seu impacto com controles e governança adequados.

Exigir revisão humana antes de executar ações sensíveis evita que respostas automatizadas provoquem mudanças críticas sem verificação.

Tratar os dados de treinamento como um ativo de segurança e auditar os conjuntos regularmente ajuda a remover registros imprecisos, viesados ou desatualizados que alimentam alucinações.

Aplicar o princípio do menor privilégio às integrações de IA limita o que esses sistemas podem fazer — por exemplo, permitir apenas leitura quando não é necessário que alterem ou apaguem dados.

Investir em treinamento de engenharia de prompts é importante, porque prompts bem formulados reduzem ambiguidades e aumentam as chances de respostas verificáveis.

Colocar a segurança de identidade no centro da governança de IA proporciona visibilidade e controle sobre acessos humanos e não humanos, reduzindo o impacto quando a IA produz uma saída incorreta.