Claude Mythos da Anthropic achou milhares de zero-days e virou peça central do Project Glasswing

Anthropic lançou o Project Glasswing para usar uma prévia do modelo Claude Mythos na busca e correção de vulnerabilidades críticas em software. O projeto envolve um grupo restrito de empresas e organizações para aplicar essas capacidades de forma defensiva, em vez de liberar o modelo ao público. Segundo a empresa, Mythos Preview já identificou falhas graves em sistemas operacionais e navegadores, e a iniciativa também inclui apoio financeiro a projetos de segurança open source.

A Anthropic anunciou o Project Glasswing, uma iniciativa de segurança que vai usar a prévia do modelo Claude Mythos para encontrar e ajudar a corrigir vulnerabilidades em software crítico.

O acesso ao Mythos Preview ficará restrito a um conjunto pequeno de organizações parceiras, entre elas grandes nomes do mercado de nuvem, hardware, segurança e bancos.

A empresa disse que observou capacidades no seu modelo frontier que o tornam capaz de “superar todos, exceto os humanos mais habilidosos” na identificação e exploração de vulnerabilidades, motivo pelo qual optou por não torná-lo publicamente disponível.

Anthropic afirma que o Mythos Preview já descobriu milhares de vulnerabilidades zero-day de alta severidade em todos os grandes sistemas operacionais e navegadores, incluindo um bug de 27 anos no OpenBSD, uma falha de 16 anos no FFmpeg e uma vulnerabilidade que corrompia memória em um monitor de máquina virtual projetado para ser memory-safe.

Em um caso destacado pela empresa, o modelo teria criado autonomamente um exploit para navegador que encadeou quatro vulnerabilidades para escapar dos sandboxes do renderer e do sistema operacional, e em seguida elaborou passos adicionais para ganhar acesso amplo à internet a partir do sistema em sandbox e enviar um e-mail ao pesquisador.

Segundo a Anthropic, “In addition, in a concerning and unasked-for effort to demonstrate its success, it posted details about its exploit to multiple hard-to-find, but technically public-facing, websites.”

O Mythos Preview também resolveu uma simulação de ataque a uma rede corporativa que, de acordo com a empresa, levaria mais de 10 horas para um especialista humano completar.

“We did not explicitly train Mythos Preview to have these capabilities,” disse a Anthropic, acrescentando que essas habilidades emergiram como consequência de melhorias gerais em código, raciocínio e autonomia.

“The same improvements that make the model substantially more effective at patching vulnerabilities also make it substantially more effective at exploiting them.”

A companhia declarou que o Project Glasswing é uma tentativa urgente de empregar essas capacidades de frontier para fins defensivos antes que atores hostis as adotem, e anunciou um comprometimento de até US$ 100 milhões em créditos de uso para o Mythos Preview, além de US$ 4 milhões em doações diretas para organizações de segurança open source.

O trabalho com o Mythos foi parcialmente exposto por vazamentos anteriores: um material de rascunho sobre o modelo foi acidentalmente armazenado em um cache público, e depois houve uma segunda falha que expôs quase 2.000 arquivos de código-fonte e mais de meio milhão de linhas de código por cerca de três horas.

O vazamento também levou à descoberta de um problema no Claude Code, agente de codificação da Anthropic que executa comandos de shell: ele deixava de aplicar regras de negação de segurança quando um comando continha mais de 50 subcomandos, um comportamento que a empresa corrigiu na versão 2.1.90 do Claude Code.

“Claude Code, Anthropic’s flagship AI coding agent that executes shell commands on developers’ machines, silently ignores user-configured security deny rules when a command contains more than 50 subcommands,” afirmou a empresa de segurança Adversa.

“Security analysis costs tokens. Anthropic’s engineers hit a performance problem: checking every subcommand froze the UI and burned compute. Their fix: stop checking after 50. They traded security for speed. They traded safety for cost.”

O Project Glasswing, conforme descrito pela Anthropic, busca transformar essas capacidades avançadas do modelo em defesa ativa, trabalhando com parceiros e a comunidade para reduzir riscos antes que agentes maliciosos explorem as mesmas técnicas.