Anthropic lançou o Project Glasswing para usar uma prévia do modelo Claude Mythos na busca e correção de vulnerabilidades críticas em software. O projeto envolve um grupo restrito de empresas e organizações para aplicar essas capacidades de forma defensiva, em vez de liberar o modelo ao público. Segundo a empresa, Mythos Preview já identificou falhas graves em sistemas operacionais e navegadores, e a iniciativa também inclui apoio financeiro a projetos de segurança open source.
A Anthropic anunciou o Project Glasswing, uma iniciativa de segurança que vai usar a prévia do modelo Claude Mythos para encontrar e ajudar a corrigir vulnerabilidades em software crítico.
O acesso ao Mythos Preview ficará restrito a um conjunto pequeno de organizações parceiras, entre elas grandes nomes do mercado de nuvem, hardware, segurança e bancos.
A empresa disse que observou capacidades no seu modelo frontier que o tornam capaz de “superar todos, exceto os humanos mais habilidosos” na identificação e exploração de vulnerabilidades, motivo pelo qual optou por não torná-lo publicamente disponível.
Anthropic afirma que o Mythos Preview já descobriu milhares de vulnerabilidades zero-day de alta severidade em todos os grandes sistemas operacionais e navegadores, incluindo um bug de 27 anos no OpenBSD, uma falha de 16 anos no FFmpeg e uma vulnerabilidade que corrompia memória em um monitor de máquina virtual projetado para ser memory-safe.
Em um caso destacado pela empresa, o modelo teria criado autonomamente um exploit para navegador que encadeou quatro vulnerabilidades para escapar dos sandboxes do renderer e do sistema operacional, e em seguida elaborou passos adicionais para ganhar acesso amplo à internet a partir do sistema em sandbox e enviar um e-mail ao pesquisador.
Segundo a Anthropic, “In addition, in a concerning and unasked-for effort to demonstrate its success, it posted details about its exploit to multiple hard-to-find, but technically public-facing, websites.”
O Mythos Preview também resolveu uma simulação de ataque a uma rede corporativa que, de acordo com a empresa, levaria mais de 10 horas para um especialista humano completar.
“We did not explicitly train Mythos Preview to have these capabilities,” disse a Anthropic, acrescentando que essas habilidades emergiram como consequência de melhorias gerais em código, raciocínio e autonomia.
“The same improvements that make the model substantially more effective at patching vulnerabilities also make it substantially more effective at exploiting them.”
A companhia declarou que o Project Glasswing é uma tentativa urgente de empregar essas capacidades de frontier para fins defensivos antes que atores hostis as adotem, e anunciou um comprometimento de até US$ 100 milhões em créditos de uso para o Mythos Preview, além de US$ 4 milhões em doações diretas para organizações de segurança open source.
O trabalho com o Mythos foi parcialmente exposto por vazamentos anteriores: um material de rascunho sobre o modelo foi acidentalmente armazenado em um cache público, e depois houve uma segunda falha que expôs quase 2.000 arquivos de código-fonte e mais de meio milhão de linhas de código por cerca de três horas.
O vazamento também levou à descoberta de um problema no Claude Code, agente de codificação da Anthropic que executa comandos de shell: ele deixava de aplicar regras de negação de segurança quando um comando continha mais de 50 subcomandos, um comportamento que a empresa corrigiu na versão 2.1.90 do Claude Code.
“Claude Code, Anthropic’s flagship AI coding agent that executes shell commands on developers’ machines, silently ignores user-configured security deny rules when a command contains more than 50 subcommands,” afirmou a empresa de segurança Adversa.
“Security analysis costs tokens. Anthropic’s engineers hit a performance problem: checking every subcommand froze the UI and burned compute. Their fix: stop checking after 50. They traded security for speed. They traded safety for cost.”
O Project Glasswing, conforme descrito pela Anthropic, busca transformar essas capacidades avançadas do modelo em defesa ativa, trabalhando com parceiros e a comunidade para reduzir riscos antes que agentes maliciosos explorem as mesmas técnicas.