Há duas semanas, o modelo secreto de IA da Anthropic, conhecido como Claude Mythos, foi descoberto porque informações não publicadas sobre ele estavam armazenadas em um banco de dados acessível ao público. Agora a empresa está anunciando que está se unindo às maiores empresas do mundo para liberar esse modelo e sinalizar possíveis vulnerabilidades de segurança em seus sistemas.
O lançamento limitado do Mythos, apelidado de Projeto Glasswing, inclui cerca de 40 organizações que terão acesso a uma versão prévia do modelo que é supostamente melhor do que “todos, exceto os humanos mais qualificados” para encontrar vulnerabilidades de software. Os parceiros de lançamento do projeto incluem Amazon Web Services, Apple, Google, JPMorganChase, Microsoft e NVIDIA, entre outros. De acordo com a Anthropic, os primeiros retornos da colaboração foram chocantes, já que a empresa afirma ter encontrado “milhares de vulnerabilidades de alta gravidade”, incluindo algumas em todos os principais sistemas operacionais e navegadores da web.
Não é surpreendente, dadas as aparentes revelações de graves falhas de segurança, que a Anthropic acredite que o modelo “poderia remodelar a segurança cibernética”. Seus testes de benchmark certamente parecem mostrar que, como o Mythos Preview superou consistentemente o desempenho de Claude Opus 4.6, inclusive no Teste CyberGym que busca identificar quão bem os agentes de IA podem detectar e reproduzir vulnerabilidades de software do mundo real. As anedotas também apoiam isso. A Anthropic diz que a Mythos encontrou um bug no sistema operacional de código aberto OpenBSD que existia há 27 anos e detectou uma cadeia de vulnerabilidades no Linux que poderia ser usada para sequestrar completamente uma máquina.
O interessante é que há apenas algumas semanas, quando o Mythos foi descoberto pela primeira vez (devido a um simples deslize de segurança, curioso como aquele não foi capturado pela máquina que tudo vê), a Anthropic aparentemente estava posicionando o modelo como sendo tão poderoso que apresentaria riscos de segurança cibernética sem precedentes. A empresa não desistiu totalmente dessa ideia – ela disse que não disponibilizará o Mythos Preview ao público por causa dos riscos que representa para facilitar ataques à segurança cibernética. Mas deixar de mantê-lo em segredo porque é muito poderoso para ser lançado e implantá-lo em uma infraestrutura tecnológica essencial é um grande salto.
É difícil remover o posicionamento do Mythos pela Anthropic da longa história dos ciclos de hype da IA, nos quais essas ferramentas são apresentadas como entidades que alteram o mundo (e potencialmente destroem o mundo), apenas para serem incapazes de responder quantas vezes a letra “r” aparece em morango. Em 2019, quando Elon Musk ainda estava na OpenAI, a empresa alertou que havia desenvolvido uma ferramenta de geração de texto que era perigosa demais para ser tornada pública. Alguns meses depois, foi lançado de qualquer maneira, e o mundo continuou girando, apenas com um pouco mais de bobagem gerada por máquina.
A Anthropic já publicou uma versão deste manual no que se refere à segurança cibernética. Quando a empresa abandonou Claude Opus 4.6, ela elogiou como o modelo havia encontrado centenas de vulnerabilidades de segurança anteriormente não identificadas que conseguiu existir sem ser detectado na natureza.
É quase certo que modelos de IA como o Mythos desempenharão um papel – provavelmente até significativo – no futuro da segurança cibernética, funcionando tanto como uma ferramenta de exploração como de proteção. Provavelmente também terá um fluxo interminável de trabalho pela frente, porque modelos de IA como seu primo Claude continuam produzindo resultados codificados por vibração cheio de falhas. Essa é uma forma de garantir a segurança no emprego.












