A Anthropic inicialmente fez com que os usuários do modelo Claude Mythos Preview assinassem acordos de confidencialidade para evitar o compartilhamento das descobertas, de acordo com o Wall Street Journalmas o Journal diz que tudo mudou na semana passada.
Até agora, a coisa mais importante a ter em mente sobre o Claude Mythos Preview, supostamente o modelo de IA mais assustador do mundo, era o seu sigilo. Para usá-lo, você teria que ser um dos VIPs autorizados a participar do Projeto Glasswing – supostamente um grupo muito seleto de cerca de 50 empresas e organizações.
Se você são um dos testadores do Claude Mythos Preview participando do Projeto Glasswing, você deveria usar o modelo para encontrar vulnerabilidades de segurança, e a sensação inicial era de que os participantes tinham uma responsabilidade esmagadora em suas mãos de manter tudo em segredo – como se o destino do mundo dependesse do sigilo.
Mas de acordo com o Journal, o deputado democrata Josh Gottheimer escreveu uma carta à Anthropic reclamando disso. “Nenhuma entidade deve ser contratualmente impedida de alertar outras pessoas, coordenar mitigações ou informar partes interessadas relevantes e confiáveis sobre riscos cibernéticos urgentes”, escreveu Gottheimer.
O relatório do Journal, publicado na segunda-feira, faz parecer que a Anthropic tem lutado para se firmar na questão do que pode ser feito com os resultados do Mythos Preview. Um porta-voz anônimo da Anthropic disse ao Journal: “As proteções de confidencialidade eram algo que os parceiros pediram no início e foram incorporadas aos acordos assinados pelos parceiros”, mas acrescentou que o Glasswing “amadureceu” e os acordos de usuário evoluíram “para garantir que informações importantes possam ser compartilhadas amplamente”, inclusive além dos limites do Projeto Glasswing.
Outro acontecimento ocorrido há uma semana foi o anúncio de um programa semelhante, denominado Daybreak, do principal concorrente da Anthropic, OpenAI. O Daybreak era muito menos secreto do que o Projeto Glasswing desde o início, permitindo que qualquer pessoa preenchesse um breve formulário e solicitasse que sua base de código fosse digitalizada pelo mais recente modelo de segurança cibernética da OpenAI. CEOSam Altman postado em X que ele gostaria de trabalhar com “o máximo de empresas possível agora”.
Parece que as empresas já começaram a falar publicamente sobre o que o Mythos Preview lhes mostrou. Por exemplo, não pude deixar de notar que Grant Bourzikas, diretor de segurança da Cloudflare, publicou um postagem no blog segunda-feira sobre o que ele e sua empresa descobriram enquanto mexiam no Mythos Preview. É uma postagem informativa, descrevendo o Mythos Preview como semelhante a outros LLMs de localização de bugs, mas acrescentando: “O que mudou com o Mythos Preview é que um modelo agora pode pegar esses bugs de baixa gravidade (que tradicionalmente ficariam invisíveis em um backlog) e encadeá-los em uma exploração única e mais grave.“
Mas há uma coda intrigante no final do post. Bourzikas promete compartilhar descobertas adicionais com os clientes em breve e diz: “Se sua equipe estiver fazendo um trabalho semelhante e quiser comparar notas, entre em contato conosco”, e então fornece um endereço de e-mail.
Portanto, o manto de sigilo em torno do Preview de Claude Mythos parece estar sendo levantado levemente. O pessoal da Anthropic certamente sentirá que seu modelo está perdendo um pouco de sua mística, mas um ar de mistério em torno de um LLM não é algo que pode durar para sempre.













