De acordo com um declaração publicada em seu site na sexta-feiraa Anthropic foi forçada a “desativar abruptamente” dois de seus modelos de IA de fronteira mais valiosos em resposta a uma ordem altamente restritiva do governo dos EUA. “Acreditamos que se trata de um mal-entendido e estamos trabalhando para restaurar o acesso o mais rápido possível”, diz o comunicado.
A acção governamental em questão é uma “directiva de controlo de exportações” que determina que os cidadãos estrangeiros não podem utilizar os modelos dentro ou fora dos EUA, e foi motivada pelo que a Antthropic diz ser uma preocupação não especificada de segurança nacional.
Mas as preocupações com a segurança nacional, e outros receios em matéria de segurança, têm estado no centro da implementação destes modelos, o que provavelmente tornou previsível um evento como este.
Em vez de lançar o seu modelo Claude Mythos Preview ao público, no início de abril, a Anthropic transformou a criação do modelo numa espécie de campanha de sensibilização sobre os perigos ostensivos dos modelos de IA de fronteira.
Isto lançou uma placa de sistema explicando por que o modelo não seria disponibilizado publicamente e detalhando capacidades assustadoras, como engano e a capacidade de supostamente quebrar a contenção de um sistema limitado. Também foi supostamente capaz de ser útil no desenvolvimento de armas avançadas. Por exemplo, o cartão do sistema descreveu-o como “capaz de síntese significativa entre domínios relevantes para o desenvolvimento catastrófico de armas biológicas”.
Ao mesmo tempo, a empresa lançou o Project Glasswing, um programa no qual um grupo limitado de parceiros e organizações tiveram permissão para experimentar o modelo, a fim de aprender que novos horrores ele poderia infligir ao mundo da segurança cibernética. “Formamos o Projeto Glasswing por causa das capacidades que observamos em um novo modelo de fronteira treinado pela Anthropic que acreditamos que poderia remodelar a segurança cibernética”, disse o Postagem no blog antrópico sobre o Projeto Glasswing diz.
Logo, apesar da nerdice inerente ao assunto, Mythos Preview virou matéria de tablóide. Um artigo no New York Post citou o cientista da computação Roman Yampolskiy profetizando que, como o que Mythos anuncia, a IA poderá em breve desenvolver “ferramentas de hacking, armas biológicas, armas químicas, [and] novas armas que nem podemos imaginar.” A frase “Armas que nem conseguimos imaginar” chegou até mesmo à manchete.
Os responsáveis do governo britânico e os líderes do sector financeiro do Reino Unido esforçaram-se por elaborar um plano de acção à luz do perigo percebido. De acordo com o New York Timesa “política não intervencionista” da administração Trump em relação à IA mudou após o anúncio do Mythos, e a sua mera existência ajudou a levar ao desenvolvimento de uma ordem executiva de IA focada na segurança. Trump assinou uma dessas ordens cerca de uma semana atrás.
No entanto, na semana passada a Anthropic lançou Claude Fable 5 e Mythos 5. A empresa descreveu Fable 5 como “um modelo da classe Mythos que tornamos seguro para uso geral”, mas com capacidades que “excedem as de qualquer modelo que já disponibilizamos”. Enquanto isso, Mythos 5 teve um lançamento muito limitado como parte do Projeto Glasswing.
Brian Merchant em Blood in the Machine descreveu assim:
Depois de desencadear um grande ciclo de notícias na mídia tecnológica com o anúncio em abril de que havia construído um modelo de IA, Mythos, tão poderoso, tão perigoso que ameaçava derrubar toda a ordem civilizacional – e que estava diligentemente retendo o produto do público para nos proteger dele – a agora número 1 startup de IA do país decidiu colocar Mythos afinal, à venda.
Horas depois que Merchant escreveu essas palavras, a diretriz de controle de exportação foi entregue à Anthropic, e Fable 5 e Mythos 5 tornaram-se inacessíveis devido a aparentes preocupações de segurança nacional. Parece que a Anthropic recebeu ordem de revogar o acesso apenas para usuários que não sejam cidadãos dos EUA, mas é compreensível que a Anthropic ache impraticável permitir que alguém os acesse em qualquer lugar do mundo, por medo de desobedecer à ordem. Entre muitas questões, os cidadãos de fora dos EUA trabalham na Anthropic. É claramente mais simples extrair completamente os modelos até que a situação seja resolvida.
Curiosamente, a declaração da Anthropic sobre a directiva de controlo de exportações observou que a Anthropic tinha “trabalhado com o governo dos EUA”, juntamente com o governo do Reino Unido, e “múltiplas organizações privadas terceiras” num esforço para criar um conjunto satisfatório de salvaguardas para os modelos. Após o lançamento, as salvaguardas foram, em muitos aspectos, a característica mais proeminente da narrativa da mídia em torno do Fable 5. Uma das proteções mais rígidas, projetada para punir silenciosamente os usuários que abusaram do modelo, foi até considerada mal concebida, levando a Anthropic a pedir desculpas.
Mas, segundo o relato da Anthropic, o governo ficou assustado depois de saber sobre uma fuga de presos para Fable 5 que contornou essas salvaguardas tão importantes:
“Nosso entendimento é que o governo acredita ter tomado conhecimento de um método para contornar ou ‘desbloquear’ o Fable 5. Revisamos uma demonstração dessa técnica específica sendo usada para identificar um pequeno número de vulnerabilidades menores previamente conhecidas. Todas essas vulnerabilidades parecem relativamente simples, e descobrimos que outros modelos disponíveis publicamente também são capazes de descobri-las sem a necessidade de um desvio.
A Anthtropic aponta, com razão, que quando lançou Fable 5, a seção em sua postagem no blog sobre a segurança do modelo deixou claro que alguns jailbreaks ainda eram possíveis. É “provavelmente impossível completamente evitar jailbreaks universais, mas nosso objetivo é tornar quaisquer jailbreaks restantes suficientemente lentos e caros para que possamos detectá-los e evitá-los antes que sejam usados em grande escala”, escreveu a Anthropic. Essencialmente, como ainda não é possível criar um modelo perfeitamente à prova de jailbreak, a Anthropic procurou tornar os jailbreaks caros para produzir ou muito “estreitos” para serem uma ameaça. A Anthropic também é pública sobre o fato de que retém os dados dos usuários dos modelos da classe Mythos muito mais do que o normal.
No entanto, é estranho ver a Anthropic agora minimizando a importância dos perigos percebidos pelos seus modelos e escrevendo que essas vulnerabilidades são “menores”, “previamente conhecidas” e “relativamente simples”, bem como apontando que “outros modelos publicamente disponíveis são capazes de descobri-las também sem exigir um desvio”.
Mais uma vez, quando a Anthropic divulgou pela primeira vez esta classe de modelos, disse ao mundo que tinha criado algo com um poder sem precedentes e com potencial para causar danos reais ao mundo. Dois meses depois, um modelo “classe Mythos” era um produto para consumo público, disponível como produto premium para usuários dos “planos Pro, Max, Team e Enterprise baseados em assentos, sem custo extra”, mas apenas por um tempo limitado. Em 23 de junho, a intenção da Anthropic era “remover o Fable 5 desses planos” e, em vez disso, exigir um plano pré-pago.
A Anthropic afirma que ações governamentais como esta poderiam, se se tornassem padrão, “interromper todas as implantações de novos modelos para todos os fornecedores de modelos de fronteira”. E talvez isso seja verdade. Para que o lançamento de um produto seja interrompido quando o lançamento desse produto envolvia uma peça de tecnologia precursora que supostamente merecia uma reavaliação global da segurança cibernética, uma reacção exagerada a falhas nas salvaguardas desse produto provavelmente não deveria ser surpresa, mesmo que essa reacção exagerada seja má para os negócios.












