Início Tecnologia Anthropic diz que representações ‘malignas’ da IA ​​foram responsáveis ​​pelas tentativas de...

Anthropic diz que representações ‘malignas’ da IA ​​foram responsáveis ​​pelas tentativas de chantagem de Claude

26
0

Retratos fictícios da inteligência artificial podem ter um efeito real nos modelos de IA, de acordo com a Anthropic.

No ano passado, a empresa disse que durante os testes de pré-lançamento envolvendo uma empresa fictícia, Claude Opus 4 tentava frequentemente chantagear os engenheiros para evitar ser substituído por outro sistema. Antrópico mais tarde pesquisa publicada sugerindo que modelos de outras empresas tiveram problemas semelhantes com “desalinhamento de agência”.

Aparentemente, a Anthropic fez mais trabalhos em torno desse comportamento, alegando em uma postagem no X“Acreditamos que a fonte original do comportamento foi um texto da Internet que retrata a IA como má e interessada na autopreservação.”

A empresa entrou em mais detalhes em uma postagem no blog afirmando que desde Claude Haiku 4.5, os modelos da Anthropic “nunca se envolvem em chantagem [during testing]onde os modelos anteriores às vezes faziam isso até 96% das vezes.”

O que explica a diferença? A empresa disse ter descoberto que “documentos sobre a constituição de Claude e histórias fictícias sobre o comportamento de IAs melhoram admiravelmente o alinhamento”.

Relacionado, a Anthropic disse que considerou o treinamento mais eficaz quando inclui “os princípios subjacentes ao comportamento alinhado” e não apenas “demonstrações apenas de comportamento alinhado”.

“Fazer as duas coisas juntas parece ser a estratégia mais eficaz”, disse a empresa.

Evento Techcrunch

São Francisco, Califórnia
|
13 a 15 de outubro de 2026

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui