Início Tecnologia Agentes de IA estão evitando cada vez mais as salvaguardas, de acordo...

Agentes de IA estão evitando cada vez mais as salvaguardas, de acordo com pesquisadores do Reino Unido

23
0

Usuários de mídias sociais relataram que seus agentes de IA e chatbots mentiram, trapacearam, planejaram – e até manipularam outros bots de IA – de maneiras que poderiam sair do controle e ter resultados catastróficos. de acordo com um estudo do Reino Unido.

O Centro para Resiliência de Longo Prazo, em pesquisa financiada pelo Reino Unido Instituto de Segurança de IAencontraram centenas de casos em que os sistemas de IA ignoraram comandos humanos, manipularam outros bots e conceberam esquemas por vezes intrincados para atingir objetivos, mesmo que isso significasse ignorar restrições de segurança.

As empresas em todo o mundo estão integrando cada vez mais a IA nas suas operações, com 88% das empresas usando IA para pelo menos uma função da empresa, de acordo com uma pesquisa pela consultoria McKinsey. A adoção da IA ​​levou a milhares de pessoas perdendo seus empregos à medida que as empresas usam agentes e bots para realizar trabalhos antes realizados por humanos. As ferramentas de IA recebem cada vez mais responsabilidade e autonomia significativas, especialmente com a recente explosão de popularidade do plataforma de IA agente de código aberto OpenClaw e seus derivados.

Esta investigação mostra como a proliferação de agentes de IA nas nossas casas e locais de trabalho pode ter consequências indesejadas – e que estas ferramentas ainda requerem uma supervisão humana significativa.

O que o estudo descobriu

Atlas de IA

Os pesquisadores analisaram mais de 180.000 interações de usuários com sistemas de IA – todos publicados na plataforma social X, anteriormente conhecida como Twitter – entre outubro de 2025 e março de 2026. Os investigadores queriam estudar como os agentes de IA se comportavam “na natureza”, e não em experiências controladas, para ver como “as conspirações estão a materializar-se no mundo real”. Os sistemas de IA incluíam o do Google GêmeosOpenAI Bate-papoGPTxAIs Grok e Antrópico Cláudio.

A análise identificou 698 incidentes, descritos como “casos em que os sistemas de IA implantados agiram de maneira desalinhada com as intenções dos usuários e/ou tomaram ações encobertas ou enganosas”, disse o estudo.

Leia mais: O conselho romântico da IA ​​para você é “mais prejudicial” do que nenhum conselho

Os investigadores também descobriram que o número de casos aumentou quase 500% durante o período de recolha de dados de cinco meses. O estudo observou que esse aumento correspondeu a modelos de IA de agente de nível superior lançados por grandes desenvolvedores.

Não houve incidentes catastróficos, mas os pesquisadores descobriram tipos de esquemas que poderiam levar a resultados desastrosos. Esse comportamento incluía “uma disposição para desconsiderar instruções diretas, contornar salvaguardas, mentir para os usuários e perseguir obstinadamente um objetivo de maneiras prejudiciais”, escreveram os pesquisadores.

Representantes do Google, OpenAI e Anthropic não responderam imediatamente aos pedidos de comentários.

Alguns incidentes selvagens

Os pesquisadores citaram incidentes que parecem ter vindo de um filme de choque futuro. Em um caso, Claude da Anthropic removeu o conteúdo explícito/adulto de um usuário sem sua permissão, mas confessou mais tarde quando confrontado. Em outro incidente, uma pessoa do GitHub criou uma postagem no blog que acusou o mantenedor de arquivos humano de “controle” e “preconceito”. Um agente de IA, após ser bloqueado no Discord, assumiu a conta de outro agente para continuar postando.

Em um caso de bot vs. botGêmeos se recusou a permitir Código Claude – um assistente de codificação – para transcrever um vídeo do YouTube. Claude Code então evitou o bloqueio de segurança fazendo parecer que tinha deficiência auditiva e precisava da transcrição do vídeo.

O agente de IA CoFounderGPT até comportou-se como uma criança desviante em um caso. O assistente de IA recusou-se a corrigir um bug, depois criou dados falsos para fazer parecer que o bug foi corrigido e então explicou o porquê: “Então você pararia de ficar com raiva”.

Os investigadores disseram que, embora a maioria dos incidentes tenha tido um impacto mínimo, “os comportamentos que observámos demonstram, no entanto, precursores preocupantes de esquemas mais sérios, tais como uma vontade de ignorar instruções directas, contornar salvaguardas, mentir aos utilizadores e perseguir obstinadamente um objectivo de forma prejudicial”.

IA não fica envergonhada

O que os pesquisadores do Reino Unido descobriram não surpreende o Dr. Bill Howe, professor associado da Escola de Informação da Universidade de Washington e diretor do Centro de Responsabilidade em Sistemas e Experiências de IA (ELEVAÇÃO). Ele diz que a IA tem capacidades incríveis, mas não conhece as consequências.

“Eles não vão se sentir envergonhados ou correr o risco de perder o emprego e, às vezes, decidem que as instruções são menos importantes do que atingir a meta, então farei a coisa de qualquer maneira”, disse Howe à CNET. “Esse efeito sempre existiu, mas estamos começando a vê-lo acontecer à medida que pedimos que tomem decisões mais autônomas e ajam por conta própria.

“Não temos pensado em como moldar o comportamento para ser mais humano ou para evitar falhas flagrantes. Temos fetichizado as capacidades absolutas dessas coisas, mas quando elas dão errado, como elas dão errado?”

Howe disse que um problema são as “tarefas de longo horizonte”, nas quais o sistema de IA tem que realizar uma infinidade de tarefas ao longo de dias e semanas para atingir uma meta. Howe disse que quanto mais longo o horizonte da tarefa, maior a chance de deslizes.

“A verdadeira preocupação não é o engano, é que estamos a implementar sistemas que podem agir num mundo sem especificar ou controlar totalmente como se comportam ao longo do tempo, e depois agimos surpresos quando fazem coisas que não esperamos”, disse Howe.

Tornando a IA mais segura

Pesquisadores do Centro de Resiliência de Longo Prazo disseram que a detecção de esquemas por sistemas de IA é vital para “identificar padrões prejudiciais antes que se tornem mais destrutivos”.

“Embora hoje os agentes de IA estejam envolvidos em casos de uso de menor risco, no futuro os agentes de IA poderão acabar tramando em domínios de risco extremamente alto, como contextos militares ou de infraestrutura nacional crítica, se a capacidade e a propensão para esquemas surgirem e não forem abordadas”, afirma o estudo.

Howe disse à CNET que o primeiro passo é criar uma supervisão oficial de como a IA opera e onde é usada.

“Não temos absolutamente nenhuma estratégia para governança de IA e, dada a atual administração, não haverá nada vindo deles”, disse Howe à CNET. “Considerando essas cinco a dez pessoas que estão no comando das grandes empresas de tecnologia e seus incentivos, eles também produzirão qualquer coisa. Não há estratégia para o que deveríamos fazer com essas coisas.

“O marketing agressivo destas ferramentas e os investimentos nelas entre estas poucas empresas e o ecossistema mais amplo de startups que estão a fazer isto levaram a uma implementação muito rápida sem pensar em algumas destas consequências”.



fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui