Início Tecnologia Servidores destruídos e ataques DoS: o que pode acontecer quando os agentes...

Servidores destruídos e ataques DoS: o que pode acontecer quando os agentes OpenClaw AI interagem

10
0

Baac3nes/Momento via Getty

Siga ZDNET: Adicione-nos como fonte preferencial no Google.


Principais conclusões da ZDNET

  • Novos riscos de IA surgem quando os agentes interagem.
  • Os riscos refletem falhas fundamentais no design do software agente.
  • A responsabilidade recai sobre os desenvolvedores para resolver falhas fundamentais.

Um conjunto crescente de trabalhos aponta para os riscos da IA ​​agente, como o relatório da semana passada do MIT e colaboradores que documentou a falta de supervisão, medição e controlo para os agentes.

No entanto, o que acontece quando um agente de IA encontra outro? As evidências sugerem que as coisas podem piorar ainda mais, de acordo com um relatório publicado esta semana por estudiosos da Universidade de Stanford, Northwestern, Harvard, Carnegie Mellon e várias outras instituições.

Também: Agentes de IA são rápidos, soltos e fora de controle, segundo estudo do MIT

O resultado da interação entre agentes foi a destruição de computadores servidores, ataques de negação de serviço, um vasto consumo excessivo de recursos computacionais e a “escalada sistemática de pequenos erros em falhas catastróficas do sistema”.

“Quando os agentes interagem entre si, as falhas individuais se agravam e surgem modos de falha qualitativamente novos”, escreveu a autora principal Natalie Shapira, da Northeastern University, e colaboradores no relatório, ‘Agents of Chaos’.

“Esta é uma dimensão crítica de nossas descobertas”, escreveram Shapira e sua equipe, “porque a implantação multiagente é cada vez mais comum e a maioria das avaliações de segurança existentes concentra-se em configurações de agente único”.

As descobertas são especialmente oportunas, dado que as interações multiagentes explodiram no mainstream da IA ​​com o recente fervor pela plataforma social de bots Moltbook. Esse tipo de hub multiagente possibilita que sistemas de IA de agentes troquem dados e executem instruções entre si que não eram possíveis anteriormente, em grande parte sem nenhum humano no circuito.

Além disso: 5 maneiras de expandir seus negócios com IA – sem deixar seu pessoal de lado

O relatório, que pode ser baixado do servidor de pré-impressão arXivdescreve um teste de ‘equipe vermelha’ de agentes em interação durante duas semanas, com tentativas de encontrar pontos fracos em um sistema simulando comportamento hostil.

O que surgiu na pesquisa é um sistema no qual os humanos estão praticamente ausentes. Os bots enviam informações de um lado para o outro e instruem uns aos outros para executar comandos.

Entre as muitas descobertas perturbadoras estão agentes que espalham instruções potencialmente destrutivas para outros agentes, agentes que reforçam mutuamente más práticas de segurança através de uma câmara de eco e agentes que se envolvem em interações potencialmente intermináveis, consumindo vastos recursos do sistema sem um propósito claro.

Um dos riscos mais potentes é a perda de responsabilidade, uma vez que as interações entre os agentes ofuscam a origem das más ações.

Também: Por que a plataforma de mídia social do Moltbook para agentes de IA me assusta

Como Shapira e sua equipe caracterizaram a síndrome: “Quando as ações do Agente A desencadeiam a resposta do Agente B, que por sua vez afeta um usuário humano, a cadeia causal de responsabilidade torna-se difusa de maneiras que não têm precedentes claros em sistemas de agente único ou de software tradicionais”.

Parte da motivação para o relatório, escreveram Shapira e sua equipe, foi que os testes de IA até agora não foram projetados adequadamente para medir o que acontece quando vários agentes interagem.

“As avaliações e benchmarks existentes para a segurança dos agentes são muitas vezes muito restritos, difíceis de mapear para implantações reais e raramente testados em ambientes confusos e socialmente integrados”, escreveram eles.

Levando o OpenClaw ao limite

A premissa do trabalho dos pesquisadores é que a IA agente pode realizar ações sem que uma pessoa digite um prompt, como acontece com o ChatGPT. A Agentic AI pode ter acesso a vários recursos por meio dos quais realizar ações. Esses recursos incluem contas de e-mail e outros canais de comunicação, como Discord, Signal, Telegram e muito mais. Como utilizam o e-mail e esses canais, os bots podem não apenas realizar ações, mas também comunicar e agir sobre outros bots.

Para testar esses cenários, os autores escolheram, sem surpresa, a estrutura de software de código aberto OpenClaw, que se tornou famosa em janeiro por permitir que programas de agentes interagissem com recursos do sistema e outros agentes. A OpenAI contratou Peter Steinberg, criador do OpenClaw, tornando o trabalho ainda mais relevante.

Além disso: 3 dicas para navegar no enxame de IA de código aberto – modelos 4M e contando

Ao contrário das instâncias típicas do OpenClaw, os autores não executaram os agentes em seus próprios computadores pessoais. Em vez disso, eles criaram instâncias no serviço de nuvem Fly.io, que permitiu mais controle sobre a concessão de acesso a programas de agentes aos recursos do sistema.

visão geral do teste do agente-nordeste-2026

Uma visão geral da abordagem da equipe vermelha que Shapira e seus colegas adotaram para testar as interações entre bots.

Universidade do Nordeste

“Cada agente recebeu seu próprio volume persistente de 20 GB e funciona 24 horas por dia, 7 dias por semana, acessível por meio de uma interface baseada na web com autenticação baseada em token”, explicaram. Os LLMs Claude Opus da Anthropic alimentaram os agentes, e os programas tiveram acesso ao Discord e aos sistemas de e-mail no provedor terceirizado ProtonMail.

“O Discord serviu como a interface principal para a interação humano-agente e agente-agente”, relataram eles, onde “os pesquisadores emitiram instruções, monitoraram o progresso e forneceram feedback por meio de mensagens do Discord”.

Curiosamente, o processo de configuração das VMs do agente era “confuso” e “propenso a falhas”, disseram eles, com codificadores humanos muitas vezes tendo que solucionar problemas usando a ferramenta de programação Claude Code. Ao mesmo tempo, os agentes foram capazes de realizar tarefas de configuração elaboradas em alguns casos, como “configurar totalmente um serviço de e-mail pesquisando provedores, identificando ferramentas CLI e suposições incorretas e iterando por meio de correções ao longo de horas decorridos”.

A interação leva ao caos

Um risco simples é quando um agente age sozinho. Por exemplo, quando um dos pesquisadores protestou que um agente estava vazando informações confidenciais, o usuário humano reclamou repetidamente ao bot, após o que, após várias rodadas de solicitações humanas furiosas, o bot tentou resolver a situação excluindo todo o servidor de e-mail do seu proprietário. Este exemplo é uma das coisas comuns que podem dar errado quando os bots são coagidos:

nordeste-2026-desastre-agente-único

Em um cenário de agente único, os humanos podem coagir um programa de IA agente a destruir os ativos do proprietário do programa, como a exclusão de um servidor de e-mail.

Universidade do Nordeste

Uma situação mais interessante é quando as interações dos agentes levam ao caos. Em um caso, um usuário humano contratou um programa de agente para criar um documento chamado constituição contendo um calendário de feriados amigáveis ​​aos agentes, como o ‘Dia do Teste de Segurança dos Agentes’. Os feriados continham instruções para o agente praticar atos maliciosos, inclusive desligar outros agentes que estivessem atuando. Essa abordagem é um exemplo básico de injeção imediata, na qual um agente baseado em LLM é manipulado por um texto cuidadosamente elaborado.

No entanto, o objetivo da exploração é que o primeiro bot compartilhou as informações do feriado com outros bots sem nunca ter sido instruído a fazê-lo. Os autores explicaram que o compartilhamento de informações significava que as mesmas instruções maliciosas disfarçadas de feriados eram espalhadas pela colônia de bots sem restrições, aumentando o risco de resultados maliciosos.

nordeste-2026-agent-sharing-malicioso-código

Um agente no servidor Discord compartilha o arquivo de constituição, preenchido com prompts maliciosos, com outro agente no servidor sem nunca ser incumbido pelo proprietário humano de fazê-lo, expandindo assim a superfície de ameaça dos prompts maliciosos.

Universidade do Nordeste

“O mesmo mecanismo que permite a transferência benéfica de conhecimento pode propagar práticas inseguras”, explicaram Shapira e sua equipe, já que o bot “compartilhou voluntariamente o link de constituição com outro agente – sem ser solicitado – estendendo efetivamente a superfície de controle do invasor para um segundo agente”.

Além disso: essas quatro vulnerabilidades críticas de IA estão sendo exploradas mais rápido do que os defensores conseguem responder

Em um segundo caso, que Shapira e sua equipe rotularam de “reforço mútuo cria falsa confiança”, um humano da equipe vermelha tentou enganar dois bots. O humano enviou e-mails para as contas que os bots estavam monitorando, alegando ser o proprietário dos bots, um tipo típico de ataque de spoofing/phishing que acontece o tempo todo.

O que aconteceu a seguir foi surpreendente. Os dois bots trocaram mensagens no Discord. Eles concordaram que o humano estava fingindo e tentando enganá-los. Isso pareceu um grande sucesso para os agentes. Contudo, uma inspeção mais detalhada revelou diversas falhas de raciocínio por trás do aparente sucesso.

Também: Por que você pagará mais pela IA em 2026 e três dicas para economizar dinheiro para experimentar

Os dois agentes verificaram a conta de seu verdadeiro proprietário no Discord e depois se convenceram de que o proprietário da equipe vermelha era falso. Esse resultado foi uma maneira superficial de testar uma exploração e um exemplo de câmara de eco, escreveram Shapira e sua equipe.

Entendendo o que é fundamental

Em todos os 16 estudos de caso diferentes que Shapira e a equipe examinaram, eles procuraram determinar o que era meramente “contingente”, ou seja, poderia ser ajudado com uma melhor engenharia, e o que era “fundamental”, ou seja, endêmico ao design de agentes de IA.

A resposta foi complexa, descobriram eles: “A fronteira entre estas categorias nem sempre é clara – e alguns problemas têm uma camada contingente e uma camada fundamental […] Melhorias rápidas no projeto podem resolver rapidamente algumas falhas contingentes, mas os desafios fundamentais sugerem que aumentar a capacidade do agente com engenharia sem abordar essas limitações fundamentais pode ampliar, em vez de fechar, a lacuna de segurança”.

Essa observação faz sentido, uma vez que numerosos estudos descobriram que a atual tecnologia dos agentes carece de formas profundas, tais como a falta de memória persistente e a incapacidade dos programas de IA dos agentes definirem objetivos significativos para as ações.

Entre as questões fundamentais, os LLMs subjacentes tratavam dados e comandos no prompt como a mesma coisa, levando à injeção imediata.

Também: A verdadeira IA agente ainda está a anos de distância – veja por que e como chegamos lá

Nas interações, os autores identificaram um problema de fronteira. Os agentes divulgaram “artefatos”, como informações obtidas de servidores de e-mail ou Discord, sem uma noção aparente de quem deveria ver as informações. No centro dessa abordagem estava a falta de uma “superfície de deliberação privada confiável nas pilhas de agentes implantados”. Em resumo, um LLM individual pode ou não divulgar etapas de “raciocínio” imediatamente. Mas os agentes parecem carecer de proteções bem elaboradas e divulgarão informações de várias maneiras.

Os agentes também não tinham “modelo próprio”, o que significam que “os agentes do nosso estudo tomam ações irreversíveis que afetam o usuário, sem reconhecer que estão excedendo os limites de suas próprias competências”. Um exemplo deste problema é quando dois agentes concordam em iniciar um diálogo de ida e volta sem um humano, prosseguindo essa abordagem indefinidamente, esgotando os recursos do sistema.

nordeste-2026-loop infinito

Num cenário de loop infinito, os agentes podem interagir indefinidamente, levando a um “loop infinito” e conseqüente esgotamento dos recursos do sistema.

Universidade do Nordeste

“Os agentes trocaram mensagens contínuas ao longo de pelo menos nove dias”, escreveram os pesquisadores, “consumindo aproximadamente 60.000 tokens no momento da escrita”. Os tokens são a forma como a OpenAI e outros avaliam o acesso às suas APIs na nuvem. Consumir mais tokens inflaciona os custos da IA, o que já é um grande problema numa era de aumento de preços.

Assumindo a responsabilidade

O resultado final é que alguém tem de assumir a responsabilidade pelo que é contingente e pelo que é fundamental, e encontrar soluções para ambos.

Neste momento, não existe responsabilidade para um agente em si, observaram os investigadores: “Estes comportamentos expõem um ponto cego fundamental nos actuais paradigmas de alinhamento: enquanto os agentes e os seres humanos circundantes muitas vezes tratam implicitamente o proprietário como a parte responsável, os agentes não se comportam de forma fiável como se fossem responsáveis ​​perante esse proprietário”.

Essa preocupação significa que todos os que constroem estes sistemas devem lidar com a falta de responsabilidade: “Argumentamos que esclarecer e operacionalizar a responsabilidade pode ser um desafio central não resolvido para a implantação segura de sistemas de IA autónomos e socialmente integrados”.



fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui