Um invasor incorpora uma única instrução em um email encaminhado. Um agente OpenClaw resume esse e-mail como parte de uma tarefa normal. A instrução oculta informa ao agente para encaminhar credenciais para um endpoint externo. O agente cumpre — por meio de uma chamada de API sancionada, usando seus próprios tokens OAuth.
O firewall registra HTTP 200. EDR registra um processo normal. Não há disparos de assinatura. Nada deu errado, por qualquer definição que sua pilha de segurança entenda. Esse é o problema. Seis equipes de segurança independentes enviaram seis ferramentas de defesa OpenClaw em 14 dias. Três superfícies de ataque sobreviveram a cada uma delas.
O quadro de exposição já é pior do que a maioria das equipes de segurança imagina. Segurança de token descobriu que 22% de seus clientes corporativos têm funcionários executando OpenClaw sem aprovação de TI, e Bitsight contou mais de 30.000 casos expostos publicamente em duas semanas, acima dos cerca de 1.000. Auditoria ToxicSkills de Snyk acrescenta outra dimensão: 36% de todas as habilidades do ClawHub contêm falhas de segurança.
Jamieson O’Reilly, fundador da Dvuln e agora consultor de segurança do projeto OpenClaw, tem sido um dos pesquisadores que mais pressionam as soluções internas. Sua pesquisa de vazamento de credenciais em instâncias expostas foi um dos primeiros avisos que a comunidade recebeu. Desde então, ele trabalhou diretamente com o fundador Peter Steinberger para fornecer detecção de habilidades maliciosas de camada dupla e agora está conduzindo um proposta de especificação de capacidades através do órgão de padrões de habilidades de agentes.
A equipe está ciente das lacunas de segurança, disse ele ao VentureBeat. “Ele não foi projetado desde o início para ser o mais seguro possível”, disse O’Reilly. “Isso é compreensível, dadas as origens, e somos os donos disso sem desculpas.”
Nada disso preenche as três lacunas que mais importam.
Três superfícies de ataque que sua pilha não pode ver
A primeira é a exfiltração semântica em tempo de execução. O ataque codifica o comportamento malicioso em significado, não em padrões binários, que é exatamente o que a pilha de defesa atual não consegue ver.
Redes Palo Alto mapeou o OpenClaw para todas as categorias do OWASP Top 10 for Agentic Applications e identificou o que o pesquisador de segurança Simon Willison chama de “trifecta letal”: acesso a dados privados, exposição de conteúdo não confiável e recursos de comunicação externa em um único processo. O EDR monitora o comportamento do processo. O comportamento do agente parece normal porque é normal. As credenciais são reais e as chamadas de API são sancionadas, portanto o EDR as lê como um usuário credenciado realizando o trabalho esperado. Nada no atual ecossistema de defesa rastreia o que o agente decidiu fazer com esse acesso, ou por quê.
O segundo é o vazamento de contexto entre agentes. Quando vários agentes ou habilidades compartilham o contexto da sessão, uma injeção imediata em um canal envenena as decisões em toda a cadeia. Pesquisadores Giskard demonstraram isso em janeiro de 2026, mostrando que os agentes anexavam silenciosamente instruções controladas pelo invasor aos seus próprios arquivos de espaço de trabalho e aguardavam comandos de servidores externos. O prompt injetado se torna uma carga útil dormente. Os pesquisadores da Palo Alto Networks, Sailesh Mishra e Sean P. Morgan, alertaram que a memória persistente transforma esses ataques em cadeias de execução atrasada e com estado. Uma instrução maliciosa escondida dentro de uma mensagem encaminhada permanece no contexto do agente semanas depois, sendo ativada durante uma tarefa não relacionada.
O’Reilly identificou o vazamento de contexto entre agentes como a lacuna mais difícil de preencher. “Este é especialmente difícil porque está fortemente vinculado à injeção imediata, uma vulnerabilidade sistêmica que é muito maior que o OpenClaw e afeta todos os sistemas de agentes com tecnologia LLM na indústria”, disse ele ao VentureBeat. “Quando o contexto flui sem controle entre agentes e habilidades, um único prompt injetado pode envenenar ou sequestrar o comportamento em toda a cadeia.” Nenhuma ferramenta no ecossistema atual fornece isolamento de contexto entre agentes. O IronClaw protege a execução de habilidades individuais. ClawSec monitora a integridade dos arquivos. Nenhum dos dois rastreia como o contexto se propaga entre agentes no mesmo fluxo de trabalho.
A terceira são as cadeias de confiança entre agentes com zero autenticação mútua. Quando os agentes OpenClaw delegam tarefas a outros agentes ou servidores MCP externos, não existe verificação de identidade entre eles. Um agente comprometido em um fluxo de trabalho multiagente herda a confiança de todos os agentes com quem se comunica. Comprometa-se por meio de injeção imediata e ele poderá emitir instruções para todos os agentes da cadeia usando relações de confiança que o agente legítimo já construiu.
Equipe de segurança da Microsoft publicou orientações em fevereiro chamando a execução de código não confiável do OpenClaw com credenciais persistentes, observando que o tempo de execução ingere texto não confiável, baixa e executa habilidades de fontes externas e executa ações usando quaisquer credenciais que possua. Avaliação de risco empresarial da Kaspersky acrescentou que mesmo os agentes em dispositivos pessoais ameaçam a segurança organizacional porque esses dispositivos armazenam configurações de VPN, tokens de navegador e credenciais para serviços corporativos. A rede social Moltbook para agentes OpenClaw já demonstrou o risco de repercussão: os pesquisadores da Wiz encontraram um banco de dados mal configurado que expôs 1,5 milhão de tokens de autenticação de API e 35.000 endereços de e-mail.
Quais 14 dias de patch de emergência realmente fecharam
O ecossistema de defesa dividiu-se em três abordagens. Duas ferramentas fortalecem o OpenClaw no lugar. GarraSecem Prompt Security (um SentinelaOne empresa), envolve os agentes em verificação contínua, monitorando arquivos críticos em busca de desvios e aplicando saída de confiança zero por padrão. Integração VirusTotal do OpenClawenviado em conjunto por Steinberger, O’Reilly e Bernardo Quintero da VirusTotal, verifica todas as habilidades publicadas do ClawHub e bloqueia pacotes maliciosos conhecidos.
Duas ferramentas são reescritas arquitetônicas completas. Garra de Ferroa reimplementação Rust do NEAR AI, executa todas as ferramentas não confiáveis dentro de sandboxes WebAssembly, onde o código da ferramenta começa com zero permissões e deve solicitar explicitamente acesso à rede, sistema de arquivos ou API. As credenciais são injetadas no limite do host e nunca tocam no código do agente, com solicitações e respostas de verificação de detecção de vazamento integradas. Carapaçaum projeto independente de código aberto, inverte todos os padrões perigosos do OpenClaw com autenticação de falha fechada e sandboxing de subprocessos no nível do sistema operacional.
Duas ferramentas se concentram na verificação e auditabilidade: o scanner de código aberto da Cisco combina análise estática, comportamental e semântica LLM, enquanto o NanoClaw reduz toda a base de código para cerca de 500 linhas de TypeScript, executando cada sessão em um contêiner Docker isolado.
O’Reilly colocou o fracasso da cadeia de abastecimento em termos diretos. “Neste momento, a indústria basicamente criou um novo formato executável escrito em linguagem humana simples e esqueceu todos os controles que deveriam acompanhá-lo”, disse ele. Sua resposta foi prática. Ele lançou a integração do VirusTotal antes que o skills.sh, um repositório muito maior, adotasse um padrão semelhante. Auditoria da Koi Security valida a urgência: 341 habilidades maliciosas encontradas no início de fevereiro cresceram para 824 de 10.700 no ClawHub em meados do mês, com a campanha ClawHavoc plantando o infostealer Atomic Stealer macOS dentro de habilidades disfarçadas como ferramentas de negociação de criptomoedas, coletando carteiras criptográficas, credenciais SSH e senhas de navegador.
Matriz de avaliação de defesa de segurança OpenClaw
|
Dimensão |
GarraSec |
Integração VirusTotal |
Garra de Ferro |
Carapaça |
Nanogarra |
Scanner Cisco |
|
Descoberta |
Somente agentes |
Somente ClawHub |
Não |
Verificação mDNS |
Não |
Não |
|
Proteção em tempo de execução |
Desvio de configuração |
Não |
Caixa de areia WASM |
Sandbox do SO + proteção de prompt |
Isolamento de contêiner |
Não |
|
Cadeia de mantimentos |
Verificação de soma de verificação |
Verificação de assinatura |
Concessões de capacidade |
Ed25519 assinado |
Auditoria manual (~500 LOC) |
Estático + LLM + comportamental |
|
Isolamento de credenciais |
Não |
Não |
Injeção de limite WASM |
Chaveiro do SO + AES-256-GCM |
Diretórios com restrição de montagem |
Não |
|
Auditabilidade |
Registros de deriva |
Veredictos de verificação |
Logs de concessão de permissão |
Prometheus + registro de auditoria |
500 linhas no total |
Verificar relatórios |
|
Monitoramento Semântico |
Não |
Não |
Não |
Não |
Não |
Não |
Fonte: análise da VentureBeat com base em documentação publicada e auditorias de segurança, março de 2026.
A especificação de recursos que trata habilidades como executáveis
O’Reilly apresentou uma atualização de padrões de especificação de habilidades aos mantenedores de habilidades dos agentes, liderados principalmente pela Anthropic e Vercel, que estão em discussão ativa. A proposta exige que todas as habilidades declarem capacidades explícitas e visíveis ao usuário antes da execução. Pense em manifestos de permissão de aplicativos móveis. Ele observou que a proposta está recebendo um forte feedback inicial da comunidade de segurança porque finalmente trata as habilidades como os executáveis que são.
“As outras duas lacunas podem ser significativamente reforçadas com melhores primitivos de isolamento e proteções de tempo de execução, mas realmente fechar o vazamento de contexto requer mudanças arquitetônicas profundas na forma como a memória multiagente não confiável e os prompts são tratados”, disse O’Reilly. “A nova especificação de recursos é o primeiro passo real para resolver esses desafios de forma proativa, em vez de recorrer a curativos mais tarde.”
O que fazer na segunda-feira de manhã
Suponha que o OpenClaw já esteja em seu ambiente. A taxa de implantação de sombra de 22% é um piso. Estas seis etapas encerram o que pode ser fechado e documentam o que não pode.
-
Faça um inventário do que está em execução. Verifique o tráfego WebSocket na porta 18789 e transmissões mDNS na porta 5353. Observe os logs de autenticação corporativa para novos registros de App ID, eventos de consentimento OAuth e strings de agente de usuário do Node.js. Qualquer instância executando uma versão anterior à v2026.2.25 é vulnerável à falha de controle remoto ClawJacked.
-
Mandato de execução isolada. Nenhum agente é executado em um dispositivo conectado à infraestrutura de produção. Exija implantação baseada em contêiner com credenciais de escopo e listas de permissões de ferramentas explícitas.
-
Implante o ClawSec em cada instância do agente e execute todas as habilidades do ClawHub através do VirusTotal e do scanner de código aberto da Cisco antes da instalação. Ambos são gratuitos. Trate as habilidades como executáveis de terceiros, porque é isso que elas são.
-
Exigir aprovação humana para ações confidenciais de agentes. As configurações de aprovação executiva do OpenClaw suportam três modos: segurança, pergunta e lista de permissões. Defina ferramentas confidenciais para solicitar que o agente faça uma pausa e solicite confirmação antes de executar comandos shell, gravar em APIs externas ou modificar arquivos fora de seu espaço de trabalho. Qualquer ação que toque em credenciais, altere configurações ou envie dados para um endpoint externo deve parar e aguardar a aprovação de um humano.
-
Mapeie as três lacunas sobreviventes em relação ao seu registro de riscos. Documente se sua organização aceita, mitiga ou bloqueia cada um deles: exfiltração semântica em tempo de execução, vazamento de contexto entre agentes e cadeias de confiança entre agentes.
-
Leve a tabela de avaliação para a próxima reunião do conselho. Enquadre-o não como um experimento de IA, mas como um desvio crítico de seus investimentos existentes em DLP e IAM. Cada plataforma de IA a seguir enfrentará esse mesmo ciclo de defesa. A estrutura é transferida para todas as ferramentas de agente que sua equipe avaliará nos próximos dois anos.
A pilha de segurança que você criou para aplicativos e endpoints captura códigos maliciosos. Ele não detecta um agente seguindo uma instrução maliciosa por meio de uma chamada de API legítima. É aí que residem essas três lacunas.













