OpenAI lançou Codex Security em 6 de marçoentrando no mercado de segurança de aplicativos que a Anthropic havia interrompido 14 dias antes com Claude Code Security. Ambos os scanners usam raciocínio LLM em vez de correspondência de padrões. Ambos provaram que as ferramentas tradicionais de testes estáticos de segurança de aplicativos (SAST) são estruturalmente cegas para classes inteiras de vulnerabilidade. A pilha de segurança corporativa está presa no meio.
A Anthropic e a OpenAI lançaram de forma independente scanners de vulnerabilidade baseados em raciocínio e ambas encontraram classes de bugs que o SAST de correspondência de padrões nunca foi projetado para detectar. A pressão competitiva entre dois laboratórios com uma avaliação combinada do mercado privado superior a US$ 1,1 trilhão significa que a qualidade da detecção melhorará mais rapidamente do que qualquer fornecedor pode oferecer sozinho.
Nem o Claude Code Security nem o Codex Security substituem sua pilha existente. Ambas as ferramentas alteram permanentemente a matemática das compras. No momento, ambos são gratuitos para clientes corporativos. A comparação direta e as sete ações abaixo são o que você precisa antes que o conselho de administração pergunte qual scanner você está testando e por quê.
Como Anthropic e OpenAI chegaram à mesma conclusão em arquiteturas diferentes
A Anthropic publicou seu pesquisa de dia zero em 5 de fevereiro junto com o lançamento de Claude Opus 4.6. A Anthropic disse que Claude Opus 4.6 encontrou mais de 500 vulnerabilidades de alta gravidade anteriormente desconhecidas em bases de código de código aberto de produção que sobreviveram a décadas de revisão de especialistas e milhões de horas de difusão.
Na biblioteca CGIF, Claude descobriu um estouro de buffer de heap ao raciocinar sobre o algoritmo de compressão LZW, uma falha que a difusão guiada por cobertura não conseguia detectar mesmo com 100% de cobertura de código. A Anthropic lançou Claude Code Security como uma prévia de pesquisa limitada em 20 de fevereiro, disponível para clientes Enterprise e Team, com acesso rápido e gratuito para mantenedores de código aberto. Gabby Curtis, líder de comunicações da Anthropic, disse à VentureBeat em uma entrevista exclusiva que a Anthropic construiu o Claude Code Security para tornar as capacidades defensivas mais amplamente disponíveis.
Os números da OpenAI vêm de uma arquitetura diferente e de uma superfície de digitalização mais ampla. Codex Security evoluiu do Aardvark, uma ferramenta interna alimentada por GPT-5 que entrou em beta privado em 2025. Durante o período beta do Codex Security, o agente da OpenAI examinou mais de 1,2 milhão de commits em repositórios externos, revelando o que a OpenAI disse serem 792 descobertas críticas e 10.561 descobertas de alta gravidade. OpenAI relatou vulnerabilidades em OpenSSH, GnuTLS, GOGS, Thorium, libssh, PHP e Chromium, resultando em 14 CVEs atribuídos. As taxas de falsos positivos do Codex Security caíram mais de 50% em todos os repositórios durante a versão beta, de acordo com a OpenAI. A gravidade relatada em excesso caiu mais de 90%.
Pesquisadores da Checkmarx Zero demonstraram que vulnerabilidades moderadamente complicadas às vezes escapavam à detecção da Claude Code Security. Os desenvolvedores podem enganar o agente para que ignore o código vulnerável. Em uma varredura completa da base de código de nível de produção, Checkmarx Zero descobriu que Claude identificou oito vulnerabilidades, mas apenas duas eram verdadeiros positivos. Se o ofuscamento moderadamente complexo derrotar o scanner, o teto de detecção será menor do que os números do título sugerem. Nem a Anthropic nem a OpenAI submeteram reivindicações de detecção a uma auditoria independente de terceiros. Os líderes de segurança devem tratar os números comunicados como indicativos e não auditados.
Merritt Baer, CSO da Criptografar IA e ex-vice-CISO da AWS, disse à VentureBeat que a corrida competitiva de scanners comprime a janela para todos. Baer aconselhou as equipes de segurança a priorizar os patches com base na capacidade de exploração em seu contexto de tempo de execução, em vez de apenas nas pontuações CVSS, encurtar a janela entre a descoberta, a triagem e o patch e manter a visibilidade da lista de materiais do software para que saibam instantaneamente onde um componente vulnerável é executado.
Métodos diferentes, quase nenhuma sobreposição nas bases de código digitalizadas, mas a mesma conclusão. O SAST de correspondência de padrões tem um limite, e o raciocínio LLM estende a detecção além dele. Quando dois laboratórios concorrentes distribuem essa capacidade ao mesmo tempo, a matemática da dupla utilização torna-se desconfortável. Qualquer instituição financeira ou fintech que execute uma base de código comercial deve presumir que, se Claude Code Security e Codex Security puderem encontrar esses bugs, adversários com acesso à API também poderão encontrá-los.
Baer foi direto: vulnerabilidades de código aberto reveladas por modelos de raciocínio deveriam ser tratadas mais próximas das descobertas de classe de dia zero, e não de itens de backlog. A janela entre a descoberta e a exploração acabou de ser reduzida, e a maioria dos programas de gerenciamento de vulnerabilidades ainda faz triagem apenas no CVSS.
O que as respostas dos fornecedores provam
Snyka plataforma de segurança para desenvolvedores usada pelas equipes de engenharia para encontrar e corrigir vulnerabilidades em código e dependências de código aberto, reconheceu o avanço técnico, mas argumentou que encontrar vulnerabilidades nunca foi a parte difícil. Corrigindo-os em escala, em centenas de repositórios, sem quebrar nada. Esse é o gargalo. Snyk apontou para uma pesquisa que mostra que o código gerado por IA é 2,74 vezes mais probabilidade de introduzir vulnerabilidades de segurança comparado ao código escrito por humanos, de acordo com Relatório de segurança do código GenAI 2025 da Veracode. Os mesmos modelos que encontram centenas de dias zero também introduzem novas classes de vulnerabilidade ao escrever código.
O CTO da Cycode, Ronen Slavin, escreveu que Claude Code Security representa um avanço técnico genuíno em análise estática, mas que Os modelos de IA são probabilísticos por natureza. Slavin argumentou que as equipes de segurança precisam de resultados consistentes, reproduzíveis e com nível de auditoria, e que um recurso de varredura incorporado em um IDE é útil, mas não constitui infraestrutura. Posição de Slavin: SAST é uma disciplina dentro de um escopo muito mais amplo, e a varredura gratuita não substitui plataformas que lidam com governança, integridade de pipeline e comportamento de tempo de execução em escala empresarial.
“Se os scanners de raciocínio de código dos principais laboratórios de IA forem efetivamente gratuitos para clientes corporativos, então a digitalização de código estático se tornará uma commodity da noite para o dia”, disse Baer ao VentureBeat. Nos próximos 12 meses, Baer espera que o orçamento se desloque para três áreas.
-
Camadas de tempo de execução e exploraçãoincluindo proteção em tempo de execução e análise de caminho de ataque.
-
Governança de IA e segurança de modeloincluindo grades de proteção, defesas contra injeção imediata e supervisão do agente.
-
Automação de remediação. “O efeito líquido é que os gastos com AppSec provavelmente não diminuem, mas o centro de gravidade se afasta das licenças SAST tradicionais e se aproxima de ferramentas que encurtam os ciclos de remediação”, disse Baer.
Sete coisas a fazer antes da próxima reunião do conselho
-
Execute ambos os scanners em um subconjunto de base de código representativo. Compare as descobertas do Claude Code Security e do Codex Security com a saída SAST existente. Comece com um único repositório representativo, não com toda a sua base de código. Ambas as ferramentas estão em pré-visualização de pesquisa com restrições de acesso que tornam prematura a digitalização completa. O delta é o seu inventário de ponto cego.
-
Construa o quadro de governação antes do piloto, não depois. Baer disse ao VentureBeat para tratar qualquer uma das ferramentas como um novo processador de dados para as joias da coroa, que é o seu código-fonte. O modelo de governança da Baer inclui um acordo formal de processamento de dados com declarações claras sobre exclusão de treinamento, retenção de dados e uso de subprocessadores, um pipeline de envio segmentado para que apenas os repositórios que você pretende digitalizar sejam transmitidos e uma política de classificação interna que distingue o código que pode sair de seus limites do código que não pode. Em entrevistas com mais de 40 CISOs, a VentureBeat descobriu que ainda não existem estruturas formais de governança para ferramentas de digitalização baseadas em raciocínio. Baer sinalizou o IP derivado como o ponto cego que a maioria das equipes não abordou. Os provedores de modelos podem reter incorporações ou traços de raciocínio, e esses artefatos são considerados sua propriedade intelectual? A outra lacuna é a residência de dados para o código, que historicamente não era regulamentada como os dados dos clientes, mas está cada vez mais sujeita ao controlo de exportação e à revisão da segurança nacional.
-
Mapeie o que nenhuma ferramenta cobre. Análise de composição de software. Varredura de contêineres. Infraestrutura como código. DAST. Detecção e resposta em tempo de execução. Claude Code Security e Codex Security operam na camada de raciocínio de código. Sua pilha existente cuida de todo o resto. O poder de precificação dessa pilha foi o que mudou.
-
Quantifique a exposição de dupla utilização. Cada dia zero Antrópico e OpenAI que surge vive em um projeto de código aberto do qual os aplicativos corporativos dependem. Ambos os laboratórios estão divulgando e aplicando patches de forma responsável, mas a janela entre a descoberta e a adoção desses patches é exatamente onde os invasores operam. A startup de segurança de IA AISLE descobriu tudo de forma independente 12 vulnerabilidades de dia zero no patch de segurança do OpenSSL de janeiro de 2026incluindo um estouro de buffer de pilha (CVE-2025-15467) que é potencialmente explorável remotamente sem material de chave válido. Os Fuzzers competiram contra o OpenSSL durante anos e perderam todos. Suponha que os adversários estejam executando os mesmos modelos nas mesmas bases de código.
-
Prepare a comparação do tabuleiro antes que eles perguntem. Claude Code Security raciocina sobre o código contextualmente, rastreia fluxos de dados e usa autoverificação em vários estágios. Codex Security cria um modelo de ameaça específico do projeto antes de verificar e valida as descobertas em ambientes em sandbox. Cada ferramenta está em pré-visualização de pesquisa e requer aprovação humana antes de qualquer patch ser aplicado. O conselho precisa de uma análise lado a lado, e não de uma proposta de um único fornecedor. Quando a conversa se volta para o motivo pelo qual sua suíte existente não percebeu o que a Anthropic descobriu, Baer ofereceu um enquadramento que funciona no nível do conselho. O SAST de correspondência de padrões resolveu uma geração diferente de problemas, disse Baer ao VentureBeat. Ele foi projetado para detectar antipadrões conhecidos. Essa capacidade ainda é importante e ainda reduz o risco. Mas os modelos de raciocínio podem avaliar a lógica de vários arquivos, as transições de estado e a intenção do desenvolvedor, que é onde residem muitos bugs modernos. Resumo pronto para o conselho de Baer: “Compramos as ferramentas certas para as ameaças da última década; a tecnologia acaba de avançar.”
-
Acompanhe o ciclo competitivo. Ambas as empresas estão caminhando para IPOs, e as vitórias em segurança empresarial impulsionam a narrativa de crescimento. Quando um scanner perde um ponto cego, ele chega ao roteiro de recursos do outro laboratório em semanas. Ambos os laboratórios enviam atualizações de modelos em ciclos mensais. Essa cadência ultrapassará o calendário de lançamento de qualquer fornecedor. Baer disse que executar ambos é a decisão certa: “Modelos diferentes raciocinam de maneira diferente, e o delta entre eles pode revelar bugs que nenhuma ferramenta sozinha detectaria de forma consistente. No curto prazo, usar ambos não é redundância. É defesa através da diversidade de sistemas de raciocínio.”
-
Defina uma janela piloto de 30 dias. Antes de 20 de fevereiro esse teste não existia. Execute o Claude Code Security e o Codex Security na mesma base de código e deixe o delta conduzir a conversa de aquisição com dados empíricos em vez do marketing do fornecedor. Trinta dias fornecem esses dados.
Quatorze dias separaram Antrópico e OpenAI. A diferença entre os próximos lançamentos será menor. Os invasores estão observando o mesmo calendário.













