Quando um Analista financeiro OpenAI necessário para comparar receitas entre regiões geográficas e grupos de clientes no ano passado, foram necessárias horas de trabalho — vasculhando 70.000 conjuntos de dados, escrevendo consultas SQL, verificando esquemas de tabelas. Hoje, o mesmo analista digita uma pergunta em inglês simples no Slack e obtém um gráfico finalizado em minutos.
A ferramenta por trás dessa transformação foi construída por dois engenheiros em três meses. Setenta por cento do seu código foi escrito pela IA. E agora é usado por mais de 4.000 dos cerca de 5.000 funcionários da OpenAI todos os dias – tornando-o uma das implantações mais agressivas de um agente de dados de IA dentro de qualquer empresa, em qualquer lugar.
Em entrevista exclusiva à VentureBeat, Emma Tang, chefe de infraestrutura de dados da OpenAI, cuja equipe construiu o agente, ofereceu uma visão rara do interior do sistema – como funciona, como falha e o que sinaliza sobre o futuro dos dados corporativos. A conversa, aliada à da empresa postagem no blog ao anunciar a ferramenta, pinta o retrato de uma empresa que virou sua própria IA e descobriu algo que toda empresa enfrentará em breve: o gargalo para organizações mais inteligentes não são modelos melhores. São dados melhores.
“O agente é usado para qualquer tipo de análise”, disse Tang. “Quase todas as equipes da empresa o utilizam.”
Uma interface em inglês simples para 600 petabytes de dados corporativos
Para entender por que a OpenAI construiu este sistema, considere a escala do problema. A plataforma de dados da empresa abrange mais de 600 petabytes em 70.000 conjuntos de dados. Até mesmo localizar a tabela correta pode consumir horas do tempo de um cientista de dados. A equipe de plataforma de dados da Tang — que fica na infraestrutura e supervisiona sistemas de big data, streaming e a camada de ferramentas de dados — atende a uma impressionante base de usuários internos. “Existem 5.000 funcionários na OpenAI neste momento”, disse Tang. “Mais de 4.000 usam ferramentas de dados que nossa equipe fornece.”
O agente, construído GPT-5.2 e acessível onde quer que os funcionários já trabalhem — Folgauma interface web, IDEs, a CLI do Codexe interno da OpenAI Aplicativo ChatGPT — aceita perguntas em inglês simples e retorna gráficos, painéis e relatórios analíticos longos. Nas respostas de acompanhamento compartilhadas com VentureBeat em segundo plano, a equipe estimou que economiza de duas a quatro horas de trabalho por consulta. Mas Tang enfatizou que a vitória maior é mais difícil de medir: o agente dá às pessoas acesso a análises que simplesmente não poderiam ter feito antes, independentemente de quanto tempo tivessem.
“Engenheiros, equipes de crescimento, de produto, bem como equipes não técnicas, que podem não conhecer todos os detalhes dos sistemas de dados e esquemas de tabelas da empresa” agora podem obter insights sofisticados por conta própria, observou sua equipe.
Desde detalhamentos de receita até depuração de latência, um agente faz tudo
Tang analisou vários casos de uso concretos que ilustram o alcance do agente. A equipe financeira da OpenAI consulta comparações de receitas entre regiões geográficas e grupos de clientes. “Ele pode, literalmente, em texto simples, enviar uma consulta ao agente, e será capaz de responder e fornecer gráficos e painéis, todas essas coisas”, disse ela.
Mas o verdadeiro poder reside na análise estratégica em várias etapas. Tang descreveu um caso recente em que um usuário detectou discrepâncias entre dois painéis de rastreamento Mais crescimento de assinantes. “O agente de dados pode fornecer um gráfico e mostrar, pilha por pilha, exatamente quais são as diferenças”, disse ela. “Acontece que existem cinco fatores diferentes. Para um humano, isso levaria horas, senão dias, mas o agente pode fazer isso em poucos minutos.”
Os gerentes de produto o utilizam para entender a adoção de recursos. Os engenheiros o utilizam para diagnosticar regressões de desempenho – perguntando, por exemplo, se um componente específico do ChatGPT está realmente mais lento do que ontem e, em caso afirmativo, quais componentes de latência explicam a mudança. O agente pode detalhar tudo e comparar períodos anteriores a partir de um único prompt.
O que torna isso especialmente incomum é que o agente opera além das fronteiras organizacionais. A maioria dos agentes empresariais de IA hoje estão isolados dentro de departamentos – um bot financeiro aqui, um bot de RH ali. Os cortes da OpenAI horizontalmente em toda a empresa. Tang disse que eles lançaram departamento por departamento, selecionando memória e contexto específicos para cada grupo, mas “em algum momento tudo estará no mesmo banco de dados”. Um líder sênior pode combinar dados de vendas com métricas de engenharia e análises de produtos em uma única consulta. “Essa é uma característica realmente única nossa”, disse Tang.
Como o Codex resolveu o problema mais difícil em dados corporativos
Encontrar a tabela certa entre 70.000 conjuntos de dados é, como a própria Tang admite, o desafio técnico mais difícil que sua equipe enfrenta. “Esse é o maior problema com este agente”, disse ela. E é onde Códice — Agente de codificação de IA da OpenAI — desempenha seu papel mais inventivo.
Codex tem função tripla no sistema. Os usuários acessam o agente de dados por meio de Codex via MCP. A equipe usou o Codex para gerar mais de 70% do código do próprio agente, permitindo que dois engenheiros o enviassem em três meses. Mas a terceira função é a mais fascinante tecnicamente: um processo assíncrono diário onde o Codex examina tabelas de dados importantes, analisa o código do pipeline subjacente e determina as dependências upstream e downstream de cada tabela, propriedade, granularidade, chaves de junção e tabelas semelhantes.
“Nós damos um aviso, fazemos com que o Codex analise o código e responda com o que precisamos, e então persista no banco de dados”, explicou Tang. Mais tarde, quando um usuário pergunta sobre receita, o agente pesquisa um banco de dados vetorial para descobrir quais tabelas o Codex já mapeou para esse conceito.
Esse “Enriquecimento do Codex” é uma das seis camadas de contexto que o agente usa. As camadas variam de metadados de esquema básicos e descrições de especialistas com curadoria até conhecimento institucional extraído do Slack, Google Docs e Notion, além de uma memória de aprendizagem que armazena correções de conversas anteriores. Quando nenhuma informação anterior existe, o agente volta para consultas ao vivo no data warehouse.
A equipe também classifica padrões históricos de consulta. “Todo o histórico de consultas é a ‘estrela selecionada, limite 10’ de todos. Não é realmente útil”, disse Tang. Painéis canônicos e relatórios executivos – onde os analistas investiram um esforço significativo para determinar a representação correta – são sinalizados como “fonte da verdade”. Todo o resto fica sem prioridade.
O prompt que força a IA a desacelerar e pensar
Mesmo com seis camadas de contexto, Tang foi notavelmente sincero sobre a maior falha comportamental do agente: o excesso de confiança. É um problema que qualquer pessoa que tenha trabalhado com grandes modelos de linguagem reconhecerá.
“É realmente um grande problema, porque o que o modelo costuma fazer é sentir-se excessivamente confiante”, disse Tang. “Ele dirá: ‘Esta é a mesa certa’ e simplesmente prosseguirá e começará a fazer análises. Essa é, na verdade, a abordagem errada.”
A correção veio por meio de engenharia imediata que força o agente a permanecer na fase de descoberta. “Descobrimos que quanto mais tempo ele gasta reunindo cenários possíveis e comparando qual tabela usar – apenas gastando mais tempo na fase de descoberta – melhores serão os resultados”, disse ela. O prompt parece quase como treinar um analista júnior: “Antes de prosseguir com isso, eu realmente quero que você faça mais validações sobre se esta é a tabela correta. Portanto, verifique mais fontes antes de criar dados reais.”
A equipa também aprendeu, através de uma avaliação rigorosa, que menos contexto pode produzir melhores resultados. “É muito fácil descartar tudo e esperar que tudo melhore”, disse Tang. “Em nossas avaliações, descobrimos o oposto. Quanto menos coisas você fornecer e quanto mais selecionado e preciso for o contexto, melhores serão os resultados.”
Para construir confiança, o agente transmite seu raciocínio intermediário aos usuários em tempo real, expõe quais tabelas foram selecionadas e por quê, e vincula diretamente aos resultados da consulta subjacentes. Os usuários podem interromper o agente no meio da análise para redirecioná-lo. O sistema também verifica seu progresso, permitindo que ele seja retomado após falhas. E ao final de cada tarefa, o modelo avalia seu próprio desempenho. “Perguntamos ao modelo: ‘como você acha que foi? Isso foi bom ou ruim?'”, Disse Tang. “E na verdade é bastante bom para avaliar o quão bem está indo.”
Guarda-corpos que são deliberadamente simples – e surpreendentemente eficazes
Quando se trata de segurança, Tang adotou uma abordagem pragmática que pode surpreender as empresas que esperam técnicas sofisticadas de alinhamento de IA.
“Acho que você só precisa ter grades de proteção ainda mais idiotas”, disse ela. “Temos um controle de acesso muito forte. Ele sempre usa seu token pessoal, então tudo o que você tem acesso é apenas aquilo a que você tem acesso.”
O agente opera puramente como uma camada de interface, herdando as mesmas permissões que regem os dados da OpenAI. Ele nunca aparece em canais públicos — apenas em canais privados ou na própria interface do usuário. O acesso de gravação é restrito a um esquema de teste temporário que é apagado periodicamente e não pode ser compartilhado. “Também não permitimos que ele grave aleatoriamente nos sistemas”, disse Tang.
O feedback do usuário fecha o ciclo. Os funcionários sinalizam resultados incorretos diretamente e a equipe investiga. A autoavaliação do modelo acrescenta outra verificação. No longo prazo, disse Tang, o plano é avançar em direção a uma arquitetura multiagente, onde agentes especializados monitoram e auxiliam uns aos outros. “Estamos caminhando nessa direção eventualmente”, disse ela, “mas agora, mesmo que estejamos, chegamos muito longe”.
Por que a OpenAI não vende esta ferramenta – mas quer que você crie a sua própria
Apesar do óbvio potencial comercial, a OpenAI disse à VentureBeat que a empresa não tem planos de produzir seu agente de dados interno. A estratégia é fornecer blocos de construção e deixar que as empresas construam os seus próprios. E Tang deixou claro que tudo o que sua equipe usou para construir o sistema já está disponível externamente.
“Usamos todas as mesmas APIs disponíveis externamente”, disse ela. “A API Responses, a API Evals. Não temos um modelo ajustado. Apenas usamos o 5.2. Então você pode definitivamente construir isso.”
Essa mensagem está alinhada com o impulso empresarial mais amplo da OpenAI. A empresa lançou Fronteira OpenAI no início de fevereiro, uma plataforma ponta a ponta para as empresas criarem e gerenciarem agentes de IA. Desde então, convocou a McKinsey, o Boston Consulting Group, a Accenture e a Capgemini para ajudar a vender e implementar a plataforma. AWS e OpenAI estão desenvolvendo em conjunto um Ambiente de tempo de execução com estado para Amazon Bedrock que reflete alguns dos recursos de contexto persistentes que o OpenAI incorpora em seu agente de dados. E a Apple recentemente Códice integrado diretamente no Xcode.
De acordo com informações compartilhadas com VentureBeat pela OpenAI, o Codex agora é usado por 95% dos engenheiros da OpenAI e analisa todas as solicitações pull antes de serem mescladas. Sua base global de usuários ativos semanalmente triplicou desde o início do ano, ultrapassando um milhão. O uso geral cresceu mais de cinco vezes.
Tang descreveu uma mudança na forma como os funcionários usam o Codex que transcende totalmente a codificação. “O Codex nem é mais uma ferramenta de codificação. É muito mais do que isso”, disse ela. “Vejo equipes não técnicas usá-lo para organizar pensamentos, criar slides e criar resumos diários.” Um de seus gerentes de engenharia faz com que o Codex revise suas anotações todas as manhãs, identifique as tarefas mais importantes, extraia mensagens e DMs do Slack e rascunhe as respostas. “Está realmente operando em nome dela de várias maneiras”, disse Tang.
O pré-requisito pouco atraente que determinará quem vencerá a corrida de agentes de IA
Quando questionado sobre o que outras empresas deveriam tirar da experiência da OpenAI, Tang não apontou capacidades de modelo ou engenharia inteligente e imediata. Ela apontou para algo muito mais mundano.
“Isso não é atraente, mas a governança de dados é realmente importante para que os agentes de dados funcionem bem”, disse ela. “Seus dados precisam estar suficientemente limpos e anotados, e deve haver uma fonte de verdade em algum lugar para o agente rastrear.”
A infraestrutura subjacente — camadas de armazenamento, computação, orquestração e business intelligence — não foi substituída pelo agente. Ele ainda precisa de todas essas ferramentas para fazer seu trabalho. Mas serve como um ponto de entrada fundamentalmente novo para a inteligência de dados, mais autónomo e acessível do que qualquer coisa que veio antes dele.
Tang encerrou a entrevista com um alerta às empresas que hesitam. “As empresas que adotarem isso verão os benefícios muito rapidamente”, disse ela. “E as empresas que não o fizerem ficarão para trás. Ele irá desmoronar. As empresas que o utilizarem irão avançar muito, muito rapidamente.”
Questionada se essa aceleração preocupava os seus próprios colegas – especialmente depois uma onda de demissões recentes em empresas como a Block —Tang fez uma pausa. “O quanto somos capazes de fazer como empresa acelerou”, disse ela, “mas ainda não corresponde às nossas ambições, nem um pouco”.













