Início Tecnologia O Definity incorpora agentes em pipelines do Spark para detectar falhas antes...

O Definity incorpora agentes em pipelines do Spark para detectar falhas antes que elas cheguem aos sistemas de IA da agência

23
0

Para a maioria das equipes de engenharia de dados, gerenciar a confiabilidade do pipeline geralmente significa esperar por um alerta, rastrear falhas manualmente em trabalhos e clusters distribuídos e corrigir problemas depois que eles já atingiram os negócios. A Agentic AI precisa que os dados estejam lá, limpos e dentro do prazo. Um pipeline que falha silenciosamente ou entrega dados obsoletos não quebra apenas um painel – ele quebra o sistema de IA dependendo dele.

Essa lacuna é o que Definiçãouma startup de operações de pipeline de dados com sede em Chicago, está construindo: incorporar agentes diretamente dentro do driver Spark ou DBT para agir durante a execução de um pipeline, não depois dela. Um cliente corporativo identificou 33% de suas oportunidades de otimização na primeira semana de implantação e reduziu o esforço de solução de problemas e otimização em 70%, de acordo com a Definity. A empresa também afirma que os clientes estão resolvendo problemas complexos do Spark até 10 vezes mais rápido.

“Você precisa de três grandes coisas para operações de dados de agente: contexto de pilha completa que seja em tempo real e consciente da produção. Controle do pipeline. E a capacidade de validar em um ciclo de feedback. Sem isso, você pode estar do lado de fora olhando e somente leitura”, disse Roy Daniel, CEO e cofundador da Definity ao VentureBeat em uma entrevista exclusiva.

A empresa anunciou na quarta-feira que levantou US$ 12 milhões em financiamento da Série A liderado pela GreatPoint Ventures, com a participação da Dynatrace e dos investidores existentes StageOne Ventures e Hyde Park Venture Partners.

Por que o monitoramento de pipeline existente falha em grande escala

As ferramentas existentes abordam o problema de fora da camada de execução – Datadog, que adquiriu o monitor de qualidade de dados Metaplane no ano passado, tabelas de sistema Databricks e plataformas como Unravel Data e Acceldata, todas lêem métricas após a conclusão de um trabalho. Dynatrace possui recursos de monitoramento; também participou da Série A do Definity.

A abordagem Definity se diferencia de outras opções na forma como a solução é arquitetada. De acordo com Daniel, isso significa que no momento em que uma ferramenta de monitoramento de plataforma revela um problema, o pipeline já foi executado – e a falha, a computação desperdiçada ou os dados incorretos já estão no downstream.

“É sempre depois do fato”, disse Daniel. “Quando você sabe que algo aconteceu, já aconteceu.”

Como funcionam os agentes de execução da Definity

A principal diferença arquitetônica é onde o agente fica – dentro do pipeline, em vez de observar de fora dele.

Instrumentação em linha. O sistema Definity instala um agente JVM diretamente dentro da camada de execução do pipeline por meio de uma única linha de código, executando abaixo da camada da plataforma e extraindo dados de execução diretamente do Spark.

Contexto de execução durante a execução. O agente captura o comportamento de execução de consultas, pressão de memória, distorção de dados, padrões de embaralhamento e utilização da infraestrutura à medida que o pipeline é executado. Ele também infere a linhagem entre pipelines e tabelas de forma dinâmica – nenhum catálogo de dados predefinido é necessário.

Intervenção, não apenas observação. O agente pode modificar a alocação de recursos no meio da execução, interromper um trabalho antes que dados inválidos se propaguem ou interromper um pipeline com base nas condições de dados upstream. Daniel descreveu uma implantação de produção em que o agente detectou que um trabalho upstream havia sido interrompido e a tabela de entrada que ele deveria escrever estava obsoleta — e interrompeu o pipeline downstream antes de começar, antes que dados incorretos atingissem qualquer sistema dependente.

O que é e o que não é em tempo real. A detecção e a prevenção são em tempo real. A análise da causa raiz e as recomendações de otimização são executadas sob demanda quando um engenheiro consulta o assistente, com todo o contexto de execução já montado.

Overhead e residência de dados. O agente adiciona aproximadamente um segundo de computação em uma execução de uma hora. Somente metadados são transmitidos externamente; a implantação completa no local está disponível para ambientes onde nenhum metadado pode sair do perímetro.

Como é a inteligência em execução em um ambiente de produção

Um dos primeiros usuários da plataforma Definity é a Nexxen, uma plataforma de tecnologia de publicidade que executa pipelines Spark em grande escala para cargas de trabalho de publicidade de missão crítica, executadas no local.

Dennis Meyer, Diretor de Engenharia de Dados da Nexxen, disse à VentureBeat que o principal problema que ele enfrentava não eram as falhas de pipeline, mas o custo acumulado da ineficiência em um ambiente sem capacidade de nuvem elástica para absorver resíduos.

“O principal desafio não era a quebra de pipelines, mas o gerenciamento de um ambiente cada vez mais complexo e em grande escala”, disse Meyer. “Como operamos no local, não temos a flexibilidade da elasticidade instantânea, portanto as ineficiências têm um impacto direto nos custos.”

As ferramentas de monitoramento existentes deram à Nexxen visibilidade parcial, mas não o suficiente para agir sistematicamente. “Tínhamos ferramentas de monitoramento existentes, mas precisávamos de visibilidade total da pilha para compreender o comportamento da carga de trabalho de forma holística e priorizar sistematicamente as otimizações”, disse Meyer.

A Nexxen implantou o Definity sem alterações no código do pipeline. De acordo com Meyer, a equipe identificou 33% de suas oportunidades de otimização na primeira semana, e o esforço de engenharia para solução de problemas e otimização caiu 70%. A plataforma liberou capacidade de infraestrutura, permitindo que a equipe suportasse o crescimento da carga de trabalho sem investimento adicional em hardware.

“A mudança principal foi passar da solução de problemas reativa para a otimização proativa e contínua”, disse Meyer. “Em escala, a maior lacuna muitas vezes não é a ferramenta, mas a visibilidade acionável.”

O que isso significa para as equipes de dados empresariais

Para as equipes de engenharia de dados que executam ambientes Spark de produção, a mudança do monitoramento reativo para a inteligência em execução tem implicações arquitetônicas e organizacionais que valem a pena considerar.

As operações de pipeline estão se tornando um problema de infraestrutura de IA. Os pipelines de dados que anteriormente davam suporte à análise agora transportam cargas de trabalho de IA com dependências diretas de negócios. Falhas que antes eram um inconveniente agora estão bloqueando a entrega de IA de produção.

O tempo de solução de problemas é um custo recuperável. De acordo com Meyer, a Nexxen reduziu o esforço de engenharia na solução de problemas e otimização em 70% após a implantação do Definity. Para equipes que executam o Lean, esse tempo de retorno ao roteiro é o caso mais direto de curto prazo para avaliar essa categoria.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui