Início Tecnologia Os agentes precisam de pesquisa vetorial mais do que o RAG jamais...

Os agentes precisam de pesquisa vetorial mais do que o RAG jamais precisou

22
0

Qual é o papel dos bancos de dados vetoriais no mundo da IA ​​agente? Essa é uma questão que as organizações têm enfrentado nos últimos meses. A narrativa teve um impulso real. À medida que grandes modelos de linguagem eram dimensionados para janelas de contexto de milhões de tokens, um argumento confiável circulou entre os arquitetos empresariais: a pesquisa vetorial desenvolvida especificamente era uma solução provisória, não uma infraestrutura. A memória agente absorveria o problema de recuperação. Bancos de dados vetoriais eram um artefato da era RAG.

A evidência de produção está indo na direção oposta.

Qdrantempresa de pesquisa vetorial de código aberto com sede em Berlim, anunciou uma Série B de US$ 50 milhões na quinta-feira, dois anos depois de uma Série A de US$ 28 milhões. A empresa também está lançando a versão 1.17 de sua plataforma. Juntos, eles refletem um argumento específico: o problema de recuperação não diminuiu quando os agentes chegaram. Aumentou e ficou mais difícil.

“Os humanos fazem algumas perguntas a cada poucos minutos”, disse Andre Zayarni, CEO e cofundador da Qdrant, ao VentureBeat. “Os agentes fazem centenas ou até milhares de consultas por segundo, apenas coletando informações para poder tomar decisões.”

Essa mudança altera os requisitos de infraestrutura de uma forma que as implantações da era RAG nunca foram projetadas para atender.

Por que os agentes precisam de uma camada de recuperação que a memória não possa substituir

Os agentes operam com base em informações nas quais nunca foram treinados: dados corporativos proprietários, informações atuais, milhões de documentos que mudam continuamente. As janelas de contexto gerenciam o estado da sessão. Eles não fornecem pesquisa de alta recuperação nesses dados, não mantêm a qualidade da recuperação à medida que ela muda ou sustentam os volumes de consulta gerados pela tomada de decisão autônoma.

“A maioria das estruturas de memória de IA disponíveis no mercado usam algum tipo de armazenamento vetorial”, disse Zayarni.

A implicação é direta: mesmo as ferramentas posicionadas como alternativas de memória dependem da infraestrutura de recuperação subjacente.

Três modos de falha surgem quando essa camada de recuperação não é construída especificamente para a carga. Na escala do documento, um resultado perdido não é um problema de latência — é um problema de qualidade de decisão que se acumula em cada passagem de recuperação em um único turno do agente. Sob carga de gravação, a relevância diminui porque os dados recém-ingeridos ficam em segmentos não otimizados antes que a indexação os alcance, tornando as pesquisas nos dados mais recentes mais lentas e menos precisas, precisamente quando as informações atuais são mais importantes. Em toda a infraestrutura distribuída, uma única réplica lenta aumenta a latência em todas as chamadas de ferramentas paralelas em um turno de agente – um atraso que um usuário humano absorve como inconveniente, mas um agente autônomo não pode.

A versão 1.17 do Qdrant aborda cada um diretamente. Uma consulta de feedback de relevância melhora a recuperação ajustando a pontuação de similaridade na próxima passagem de recuperação usando sinais leves gerados por modelo, sem treinar novamente o modelo de incorporação. Um recurso de distribuição atrasada consulta uma segunda réplica quando a primeira excede um limite de latência configurável. Uma nova API de telemetria em todo o cluster substitui a solução de problemas nó por nó por uma visualização única de todo o cluster.

Por que o Qdrant não quer mais ser chamado de banco de dados vetorial

Quase todos os principais bancos de dados agora suportam vetores como um tipo de dados – desde hiperescaladores até sistemas relacionais tradicionais. Essa mudança mudou a questão competitiva. O tipo de dados agora é table stakes. O que permanece especializado é a qualidade da recuperação em escala de produção.

Essa distinção é a razão pela qual Zayarni não quer mais que o Qdrant seja chamado de banco de dados vetorial.

“Estamos construindo uma camada de recuperação de informações para a era da IA”, disse ele. “Os bancos de dados servem para armazenar dados do usuário. Se a qualidade dos resultados da pesquisa é importante, você precisa de um mecanismo de pesquisa.”

Seu conselho para equipes iniciantes: use qualquer suporte vetorial que já esteja em sua pilha. As equipes que migram para a recuperação específica o fazem quando a escala impõe o problema. “Vemos empresas nos procurar todos os dias dizendo que começaram com o Postgres e acharam que era bom o suficiente – e não é.”

A arquitetura do Qdrant, escrita em Rust, oferece eficiência de memória e controle de desempenho de baixo nível que linguagens de nível superior não oferecem pelo mesmo custo. A base de código aberto aumenta essa vantagem – o feedback da comunidade e a adoção dos desenvolvedores são o que permite que uma empresa na escala da Qdrant concorra com fornecedores que possuem recursos de engenharia muito maiores. “Sem isso, não estaríamos onde estamos agora”, disse Zayarni.

Como duas equipes de produção encontraram os limites dos bancos de dados de uso geral

As empresas que constroem sistemas de IA de produção no Qdrant apresentam o mesmo argumento em diferentes direções: os agentes precisam de uma camada de recuperação e a memória conversacional ou contextual não a substitui.

GlassDollar ajuda empresas como Siemens e Mahle a avaliar startups. A pesquisa é o produto principal: um usuário descreve uma necessidade em linguagem natural e recebe de volta uma lista classificada de um corpus de milhões de empresas. A arquitetura executa a expansão de consultas em cada solicitação – um único prompt se espalha em diversas consultas paralelas, cada uma recuperando candidatos de um ângulo diferente, antes que os resultados sejam combinados e reclassificados. Esse é um padrão de recuperação de agente, não um padrão RAG, e requer uma infraestrutura de pesquisa desenvolvida especificamente para sustentá-lo em volume.

A empresa migrou do Elasticsearch à medida que avançava para 10 milhões de documentos indexados. Depois de mudar para a Qdrant, ela reduziu os custos de infraestrutura em cerca de 40%, abandonou uma camada de remuneração baseada em palavras-chave que mantinha para compensar as lacunas de relevância do Elasticsearch e viu um aumento de 3x no envolvimento do usuário.

“Medimos o sucesso pelo recall”, disse Kamen Kanev, chefe de produto da GlassDollar, ao VentureBeat. “Se as melhores empresas não estão nos resultados, nada mais importa. O usuário perde a confiança.”

A memória agente e as janelas de contexto estendidas também não são suficientes para absorver a carga de trabalho que o GlassDollar precisa.

“Isso é um problema de infraestrutura, não uma tarefa de gerenciamento de estado de conversação”, disse Kanev. “Não é algo que você resolve estendendo uma janela de contexto.”

Outro usuário do Qdrant é &IAque está construindo infraestrutura para litígios de patentes. Seu agente de IA, Andy, realiza pesquisas semânticas em centenas de milhões de documentos abrangendo décadas e múltiplas jurisdições. Os advogados de patentes não agirão com base em textos legais gerados por IA, o que significa que cada resultado apresentado pelo agente deve ser fundamentado em um documento real.

“Toda a nossa arquitetura é projetada para minimizar o risco de alucinação, tornando a recuperação o núcleo primitivo, não a geração”, disse Herbie Turner, fundador e CTO da &AI, ao VentureBeat.

Para &AI, a camada de agente e a camada de recuperação são distintas por design.

“Andy, nosso agente de patentes, foi construído com base no Qdrant”, disse Turner. “O agente é a interface. O banco de dados vetorial é a verdade.”

Três sinais: é hora de abandonar sua configuração atual

O ponto de partida prático: use qualquer capacidade vetorial que já esteja em sua pilha. A questão de avaliação não é adicionar pesquisa vetorial – é quando sua configuração atual deixa de ser adequada. Três sinais assinalam esse ponto: a qualidade da recuperação está diretamente ligada aos resultados do negócio; os padrões de consulta envolvem expansão, reclassificação em vários estágios ou chamadas de ferramentas paralelas; ou o volume de dados chega a dezenas de milhões de documentos.

Nesse ponto, a avaliação muda para questões operacionais: quanta visibilidade sua configuração atual oferece sobre o que está acontecendo em um cluster distribuído e quanto espaço de desempenho ela tem quando os volumes de consulta do agente aumentam.

“Há muito barulho agora sobre o que substitui a camada de recuperação”, disse Kanev. “Mas para qualquer pessoa que esteja construindo um produto onde a qualidade da recuperação é o produto, onde a falta de um resultado tem consequências reais para os negócios, você precisa de uma infraestrutura de pesquisa dedicada.”

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui