Início Tecnologia Um complemento de parâmetro de 0,12% fornece aos agentes de IA a...

Um complemento de parâmetro de 0,12% fornece aos agentes de IA a memória de trabalho que o RAG não consegue

15
0

Os agentes de IA esquecem. Cada vez que um assistente de codificação perde o controle de um thread de depuração ou um agente de análise de dados ingere novamente o mesmo contexto que já processou, a equipe paga em latência, custos de token e fluxos de trabalho frágeis. A solução que a maioria das equipes procura — expandir a janela de contexto ou adicionar mais RAG — é cada vez mais cara e ainda não funciona de maneira confiável.

Para resolver isso, pesquisadores do Mind Lab e de várias universidades propuseram delta-memuma técnica eficiente que compacta as informações históricas do modelo em uma matriz atualizada dinamicamente sem alterar o próprio modelo. O módulo resultante adiciona apenas 0,12% dos parâmetros do modelo de backbone – em comparação com 76,40% de uma alternativa líder – enquanto o supera em benchmarks com uso intenso de memória. Delta-mem permite que os modelos acumulem e reutilizem continuamente dados históricos, reduzindo a dependência de enormes janelas de contexto ou módulos complexos de recuperação externa para continuidade comportamental.

O desafio da memória longa

A solução convencional é simplesmente despejar todas as informações na janela de contexto do modelo.

Mas, como disse Jingdi Lei, coautor do artigo, ao VentureBeat, os sistemas atuais tratam a memória apenas como um problema de gerenciamento de contexto. “Ou continuamos expandindo a janela de contexto ou recuperamos mais documentos por meio do RAG”, explicou Lei. “Essas abordagens são úteis e continuarão importantes, mas se tornam cada vez mais caras e frágeis quando os agentes precisam operar em interações de longa duração e com várias etapas, e na verdade não [work] como a memória humana, pois são mais como procurar documentos.”

Em ambientes empresariais, o gargalo não é apenas saber se o modelo pode acessar o histórico, mas se ele pode reutilizar esse histórico de forma eficiente, contínua e com baixa latência. Os mecanismos de atenção padrão incorrem em um custo computacional quadrático à medida que o comprimento da sequência aumenta. Além disso, expandir a janela de contexto não garante que o modelo irá realmente recuperar as informações de forma eficaz. Os modelos muitas vezes sofrem degradação ou apodrecimento do contexto à medida que ficam sobrecarregados com mais informações (e muitas vezes conflitantes), mesmo que em teoria suportem um milhão de tokens.

Os pesquisadores defendem mecanismos avançados de memória que possam representar informações históricas de forma compacta e mantê-las dinamicamente entre as interações. As soluções existentes apresentam pesadas compensações e geralmente se enquadram em três paradigmas:

  • Memória textual: armazena o histórico como texto injetado no contexto — limitado pelos limites da janela e sujeito à perda de informações sob compactação.

  • Canal externo (RAG): codifica e recupera de módulos externos — adiciona latência, complexidade de integração e possível desalinhamento com o backbone.

  • Paramétrico: codifica a memória em pesos de modelo por meio de adaptadores – estático após o treinamento, não consegue se adaptar a novas informações durante interações ao vivo.

Dentro do delta-mem

Para obter uma memória compacta e atualizada dinamicamente, o delta-mem compacta as interações anteriores de um agente em um “estado online de memória associativa” (OSAM). Este estado é mantido como uma matriz de tamanho fixo que preserva informações históricas enquanto o modelo de linguagem subjacente permanece congelado.

Para fluxos de trabalho empresariais, isso se traduz diretamente na resolução de gargalos operacionais. Lei observou que um assistente de codificação persistente, por exemplo, “pode precisar lembrar convenções do projeto, etapas recentes de depuração, preferências do usuário ou decisões intermediárias em um fluxo de trabalho”. Da mesma forma, um agente de análise de dados pode “precisar manter o estado da tarefa, suposições e observações anteriores enquanto itera em múltiplas chamadas de ferramentas”.

Arquitetura Delta-mem (fonte: arXiv)

Em vez de recuperar e reinserir repetidamente todo o histórico relevante para essas tarefas, a matriz delta-mem fornece uma maneira de baixo custo para transportar estados de interação úteis dentro da computação direta do modelo.

Durante a geração, o sistema não recupera segmentos de texto bruto para adicionar ao prompt. Em vez disso, o estado oculto atual do backbone LLM é projetado na matriz para recuperar a memória antiga. Esta operação extrai sinais de memória associativa relevantes ao contexto do delta-mem. Esses sinais são então transformados em correções numéricas que são aplicadas aos cálculos do modelo. Isso orienta o raciocínio do modelo no momento da inferência sem alterar seus parâmetros internos.

Após cada interação, o delta-mem atualiza o estado online usando “aprendizado de regras delta”. Quando novas informações chegam, o estado anterior faz uma previsão sobre os valores de atenção resultantes. Em seguida, compara esta previsão com o valor real e corrige a matriz de memória com base na discrepância.

Este mecanismo de atualização depende de uma “regra delta fechada”. Basicamente, o módulo de memória possui diferentes botões que controlam quanta memória anterior é mantida e quanto da nova memória é aplicada. Esta correção de erros com esquecimento controlado permite que a matriz evolua ao longo do tempo, mantendo associações históricas estáveis ​​sem ser prejudicada por ruídos de curto prazo.

Os pesquisadores exploraram três estratégias para determinar quando e como a matriz é atualizada:

  • Gravação de estado de token captura alterações refinadas, mas é vulnerável a ruídos de curto prazo.

  • Gravação de estado de sequência calcula a média dos tokens dentro de um segmento de mensagem, suavizando as atualizações ao custo de alguns detalhes localizados.

  • Gravação multiestado decompõe a memória em subestados para diferentes tipos de informações, como fatos ou progresso de tarefas.

Delta-mem em ação

Os pesquisadores avaliaram o delta-mem em três backbones LLM: Qwen3-8B, Qwen3-4B-Instruct e SmolLM3-3B. Eles configuraram a estrutura com uma matriz compacta 8×8. O sistema foi testado em benchmarks de capacidade geral, incluindo HotpotQA, GPQA-Diamond e IFEval. Também foi avaliado em tarefas que exigem muita memória, como LoCoMo, que testa a memória conversacional de longo prazo, e Memory Agent Bench, que avalia retenção, recuperação, esquecimento seletivo e aprendizado em tempo de teste em interações estendidas.

A estrutura foi comparada com modelos representativos dos três paradigmas de memória existentes: linhas de base de memória textual (por exemplo, BM25 RAG, LLMLingua-2 e MemoryBank), sistemas paramétricos (Context2LoRA e MemGen) e a abordagem de canal externo MLP Memory.

resultados delta-mem

Delta-mem melhora o desempenho nos principais benchmarks do setor (fonte: arXiv)

Em geral, o delta-mem superou as linhas de base, de acordo com os pesquisadores. No backbone Qwen3-4B-Instruct, a variante de gravação de estado de token alcançou uma pontuação média de 51,66%, superando facilmente o backbone vanilla congelado em 46,79% e a linha de base mais forte, Context2LoRA, em 44,90%. No Memory Agent Bench, com muita memória, a pontuação média saltou de 29,54% para 38,85%. O desempenho na subtarefa específica de aprendizagem em tempo de teste quase dobrou de 26,14 para 50,50.

No entanto, as conclusões mais convincentes são a eficiência operacional do sistema. Os pesquisadores testaram a estrutura em um ambiente sem contexto, onde o texto histórico foi totalmente removido do contexto. Mesmo sem a reprodução explícita de texto, o delta-mem recuperou com sucesso evidências relevantes ao contexto em tarefas multi-hop. Os pesquisadores argumentam que o modelo lembra interações passadas sem a necessidade de ingerir grandes quantidades de tokens imediatos.

A estrutura também adiciona apenas 4,87 milhões de parâmetros treináveis, representando apenas 0,12% do backbone Qwen3-4B-Instruct. Em comparação, a linha de base da memória MLP exigia 3 bilhões de parâmetros, aumentando até 76,40% do tamanho do backbone e proporcionando resultados inferiores. Quando os comprimentos dos prompts foram aumentados para 32.000 tokens durante os testes de inferência, a estrutura manteve quase exatamente o mesmo consumo de memória da GPU de um modelo padrão não modificado. Ele evita o grande inchaço da memória que afeta outros sistemas de memória avançados, como MemGen e MLP Memory.

Diferentes estratégias de atualização provaram ser benéficas dependendo da capacidade do modelo subjacente. A estratégia de gravação de estado de sequência foi a mais eficaz para backbones mais fortes como Qwen3-8B. Esses modelos mais capazes usam gravação em nível de segmento para suavizar atualizações e mitigar ruído em nível de token. Por outro lado, a estratégia de gravação multiestado gerou enormes saltos de desempenho para backbones menores como o SmolLM3-3B. Para esses modelos de menor capacidade, separar a memória em vários estados revelou-se fundamental para minimizar a interferência nas informações.

Implementando delta-mem na pilha corporativa

Os pesquisadores divulgaram o código para delta-mem no GitHub e no pesos para seus adaptadores treinados no rosto abraçado. Para equipes de engenharia de IA que buscam integrar essa estrutura à pilha de inferência existente, o processo requer recursos computacionais mínimos.

“Na prática, uma equipe de engenharia começaria a partir de um backbone existente com instruções ajustadas, anexaria os módulos adaptadores Delta-Mem a camadas de atenção selecionadas, treinaria apenas os parâmetros do adaptador em dados multivoltas ou de contexto longo relevantes ao domínio… e então executaria inferência com o estado da memória atualizado on-line durante a interação”, disse Lei. Fundamentalmente, as equipes não precisam de um grande corpus de pré-treinamento. Os dados de treinamento precisam apenas refletir o comportamento da memória alvo, como diálogos multivoltas, rastreamentos de agentes ou fluxos de trabalho de domínio onde informações anteriores devem influenciar decisões posteriores.

Embora a compactação do histórico de interação em uma matriz matemática de tamanho fixo crie uma eficiência imensa, ela traz vantagens e desvantagens. Delta-mem não é um substituto sem perdas para logs de texto explícitos ou recuperação de documentos. Como diferentes informações competem dentro do mesmo estado limitado, existe o risco de mistura de memórias.

“Delta-Mem é ​​útil quando o sistema precisa de um estado comportamental rápido, online e continuamente atualizado”, disse Lei. “O RAG é melhor quando o sistema precisa de recordação factual exata, citação, conformidade, auditabilidade ou acesso a uma grande base de conhecimento externa.” Lembrar o estilo de trabalho de um usuário ou uma trajetória de raciocínio em várias etapas é uma opção perfeita para o delta-mem, enquanto a recuperação de um contrato legal ou de uma diretriz médica deve permanecer em um banco de dados vetorial.

Isso significa que a arquitetura empresarial mais realista daqui para frente é uma abordagem híbrida. Delta-mem atua como uma memória de trabalho interna leve, reduzindo a necessidade de recuperar ou reproduzir tudo o tempo todo, enquanto RAG serve como camada de memória explícita e de alta capacidade.

“Olhando para o futuro, não creio que os bancos de dados vetoriais se tornem obsoletos”, disse Lei. “Em vez disso, espero que as pilhas de IA corporativa tenham mais camadas. Provavelmente veremos memória de trabalho de curto prazo dentro do modelo, memória explícita de longo prazo em sistemas de recuperação e camadas de política ou auditoria que decidem o que deve ser armazenado, recuperado, esquecido ou exposto ao usuário.”

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui