Início Tecnologia IndexCache, um novo otimizador de atenção esparsa, oferece inferência 1,82x mais rápida...

IndexCache, um novo otimizador de atenção esparsa, oferece inferência 1,82x mais rápida em modelos de IA de contexto longo

29
0

Processar 200.000 tokens por meio de um grande modelo de linguagem é caro e lento: quanto mais longo o contexto, mais rápida será a espiral de custos. Pesquisadores da Universidade Tsinghua e Z.ai construiu uma técnica chamada IndexCache isso reduz até 75% da computação redundante em modelos de atenção esparsa, proporcionando tempo de geração do primeiro token até 1,82x mais rápido e taxa de transferência de geração 1,48x mais rápida nesse comprimento de contexto.

A técnica se aplica a modelos que usam a arquitetura DeepSeek Sparse Attention, incluindo as famílias DeepSeek e GLM mais recentes. Ele pode ajudar as empresas a fornecer experiências de usuário mais rápidas para modelos de longo contexto e em escala de produção, uma capacidade já comprovada em testes preliminares no modelo GLM-5 de 744 bilhões de parâmetros.

O gargalo do DSA

Grandes modelos de linguagem dependem do mecanismo de autoatenção, um processo em que o modelo calcula o relacionamento entre cada token em seu contexto e todos os anteriores para prever o próximo token.

No entanto, a autoatenção tem uma limitação severa. Sua complexidade computacional aumenta quadraticamente com o comprimento da sequência. Para aplicativos que exigem janelas de contexto estendidas (por exemplo, processamento de documentos grandes, fluxos de trabalho de agentes em várias etapas ou raciocínio de longa cadeia de pensamento), esse dimensionamento quadrático leva a velocidades de inferência lentas e custos significativos de computação e memória.

Atenção escassa oferece uma solução de princípios para esse problema de escala. Em vez de calcular o relacionamento entre cada token e todos os anteriores, a atenção esparsa otimiza o processo, fazendo com que cada consulta selecione e atenda apenas ao subconjunto de tokens mais relevante.

Arquitetura DeepSeek Sparse Attention (DSA) (fonte: arXiv)

Atenção escassa do DeepSeek (DSA) é uma implementação altamente eficiente deste conceito, introduzido pela primeira vez em DeepSeek-V3.2. Para determinar quais tokens são mais importantes, o DSA introduz um “módulo indexador relâmpago” leve em cada camada do modelo. Este indexador pontua todos os tokens anteriores e seleciona um pequeno lote para ser processado pelo principal mecanismo de atenção central. Ao fazer isso, o DSA reduz o cálculo pesado da atenção central de quadrático para linear, acelerando drasticamente o modelo e preservando a qualidade da saída.

Mas os pesquisadores identificaram uma falha persistente: o próprio indexador DSA ainda opera com complexidade quadrática em cada camada. Embora o indexador seja computacionalmente mais barato do que o processo de atenção principal, à medida que o comprimento do contexto aumenta, o tempo que o modelo gasta executando esses indexadores dispara. Isso retarda severamente o modelo, especialmente durante o estágio inicial de “pré-preenchimento”, onde o prompt é processado pela primeira vez.

Imposto sobre índice DSA

O imposto de indexação DSA aumenta com o comprimento do contexto (fonte: arXiv)

Colocando atenção em cache com IndexCache

Para resolver o gargalo do indexador, a equipe de pesquisa descobriu uma característica crucial de como os modelos DSA processam dados. O subconjunto de tokens importantes que um indexador seleciona permanece notavelmente estável à medida que os dados se movem através de camadas consecutivas do transformador. Testes empíricos em modelos DSA revelaram que as camadas adjacentes compartilham entre 70% e 100% dos tokens selecionados.

Para aproveitar essa redundância entre camadas, os pesquisadores desenvolveram o IndexCache. A técnica particiona as camadas do modelo em duas categorias. Um pequeno número de camadas completas (F) retém seus indexadores, pontuando ativamente os tokens e escolhendo os mais importantes para armazenar em cache. O restante das camadas torna-se compartilhado (S), não realizando nenhuma indexação e reutilizando os índices armazenados em cache da camada F anterior mais próxima.

IndexCache

IndexCache divide camadas em camadas completas e compartilhadas

Durante a inferência, o modelo simplesmente verifica o tipo de camada. Se atingir uma camada F, ele calcula e armazena em cache novos índices. Se for uma camada S, ela ignora a matemática e copia os dados armazenados em cache.

Há uma ampla gama de técnicas de otimização que tentam resolver o gargalo de atenção, compactando o cache KVonde os valores de atenção computados são armazenados. Em vez de reduzir o consumo de memória como a compactação de cache KV padrão, o IndexCache ataca o gargalo da computação.

“IndexCache não é uma técnica tradicional de compactação ou compartilhamento de cache KV”, disse Yushi Bai, coautor do artigo, ao VentureBeat. “Ele elimina essa redundância ao reutilizar índices entre camadas, reduzindo assim a computação em vez de apenas o consumo de memória. É complementar às abordagens existentes e pode ser combinado com elas.”

Os pesquisadores desenvolveram duas abordagens de implantação para IndexCache. (É importante notar que IndexCache se aplica apenas a modelos que usam a arquitetura DSA, como os modelos DeepSeek mais recentes e a família mais recente de modelos GLM.)

Para desenvolvedores que trabalham com modelos DSA prontos para uso, onde o retreinamento é inviável ou muito caro, eles criaram um método sem treinamento baseado em um algoritmo de “seleção de camada gananciosa”. Ao executar um pequeno conjunto de dados de calibração no modelo, este algoritmo determina automaticamente o posicionamento ideal das camadas F e S sem nenhuma atualização de peso. Evidências empíricas mostram que o algoritmo ganancioso pode remover com segurança 75% dos indexadores, ao mesmo tempo que corresponde ao desempenho downstream do modelo original.

Para equipes que estão pré-treinando ou ajustando fortemente seus próprios modelos básicos, os pesquisadores propõem uma versão com reconhecimento de treinamento que otimiza os parâmetros de rede para suportar nativamente o compartilhamento entre camadas. Esta abordagem introduz uma “perda de destilação multicamadas” durante o treinamento. Isso força cada indexador retido a aprender como selecionar um subconjunto de tokens de consenso que será altamente relevante para todas as camadas subsequentes que ele atende.

Aceleração do mundo real em modelos de produção

Para testar o impacto do IndexCache, os pesquisadores aplicaram-no ao parâmetro de 30 bilhões Flash GLM-4.7 modelo e comparou-o com a linha de base padrão.

Em um comprimento de contexto de 200K, a remoção de 75% dos indexadores reduziu a latência de pré-preenchimento de 19,5 segundos para apenas 10,7 segundos, proporcionando uma aceleração de 1,82x. Os pesquisadores observam que se espera que essas acelerações sejam ainda maiores em contextos mais longos.

Durante a fase de decodificação, onde o modelo gera sua resposta, o IndexCache aumentou a taxa de transferência por solicitação de 58 tokens por segundo para 86 tokens por segundo na marca de contexto de 200 mil, gerando uma aceleração de 1,48x. Quando a memória do servidor está totalmente saturada com solicitações, a taxa de transferência total de decodificação aumentou em até 51%.

Desempenho do IndexCache

IndexCache acelera significativamente os estágios de pré-preenchimento e decodificação (fonte: arXiv)

Para as equipas empresariais, estes ganhos de eficiência traduzem-se diretamente em poupanças de custos. “Em termos de ROI, o IndexCache oferece benefícios consistentes em todos os cenários, mas os ganhos são mais perceptíveis em cargas de trabalho de contexto longo, como RAG, análise de documentos e pipelines de agentes”, disse Bai. “Nesses casos, observamos uma redução de pelo menos 20% no custo de implantação e melhorias semelhantes na latência percebida pelo usuário.” Ele acrescentou que para tarefas de contexto muito curto, os benefícios giram em torno de 5%.

Notavelmente, estes ganhos de eficiência não comprometeram as capacidades de raciocínio. Usando a abordagem sem treinamento para eliminar 75% dos indexadores, o modelo 30B correspondeu à pontuação média da linha de base original em benchmarks de contexto longo, pontuando 49,9 contra os 50,2 originais. No altamente complexo benchmark de raciocínio matemático AIME 2025, o modelo otimizado realmente superou a linha de base original, pontuando 92,6 em comparação com 91,0.

A equipe também realizou experimentos preliminares no modelo GLM-5 de 744 bilhões de parâmetros em escala de produção. Eles descobriram que a eliminação de 75% de seus indexadores com o método sem treinamento resultou em uma aceleração de pelo menos 1,3x em contextos com mais de 100 mil tokens. Ao mesmo tempo, o modelo manteve uma média de qualidade quase idêntica em tarefas de contexto longo.

IndexCache GLM-5

IndexCache aumenta a velocidade do GLM-5 em 20%, mantendo a precisão (fonte: arXiv)

Colocando o IndexCache em produção

Para as equipes de desenvolvimento que desejam implementar a abordagem sem treinamento hoje, o processo é simples, mas requer uma configuração cuidadosa. Embora o algoritmo de busca guloso encontre automaticamente a configuração de camada ideal, a qualidade dessa configuração depende dos dados que ele processa.

“Recomendamos o uso de dados específicos do domínio como um conjunto de calibração para que o padrão de compartilhamento de camadas descoberto se alinhe com cargas de trabalho reais”, disse Bai.

Depois de calibrada, a otimização é altamente acessível para ambientes de produção. Patches de código aberto já estão disponível no GitHub para os principais motores de serviço. “A integração é relativamente simples – os desenvolvedores podem aplicar o patch a pilhas de inferência existentes, como vLLM ou SGLang, e habilitar o IndexCache com alterações mínimas de configuração”, disse Bai.

Embora o IndexCache forneça uma solução imediata para os gargalos computacionais atuais, sua filosofia subjacente aponta para uma mudança mais ampla na forma como a indústria de IA abordará o design de modelos.

“Os modelos básicos futuros provavelmente serão arquitetados com as restrições de inferência posteriores em mente desde o início”, concluiu Bai. “Isso significa designs que não são apenas escaláveis ​​em termos de tamanho do modelo, mas também otimizados para rendimento e latência do mundo real, em vez de tratá-los como preocupações post-hoc.”

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui