Início Tecnologia Os pesquisadores incluíram acelerações de inferência 3x diretamente nos pesos do LLM...

Os pesquisadores incluíram acelerações de inferência 3x diretamente nos pesos do LLM – sem decodificação especulativa

21
0

À medida que os fluxos de trabalho de IA multiplicam o custo e a latência de longas cadeias de raciocínio, uma equipe da Universidade de Maryland, do Laboratório Nacional Lawrence Livermore, da Universidade de Columbia e da TogetherAI desenvolveu encontrei uma maneira de obter ganhos de rendimento 3x diretamente nos pesos de um modelo.

Ao contrário da decodificação especulativa, que requer um modelo de desenho separado, esta abordagem não requer infraestrutura adicional – apenas um único token especial adicionado à arquitetura existente do modelo.

Os limites da previsão do próximo token

A previsão do próximo token – gerando texto de um token por passagem direta – cria um teto de rendimento que se torna dolorosamente caro quando os modelos precisam produzir milhares de tokens. Este gargalo é especialmente problemático em modelos de raciocínio, que frequentemente geram milhares de “cadeia de pensamento” antes de produzir a resposta final, levando a uma experiência de usuário lenta e cara.

A previsão de múltiplos tokens (MTP) oferece um paradigma de treinamento alternativo que permite que um modelo de linguagem produza vários tokens simultaneamente em uma única passagem direta. Por exemplo, o modelo pode ser treinado para prever um bloco de tokens de uma só vez, em vez de apenas o próximo token imediato.

John Kirchenbauer, doutorando em ciência da computação na Universidade de Maryland e coautor do artigo, disse ao VentureBeat que, à medida que avançamos em direção a fluxos de trabalho de agente, o foco está mudando do rendimento geral para a velocidade de usuário único. “Hoje, com os traços de pensamento ultralongos sendo a norma e os loops externos de agência multiplicando ainda mais esses custos, a latência está se tornando uma dimensão tão importante da eficiência geral do serviço quanto os tokens brutos por segundo por unidade de hardware (tps/GPU)”, disse Kirchenbauer. Ele disse que, embora a previsão do próximo token em lote padrão já seja ideal para o rendimento geral, a nova abordagem “esforça-se[s] para saturar a GPU com apenas a consulta de um único usuário para diminuir a latência para esse único usuário.”

Existem outros métodos, mas apresentam desvantagens. “É importante notar que a decodificação especulativa e os LLMs de difusão como uma alternativa focada na eficiência para a previsão do próximo token (NTP) são técnicas de aceleração focadas na latência”, disse Kirchenbauer. Mas a decodificação especulativa requer a implantação e o gerenciamento de um modelo auxiliar de “desenho”, que gasta mais computação absoluta para esboçar e verificar. O MTP, por outro lado, “aproveita um tipo semelhante de compensação, é apenas mais simples de servir e cientificamente interessante por si só”.

Os paradigmas atuais do MTP têm limitações, entretanto. O objetivo padrão para treinar um modelo de linguagem para MTP envolve comparar suas previsões com um texto verdadeiro de um conjunto de dados. A armadilha é que esse treinamento padrão ensina o modelo a prever a probabilidade de um token em uma posição específica de forma independente, em vez de se preocupar com o relacionamento conjunto entre uma sequência de tokens.

Se um modelo tentar prever vários tokens de uma vez usando esse método padrão, ocorrerão dois problemas principais. O primeiro é a incompatibilidade gramatical. Por exemplo, se um modelo prevê duas palavras após o prefixo “O tratador do zoológico alimentou o”, ele pode fazer uma amostragem independente e produzir uma frase incompatível como “carne de panda” ou “bambu de leão” em vez de “bambu de panda” e “carne de leão”.

A segunda questão é a repetição degenerada. Como o texto típico é imprevisível, um modelo que tente prever um token 100 posições no futuro em relação a um conjunto de dados padrão irá apenas prever “o”, uma vez que é a palavra mais comum em inglês. Isso faz com que o modelo produza bobagens como “…the the the…” para posições de futuro distante.

Previsão de vários tokens via autodestilação

Para resolver os problemas de geração de múltiplos tokens, os pesquisadores propõem uma nova técnica de treinamento que utiliza um esquema aluno-professor. Um modelo de estudante, que é o modelo que aprende a prever vários tokens, gera um bloco determinístico de vários tokens. Um modelo de professor, agindo como um modelo de linguagem de previsão de próximo token padrão forte, avalia esse bloco. O professor atua como um crítico, calculando quão provável e coerente é a sequência proposta pelo aluno. Se o aluno propõe uma frase incompatível como “bambu leão”, o professor atribui-lhe uma perda elevada, ensinando o aluno a evitar essa construção.

Crédito da imagem: VentureBeat com Nano Banana Pro

O paradigma é inspirado na aprendizagem por reforço baseada em políticas porque o modelo do aluno não consiste simplesmente em memorizar texto estático. Ele gera um lançamento completo (sequência de ações no jargão RL) instantaneamente em paralelo em um único passe para frente e recebe uma recompensa com base em quão bom o professor acha que é. Ao contrário dos métodos estáticos supervisionados, onde os pares de treinamento são fixados antecipadamente, o feedback aqui é dinâmico, gerado a partir dos resultados do próprio aluno em tempo real. O professor forte também verifica a coerência dos tokens, o que evita que o modelo do aluno aprenda resultados degenerados, como palavras repetidas.

Para os desenvolvedores, a beleza desta abordagem reside na sua simplicidade. “Não há realmente nenhuma modificação na arquitetura, exceto a adição de um token especial”, disse Kirchenbauer. Ao cooptar um slot não utilizado na matriz de incorporação existente de um modelo para atuar como um token de máscara, a técnica converte operações sequenciais em paralelas. “Qualquer modelo padrão de linguagem de previsão de próximo token pode ser adaptado desta forma… a implementação interna – MoE, atenção em janela, camadas SSM, etc. – permanece intocada e não apresenta barreira à adaptação.”

Para as equipes de engenharia, isso significa que a adaptação pode ser aplicada a modelos já em produção sem necessidade de reconstrução de pipelines.

ConfAdapt

Crédito da imagem: VentureBeat com Nano Banana Pro

A geração de vários tokens ao mesmo tempo ainda pode prejudicar a precisão da resposta no momento da inferência. Para maximizar a velocidade de geração sem sacrificar a qualidade da saída, os autores introduzem uma estratégia de decodificação adaptativa chamada ConfAdapt.

O ConfAdapt avalia um limite de confiança, como 90%, em cada etapa. O modelo gera um bloco de tokens, mas mantém apenas os tokens que atendem ou excedem esse limite de alta confiança. Quando o próximo texto é altamente previsível ou estrutural, a confiança do modelo é muito elevada. Ele aceitará e gerará uma grande quantidade de tokens de uma só vez, economizando um tempo computacional significativo em tokens fáceis. Em seguida, ele concentra seus custosos passes de token único em tokens mais difíceis que exigem mais esforço computacional.

Colocando a previsão de vários tokens em teste

Para ver como o paradigma de treinamento funcionava na prática, os pesquisadores aplicaram seu método a modelos populares ajustados por instrução de peso aberto. Eles testaram o forte modelo de uso geral Llama-3.1-8B-Magpie e o menor e eficiente Qwen3-4B-Instruct-2507, que é frequentemente escolhido para implantações empresariais sensíveis ao custo. Ambos os modelos foram ajustados no MetaMathQA, um conjunto de dados de problemas sintéticos de matemática do ensino fundamental que dependem fortemente de traços de raciocínio.

MTP com ConfAdapt

Exemplo de bocks multi-token gerados com ConfAdapt (fonte: arXiv)

Os experimentos revelaram um ponto ideal entre velocidade e precisão. Usando a estratégia ConfAdapt, o modelo Llama-3.1-8B alcançou uma aceleração de 3x com uma queda de menos de 3% na precisão em benchmarks matemáticos. O modelo Qwen3-4B alcançou a mesma aceleração de 3x com uma queda ligeiramente maior de 7% na precisão. Configurações mais agressivas poderiam atingir acelerações de 5x, embora viessem com penalidades de precisão mais acentuadas.

A forma como isso se traduz em tarefas do mundo real depende da previsibilidade. “Como a abordagem ConfAdapt adapta naturalmente a aceleração à entropia inerente ao domínio, quando o modelo ‘sabe’ exatamente o que vem a seguir, pode emiti-lo numa única passagem”, observou ele, levando a uma aceleração massiva em tarefas previsíveis, ao mesmo tempo que utiliza mais passos para resultados incertos.

As acelerações também foram transferidas entre domínios que não foram incluídos na fase de treinamento de predição de vários tokens. Isto incluiu tarefas dentro do mesmo domínio dos dados de treinamento, como matemática e raciocínio, bem como tarefas abertas, como redação criativa e resumo.

Captura de tela 20/02/2026 às 21:22:58

O ponto ideal do MTP com ConfAdapt é cerca de 3x de aceleração (fonte: arXiv)

Apesar desta aprendizagem por transferência, as empresas que implementam estes modelos para tarefas especializadas não devem confiar inteiramente nela. “Nossa recomendação seria ajustar/adaptar o modelo para MTP usando amostras do domínio industrial especial”, disse Kirchenbauer. “O melhor desempenho provavelmente será alcançado se a adaptação do MTP for realizada usando prompts do domínio de implantação.”

Servindo a compatibilidade e o caminho a seguir

A equipe de pesquisa divulgou seu modelos treinados em Hugging Face e em breve lançará o código para sua estrutura MTP. As equipes de infraestrutura que integram esses modelos no vLLM ou SGLang precisarão levar em conta as mudanças na forma como o processamento em lote e o cache KV são tratados, mas isso é um investimento único de engenharia, não um fardo contínuo. No entanto, Kirchenbauer não vê “nenhuma barreira clara à integração” e confirmou que a equipa está “trabalhando com alguns especialistas em sistemas para identificar o caminho mais curto para a integração”.

O conselho de Kirchenbauer para equipes que desejam testar os modelos lançados: comece com instruções de brinquedo, como contar ou repetir uma frase, para ver os ganhos do ConfAdapt em ação e, em seguida, adapte o modelo usando amostras de seu domínio de implantação específico para obter melhores resultados. “No geral, esperamos que uma implementação de nossa abordagem pronta para produção possa simplificar o ciclo de vida de construção e implantação de modelos de agente de baixa latência”, concluiu Kirchenbauer. “Embora as técnicas de aceleração existentes para modelos NTP se concentrem quase exclusivamente em sistemas de inferência e lógica, nossa abordagem apenas incorpora parte da complexidade ao próprio modelo, tornando-o amplamente complementar ao trabalho existente.”

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui