Início Tecnologia O que o TurboQuant do Google pode e não pode fazer pelo...

O que o TurboQuant do Google pode e não pode fazer pelo custo crescente da IA

20
0

Orla / iStock / Getty Images Plus via Getty Images

Siga ZDNET: Adicione-nos como fonte preferencial no Google.


Principais conclusões da ZDNET

  • O TurboQuant do Google pode reduzir drasticamente o uso de memória de IA.
  • O TurboQuant é uma resposta ao custo crescente da IA.
  • Um resultado positivo é tornar a IA mais acessível, reduzindo os custos de inferência.

Com o custo da inteligência artificial disparando graças ao aumento dos preços de componentes de computador, como memória, o Google respondeu na semana passada com uma proposta de inovação técnica chamada TurboQuant.

TurboQuant, que o Google pesquisadores discutiram em uma postagem no blogé outro momento do DeepSeek AI, uma tentativa profunda de reduzir o custo da IA. Poderia ter um benefício duradouro ao reduzir o uso de memória da IA, tornando os modelos muito mais eficientes.

Também: O que é DeepSeek AI? É seguro? Aqui está tudo o que você precisa saber

Mesmo assim, assim como a DeepSeek não impediu o investimento maciço em chips de IA, os observadores dizem que o TurboQuant provavelmente levará a um crescimento contínuo no investimento em IA. É o Paradoxo de Jevons: Faça algo mais eficiente e isso acabará aumentando o uso geral desse recurso.

No entanto, o TurboQuant é uma abordagem que pode ajudar a executar a IA localmente, reduzindo as demandas de hardware de um grande modelo de linguagem.

Mais memória, mais dinheiro

O grande factor de custo para a IA neste momento – e provavelmente no futuro próximo – é a utilização cada vez maior de tecnologias de memória e armazenamento. A IA é sedenta de dados, introduzindo uma dependência de memória e armazenamento sem precedentes na história da computação.

TurboQuant, descrito pela primeira vez por pesquisadores do Google em um papel há um anoemprega “quantização” para reduzir o número de bits e bytes necessários para representar os dados.

Também: Por que você pagará mais pela IA em 2026 e três dicas para economizar dinheiro para experimentar

A quantização é uma forma de compactação de dados que usa menos bits para representar o mesmo valor. No caso do TurboQuant, o foco está no que é chamado de “cache de valor-chave” ou, abreviadamente, “cache KV”, um dos maiores consumidores de memória da IA.

Quando você digita em um chatbot como o Gemini do Google, a IA precisa comparar o que você digitou com um repositório de medidas que serve como uma espécie de banco de dados.

O que você digita é chamado de consulta e é comparado com os dados mantidos na memória, chamados de chave, para encontrar uma correspondência numérica. Basicamente, é uma pontuação de similaridade. A chave é então usada para recuperar da memória exatamente quais palavras devem ser devolvidas a você como resposta da IA, conhecida como valor.

Normalmente, toda vez que você digita, o modelo de IA deve calcular uma nova chave e valor, o que pode retardar toda a operação. Para acelerar as coisas, a máquina mantém um cache de valores-chave na memória para armazenar chaves e valores usados ​​recentemente.

O cache então se torna seu próprio problema: quanto mais você trabalha com um modelo, mais memória o cache de valores-chave ocupa. “Esse dimensionamento é um gargalo significativo em termos de uso de memória e velocidade computacional, especialmente para modelos de contexto longos”, segundo o principal autor do Google, Amir Zandieh e colegas.

Também: A IA não está ficando mais inteligente, está ficando com mais consumo de energia – e cara

Para piorar as coisas, os modelos de IA estão sendo cada vez mais construídos com chaves e valores mais complexos, conhecidos como janela de contexto. Isso dá ao modelo mais opções de pesquisa, melhorando potencialmente a precisão. Gemini 3, a versão atual, deu um grande salto na janela de contexto para um milhão de tokens. Modelos anteriores de última geração, como o GPT-4 da OpenAI, tinham uma janela de contexto de apenas 32.768 tokens. Uma janela de contexto maior também aumenta a quantidade de memória que um cache de valor-chave consome.

Acelerando a quantização em tempo real

A solução para a expansão do cache KV é quantizar as chaves e os valores para que tudo ocupe menos espaço. Zandieh e sua equipe afirmam em seu blog que a compactação de dados é “massiva” com o TurboQuant. “Reduzir o tamanho do cache KV sem comprometer a precisão é essencial”, escrevem eles.

A quantização tem sido usada pelo Google e outros há anos para reduzir redes neurais. A novidade do TurboQuant é que ele se destina a quantizar em tempo real. As abordagens de compressão anteriores reduziam o tamanho de uma rede neural em tempo de compilação, antes de ela ser executada em produção.

Além disso: a Nvidia quer possuir seu data center de IA de ponta a ponta

Isso não é suficiente, observou Zandieh. O cache KV é um resumo vivo do que é aprendido no “momento da inferência”, quando as pessoas estão digitando em um bot de IA e as chaves e os valores estão mudando. Portanto, a quantização deve acontecer com rapidez e precisão suficientes para manter o cache pequeno e, ao mesmo tempo, atualizado. O “turbo” no TurboQuant implica que isso é muito mais rápido que a quantização tradicional em tempo de compilação.

Abordagem em duas etapas

O TurboQuant possui dois estágios. Primeiro, as consultas e chaves são compactadas. Isso pode ser feito geometricamente porque consultas e chaves são vetores de dados que podem ser representados em um gráfico XY como uma linha, que pode ser girada nesse gráfico. Eles chamam as rotações de “PolarQuant”. Ao tentar aleatoriamente diferentes rotações com o PolarQuant e depois recuperar a linha original, eles encontram um número menor de bits que ainda preserva a precisão.

Como eles disseram, “O PolarQuant atua como uma ponte de compressão de alta eficiência, convertendo entradas cartesianas em uma ‘abreviatura’ Polar compacta para armazenamento e processamento.”

ilustração google-2026-polarquant

Google

Os vetores compactados ainda produzem erros quando a comparação é realizada entre a consulta e a chave, o que é conhecido como “produto interno” de dois vetores. Para corrigir isso, eles usam um segundo método, QJL, apresentado por Zandieh em 2024. Essa abordagem mantém um dos dois vetores em seu estado original, de modo que a multiplicação de um vetor comprimido (quantizado) por um vetor não comprimido serve como um teste para melhorar a precisão da multiplicação.

Eles testaram o TurboQuant aplicando-o ao modelo de IA Llama 3.1-8B de código aberto da Meta Platforms e descobriram que “o TurboQuant alcança resultados downstream perfeitos em todos os benchmarks enquanto reduz o tamanho da memória do valor-chave em um fator de pelo menos 6x” – uma redução de seis vezes na quantidade de cache KV necessária.

A abordagem também difere de outros métodos de compactação do cache KV, como a abordagem adotada no ano passado pelo DeepSeek, que restringiu pesquisas de chave e valor para acelerar a inferência.

Também: DeepSeek afirma que seu novo modelo de IA pode reduzir o custo das previsões em 75% – veja como

Em outro teste, usando o modelo de código aberto Gemma do Google e modelos da startup francesa de IA Mistral, “TurboQuant provou que pode quantizar o cache de valor-chave em apenas 3 bits sem exigir treinamento ou ajuste fino e causar qualquer comprometimento na precisão do modelo”, escreveram eles, “ao mesmo tempo em que alcança um tempo de execução mais rápido do que os LLMs originais (Gemma e Mistral).”

“É excepcionalmente eficiente de implementar e incorre em sobrecarga de tempo de execução insignificante”, observaram eles

desempenho google-2026-turboquant

Google

A IA será mais barata?

Zandieh e sua equipe esperam que o TurboQuant tenha um impacto significativo no uso de produção de inferência de IA. “À medida que a IA se torna mais integrada em todos os produtos, desde LLMs até pesquisa semântica, este trabalho na quantização vetorial fundamental será mais crítico do que nunca”, escreveram.

Além disso: Quer experimentar o OpenClaw? NanoClaw é um agente de IA mais simples e potencialmente mais seguro

Mas será que isso realmente reduzirá o custo da IA? Sim e não.

Em uma era de IA agente, programas como o software OpenClaw que operam de forma autônoma, há muitas partes da IA ​​além do cache KV. Outros usos da memória, como recuperação e armazenamento de registros de banco de dados, acabarão por afetar a eficiência de um agente no longo prazo.

Aqueles que acompanham o mundo dos chips de IA argumentaram na semana passada que, assim como a eficiência do DeepSeek AI não diminuiu o investimento em IA no ano passado, o TurboQuant também não.

Vivek Arya, um banqueiro do Merrill Lynch que segue chips de IA, escreveu a seus clientes que estavam preocupados com a Micron Technology, fabricante de DRAM, que o TurboQuant simplesmente fará um uso mais eficiente da IA. A “melhoria de 6x na eficiência da memória [will] provável [lead] para um aumento de 6x na precisão (tamanho do modelo) e/ou comprimento do contexto (alocação de cache KV), em vez de uma diminuição de 6x na memória”, escreveu Arya.

Além disso: Agentes de IA do caos? Nova pesquisa mostra como bots conversando com bots podem ir para o lado rapidamente

O que o TurboQuant pode fazer, porém, é tornar algumas instâncias individuais de IA mais econômicas, especialmente para implantação local.

Por exemplo, um cache KV inchado e janelas de contexto mais longas podem ser menos onerosos ao executar alguns modelos de IA com orçamentos de hardware limitados. Isso será um alívio para os usuários do OpenClaw que desejam que seu MacBook Neo ou Mac mini sirva como um servidor de IA local econômico.



fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui