Início Tecnologia A descoberta da IA ​​do Google mostra por que não precisamos de...

A descoberta da IA ​​do Google mostra por que não precisamos de mais data centers

24
0

Vimos o futuro da IA ​​por meio de grandes modelos de linguagem. E é menor do que você pensa.

Isso ficou claro em 2025, quando vimos pela primeira vez o DeepSeek da China – um LLM mais fino e leve que exigia muito menos energia do data center para fazer seu trabalho e teve um desempenho surpreendentemente bom em testes de benchmark contra modelos de IA americanos mais robustos. (Ironicamente, ele foi construído sobre um modelo americano de código aberto, o Meta’s Llama).

O DeepSeek pode ter afundado devido a preocupações com a privacidade, mas a tendência para uma IA menor e mais inteligente não vai desaparecer. A evolução está novamente em exibição no TurboQuant, um algoritmo de compressão que o Google revelou discretamente esta semana por meio de um Artigo de pesquisa do Google.

O artigo em si é bastante impenetrável se você não for um nerd de IA que fala sobre tokens e vetores de alta dimensão. Entraremos em uma explicação mais detalhada abaixo. Mas aqui está o TL; DR: O algoritmo TurboQuant pode reduzir o uso de memória dos LLMs em seis vezes.

O que isso significa? Menos uso de energia, talvez a ponto de tornar possível executar um poderoso modelo de IA em seu poderoso smartphone. Menos uso de RAM, na hora certa para a contínua escassez de RAM.

Certamente, algoritmos como esse podem ajudar os LLMs a fazer uso mais eficiente dos data centers em que estão hospedados – seja usando o espaço extra para executar modelos mais complexos ou, ouça-me, permitindo-nos não nos apressarmos em construir tantos novos data centers impopulares em primeiro lugar.

E isso, paradoxalmente, pode ser um problema para a economia da IA, pelo menos na forma como está actualmente estruturada.

Por que menor e mais inteligente irá atrapalhar a NVIDIA

Nos últimos três anos, as ações de tecnologia têm subido cada vez mais graças a uma única empresa: a NVIDIA. E a NVIDIA tem subido cada vez mais na suposição de que estamos no meio do que o CEO Jensen Huang chamou este mês de “a maior construção de infraestrutura da história” – uma explosão de data centers, para a qual a NVIDIA será a principal fornecedora de chips.

Mas essa construção de infra-estrutura, se olharmos para os centros de dados realmente construídos versus os centros de dados prometidos, já está a tropeçar, como um novo New York Times investigação acabei de deixar claro. Qual é o problema? Não apenas a oposição de cidadãos preocupados em todos os EUA, incluindo agora a NAACP. São também autorizações, solicitações, inspeções e outras partes pouco atraentes, mas muitas vezes necessárias, da máquina do governo local.

Um dos problemas mais importantes: a escassez de geração e transmissão de energia, o que não se coaduna com a capacidade inquantificável da indústria da IA ​​de absorver eletricidade e sugar água.

O que acontece quando o desejo por mais IA se depara com a falta de infraestrutura? Bem, então a necessidade se torna a mãe da invenção. Aprendemos a fazer mais com menos. E é exatamente isso que o TurboQuant faz.

Compressão intermediária

Aqui está a explicação – embora como o TurboQuant é um algoritmo de compressão, você seria perdoado por imaginar que o Google tinha o mesmo NSFW Inspiração do algoritmo de compressão “middle out” que impulsionou o enredo da comédia da HBO Vale do Silício.

Portanto, há alguns “gargalos” de energia quando os modelos de IA buscam algo que realmente desejam e usam com frequência. Um deles é chamado de cache de valor-chave, que é como uma biblioteca realmente interessante que armazena as informações mais usadas. A outra é a pesquisa vetorial, que corresponde a coisas que parecem iguais. O TurboQuant lubrifica ambos com eficácia ao mesmo tempo, tornando a captura de memória mais rápida, suave e menos complicada.

TurboQuant “ajuda a desobstruir cache de valor-chave gargalos ao reduzir o tamanho dos pares de valores-chave”, diz o artigo do Google, em parte pelo movimento “inteligente” de “girar aleatoriamente os vetores de dados”.

Entendeu? Não? Bem, isso realmente não importa. Tudo o que você precisa saber é que existe um novo e promissor campo de matemática computacional extremamente complexa, e ele funciona da mesma forma que os algoritmos de compressão funcionam há muito tempo – tornando a nova tecnologia mais rápida, mais leve e mais fácil de executar.

Primeiro foram os downloads de arquivos ZIP, depois a compactação de vídeo que possibilitou a revolução do streaming e agora é a IA. O resultado poderia permitir que um LLM mais poderoso fosse executado inteiramente no seu telefone, ou poderia travar a economia global, ou ambos ao mesmo tempo. A vida em 2026 não é selvagem?

Tópicos
Inteligência ArtificialGoogle

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui