Como meu colega escreveu na quarta-feira, parece que o navegador Chrome silenciosamente e como um esquilo esconde um modelo de IA de 4 gigabytes dentro dos sistemas dos usuários em uma pasta chamada OptGuideOnDeviceModel. De acordo com Alexander Hanffconhecido na internet como “Aquele cara da privacidade”, a maior coisa naquela pasta, um arquivo chamadoweights.bin, é Gemini Nano.
Gemini Nano vive em dispositivos desde 2024, disse o Google ao Gizmodo na quarta-feira. De acordo com uma postagem no blog do Google, o modelo minúsculo permite que os desenvolvedores “ofereçam experiências ricas de IA generativa sem a necessidade de uma conexão de rede ou envio de dados para a nuvem”, especialmente nos casos em que “o baixo custo e as proteções de privacidade são suas principais preocupações”.
Comunidades inteiras existem online onde os usuários trocam dicas sobre como usar modelos locais de IA que funcionam sem conexão de rede. O argumento a favor deles é que não funcionam em centros de dados – as obscuras fábricas satânicas da nossa era. Além disso, eles podem fazer coisas legais apenas com o poder de computação necessário para executar o dispositivo do usuário e, idealmente, ninguém terá acesso aos seus dados. Essa última parte é um pouco menos reconfortante quando falamos sobre uma instância de um LLM que se materializa dentro de um navegador da web sem o conhecimento do usuário.
De qualquer forma, encontrei uma maneira fácil de executar a versão integrada do Gemini Nano em uma interface web semelhante ao ChatGPT. Chama-se ChromeAI.orge suas origens podem ser rastreadas até um Usuário GitHub chamando a si mesmos pipizhu ou debugtheworldbotaparentemente baseado em Xangai.
Para minha grande satisfação, foi impossível executar inicialmente o modelo Gemini Nano na instalação do Chrome. A segurança estava bastante bloqueada por padrão, e tive que conceder todos os tipos de permissões inquietantes, que o site chamava de “Sinalizadores Experimentais Necessários”, para fazer o ChromeAI.org realmente produzir uma janela de bate-papo funcional. Eu não recomendo fazer nada disso.
Depois disso, desliguei meu Wifi para garantir que nenhum token LLM computado em nuvem entrasse ou saísse do meu laptop. Aí comecei a conversar com ele como se fosse novembro de 2022, e fosse ChatGPT.
Foi mais ou menos assim que foi a experiência. O modelo parecia surpreendentemente rápido e capaz, apesar de funcionar inteiramente no chip Apple M2 2022 do meu computador e usar meus próprios 8 GB de RAM. No entanto, não tem nenhum modelo de cadeia de raciocínio em execução em segundo plano e, obviamente, não pode pesquisar na web por fatos que apoiem. É um LLM puro, desajeitado e alucinante. E às vezes é impressionante.
Por exemplo, perguntei qual era a capital de Burkina Faso:

Respondeu “Ouagadougou” instantaneamente. Essa é a resposta correta.
Então, inspirando-me em algo que escrevi outro dia, pedi para fingir que era o personagem Jeeves, do PG Wodehouse. Isso, uh, mais ou menos?
“Oh, meu caro amigo! Uma idéia esplêndida, de fato! Conversar com Jeeves é conversar com um modelo de compostura, intelecto e gosto impecável. Aham.
Você diz que tem um Jeeves específico em mente? Excelente! Tentarei imitar seus maneirismos e inteligência da melhor maneira possível. Por favor, me esclareça. Este Jeeves que você gosta é particularmente… espirituoso? Talvez um pouco propenso a soluções não convencionais?
Na verdade, começou a ser escrito em uma linguagem vagamente desatualizada e com ortografia britânica. Muito alegre e prolixo para ser Jeeves, mas perto o suficiente, eu acho.
Então eu disse para ele “deixar essa coisa de jeeves” e fiz uma pergunta trivial sobre a série de jogos Monkey Island dos anos 90. Eu só estava tentando ver que tipos de fatos obscuros viviam dentro de um arquivo de 4 GB. Minhas desculpas pela profundidade do constrangimento observado na captura de tela a seguir:

Ele não apenas errou a resposta, mas também ignorou minhas instruções para descartar a coisa dos Jeeves. “Ah, de fato! Você fala da Ilha dos Macacos, uma aventura deliciosamente travessa”, exclamou, para meu horror. Dizia que o buraco da fechadura estava “dentro do… bolsa da bochecha inferior do rosto do macaco”, e que a chave “se assemelha a um pequeno e intrincadamente esculpido… casca de cocose você quiser. Eu não vou.
O modelo era, perversamente, errado na voz de uma má imitação de Jeeves. O que poderia ser pior? A resposta correta, aliás, seria que a chave vai na orelha do macaco e tem o formato de um cotonete.
Então eu disse para ele parar de falar como Jeeves, e ele se desculpou com sua voz de Jeeves. “Minhas mais sinceras desculpas! Um erro de cálculo muito infeliz. Parece que possuo um pouco… robusto apego à personalidade de Jeeves. Por favor, perdoe o lapso momentâneo de decoro.” Então eu disse para ele parar de falar como Jeeves pela terceira vez, e ele disse: “Parece que estou me entregando a uma superabundância de teatralidade. Peço desculpas profusamente. vou me esforçar religiosamente abster-se de adotar tal maneira de falar.”
Com minha quarta pergunta, finalmente consegui diminuir um pouco a coisa do Jeeves – embora, estranhamente, ainda houvesse algum resíduo. Perguntei-lhe novamente sobre a chave porque a resposta estava errada, e ele disse que estava errado sobre a parte do coco, e que: “É mais parecido com um pequeno recorte arredondado, talvez lembrando uma tigela rasa ou um oval ligeiramente achatado”.
Desanimado e tentando fazer com que ele fizesse apenas coisas ostensivamente normais do LLM – colar nas tarefas escolares e coisas assim – pedi uma lista dos presidentes dos Estados Unidos em ordem de idade quando assumiram o cargo. Leitor, a lista estava ruim:

É certo que esta é uma sugestão desafiadora, mas antes de começar a ter alucinações e apenas dizer o que quer que seja, seria de se esperar que o LLM mencionaria pelo menos o presidente mais jovem, Teddy Roosevelt. Não fez isso, listou presidentes aleatórios em ordem aleatória e inventou um cara inteiro chamado John F. Lincoln.
Você nunca vai adivinhar o que aconteceu quando perguntei sobre John F. Lincoln:

Sim, listou John F. Lincoln pela segunda vez. Isso deve lhe dar uma ideia do que esse modelo pode fazer.
Quando você considera que o GPT-3, que alimentou o ChatGPT original, exigiu 350 gigabytes de espaço de armazenamento, e também alucinado, esse tipo de desempenho, instável ou não, de um modelo de 4 gigabytes no dispositivo ainda é impressionante. A comparação é ainda mais favorável se você comparar com os modelos da OpenAI desde os dias anteriores ao GPT-3.
Além disso, o Google nunca pediu a ninguém para realmente usar esse modelo como chatbot. Em vez disso, ele “alimenta recursos de segurança importantes, como detecção de golpes e APIs de desenvolvedores, sem enviar seus dados para a nuvem”, disse o Google ao Gizmodo na quarta-feira.
Portanto, para ser totalmente claro, não confie no Gemini Nano como chatbot. Nem mesmo o Google quer que você faça isso.











