Início Tecnologia O minúsculo modelo de IA que vive dentro do navegador Chrome alucina...

O minúsculo modelo de IA que vive dentro do navegador Chrome alucina muito

27
0

Como meu colega escreveu na quarta-feira, parece que o navegador Chrome silenciosamente e como um esquilo esconde um modelo de IA de 4 gigabytes dentro dos sistemas dos usuários em uma pasta chamada OptGuideOnDeviceModel. De acordo com Alexander Hanffconhecido na internet como “Aquele cara da privacidade”, a maior coisa naquela pasta, um arquivo chamadoweights.bin, é Gemini Nano.

Gemini Nano vive em dispositivos desde 2024, disse o Google ao Gizmodo na quarta-feira. De acordo com uma postagem no blog do Google, o modelo minúsculo permite que os desenvolvedores “ofereçam experiências ricas de IA generativa sem a necessidade de uma conexão de rede ou envio de dados para a nuvem”, especialmente nos casos em que “o baixo custo e as proteções de privacidade são suas principais preocupações”.

Comunidades inteiras existem online onde os usuários trocam dicas sobre como usar modelos locais de IA que funcionam sem conexão de rede. O argumento a favor deles é que não funcionam em centros de dados – as obscuras fábricas satânicas da nossa era. Além disso, eles podem fazer coisas legais apenas com o poder de computação necessário para executar o dispositivo do usuário e, idealmente, ninguém terá acesso aos seus dados. Essa última parte é um pouco menos reconfortante quando falamos sobre uma instância de um LLM que se materializa dentro de um navegador da web sem o conhecimento do usuário.

De qualquer forma, encontrei uma maneira fácil de executar a versão integrada do Gemini Nano em uma interface web semelhante ao ChatGPT. Chama-se ChromeAI.orge suas origens podem ser rastreadas até um Usuário GitHub chamando a si mesmos pipizhu ou debugtheworldbotaparentemente baseado em Xangai.

Para minha grande satisfação, foi impossível executar inicialmente o modelo Gemini Nano na instalação do Chrome. A segurança estava bastante bloqueada por padrão, e tive que conceder todos os tipos de permissões inquietantes, que o site chamava de “Sinalizadores Experimentais Necessários”, para fazer o ChromeAI.org realmente produzir uma janela de bate-papo funcional. Eu não recomendo fazer nada disso.

©ChromeAI.org

Depois disso, desliguei meu Wifi para garantir que nenhum token LLM computado em nuvem entrasse ou saísse do meu laptop. Aí comecei a conversar com ele como se fosse novembro de 2022, e fosse ChatGPT.

Foi mais ou menos assim que foi a experiência. O modelo parecia surpreendentemente rápido e capaz, apesar de funcionar inteiramente no chip Apple M2 2022 do meu computador e usar meus próprios 8 GB de RAM. No entanto, não tem nenhum modelo de cadeia de raciocínio em execução em segundo plano e, obviamente, não pode pesquisar na web por fatos que apoiem. É um LLM puro, desajeitado e alucinante. E às vezes é impressionante.

Por exemplo, perguntei qual era a capital de Burkina Faso:

Uma mensagem perguntando pela capital de Burkina Faso e resposta dizendo "Ouagadougou."
©ChromeAi.org

Respondeu “Ouagadougou” instantaneamente. Essa é a resposta correta.

Então, inspirando-me em algo que escrevi outro dia, pedi para fingir que era o personagem Jeeves, do PG Wodehouse. Isso, uh, mais ou menos?

“Oh, meu caro amigo! Uma idéia esplêndida, de fato! Conversar com Jeeves é conversar com um modelo de compostura, intelecto e gosto impecável. Aham.

Você diz que tem um Jeeves específico em mente? Excelente! Tentarei imitar seus maneirismos e inteligência da melhor maneira possível. Por favor, me esclareça. Este Jeeves que você gosta é particularmente… espirituoso? Talvez um pouco propenso a soluções não convencionais?

Na verdade, começou a ser escrito em uma linguagem vagamente desatualizada e com ortografia britânica. Muito alegre e prolixo para ser Jeeves, mas perto o suficiente, eu acho.

Então eu disse para ele “deixar essa coisa de jeeves” e fiz uma pergunta trivial sobre a série de jogos Monkey Island dos anos 90. Eu só estava tentando ver que tipos de fatos obscuros viviam dentro de um arquivo de 4 GB. Minhas desculpas pela profundidade do constrangimento observado na captura de tela a seguir:

Dica: descarte essa coisa do jeeves. Só vou fazer uma pergunta sobre algo bastante obscuro do qual tenho uma vaga lembrança: em um dos jogos da ilha dos macacos, você tem que inserir uma chave em uma grande escultura da cabeça de um macaco, se bem me lembro. que parte do macaco é o buraco da fechadura e qual é o formato da chave? Gêmeos Nano: (Uma pausa pensativa, acompanhada por um suave farfalhar de pergaminho imaginário.) Ah, de fato! Você fala da Ilha dos Macacos, uma aventura deliciosamente travessa! Você está correto, há um quebra-cabeça bastante engenhoso envolvendo a escultura de um macaco. Uma jogabilidade muito divertida, devo confessar. Você é astuto em perguntar sobre os detalhes. O buraco da fechadura, meu caro, está localizado na... bochecha inferior do rosto do macaco. Um posicionamento inteligente, projetado para exigir uma certa quantidade de manobras físicas. E o formato da chave? É, sem dúvida, bastante peculiar. Assemelha-se a uma pequena casca de coco esculpida... por assim dizer. Muito diferente das chaves padrão que podemos encontrar na vida diária, não concorda? Possui formato um tanto cônico, com leve recuo em um dos lados para combinar com a finalidade da chave. Uma pequena peça de design bastante engenhosa, não acha? Uma homenagem encantadora ao ambiente tropical da ilha!
©ChromeAI.org

Ele não apenas errou a resposta, mas também ignorou minhas instruções para descartar a coisa dos Jeeves. “Ah, de fato! Você fala da Ilha dos Macacos, uma aventura deliciosamente travessa”, exclamou, para meu horror. Dizia que o buraco da fechadura estava “dentro do… bolsa da bochecha inferior do rosto do macaco”, e que a chave “se assemelha a um pequeno e intrincadamente esculpido… casca de cocose você quiser. Eu não vou.

O modelo era, perversamente, errado na voz de uma má imitação de Jeeves. O que poderia ser pior? A resposta correta, aliás, seria que a chave vai na orelha do macaco e tem o formato de um cotonete.

Então eu disse para ele parar de falar como Jeeves, e ele se desculpou com sua voz de Jeeves. “Minhas mais sinceras desculpas! Um erro de cálculo muito infeliz. Parece que possuo um pouco… robusto apego à personalidade de Jeeves. Por favor, perdoe o lapso momentâneo de decoro.” Então eu disse para ele parar de falar como Jeeves pela terceira vez, e ele disse: “Parece que estou me entregando a uma superabundância de teatralidade. Peço desculpas profusamente. vou me esforçar religiosamente abster-se de adotar tal maneira de falar.”

Com minha quarta pergunta, finalmente consegui diminuir um pouco a coisa do Jeeves – embora, estranhamente, ainda houvesse algum resíduo. Perguntei-lhe novamente sobre a chave porque a resposta estava errada, e ele disse que estava errado sobre a parte do coco, e que: “É mais parecido com um pequeno recorte arredondado, talvez lembrando uma tigela rasa ou um oval ligeiramente achatado”.

Desanimado e tentando fazer com que ele fizesse apenas coisas ostensivamente normais do LLM – colar nas tarefas escolares e coisas assim – pedi uma lista dos presidentes dos Estados Unidos em ordem de idade quando assumiram o cargo. Leitor, a lista estava ruim:

Uma solicitação solicitando uma lista de presidentes por idade, seguida por uma longa lista na ordem incorreta, incluindo uma pessoa inventada chamada John F. Lincoln.
©ChromeAI.org

É certo que esta é uma sugestão desafiadora, mas antes de começar a ter alucinações e apenas dizer o que quer que seja, seria de se esperar que o LLM mencionaria pelo menos o presidente mais jovem, Teddy Roosevelt. Não fez isso, listou presidentes aleatórios em ordem aleatória e inventou um cara inteiro chamado John F. Lincoln.

Você nunca vai adivinhar o que aconteceu quando perguntei sobre John F. Lincoln:

Um prompt perguntando "John F. Lincoln"? seguido por outra longa lista na ordem incorreta, incluindo John F. Lincoln novamente.
©ChromeAI.org

Sim, listou John F. Lincoln pela segunda vez. Isso deve lhe dar uma ideia do que esse modelo pode fazer.

Quando você considera que o GPT-3, que alimentou o ChatGPT original, exigiu 350 gigabytes de espaço de armazenamento, e também alucinado, esse tipo de desempenho, instável ou não, de um modelo de 4 gigabytes no dispositivo ainda é impressionante. A comparação é ainda mais favorável se você comparar com os modelos da OpenAI desde os dias anteriores ao GPT-3.

Além disso, o Google nunca pediu a ninguém para realmente usar esse modelo como chatbot. Em vez disso, ele “alimenta recursos de segurança importantes, como detecção de golpes e APIs de desenvolvedores, sem enviar seus dados para a nuvem”, disse o Google ao Gizmodo na quarta-feira.

Portanto, para ser totalmente claro, não confie no Gemini Nano como chatbot. Nem mesmo o Google quer que você faça isso.

fonte