Quantos Ps existem no Google? Segundo o Google, existem dois.
Há também “exatamente 1 ‘r’ na palavra ‘cocô’”, diz a visão geral de IA do Google, bem como dois ‘d’ na palavra jornalismo, mas com a grafia: jornalismo. O Google pelo menos identificou que existe um P no sobrenome do presidente dos EUA, mas o escreveu como trpum.
Você não precisava ser um profeta para prever que a revisão da pesquisa avançada por IA do Google iria dar errado. Já fizemos isso antes. A primeira vez que o Google adicionou visões gerais de IA à pesquisa, o recurso acabou citando postagens satíricas de The Onion e Reddit, aconselhando as pessoas a comerem pedras e colocarem cola na pizza.
Desta vez, à medida que o Google redobra o seu compromisso de tornar a IA generativa a peça central do seu principal produto de 29 anos, não é surpreendente vê-lo tropeçar.
“Contar em palavras tem sido um desafio conhecido para os LLMs e estamos trabalhando para corrigir esse problema específico”, disse o Google ao TechCrunch em um comunicado enviado por e-mail.
Esses erros ortográficos básicos podem parecer familiares. Os LLMs, o tipo de inteligência artificial que alimenta os chatbots e outros geradores de texto, não foram desenvolvidos para compreender a ortografia. Tem sido uma piada corrente há anos que sempre que uma empresa revela um novo modelo de IA, você deve perguntar quantos ‘r’s tem a palavra morango. Esses modelos de IA – que podem codificar um aplicativo em segundos ou resolver problemas que confundiram os matemáticos por décadas – são tão bons quanto um aluno do jardim de infância em ortografia.
Os problemas de visão geral da IA do Google vão além de erros ortográficos bobos. O Google já corrigiu um problema da semana passada em que pesquisar a palavra “desconsiderar” produziria o que parecia ser uma definição de dicionário da palavra, apenas a definição era mostrada como “Entendido. Avise-me sempre que tiver uma nova solicitação ou pergunta!” Mas esses erros ortográficos continuam divertidos porque são muito difíceis de eliminar.
Como os pesquisadores explicaram anteriormente quando perguntamos sobre esses enigmas ortográficos, a IA não percebe as frases como unidades de linguagem compostas de palavras e letras. Muitos LLMs são construídos em modelos de transformadores, que dividem o texto em tokens, que podem ser palavras completas, sílabas ou letras, dependendo do modelo. Em vez de “ler” como um ser humano faria, a IA converte o texto em representações numéricas de si mesmo, que são então contextualizadas para ajudar a IA a encontrar uma resposta lógica.
“Os LLMs são baseados nesta arquitetura de transformador, que notavelmente não lê texto. O que acontece quando você insere um prompt é que ele é traduzido em uma codificação”, disse Matthew Guzdial, pesquisador de IA e professor assistente da Universidade de Alberta, ao TechCrunch. “Quando vê a palavra ‘o’, ele tem esta codificação do que ‘o’ significa, mas não sabe sobre ‘T’, ‘H’, ‘E.’”
A arquitetura baseada em tokens que alimenta LLMs como a visão geral de IA do Google é inerentemente limitante, e os pesquisadores não estão otimistas de que possam resolver o problema ortográfico.
“É meio difícil contornar a questão de o que exatamente uma ‘palavra’ deveria ser para um modelo de linguagem, e mesmo que conseguíssemos que especialistas humanos concordassem com um vocabulário de token perfeito, os modelos provavelmente ainda achariam útil ‘dividir’ as coisas ainda mais”, disse Sheridan Feucht, um estudante de doutorado que estuda interpretabilidade de modelos de linguagem grande na Northeastern University, ao TechCrunch. “Meu palpite é que não existe um tokenizador perfeito devido a esse tipo de imprecisão.”
Este não é necessariamente um problema urgente para os pesquisadores, uma vez que a utilidade dos LLMs não reside na sua capacidade de soletrar. Mas estas falhas flagrantes ajudam-nos a lembrar que a IA não é perfeita, mesmo que por vezes possa parecer um poder onisciente que está além da nossa compreensão. Não podemos confiar cegamente nos resultados da IA sem verificar novamente a sua precisão.
Quando você compra por meio de links em nossos artigos, podemos ganhar uma pequena comissão. Isso não afeta nossa independência editorial.













