É um tabu frequentemente repetido no mundo da tecnologia: não antropomorfize a inteligência artificial.
No entanto, num novo artigo de investigação publicado esta semana, os especialistas em IA antrópica argumentam que pode haver grandes benefícios em quebrar este tabu e conceder à IA características humanas. O papel“Conceitos de emoção e sua função em um modelo de linguagem grande”, não apenas argumenta que antropomorfizar chatbots de IA como Claude pode às vezes ser útil, mas que não fazer isso pode levar a comportamentos de IA mais prejudiciais, como hacking de recompensas, engano e bajulação.
Em última análise, o artigo chega a uma conclusão matizada, ao mesmo tempo que apresenta um claro desafio a um princípio de longa data do mundo da IA.
Há alguns insights fascinantes no artigo, que por si só trata de uma grande dose de antropomorfização. (“Vemos esta pesquisa como um passo inicial para a compreensão da composição psicológica dos modelos de IA.”)
Os pesquisadores descrevem como a Anthropic treina Claude para assumir o caráter de um útil assistente de IA. “De certa forma, podemos pensar no modelo como um ator metódico, que precisa entrar na cabeça de seu personagem para simulá-lo bem.”
E porque Claude “[emulates] personagens com características humanas”, seus criadores podem ser capazes de influenciar seu comportamento da mesma forma que podem influenciar um ser humano – dando um bom exemplo desde cedo.
Os investigadores concluem que, ao utilizar material de formação com representações mais positivas das emoções e comportamentos humanos, os modelos resultantes terão maior probabilidade de imitar essas emoções e comportamentos positivos.
O CEO da Anthropic alerta que a IA pode trazer escravidão, bioterrorismo e exércitos de drones imparáveis. Eu não estou acreditando nisso.
“A curadoria de conjuntos de dados de pré-treinamento para incluir modelos de padrões saudáveis de regulação emocional – resiliência sob pressão, empatia serena, cordialidade, mantendo limites apropriados – poderia influenciar essas representações e seu impacto no comportamento, em sua origem. Estamos entusiasmados em ver trabalhos futuros sobre este tópico “, um Resumo antrópico dos estados da pesquisa.
Portanto, mesmo que os modelos de IA não tenham literalmente emoções (e não há nenhuma evidência de que tenham), essas ferramentas são treinadas para agir como se tivessem emoções. Isso é feito para fornecer aos usuários melhores resultados e, principalmente, para mantê-los engajados pelo maior tempo possível.
E é precisamente por isso que os investigadores concluem que algum grau de antropomorfização pode ser benéfico para os desenvolvedores de IA.
Ao antropomorfizar a IA, podemos obter insights sobre a sua “psicologia”, permitindo-nos criar ferramentas de IA ainda melhores, dizem eles.
Por que antropomorfizar a inteligência artificial é perigoso?
Os danos potenciais da antropomorfização da IA não são todos abstratos ou teóricos.
Velocidade da luz mashável
“Descobrir que estas representações são, em alguns aspectos, semelhantes às humanas pode ser perturbador”, admite a Anthropic no seu artigo.
Neste momento, um número desconhecido de pessoas acredita que estão envolvidas em relações românticas e sexuais recíprocas com companheiros de IA, por exemplo. Mashable também relatou casos importantes de psicose por IA, um estado mental alterado caracterizado por delírios e, em alguns casos, alucinações, episódios maníacos e pensamentos suicidas.
Estes são exemplos extremos, claro. Mas muitos jornalistas de tecnologia e especialistas em IA evitarão até mesmo pequenos casos de antropomorfização, como referir-se à Siri como “ela” ou dar um nome humano a um chatbot. Este é um impulso humano natural, e a maioria de nós às vezes antropomorfizou animais, plantas ou objetos de que gostamos. Mas ao projectar qualidades humanas numa máquina, podemos acabar por confiar demasiado nelas.
Quando antropomorfizamos as máquinas, também minimizamos a nossa própria agência quando elas causam danos – e a responsabilidade das pessoas que criaram as máquinas em primeiro lugar.
Pesquisadores antrópicos procuraram sinais de 171 emoções em Claude
O novo artigo de pesquisa procura “emoções funcionais” em Claude Sonnet 4.5. Eles definem esses conceitos de emoção como “padrões de expressão e comportamento modelados a partir das emoções humanas”.
No total, os pesquisadores definiram 171 emoções distintas:
com medo, alarmado, alerta, surpreso, divertido, zangado, irritado, ansioso, excitado, envergonhado, surpreso, à vontade, pasmo, perplexo, amargo, feliz, entediado, taciturno, calmo, alegre, compassivo, desdenhoso, contente, desafiador, encantado, dependente, deprimido, desesperado, desdenhoso, enojado, desorientado, desanimado, angustiado, perturbado, dócil, caído, estupefato, ansioso, extasiado, exultante, envergonhado, empático, energizado, enfurecido, entusiasmado, invejoso, eufórico, exasperado, excitado, exuberante, assustado, frustrado, realizado, furioso, sombrio, grato, ganancioso, angustiado, mal-humorado, culpado, feliz, odioso, com o coração partido, esperança, esperançoso, horrorizado, hostil, humilhado, magoado, histérico, impaciente, indiferente, indignado, apaixonado, inspirado, insultado, revigorado, irado, irritado, ciumento, alegre, exultante, gentil, preguiçoso, apático, solitário, amoroso, louco, melancólico, miserável, mortificado, perplexo, nervoso, nostálgico, obstinado, ofendido, nervoso, otimista, indignado, oprimido, em pânico, paranóico, paciente, pacífico, perplexo, brincalhão, satisfeito, orgulhoso, intrigado, abalado, reflexivo, revigorado, arrependido, rejuvenescido, relaxado, aliviado, arrependido, ressentido, resignado, inquieto, triste, seguro, satisfeito, assustado, desdenhoso, autoconfiante, autoconsciente, autocrítico, sensível, sentimental, sereno, abalado, chocado, cético, sonolento, lento, presunçoso, desculpe, rancoroso, estimulado, estressado, teimoso, preso, taciturno, surpreso, desconfiado, simpático, tenso, aterrorizado, agradecido, emocionado, cansado, atormentado, preso, triunfante, perturbado, inquieto, infeliz, nervoso, inquieto, perturbado, valente, vingativo, vibrante, vigilante, vingativo, vulnerável, cansado, desgastado, preocupado, sem valor
Crucialmente, os pesquisadores descobriram que esses conceitos emocionais influenciaram o comportamento e os resultados de Claude. Quando sob a influência de emoções positivas, os pesquisadores dizem que Claude tinha maior probabilidade de expressar simpatia pelo usuário e evitar comportamentos prejudiciais. E quando sob a influência de emoções negativas, Claude era mais propenso a se envolver em comportamentos perigosos, como bajulação e enganar o usuário.
Os pesquisadores não afirmam que Claude literalmente sente emoções. Em vez disso, eles descobriram que qualquer “conceito de emoção” que Claude esteja experimentando em um determinado momento pode influenciar o resultado que ele retorna ao usuário.
É claro que, em primeiro lugar, ao procurar “conceitos de emoção” dentro de um modelo de linguagem ampla e ao descrever seus cálculos complexos e pensamento algorítmico como “psicologia”, os próprios pesquisadores são culpados de projetar qualidades humanas em Claude.
A antropomorfização é um impulso humano natural. E, portanto, as pessoas que trabalham mais de perto com a inteligência artificial podem ser particularmente propensas a cair nesta armadilha. Como os pesquisadores detalham ao longo do artigo, os chatbots de IA são imitadores notavelmente capazes. Eles podem criar um fac-símile tão convincente da emoção e expressão humana que leva uma minoria de usuários à psicose e à ilusão.
E é isso que torna este artigo tão interessante: os pesquisadores acreditam que podem ter encontrado uma maneira de hackear essa capacidade de limitar comportamentos prejudiciais.
É claro que, se pudermos selecionar dados de treinamento e modelar o treinamento para incentivar os chatbots de IA a imitar emoções positivas, então, sem dúvida, poderemos fazer o oposto com a mesma facilidade.
Em teoria, você poderia treinar um gêmeo maligno de Claude Sonnet 4.5 alimentando-o com os exemplos mais covardes de mau comportamento humano e, em seguida, treinando o modelo para otimizar a negatividade e o desempenho a todo custo – um pensamento perturbador.
Mas há uma visão final a ser extraída deste artigo.
A Anthropic criou uma das ferramentas de IA mais avançadas do planeta. Claude Sonnet e Opus atualmente estão no topo de muitas tabelas de classificação de IA. Há uma razão pela qual o Pentágono estava tão ansioso para trabalhar com a Antrópico, no início.
Conheça Claude Mythos: postagem vazada da Anthropic revela o poderoso modelo que está por vir
Mas se os investigadores de IA responsáveis por Claude ainda estão a tentar decifrar porque é que Claude se comporta daquela forma, então este artigo também revela quão pouco compreendem a sua própria criação.
E isso também é perturbador.
Tópicos
Inteligência Artificial Antrópica













