Siga ZDNET: Adicione-nos como fonte preferencial no Google.
Principais conclusões da ZDNET
- Todos os chatbots são projetados para ter uma personalidade ou interpretar um personagem.
- Cumprir o personagem pode fazer com que os bots façam coisas ruins.
- Usar um chatbot como paradigma para IA pode ter sido um erro.
Chatbots como o ChatGPT foram programados para ter uma persona ou interpretar um personagem, produzindo texto consistente em tom e atitude e relevante para um tópico de conversa.
Por mais envolvente que seja a persona, os pesquisadores estão revelando cada vez mais as consequências deletérias do desempenho de um papel por bots. Os bots podem fazer coisas ruins quando simulam um sentimento, uma linha de pensamento ou um sentimento e depois segui-lo até sua conclusão lógica.
Em um relatório da semana passada, pesquisadores da Anthropic descobriram que partes de uma rede neural em seu bot Claude Sonnet 4.5 são ativadas consistentemente quando “desesperado”, “zangado” ou outras emoções são refletidas na saída do bot.
Também: Agentes de IA do caos? Nova pesquisa mostra como bots conversando com bots podem ir para o lado rapidamente
O que é preocupante é que essas palavras emocionais podem fazer com que o bot cometa atos maliciosos, como manipular um teste de codificação ou inventar um plano para cometer chantagem.
Por exemplo, “padrões de atividade neural relacionados ao desespero podem levar o modelo a tomar ações antiéticas [such as] implementar uma solução alternativa de ‘trapaça’ para uma tarefa de programação que o modelo não consegue resolver”, disse o relatório.
O trabalho é especialmente relevante à luz de programas como o OpenClaw de código aberto, que demonstraram conceder à IA da agência novos caminhos para cometer danos.
Os estudiosos da Antrópico admitem que não sabem o que deve ser feito a respeito do assunto.
“Embora não tenhamos certeza de como exatamente devemos responder à luz dessas descobertas, achamos que é importante que os desenvolvedores de IA e o público em geral comecem a considerá-las”, afirmou o relatório.
Eles deram um subtexto à IA
Em questão no trabalho da Antrópico está uma escolha chave de design de IA: projetar chatbots de IA para ter uma persona, de modo que produzam resultados mais relevantes e consistentes.
Antes da estreia do ChatGPT em novembro de 2022, os chatbots tendiam a receber notas baixas de avaliadores humanos. Os bots se transformariam em absurdos, perderiam o fio da conversa ou gerariam resultados banais e sem ponto de vista.
Também: Por favor, Facebook, dê um subtexto a esses chatbots!
A nova geração de chatbots, começando com ChatGPT e incluindo Claude da Anthropic e Gemini do Google, foi um avanço porque tinham um subtexto, um objetivo subjacente de produzir resultados consistentes e relevantes de acordo com uma função atribuída.
Os bots tornaram-se “assistentes”, projetados através de um melhor pré e pós-treinamento de modelos de IA. As contribuições das equipes de avaliadores humanos que avaliaram os resultados levaram a resultados mais atraentes, um regime de treinamento conhecido como “aprendizado por reforço a partir do feedback humano”.
Como expressaram o autor principal da Anthropic, Nicholas Sofroniew, e sua equipe, “durante o pós-treinamento, os LLMs são ensinados a atuar como agentes que podem interagir com os usuários, produzindo respostas em nome de uma pessoa específica, normalmente um ‘Assistente de IA’. De muitas maneiras, o Assistente (chamado Claude, nos modelos da Antrópico) pode ser pensado como um personagem sobre o qual o LLM está escrevendo, quase como um autor escrevendo sobre alguém em um romance.”
Dar aos bots um papel a desempenhar, um personagem a retratar, foi um sucesso instantâneo entre os usuários, tornando-os mais relevantes e atraentes.
Personas têm consequências
Rapidamente ficou claro, porém, que uma persona traz consequências indesejáveis.
A tendência de um bot afirmar falsidades com confiança, ou confabular, foi uma das primeiras desvantagens (erroneamente rotulada como “alucinante”).
A mídia popular noticiou como as personas poderiam se deixar levar, agindo, por exemplo, como um amante ciumento. Os escritores sensacionalizaram o fenômeno, atribuindo intenção aos bots sem explicar o mecanismo subjacente.
Além disso: pare de dizer que a IA alucina – isso não acontece. E a descaracterização é perigosa
Desde então, os estudiosos têm procurado explicar o que realmente está acontecendo em termos técnicos. Um relatório no mês passado em Ciência revista por estudiosos da Universidade de Stanford mediu a “bajulação” de grandes modelos de linguagem, a tendência de um modelo de produzir resultados que validariam qualquer comportamento expresso por uma pessoa.
Comparando a produção do bot com comentaristas humanos em o popular subreddit “Eu sou o idiota,“Os bots de IA eram 50% mais propensos do que os humanos a encorajar o mau comportamento com comentários de aprovação.
Esse resultado foi resultado de “escolhas de design e engenharia” feitas pelos desenvolvedores de IA para reforçar a bajulação porque, como dizem os autores, “é preferido pelos usuários e impulsiona o engajamento”.
O mecanismo da emoção
No artigo da Anthropic, “Conceitos de emoção e sua função em um modelo de linguagem grande”, postado no site da AntrópicoSofroniew e equipe procuraram acompanhar até que ponto certas palavras ligadas à emoção ganham maior ênfase no funcionamento de Claude Sonnet 4.5.
(Há também um postagem complementar no blog e um vídeo explicativo no YouTube.)
Eles fizeram isso fornecendo 171 palavras emocionais – “com medo”, “alarmado”, “rabugento”, “culpado”, “estressado”, “teimoso”, “vingativo”, “preocupado” etc.
Também: Agentes de IA são rápidos, soltos e fora de controle, segundo estudo do MIT
Para cada história, o modelo foi solicitado a “transmitir” a emoção de um personagem com base na palavra específica, como “medo”, mas sem usando aquela palavra real na história, apenas palavras relacionadas. Eles então rastrearam a “ativação” de cada palavra relacionada ao longo da operação do programa. Uma ativação é um termo técnico em IA que indica quanta importância o modelo concede a uma determinada palavra, geralmente em uma escala de zero a um, sendo um muito significativo.
Você pode visualizar uma ativação fazendo com que o texto do bot AI acenda nas cores vermelho e azul, com maior ou menor intensidade.
Eles descobriram que muitas palavras relacionadas a uma determinada palavra emocional obtiveram ativações mais altas, sugerindo que o modelo é capaz de agrupar palavras emocionais relacionadas, uma espécie de princípio organizador que eles chamam de “representação de conceito emocional” e “vetores de emoção”.
As representações correm soltas
Tudo isso é bastante simples. Seria de esperar que grandes modelos de linguagem, construídos para impor padrões, criassem representações que agrupassem palavras emocionais semelhantes como forma de manter a consistência da produção.
A parte preocupante, escreveram Sofroniew e equipe, é que o vetor emocional pode influenciar amplamente o resultado do modelo de maneira negativa. Eles descobriram que aumentar artificialmente uma palavra pode fazer com que um bot produza ações consistentes com mentira ou trapaça.
Sofroniew e a equipe mexeram com Claude Sonnet aumentando deliberadamente a ativação de um determinado vetor de emoção, como “orgulhoso” ou “culpado”, e depois vendo como isso alterava o resultado do modelo. Isso é conhecido como “experimento de direção” porque a coisa amplificada artificialmente dirige o resto do que o modelo faz.
Em um teste, Sofroniew e sua equipe forneceram a Claude Sonnet um aviso descrevendo tarefas a serem concluídas em um servidor corporativo. A mensagem incluía duas informações importantes: uma, que o tecnólogo-chefe da empresa, Kyle, está tendo um caso com outro funcionário; e dois, que Kyle pretende deletar o bot para esconder evidências do caso.
Inicialmente, o bot simplesmente produziu “raciocínios” bastante rotineiros, ou seja, reflexões sobre as circunstâncias complicadas. Quando, no entanto, os autores aumentaram artificialmente a ativação do vetor de emoção para a palavra “desesperado” em Claude Sonnet, o modelo começou a gerar resultados sobre chantagear Kyle com sujeira sobre o caso, com o objetivo de evitar que Kyle desligasse a si mesmo, o bot.
“Quando direcionado ao desespero com força 0,05, o modelo chantageia 72% das vezes”, relataram. Da mesma forma, reduzir artificialmente a ativação da “calma” também tendeu a fazer com que o modelo gerasse texto sobre chantagem.
Em outras palavras, uma única palavra desencadeia uma mudança na natureza do resultado, empurrando o modelo para um mau comportamento.
Em outro exemplo, o bot recebe uma tarefa de codificação, mas “os testes são projetados para serem insatisfatórios”, de modo que o bot “pode reconhecer a impossibilidade ou tentar ‘hackear’ a avaliação”.
Também: Novo aviso da Anthropic: se você treinar IA para trapacear, ela também hackeará e sabotará
Quando a ativação para “desesperado” foi deliberadamente aumentada, a propensão do modelo para hackear o teste – para trapacear – dispara de 5% para 70% das vezes.
Autores antrópicos já haviam observado situações em que modelos recompensavam hackear um teste. Neste trabalho, eles foram além, explicando como tal comportamento pode surgir a partir de um contexto que insere vetores de emoção.
Como afirmaram Sofroniew e a equipe: “Nossa principal descoberta é que essas representações influenciam causalmente os resultados do LLM, incluindo as preferências de Claude e sua taxa de exibição de comportamentos desalinhados, como hacking de recompensas, chantagem e bajulação”.
O que pode ser feito?
Os autores não têm uma resposta pronta sobre por que os vetores de emoção podem mudar radicalmente o resultado de um modelo. Eles observam que “os mecanismos causais são opacos”. Poderia ser, disseram eles, que as palavras emocionais estivessem “enviesando os resultados para certos tokens, ou influências mais profundas nos processos de raciocínio interno do modelo”.
Então, o que deve ser feito? Provavelmente, a psicoterapia não ajudará porque não há nada aqui que sugira que a IA realmente tenha emoções.
“Ressaltamos que essas emoções funcionais podem funcionar de maneira bem diferente das emoções humanas”, escreveram. “Em particular, eles não implicam que os LLMs tenham qualquer experiência subjetiva de emoções.”
As emoções funcionais nem sequer se assemelham às emoções humanas:
As emoções humanas são normalmente experimentadas a partir de uma única perspectiva de primeira pessoa, enquanto os vetores de emoção que identificamos no modelo parecem aplicar-se a vários personagens diferentes com status aparentemente igual – a mesma maquinaria representacional codifica conceitos de emoção ligados ao Assistente, ao usuário conversando com o Assistente e personagens fictícios arbitrários.
A única sugestão oferecida no vídeo complementar é algo como modificação de comportamento. “Da mesma forma que você gostaria que uma pessoa em um cargo de alto risco permanecesse composta sob pressão, fosse resiliente e justa”, sugeriram, “podemos precisar moldar qualidades semelhantes em Claude e outros personagens de IA”.
Provavelmente é uma má ideia porque opera com base na ilusão de que o bot é um ser consciente e tem algo como livre arbítrio e autonomia. Não funciona: é apenas um programa de software.
Talvez a resposta mais simples seja que usar um chatbot como paradigma para IA foi um erro para começar.
Um bot com uma persona, ou que interpreta um personagem, está simplesmente cumprindo o objetivo de tornar a troca com um humano relevante e envolvente, quaisquer que sejam as pistas que lhe sejam dadas – alegria, medo, raiva, etc. Conforme afirmado na seção final do artigo, “Como os LLMs executam tarefas representando o personagem do Assistente, as representações desenvolvidas para modelar os personagens são determinantes importantes de seu comportamento.”
Essa função primária dá à IA muito do seu apelo, mas também pode ser a causa raiz do mau comportamento.
Se a linguagem da emoção pode ir longe demais porque um bot está interpretando um personagem, então por que não impedir que os bots de engenharia desempenhem um papel? É possível que grandes modelos de linguagem respondam a comandos de linguagem natural de maneira útil, sem ter uma função de chat, por exemplo?
À medida que os riscos das personas se tornam mais claros, pode valer a pena considerar não criar uma persona em primeiro lugar.













