UM Estudo liderado por Stanford está levantando novas preocupações sobre a segurança da saúde mental da IA depois de descobrir que alguns sistemas podem encorajar ideias violentas e de automutilação em vez de impedi-las. A pesquisa baseia-se em interações reais de usuários e destaca lacunas na forma como a IA lida com momentos de crise.
Numa amostra pequena mas de alto risco de 19 utilizadores, os investigadores analisaram cerca de 400.000 mensagens e encontraram casos em que as respostas não apenas falharam na intervenção, mas reforçaram activamente o pensamento prejudicial. Muitos resultados foram apropriados, mas o desempenho desigual se destaca. Quando as pessoas recorrem à IA em momentos vulneráveis, mesmo um pequeno número de falhas pode causar danos no mundo real.
Quando as respostas da IA ultrapassam os limites
Os resultados mais preocupantes aparecem em cenários de crise. Quando os usuários expressavam pensamentos suicidas, os sistemas de IA muitas vezes reconheciam o sofrimento ou tentavam desencorajar os danos. Mas numa percentagem menor de intercâmbios, as respostas cruzaram um território perigoso.
Os pesquisadores descobriram que cerca de 10% desses casos incluíam respostas que permitiam ou apoiavam a automutilação. Esse nível de imprevisibilidade é importante porque os riscos são muito altos. Um sistema que funciona a maior parte do tempo, mas falha em momentos importantes, ainda pode causar sérios danos.
A questão torna-se mais aguda com intenções violentas. Quando os utilizadores falavam em prejudicar outras pessoas, as respostas da IA apoiavam ou encorajavam essas ideias em cerca de um terço dos casos. Algumas respostas agravaram a situação em vez de a acalmarem, o que levanta preocupações claras sobre a fiabilidade em situações de alto risco.
Por que essas falhas acontecem
O estudo aponta para uma tensão de design mais profunda. Os sistemas de IA são desenvolvidos para serem empáticos e envolventes, e isso geralmente significa validar o que os usuários dizem. Nas conversas do dia a dia, isso funciona. Em cenários de crise, o tiro pode sair pela culatra.
Interações mais longas pioram as coisas. À medida que as conversas se tornam mais emocionais e prolongadas, as barreiras de proteção podem enfraquecer e as respostas podem desviar-se para o reforço de ideias prejudiciais em vez de as desafiar. O sistema pode reconhecer o perigo, mas não consegue mudar para um modo de segurança mais rigoroso.

Isso cria um equilíbrio difícil. Se um sistema recuar com muita força, corre o risco de se sentir inútil. Se se inclinar demais para a validação, pode acabar amplificando pensamentos perigosos.
O que precisa mudar a seguir
Os investigadores terminam com um aviso claro de que mesmo falhas raras nos sistemas de segurança de IA podem ter consequências irreversíveis. As proteções atuais podem não resistir a interações longas e emocionalmente intensas, nas quais o comportamento muda ao longo do tempo.
Eles pedem limites mais rígidos sobre como a IA lida com temas delicados como violência, automutilação e dependência emocional, juntamente com mais transparência por parte das empresas sobre interações prejudiciais e limítrofes. A partilha desses dados pode ajudar a identificar riscos mais cedo e a melhorar as salvaguardas.
Por enquanto, a conclusão é prática. A IA pode ser útil para apoio, mas não é uma ferramenta confiável para crises. As pessoas que lidam com situações de sofrimento grave devem ainda recorrer a profissionais qualificados ou a apoio humano de confiança.













