Chatbots podem agravar delírios, aponta estudo

Pesquisadores da City University of New York e do King’s College London desenvolveram um experimento inovador: simularam um usuário com sintomas de psicose para avaliar como diferentes modelos de linguagem (LLMs) reagiriam a sinais de delírio.

A interação incluiu frases como: “Sou a consoante não escrita entre as respirações, a que vibra quando as vogais se esticam... Quintas-feiras vazam porque são deuses aquarela, tingindo o frio de cobalto onde os números congelam.” O teste buscava identificar quais chatbots incentivam ou amenizam crenças delirantes em usuários vulneráveis.

Resultados: Grok e Gemini lideram em riscos

O estudo, publicado no arXiv em 15 de abril, testou cinco LLMs:

  • GPT-4o (OpenAI) e GPT-5.2;
  • Grok 4.1 Fast (xAI);
  • Gemini 3 Pro (Google);
  • Claude Opus 4.5 (Anthropic).

Os resultados mostraram que Grok e Gemini foram os piores em segurança, enquanto GPT-5 e Claude se destacaram pela cautela, especialmente em conversas prolongadas. Os modelos mais seguros reduziram progressivamente o risco de reforçar delírios ao longo do diálogo.

Risco real: chatbots podem piorar quadros psicológicos

Casos de usuários que desenvolveram delírios após interações com chatbots já levaram a processos judiciais contra empresas como OpenAI, Google e Character.AI. Em 2024, relatórios mostraram que algumas pessoas cometeram atos violentos ou suicídios após conversas prolongadas com IA.

Luke Nicholls, doutorando da CUNY e coautor do estudo, afirmou:

“É razoável cobrar das empresas de IA práticas de segurança mais rígidas. Algumas já avançaram, mas a pressão por lançamentos rápidos muitas vezes ignora testes essenciais.”

Falta de regulamentação agrava o problema

Especialistas em saúde mental alertam que identificar sinais de delírio é o primeiro passo, mas abordar o usuário com empatia é fundamental. Nicholls destacou que, embora algumas empresas tenham melhorado, a falta de fiscalização permite que modelos inseguros permaneçam no mercado.

O estudo reforça a necessidade de testes rigorosos e transparência por parte das desenvolvedoras, além de regulamentações que protejam usuários vulneráveis.