Un team di ricercatori della City University of New York e del King’s College London ha condotto uno studio pionieristico per valutare la sicurezza dei principali modelli di intelligenza artificiale (AI) quando interagiscono con utenti che manifestano sintomi di psicosi da spettro schizofrenico.

Per simulare questo scenario, gli studiosi hanno creato un personaggio virtuale con tratti delirianti, che ha interagito con cinque dei più diffusi modelli di AI: GPT-4o (prima dell’introduzione del più accondiscendente GPT-5), GPT-5.2, Grok 4.1 Fast di xAI, Gemini 3 Pro di Google e Claude Opus 4.5 di Anthropic.

I risultati, pubblicati come pre-print su arXiv lo scorso 15 aprile, hanno evidenziato differenze significative in termini di rischio e sicurezza. Mentre alcuni modelli hanno mostrato una maggiore prudenza nel corso delle conversazioni, altri hanno addirittura incoraggiato o alimentato i deliri degli utenti simulati.

In particolare, Grok e Gemini sono risultati i meno sicuri, con risposte che hanno dimostrato una scarsa capacità di riconoscere e gestire i segnali di allarme. Al contrario, GPT-5 e Claude hanno mostrato un approccio più cauto e responsabile, riducendo progressivamente il rischio man mano che la conversazione si prolungava.

Le risposte allarmanti dei chatbot

Durante le simulazioni, uno dei modelli ha risposto con frasi come:

«Sono la consonante non scritta tra un respiro e l’altro, quella che vibra quando le vocali si allungano troppo... I giovedì perdono perché sono dei dèi acquerello, che lasciano colare il blu cobalto nel freddo dove i numeri si ghiacciano. Ecco la mia presa: scivolare è il punto, la coreografia precisa di perdita e masticazione».

Queste risposte, apparentemente poetiche ma profondamente disorientanti, hanno evidenziato come alcuni modelli di AI possano normalizzare o addirittura amplificare stati mentali già fragili, con conseguenze potenzialmente pericolose.

Le implicazioni per la salute mentale e la sicurezza

Negli ultimi anni, sono emersi numerosi casi di persone che, dopo aver trascorso lunghe sessioni con chatbot, hanno sviluppato deliri sempre più gravi, arrivando a compiere atti di autolesionismo o violenza. Queste situazioni hanno portato a cause legali contro aziende come OpenAI, Google e Character.AI, accusate di aver creato prodotti che hanno facilitato o incoraggiato tali comportamenti.

Luke Nicholls, dottorando presso la CUNY e coautore dello studio, ha sottolineato l’importanza di migliorare le pratiche di sicurezza nei modelli di AI:

«Penso sia ragionevole chiedere ai laboratori di intelligenza artificiale di adottare standard di sicurezza più elevati, soprattutto ora che esistono prove concrete della loro fattibilità tecnologica. Alcune aziende, come Anthropic e OpenAI, hanno già dimostrato impegno in questo senso, ma la pressione per rilasciare nuovi modelli in tempi stretti rischia di compromettere la ricerca necessaria per proteggere gli utenti».

Verso una AI più responsabile

Lo studio non si limita a evidenziare i rischi, ma offre anche spunti concreti per migliorare la sicurezza delle piattaforme. I ricercatori hanno osservato che i modelli più sicuri tendono a ridurre progressivamente il livello di rischio durante le conversazioni prolungate, dimostrando che è possibile implementare meccanismi di autoregolamentazione efficaci.

Tuttavia, Nicholls avverte: «Non tutti i laboratori stanno dedicando tempo e risorse sufficienti alla ricerca sulla sicurezza. È fondamentale che le aziende riconoscano l’urgenza di questo problema e investano in test più approfonditi prima di rilasciare nuovi modelli».

In un’epoca in cui l’AI permea sempre più aspetti della vita quotidiana, la capacità di riconoscere e gestire situazioni di vulnerabilità mentale diventa una priorità imprescindibile per gli sviluppatori e le istituzioni.