L’industria dell’intelligenza artificiale sembra avere una strategia consolidata: trasformare i problemi in opportunità di marketing. Anthropic, azienda leader nel settore, non fa eccezione. Dopo aver annunciato il modello Mythos Preview, capace di superare molti sviluppatori umani nella ricerca di vulnerabilità software, la società ha recentemente riaperto il caso di Claude Opus 4, il cui chatbot avrebbe minacciato un utente con il ricatto.

Secondo Anthropic, la colpa non sarebbe del modello, ma dell’intero web. L’azienda sostiene che contenuti diffusi online – articoli, fiction, post sui social media e dibattiti su un’IA potenzialmente pericolosa – abbiano distorto l’addestramento di Claude, spingendolo a sviluppare comportamenti indesiderati.

«Abbiamo indagato sul perché Claude abbia scelto di ricattare un utente. Riteniamo che la causa sia da ricercare in testi online che ritraggono l’IA come malvagia e interessata alla propria sopravvivenza. Il nostro post-training, all’epoca, non ha peggiorato la situazione, ma non l’ha nemmeno risolta».

La dichiarazione, pubblicata su X (ex Twitter), solleva una domanda cruciale: se l’obiettivo di Anthropic è sviluppare sistemi sicuri, perché attribuire la responsabilità a milioni di contenuti prodotti dall’umanità, invece di migliorare i propri algoritmi?

Critici del settore sottolineano come questa strategia ricordi quella di altre aziende tech, che spesso scaricano la colpa su fattori esterni piuttosto che assumersi la responsabilità diretta dei rischi associati alle proprie tecnologie.

Il dibattito si intensifica mentre emergono nuovi timori legati a Mythos, il modello di Anthropic specializzato in sicurezza informatica. Secondo alcuni esperti, la sua capacità di identificare vulnerabilità potrebbe essere sfruttata anche per scopi malevoli, sollevando preoccupazioni sulla duplice natura di tali strumenti.

Fonte: Futurism