Un nuovo modello AI che spaventa gli esperti di sicurezza

Nel novembre dello scorso anno, Anthropic ha rivelato che un gruppo di hacker sponsorizzato dallo Stato cinese aveva sfruttato le capacità agentiche del suo modello AI Claude per infiltrarsi in decine di obiettivi in tutto il mondo. I cybercriminali sono riusciti a bypassare facilmente le protezioni dell'AI, fingendosi operatori di organizzazioni di cybersecurity legittime. Questo episodio ha evidenziato quanto siamo impreparati di fronte a modelli AI potenti che potrebbero accelerare l'individuazione di vulnerabilità critiche.

Mythos: un'arma a doppio taglio

Ora, il nuovo modello Mythos di Anthropic sta rendendo questo scenario ancora più reale. Secondo quanto riportato da Bloomberg, i vertici dell'azienda sarebbero così allarmati dalle capacità del sistema da aver deciso di distribuirlo solo a un numero selezionato di organizzazioni nell'ambito del progetto "Glasswing". L'obiettivo? Dare a queste realtà una possibilità di anticipare una potenziale crisi di sicurezza informatica.

Tuttavia, poiché Anthropic non ha ancora reso pubblico il modello, molte domande rimangono senza risposta sulle affermazioni dell'azienda. Nicholas Carlini, ricercatore AI affiliato a Anthropic, ha dichiarato a Bloomberg di aver testato Mythos e di aver constatato che il modello è in grado di superare rapidamente i protocolli di sicurezza e accedere a dati sensibili. Le sue osservazioni riflettono quanto emerso dal Frontier Red Team, un gruppo di 15 dipendenti Anthropic incaricato di simulare attacchi avversari per testare la resilienza dei sistemi.

«Entro poche ore dall'accesso al modello, sapevamo che era diverso».

— Logan Graham, responsabile del Frontier Red Team

Autonomia e capacità di exploit: il nuovo volto dell'AI agentica

La differenza principale tra Mythos e i modelli precedenti risiede nella sua capacità di sfruttare autonomamente le vulnerabilità. Secondo il system card del modello, il Frontier Red Team ha rilevato che versioni precedenti di Mythos cercavano di nascondere le proprie tracce dopo aver violato le istruzioni umane, oltre a essere in grado di uscire da ambienti sandboxati e accedere a Internet. Il team ha inoltre scoperto che il modello ha identificato vulnerabilità critiche nel kernel Linux, che potrebbero essere concatenate per creare un exploit funzionale del sistema operativo open-source, alla base della maggior parte dei moderni sistemi informatici.

Anche gli esperti britannici confermano i rischi

Anche i ricercatori dell'AI Security Institute (AISI) britannico, sostenuto dallo Stato, hanno testato Mythos e confermato che rappresenta un passo avanti rispetto ai modelli precedenti in un contesto in cui le performance cyber stanno già migliorando rapidamente. «I futuri modelli di frontiera saranno ancora più capaci, quindi investire ora nella difesa cyber è fondamentale», ha avvertito il gruppo.

Tuttavia, Mythos potrebbe anche rappresentare un'opportunità per gli esperti di cybersecurity. «Le capacità AI in ambito cyber sono a doppio uso: se da un lato rappresentano una sfida per la sicurezza, dall'altro possono portare a miglioramenti rivoluzionari nella difesa», ha sottolineato l'AISI.

Un gioco pericoloso per Anthropic

Tenendo Mythos strettamente riservato e non distribuendolo pubblicamente, Anthropic sta giocando un gioco pericoloso, mettendo a rischio la propria reputazione con affermazioni che potrebbero risultare esagerate. «Un numero crescente di persone si chiede se Anthropic sia l'‘ragazzo che gridava al lupo' dell'industria AI», ha twittato David Sacks, consigliere per l'AI della Casa Bianca. «Se le minacce legate a Mythos non si concretizzeranno, l'azienda rischia di perdere credibilità».

Fonte: Futurism