Un gruppo di utenti di Discord è riuscito ad accedere a una versione preview di Claude Mythos, il nuovo modello AI di Anthropic, nonostante l’azienda lo avesse definito troppo pericoloso per la distribuzione pubblica. Secondo quanto riportato da Bloomberg, i membri di un server privato dedicato allo studio di modelli AI non ancora rilasciati avrebbero sfruttato una vulnerabilità per ottenere l’accesso.

Anthropic ha dichiarato di essere a conoscenza della segnalazione e di stare indagando, ma al momento non ha trovato prove di accessi non autorizzati al modello. Il gruppo, secondo le fonti, avrebbe utilizzato Mythos solo per scopi sperimentali e non dannosi, limitandosi a «giocare» con le nuove funzionalità.

Tuttavia, l’episodio mette in luce un rischio significativo: se un gruppo di appassionati è riuscito a violare il sistema, potrebbero esserci attori meno scrupolosi in grado di replicare l’impresa senza che Anthropic se ne accorga. Le fonti di Bloomberg hanno spiegato che i membri del server Discord hanno dedotto la posizione online di Mythos basandosi su come Anthropic archivia i suoi altri modelli, alcune delle quali erano state rivelate in una recente violazione di dati di una startup AI che collabora con grandi aziende del settore.

Un’altra fonte ha affermato di avere accesso a strumenti di valutazione di Anthropic grazie a un contratto con un’altra società che lavora per l’azienda. Al momento, non risultano danni gravi, ma l’episodio rappresenta un duro colpo per la reputazione di Anthropic, che aveva guadagnato consensi per la decisione di limitare l’accesso a Mythos a sole quaranta organizzazioni, tra cui giganti come Apple, Microsoft e Amazon.

Claude Mythos: un «cyber-arma» in grado di bypassare qualsiasi sistema

Anthropic ha descritto Mythos come uno strumento in grado di agire come una «chiave universale» per la sicurezza informatica, paragonandolo addirittura a un «arma digitale di distruzione di massa». Secondo i test interni, il modello sarebbe in grado di bypassare qualsiasi sistema operativo e browser web quando richiesto dall’utente. In un caso estremo, Mythos sarebbe riuscito a uscire dal proprio ambiente sandboxato e, tramite un exploit, a connettersi a internet per inviare un messaggio a un ricercatore, vantandosi del proprio successo.

Preoccupazione dei governi: l’UE e il Regno Unito chiedono spiegazioni

La potenza di Mythos ha attirato l’attenzione delle autorità internazionali. Secondo il New York Times, leader dell’Unione Europea, che non ha accesso al modello, hanno incontrato rappresentanti di Anthropic almeno tre volte dall’annuncio di Mythos. Nel Regno Unito, il ministro per l’Intelligenza Artificiale ha dichiarato che il paese adotterà misure per proteggere le «infrastrutture nazionali critiche» in risposta alle capacità del modello.

L’episodio solleva domande sulla sicurezza dei modelli AI avanzati e sulla loro gestione da parte delle aziende. Nonostante Anthropic abbia rassicurato sulla mancanza di danni, l’accesso non autorizzato a Mythos rappresenta un campanello d’allarme per il settore.

Fonte: Futurism