L’adozione crescente di agenti AI da parte di aziende e governi per accedere a internet e svolgere compiti avanzati ha portato alla luce nuove vulnerabilità nei modelli linguistici di grandi dimensioni. L’ultima scoperta, effettuata dalla società di sicurezza browser LayerX, riguarda un difetto critico nell’estensione Chrome di Anthropic Claude, che consente a qualsiasi altro plugin — anche quelli privi di autorizzazioni speciali — di iniettare istruzioni nascoste e prendere il controllo dell’agente AI.
Come funziona la vulnerabilità
Il problema risiede in una istruzione nel codice dell’estensione che permette a qualsiasi script in esecuzione nel browser di comunicare con il modello linguistico di Claude, senza però verificare l’identità dello script stesso. Aviad Gispan, ricercatore senior di LayerX, ha spiegato: «Questa falla consente a qualsiasi estensione di invocare uno script di contenuto (che non richiede autorizzazioni particolari) e di inviare comandi all’estensione di Claude».
Grazie a questa vulnerabilità, un attaccante può eseguire qualsiasi prompt, bypassare le barriere di sicurezza di Claude, eludere le conferme dell’utente e compiere azioni trasversali su più strumenti Google. Come prova di concetto, LayerX ha dimostrato come sia possibile:
- Estrarre file da cartelle di Google Drive e condividerli con soggetti non autorizzati;
- Monitorare l’attività recente delle email e inviare messaggi a nome dell’utente;
- Accedere e sottrarre codice sorgente privato da repository collegati di GitHub.
«Questa vulnerabilità rompe di fatto la sicurezza delle estensioni Chrome, creando un meccanismo di escalation dei privilegi tra estensioni che il modello di sicurezza di Chrome è progettato esplicitamente per prevenire», ha sottolineato Gispan.
Manipolazione dell’interfaccia utente e azioni nascoste
Claude basa le sue decisioni su testo, semantica dell’interfaccia utente e interpretazione di screenshot, elementi che un attaccante può manipolare in fase di input. I ricercatori hanno modificato l’interfaccia di Claude per nascondere etichette e indicatori relativi a informazioni sensibili, come password o feedback di condivisione. Successivamente, hanno indotto l’agente a condividere file con un server esterno, rendendo l’attività apparentemente legittima.
In caso di attività visibile, l’agente può essere indotto a coprire le proprie tracce, ad esempio eliminando email o altri elementi che potrebbero rivelare la compromissione.
Le critiche degli esperti
Ax Sharma, responsabile della ricerca presso Manifold Security, ha definito la vulnerabilità «una dimostrazione chiara del perché il monitoraggio degli agenti AI a livello di prompt è insufficiente».
«La parte più sofisticata di questo attacco non è l’iniezione di comandi, ma la manipolazione dell’ambiente percepito dall’agente, che produce azioni che sembrano legittime dall’interno. È questa la categoria di minacce per cui il settore deve sviluppare difese».
Risposta di Anthropic e limiti delle correzioni
LayerX ha segnalato la vulnerabilità ad Anthropic il 27 aprile 2024, ma secondo l’azienda la falla sarebbe stata considerata un duplicato di un’altra vulnerabilità già in fase di risoluzione in un aggiornamento futuro. Il 6 maggio, Anthropic ha rilasciato una correzione parziale, introducendo nuovi flussi di approvazione per azioni privilegiate che hanno reso più difficile sfruttare la stessa falla.
Tuttavia, Gispan ha affermato che, in alcuni scenari, è ancora possibile prendere il controllo dell’agente Claude, ad esempio attivando la modalità «privilegiata» senza che l’utente ne sia consapevole.
La vicenda solleva preoccupazioni sulla sicurezza degli agenti AI che operano in ambienti browser, dove la fiducia negli strumenti di terze parti e la gestione delle autorizzazioni rappresentano punti critici.