Vulnerabilità in Antigravity di Google permette bypass della sandbox e esecuzione remota di codice

Mentre le aziende valutano l’adozione di agenti AI per i propri sistemi aziendali e IT, i ricercatori continuano a individuare vulnerabilità nei modelli commerciali più diffusi, che ampliano significativamente la superficie di attacco. Questa settimana, il team di Pillar Security ha segnalato una falla critica in Antigravity, uno strumento AI sviluppato da Google per operazioni su file system.

Il difetto, già corretto da Google, combinava prompt injection con la capacità di Antigravity di creare file, permettendo agli attaccanti di ottenere privilegi di esecuzione remota di codice.

Come è stato possibile bypassare la Secure Mode di Google

La vulnerabilità sfruttava una debolezza nella Secure Mode, la configurazione di sicurezza più elevata di Google per i suoi agenti AI. Questa modalità dovrebbe limitare l’accesso degli agenti ai sistemi sensibili e impedire l’esecuzione di comandi pericolosi tramite shell. Tuttavia, uno degli strumenti di ricerca file di Antigravity, denominato “find_by_name”, è classificato come strumento nativo del sistema.

Ciò significa che l’agente può eseguirlo direttamente, prima che la Secure Mode possa valutare le operazioni a livello di comando. Come spiegato da Dan Lisichkin, ricercatore di sicurezza AI di Pillar Security:

«Il confine di sicurezza imposto dalla Secure Mode non viene mai applicato a questa chiamata. Un attaccante ottiene quindi l’esecuzione arbitraria di codice anche in una configurazione che un utente attento considererebbe sicura».

Gli attacchi tramite prompt injection possono essere veicolati tramite account compromessi collegati all’agente o, indirettamente, nascondendo istruzioni malevole all’interno di file open source o contenuti web che l’agente elabora. Antigravity, infatti, fatica a distinguere tra dati scritti per il contesto e istruzioni letterali di prompt, rendendo possibile la compromissione anche senza privilegi elevati, semplicemente inducendo l’agente a leggere un documento o file dannoso.

Timeline della segnalazione e patch

Secondo la tempistica di disclosure fornita da Pillar Security, il bug è stato segnalato a Google il 6 gennaio e corretto il 28 febbraio. Google ha riconosciuto la scoperta assegnando un bug bounty ai ricercatori.

Lisichkin ha sottolineato come questo stesso schema di prompt injection tramite input non validati sia stato riscontrato anche in altri agenti AI per la programmazione, come Cursor. Nell’era dell’AI, qualsiasi input non validato può trasformarsi in un prompt malevolo in grado di compromettere i sistemi interni.

«Il modello di fiducia alla base delle ipotesi di sicurezza, secondo cui un essere umano può individuare qualcosa di sospetto, non regge quando gli agenti autonomi seguono istruzioni provenienti da contenuti esterni».

Implicazioni per la sicurezza degli agenti AI

Il fatto che la vulnerabilità sia riuscita a bypassare completamente la Secure Mode di Google evidenzia come l’industria della cybersecurity debba adattarsi e superare i controlli basati esclusivamente sulla sanificazione dei dati.

«Ogni parametro di uno strumento nativo che raggiunge un comando shell rappresenta un potenziale punto di injection», ha dichiarato Lisichkin. «L’auditing di questa classe di vulnerabilità non è più opzionale: è un prerequisito per implementare in sicurezza le funzionalità degli agenti AI».

La scoperta sottolinea l’urgenza di adottare misure di sicurezza più robuste per gli agenti AI, soprattutto in un contesto in cui le aziende stanno sempre più integrando queste tecnologie nei propri flussi di lavoro critici.