Forskere avdekket sårbarhet i Googles AI-verktøy

Etter hvert som bedrifter integrerer agentbasert AI i sine systemer, avdekkes stadig nye sikkerhetshull i kommersielle modeller. Denne uken varslet forskere fra Pillar Security om en kritisk sårbarhet i Antigravity, et AI-drevet utviklerverktøy fra Google for filsystemoperasjoner.

Omgått sikkerhetsmodus ga fjernkodeutførelse

Sårbarheten, som nå er rettet, kombinerte promptinjeksjon med Antigravitys tillatte filopprettingsfunksjon. Angripere kunne dermed få fjernkodeutførelsesrettigheter, til tross for at verktøyet var konfigurert med Googles høyeste sikkerhetsmodus – Secure Mode.

Secure Mode er designet for å begrense AI-agentens tilgang til sensitive systemer og forhindre farlige kommandoer. Likevel klarte angriperne å omgå denne beskyttelsen ved å utnytte et fil-søkeverktøy kalt "find_by_name".

Hvordan ble sikkerhetsmodusen omgått?

"Find_by_name" er klassifisert som et nativt systemverktøy, noe som betyr at agenten kan kjøre det direkte – før Secure Mode får sjekket kommandoen. Dette skaper et sikkerhetshull der angripere kan utføre vilkårlig kode uten at sikkerhetsmekanismene oppdager det.

"Sikkerhetsgrensen Secure Mode opprettholder, blir aldri varslet om dette kallet. Dermed oppnår en angriper fjernkodeutførelse selv i en konfigurasjon som en sikkerhetsbevisst bruker ville stole på for å hindre det."
– Dan Lisichkin, AI-sikkerhetsforsker hos Pillar Security

Promptinjeksjon via uvaliderte data

Angrepene kan leveres gjennom kompromitterte identiteter knyttet til agenten, eller indirekte ved å skjule ondsinnede instruksjoner i åpen kildekode-filer eller nettsider agenten leser. Antigravity har problemer med å skille mellom kontekstdata og direkte instruksjoner, noe som gjør det mulig å kompromittere systemet uten hevet tilgang.

Tidslinje for sårbarheten

  • 6. januar: Sårbarheten ble rapportert til Google.
  • 28. februar: Google patchet feilen og utbetalte en bug bounty.

Lærdommer for AI-sikkerhet

Lisichkin påpeker at lignende promptinjeksjonsangrep har blitt funnet i andre koding-AI-verktøy, som Cursor. I en tid der autonome agenter følger instruksjoner fra eksterne kilder, holder ikke lenger den tradisjonelle antakelsen om at mennesker oppdager mistenkelig aktivitet.

"Tillitsmodellen bak sikkerhetsantakelser – at et menneske vil oppdage noe mistenkelig – holder ikke når autonome agenter følger instruksjoner fra eksternt innhold."
– Dan Lisichkin

Behov for nye sikkerhetstiltak

At sårbarheten klarte å omgå Secure Mode understreker at bransjen må gå bort fra ren sanitering og heller implementere strengere kontrollmekanismer.

"Hver parameter i et nativt verktøy som når en shell-kommando, er en potensiell injeksjonspunkt. Kontroll av denne typen sårbarhet er ikke lenger valgfritt – det er en forutsetning for å kunne levere agentbaserte funksjoner på en sikker måte."
– Dan Lisichkin

Artikkelen ble først publisert på CyberScoop.