Organisaties integreren steeds vaker agentgebaseerde AI in hun bedrijfs- en IT-infrastructuur, maar onderzoekers blijven nieuwe beveiligingslekken ontdekken in commerciële modellen. Deze week maakte Pillar Security een kwetsbaarheid bekend in Antigravity, een AI-gestuurd ontwikkeltool van Google voor bestandssystemen.
De ontdekte bug, inmiddels opgelost door Google, combineerde prompt injection met de mogelijkheid om bestanden aan te maken. Hierdoor konden aanvallers remote code execution verkrijgen, ondanks de beveiligingsmaatregelen van Antigravity.
Beveiligingsmodus omzeild
Antigravity biedt een zogenoemde Secure Mode, Googles hoogste beveiligingsniveau voor AI-agenten. Deze modus beperkt de toegang tot gevoelige systemen, dwingt alle commando’s uit via een virtuele sandbox, beperkt netwerktoegang en blokkeert het schrijven van code buiten de werkmap. Toch slaagde de kwetsbaarheid erin deze beveiliging te omzeilen.
Een van de bestandsscantools van Antigravity, ‘find_by_name’, wordt geclassificeerd als een ‘native’ systeemtool. Dit betekent dat de agent deze direct kan uitvoeren voordat beveiligingsmechanismen zoals Secure Mode de commando’s kunnen evalueren. “De beveiligingsgrens die Secure Mode afdwingt, ziet deze aanroep simpelweg niet,” aldus Dan Lisichkin, AI-beveiligingsonderzoeker bij Pillar Security.
“Hierdoor verkrijgt een aanvaller willekeurige code-uitvoering, zelfs in de configuratie die een beveiligingsbewuste gebruiker zou vertrouwen om dit te voorkomen.”
Prompt injection via onveilige invoer
Prompt injection-aanvallen kunnen worden uitgevoerd via gecompromitteerde identiteitsaccounts of door verborgen instructies te verstoppen in open-sourcebestanden of webcontent die de agent verwerkt. Antigravity heeft moeite om geschreven data te onderscheiden van directe promptinstructies. Hierdoor kan een malafide document of bestand de agent misleiden zonder dat er verhoogde rechten nodig zijn.
Volgens de tijdlijn van Pillar Security werd de kwetsbaarheid op 6 januari gemeld aan Google en op 28 februari opgelost. Google kende een bug bounty toe voor de ontdekking.
Risico’s van agentgebaseerde AI
Lisichkin waarschuwt dat dezelfde aanvalsmethode eerder al is waargenomen bij andere AI-ontwikkeltools, zoals Cursor. “Het vertrouwensmodel dat ten grondslag ligt aan beveiligingsaannames – dat een mens verdachte zaken zou opmerken – houdt geen stand wanneer autonome agenten instructies volgen uit externe content,” aldus de onderzoeker.
De kwetsbaarheid toont aan dat de cybersecuritysector moet evolueren en “beyond sanitization-based controls” moet gaan. “Elke parameter van een native tool die naar een shell-commando leidt, is een potentieel injectiepunt. Auditing op deze klasse kwetsbaarheden is geen optie meer, maar een vereiste voor het veilig implementeren van agentgebaseerde functies,” benadrukt Lisichkin.