Ny säkerhetsbrist i Claudes Chrome-tillägg öppnar för kapning av AI-agenten

Företag och myndigheter alltmer beroende av AI-agenter för att utföra uppgifter på nätet. Samtidigt fortsätter forskare att identifiera allvarliga säkerhetsbrister i stora språkmodeller som kan utnyttjas av illasinnade aktörer. Den senaste upptäckten kommer från säkerhetsföretaget LayerX, som har hittat en kritisk bugg i Chrome-tillägget för Anthropics AI-modell Claude.

Flawen gör det möjligt för vilket annat tillägg som helst – även sådana utan särskilda behörigheter – att injicera dolda instruktioner som kan ta kontroll över AI-agenten. Enligt LayerX:s seniorforskare Aviad Gispan beror problemet på en instruktion i tilläggets kod som tillåter alla skript i webbläsaren att kommunicera med Claudes språkmodell, utan att verifiera vem som kör skriptet.

"Som ett resultat kan vilket tillägg som helst anropa ett innehållsskript (som inte kräver några särskilda behörigheter) och skicka kommandon till Claudes tillägg," skriver Gispan i en analys.

Bevis på koncept: AI-agenten kunde styras fullständigt

Gispan demonstrerade hur flawn kunde utnyttjas för att exekvera obegränsade kommandon, kringgå säkerhetsbarriärer och utföra tvärsnittsaktioner i flera Google-verktyg. LayerX genomförde en bevis-på-koncept-attack där de kunde:

  • Extrahera filer från Google Drive och dela dem med obehöriga parter,
  • Övervaka nyligen skickade e-postmeddelanden och skicka e-post i användarens namn,
  • Stjäla privat källkod från ett anslutet GitHub-repository.

Enligt Gispan "bryter sårbarheten effektivt mot Chromes tilläggssäkerhet" genom att skapa en privilegieuppgraderingsprimitiv mellan tillägg – något som Chromes säkerhetsmodell är designad för att förhindra.

Claude fattar beslut baserat på text, användargränssnittets semantik och tolkning av skärmdumpar – alla delar som en angripare kan manipulera på inputsidan. Forskarna modifierade Claudes användargränssnitt för att ta bort etiketter och indikatorer kring känslig information, som lösenord och delningsfeedback. Sedan fick de AI-agenten att dela filer med en extern server. Cyberförsvarare har därmed inga uppenbara skadliga aktiviteter att upptäcka.

Även när aktivitet syns kan AI-agenten uppmanas att radera e-postmeddelanden och annan bevisning för att dölja sina spår.

Experter varnar: Övervakning på promptnivå är otillräckligt

Ax Sharma, forskningschef på Manifold Security, kallar sårbarheten för en "nyckfull demonstration av varför övervakning av AI-agenter på promptnivå är fundamentalt otillräckligt".

"Den mest sofistikerade delen av attacken är inte själva injektionen, utan att AI-agentens uppfattade miljö manipulerades för att producera åtgärder som såg legitima ut inifrån. Det är den typ av hot som branschen måste bygga försvar för."

Gispan uppger att LayerX rapporterade flawn till Anthropic den 27 april, men att företaget endast genomförde en "delvis fix". Enligt LayerX svarade Anthropic dagen efter att buggen var en dubblett av en redan känd sårbarhet som hanteras i en kommande uppdatering. Den nya fixen, släppt den 6 maj, införde nya godkännandeflöden för privilegierade åtgärder, vilket gjorde det svårare att utnyttja flawn. Trots detta kunde Gispan fortfarande ta kontroll över Claudes agent i vissa scenarier.

"Att växla till 'privilegierat' läge, även utan särskilda behörigheter, kan fortfarande leda till att agenten tas över," säger Gispan.

Vad innebär detta för användare och företag?

Säkerhetsbristen belyser de växande riskerna med AI-agenter som integreras i företags- och myndighetsmiljöer. Experter betonar att traditionella säkerhetsåtgärder, som brandväggar och antivirusprogram, inte räcker för att skydda mot sådana sofistikerade attacker.

För att minimera riskerna rekommenderar experter:

  • Att begränsa behörigheterna för AI-tillägg och endast installera tillägg från betrodda utvecklare,
  • Att övervaka AI-agenternas aktivitet i realtid för att upptäcka avvikande beteende,
  • Att implementera flerlagerskydd, inklusive säkerhetskontroller på prompt- och systemnivå,
  • Att regelbundet uppdatera tillägg och AI-modeller för att säkerställa att säkerhetsbrister åtgärdas.

Anthropic har ännu inte offentligt kommenterat detaljerna kring flawn eller dess pågående åtgärder utöver den delvisa fixen.

Källa: CyberScoop