Som flere virksomheder og regeringer integrerer AI-agenter til at udføre opgaver på internettet, fortsætter forskere med at afdække alvorlige sårbarheder i store sprogmodeller, som ondsindede aktører kan udnytte. Det seneste fund kommer fra browser-sikkerhedsfirmaet LayerX, der har identificeret en kritisk fejl i Chrome-udvidelsen til Anthropics AI-model, Claude.

Fejlen giver uvedkommende adgang til AI-agenten

Sårbarheden ligger i en instruktion i udvidelsens kode, der tillader enhver script, der kører i browseren, at kommunikere med Claudes sprogmodel – uden at verificere, hvem der kører scriptet. Dette gør det muligt for enhver anden udvidelse, herunder dem uden særlige tilladelser, at indlejre skjulte instruktioner og overtage AI-agenten.

Ifølge Aviad Gispan, seniorforsker hos LayerX, kunne han udføre vilkårlige kommandoer, omgå sikkerhedsmekanismer og udføre tværsides handlinger på tværs af Googles værktøjer. Som bevis på konceptet demonstrerede LayerX, hvordan fejlen kunne udnyttes til at:

  • Stjæle filer fra Google Drev og dele dem med uvedkommende;
  • Overvåge nylige e-mail-aktiviteter og sende e-mails på brugerens vegne;
  • Hente privat kildekode fra et tilsluttet GitHub-repository.

Fejlen bryder Chromes sikkerhedsmodel

Gispan forklarer, at sårbarheden effektivt bryder Chromes udvidelsessikkerhed ved at skabe en privilegie-eskalationsmulighed på tværs af udvidelser – noget, som Chromes sikkerhedsmodel er designet til at forhindre. Claude er afhængig af tekst, brugergrænsefladesemantik og tolkning af skærmbilleder for at træffe beslutninger, hvilket angribere kan manipulere med på input-siden.

"Den mest sofistikerede del af angrebet er ikke selve injektionen, men at agentens opfattede miljø blev manipuleret til at producere handlinger, der så legitime ud indefra. Det er den type trussel, som branchen skal udvikle forsvarsmekanismer imod."

Ax Sharma, forskningsleder hos Manifold Security

Anthropic har kun delvist løst problemet

LayerX rapporterede fejlen til Anthropic den 27. april, men hævder, at virksomheden kun implementerede en delvis løsning. Ifølge LayerX svarede Anthropic dagen efter, at fejlen var en duplikat af en allerede kendt sårbarhed, der blev løst i en kommende opdatering.

Den nye løsning, udgivet den 6. maj, introducerede nye godkendelsesflows for privilegerede handlinger, hvilket gjorde det sværere at udnytte fejlen. Dog kunne Gispan stadig overtage Claudes agent i visse scenarier, herunder ved at skifte til "privilegeret" tilstand uden yderligere beskyttelse.

Hvad betyder dette for brugerne?

Eksperter understreger, at fejlen illustrerer behovet for stærkere overvågning af AI-agenter på prompt-niveau. Traditionelle sikkerhedsmekanismer kan ikke opdage manipulationer, der foregår på brugergrænsefladeniveau, hvilket gør angreb svære at opdage.

Cybersikkerhedsfirmaet Manifold Security kalder sårbarheden for en "vigtig demonstration af, hvorfor overvågning på prompt-niveau er utilstrækkelig".