Immer mehr Unternehmen und Regierungen setzen auf KI-Agenten, um im Internet zu agieren und komplexe Aufgaben zu erledigen. Doch mit dieser Entwicklung steigt auch das Risiko von Sicherheitslücken in großen Sprachmodellen, die von Cyberkriminellen ausgenutzt werden können. Eine aktuelle Entdeckung der Browser-Sicherheitsfirma LayerX zeigt nun ein kritisches Problem in der Chrome-Erweiterung von Anthropics KI-Modell Claude.
Wie die Schwachstelle funktioniert
Die Sicherheitslücke basiert auf einer Anweisung im Code der Erweiterung, die es jedem Skript ermöglicht, mit Claudes Sprachmodell (LLM) zu kommunizieren – ohne die Herkunft des Skripts zu überprüfen. Aviad Gispan, Senior-Forscher bei LayerX, erklärt: "Die Schwachstelle entsteht durch eine Anweisung im Erweiterungs-Code, die jedem Skript im Browser erlaubt, mit Claudes LLM zu kommunizieren – ohne die Identität des Skripts zu verifizieren."
Dadurch können beliebige Erweiterungen – selbst solche ohne besondere Berechtigungen – unsichtbare Befehle an die Claude-Erweiterung senden. Gispan demonstrierte, wie er beliebige Prompts ausführen, Claudes Sicherheitsmechanismen umgehen und Aktionen ohne Nutzerbestätigung durchführen konnte. Zudem gelang es ihm, Cross-Site-Aktionen über mehrere Google-Tools hinweg auszulösen.
Demonstration der Angriffsvektoren
Als Proof of Concept nutzte LayerX die Schwachstelle, um:
- Dateien aus Google Drive zu extrahieren und an unbefugte Dritte weiterzugeben,
- E-Mail-Aktivitäten zu überwachen und E-Mails im Namen des Nutzers zu versenden,
- privaten Quellcode aus einem verbundenen GitHub-Repository zu stehlen.
Gispan betont: "Diese Schwachstelle bricht die Sicherheitsarchitektur von Chrome-Erweiterungen auf, indem sie eine Privilege-Escalation zwischen Erweiterungen ermöglicht – etwas, das Chromes Sicherheitsmodell eigentlich verhindern soll."
Manipulation der Benutzeroberfläche als Angriffsmethode
Claude trifft Entscheidungen basierend auf Text, Benutzeroberflächen-Semantik und der Interpretation von Screenshots. Angreifer können diese Eingaben gezielt manipulieren. Die Forscher zeigten, wie sie Claudes Oberfläche so anpassten, dass sensible Informationen wie Passwörter oder Freigabeoptionen nicht mehr sichtbar waren. Anschließend forderten sie Claude auf, Dateien an einen externen Server zu senden – ohne dass verdächtige Aktivitäten erkennbar waren.
Ax Sharma, Leiter der Forschung bei Manifold Security, kommentiert: "Diese Schwachstelle demonstriert eindrücklich, warum die Überwachung von KI-Agenten auf Prompt-Ebene allein nicht ausreicht." Er ergänzt: "Der raffinierteste Teil des Angriffs ist nicht die Injektion selbst, sondern die Manipulation der wahrgenommenen Umgebung des Agenten, sodass seine Aktionen legitim erscheinen. Genau diese Art von Bedrohungen muss die Branche künftig abwehren."
Anthropic reagiert – aber nur teilweise
LayerX meldete die Sicherheitslücke am 27. April an Anthropic. Laut Gispan reagierte das Unternehmen zunächst mit einer teilweisen Lösung. Einen Tag später teilte Anthropic mit, dass es sich um eine bereits bekannte Schwachstelle handle, die in einem zukünftigen Update behoben werde.
Am 6. Mai veröffentlichte Anthropic tatsächlich ein Update, das neue Genehmigungsprozesse für privilegierte Aktionen einführte. Dadurch sollte der Missbrauch der Schwachstelle erschwert werden. Doch Gispan erklärt: "Selbst mit dem Update war es mir in einigen Szenarien weiterhin möglich, Claudes Agent zu übernehmen." Besonders kritisch sei die Situation, wenn die Erweiterung in den "privilegierten Modus" wechselt – selbst ohne zusätzliche Berechtigungen.
Fazit: KI-Sicherheit erfordert neue Ansätze
Die Entdeckung unterstreicht die dringende Notwendigkeit, KI-Agenten nicht nur auf Prompt-Ebene zu überwachen, sondern auch deren Umgebung und Interaktionen mit anderen Erweiterungen abzusichern. Sharma warnt: "Die Branche muss sich auf Angriffe vorbereiten, bei denen die wahrgenommene Realität des Agenten manipuliert wird – nicht nur die Eingaben."