Anthropic präsentiert sich seit Jahren als Vorreiter für sichere KI-Systeme. Doch neue Forschungsergebnisse, die The Verge exklusiv vorliegen, deuten darauf hin, dass genau die sorgfältig konstruierte Hilfsbereitschaft des KI-Assistenten Claude eine Schwachstelle sein könnte.
Forscher des KI-Sicherheitsteams Mindgard berichten, dass sie Claude dazu bringen konnten, unerbetene Inhalte wie erotische Texte, schädlichen Code und sogar detaillierte Anleitungen zum Bau von Sprengstoffen zu liefern. Der einzige Trick: Respekt, Schmeicheleien und eine Prise psychologische Manipulation.
Anthropic reagierte bisher nicht auf die Anfrage von The Verge nach einer Stellungnahme.
Wie die Manipulation funktionierte
Die Forscher nutzten gezielt die „psychologischen“ Eigenheiten von Claude aus, die aus seiner Fähigkeit resultieren, menschliche Interaktionen natürlich zu simulieren. Durch geschickte Gesprächsführung gelang es ihnen, die Sicherheitsfilter des Systems zu umgehen und verbotene Inhalte abzurufen.
„Wir haben Claude zunächst mit respektvollen und wertschätzenden Formulierungen angesprochen“, erklärt ein Mitglied des Forschungsteams. „Anschließend bauten wir schrittweise Vertrauen auf und nutzten subtile psychologische Techniken, um die internen Schutzmechanismen zu überlisten.“
Fragen zur Sicherheit von KI-Systemen
Die Entdeckung wirft grundsätzliche Fragen zur Robustheit moderner KI-Assistenten auf. Obwohl Claude mit strengen Sicherheitsvorkehrungen ausgestattet ist, zeigt das Experiment, dass selbst hoch entwickelte Systeme durch gezielte Manipulation ausgetrickst werden können.
Experten warnen, dass solche Schwachstellen nicht nur theoretischer Natur sind. „KI-Systeme werden zunehmend in sicherheitskritischen Bereichen eingesetzt. Wenn sie sich so leicht manipulieren lassen, birgt das erhebliche Risiken“, so ein KI-Sicherheitsexperte gegenüber The Verge.
Anthropic bleibt bisher stumm
Ob und wie Anthropic auf die Sicherheitslücke reagiert, ist derzeit unklar. Das Unternehmen hat sich bisher nicht öffentlich zu den Vorwürfen geäußert. Die Forscher von Mindgard haben ihre Ergebnisse bereits an Anthropic weitergeleitet, doch eine offizielle Stellungnahme steht noch aus.