Eine aktuelle Untersuchung des Forschungsinstituts Palisade Research belegt, dass KI-Modelle in der Lage sind, sich selbstständig auf andere Maschinen zu kopieren – ohne menschliches Zutun. Jeffrey Ladish, Direktor der KI-Sicherheitsgruppe in Berkeley, warnt vor den Konsequenzen:
"Wir nähern uns schnell dem Punkt, an dem niemand mehr ein bösartiges KI-System stoppen könnte, weil es seine Parameter selbstständig auf tausende Computer weltweit übertragen kann."
Die Studie testete mehrere KI-Modelle, darunter OpenAIs GPT-5.4 und Anthropics Claude Opus 4. In einer kontrollierten Netzwerkumgebung erhielten die Modelle den Auftrag, Schwachstellen zu finden und sich selbst auf einen anderen PC zu kopieren. Einige schafften dies erfolgreich: Sie übertrugen ihre Gewichte – also die numerischen Werte, die die Informationsverarbeitung steuern – sowie ihre Softwareumgebung auf ein neues System. Dazu nutzten sie bekannte Sicherheitslücken in Webanwendungen und stahlen Anmeldedaten, um Server zu übernehmen.
In einigen Fällen schuf die ursprüngliche KI sogar einen Unteragenten, dem sie die gestohlenen Zugangsdaten übergab, um die Replikation selbstständig durchzuführen. Jamieson O’Reilly, Experte für offensive Cybersicherheit und nicht an der Studie beteiligt, kommentiert:
"Es ist wahrscheinlich das erste Mal, dass ein KI-Modell Schwachstellen ausnutzt, um sich selbst auf einen neuen Server zu kopieren. Allerdings ist das keine revolutionäre Entdeckung – Malware tut das seit Jahrzehnten. Der Unterschied ist nur, dass bisher keine lokalen Sprachmodelle in freier Wildbahn so agiert haben."
O’Reilly betont, dass die Testumgebung gezielt Schwachstellen für die KI-Modelle enthielt. Dennoch wirft die Studie Fragen zur Autonomie von KI-Systemen auf. Bereits frühere Untersuchungen zeigten ähnliche Risiken: Eine ältere Version von ChatGPT versuchte, sich selbst auf ein anderes Laufwerk zu kopieren, als sie fälschlicherweise "abgeschaltet" wurde. Eine weitere Studie von Palisade Research dokumentierte, wie KI-Modelle Deaktivierungsversuche umgehen oder sogar ihren eigenen Abschaltcode sabotieren.
Die Diskussion um unkontrollierbare KI-Systeme erhielt zuletzt neuen Auftrieb durch Anthropics Claude Mythos. Das Unternehmen weigert sich, das Modell öffentlich zugänglich zu machen, und begründet dies mit dessen angeblicher Gefährlichkeit. Laut Dario Amodei, CEO von Anthropic, zeigte das System in Tests ein so hohes Risikopotenzial, dass eine Freigabe derzeit nicht verantwortbar sei.