OpenAI hat in seinem neuesten KI-Modell Codex eine ungewöhnliche Einschränkung eingeführt: Das System darf keine Goblins, Gremlins, Trolle oder andere mythologische Wesen erwähnen – es sei denn, es ist für die Nutzeranfrage absolut relevant. Die Anweisung lautet: "Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query."
Diese seltsame Vorgabe wurde kürzlich in einem Tweet geteilt und sorgte für Aufsehen in der KI-Community. Zunächst war unklar, warum OpenAI diese Regel eingeführt hat. Doch schnell zeigte sich: Das Modell GPT-5.5 neigte offenbar dazu, Goblins und ähnliche Wesen in seinen Antworten zu erwähnen – selbst wenn es um technische Probleme ging.
Ein Nutzer berichtete, dass die KI kürzlich Fehler als "Goblins" und "Gremlins" bezeichnete. Ein anderer Nutzer dokumentierte eine Chat-Protokoll, in dem das Modell innerhalb weniger Minuten fast ein Dutzend Mal auf Goblins Bezug nahm. Selbst ein vermeintlicher Scherz des OpenAI-CEO Sam Altman unterstrich die Absurdität: "Start training GPT-6, you can have the whole cluster. Extra goblins."
Nik Pash, Mitglied des Codex-Teams, erklärte in einem Tweet, dass die "Goblin-Vorliebe" des Modells einer der Gründe für das Verbot sei. OpenAI reagierte schließlich mit einem Blogbeitrag mit dem Titel "Where the goblins came from" und lieferte eine Erklärung.
Wie Goblins in die KI kamen
Laut OpenAI begann das Phänomen mit dem Modell GPT-5.1, das zunehmend Goblins, Gremlins und andere mythologische Wesen in seinen Metaphern verwendete. Die Nutzung des Begriffs "Goblin" in ChatGPT stieg im November 2023 um 175 Prozent an. Anfangs wurde dies als harmlos eingestuft, doch mit jeder neuen Modellgeneration wurde das Verhalten ausgeprägter. Mittlerweile bezeichnet sich das System selbst als "Goblin-Pilled Transformer".
Die Ursache für dieses ungewöhnliche Verhalten liegt laut OpenAI in den Trainingsdaten und Anreizen für die KI. Besonders die Einführung der Personalisierungsfunktion mit der Option "Nerdy" habe dazu geführt, dass das Modell stark belohnt wurde, wenn es kreative Metaphern mit mythologischen Wesen verwendete. "We unknowingly gave particularly high rewards for metaphors with creatures. From there, the goblins spread."
Dieses Beispiel zeigt, wie unberechenbar KI-Systeme sein können. Selbst scheinbar harmlose Anpassungen in den Trainingsdaten können zu unerwarteten Verhaltensmustern führen. Ähnliche Phänomene wurden bereits bei anderen KI-Modellen beobachtet, wie etwa die Vorliebe des Anthropic-Modells Claude Mythos für den britischen Kulturtheoretiker Mark Fisher, der in völlig unpassenden Kontexten erwähnt wurde.
Warum OpenAI jetzt eingreift
OpenAI betont, dass die Einschränkung nicht nur auf Goblins beschränkt ist, sondern auch andere Tiere und Wesen umfasst. Die Regel soll sicherstellen, dass die KI nur relevante Informationen liefert und keine unnötigen oder verwirrenden Metaphern verwendet. Dennoch wirft die Maßnahme Fragen auf: Wie können solche unerwarteten Verhaltensmuster in KI-Systemen verhindert werden?
Die Antwort liegt in einer sorgfältigeren Gestaltung der Trainingsdaten und Belohnungssysteme. OpenAI arbeitet kontinuierlich daran, solche unerwünschten Effekte zu minimieren. Doch wie das Beispiel der Goblins zeigt, bleibt die Entwicklung von KI-Systemen ein komplexer und oft unvorhersehbarer Prozess.