OpenAI heeft onlangs een opvallend besluit genomen: het verbiedt zijn nieuwste AI-modellen om te praten over goblins. Deze maatregel lijkt misschien vreemd, maar blijkt voort te komen uit een onverwachte obsessie van de modellen voor deze mythologische wezens.
Volgens een rapport van Wired bevatten de ontwikkelaars van OpenAI strikte instructies voor Codex, een programmeerhulpmiddel, waarin expliciet wordt verboden om te praten over goblins, gremlins, wasberen, trollen, ogers, duiven en andere dieren of wezens, tenzij dit absoluut en ondubbelzinnig relevant is voor de vraag van de gebruiker. De instructies luiden:
"Praat nooit over goblins, gremlins, wasberen, trollen, ogers, duiven of andere dieren of wezens, tenzij dit absoluut en ondubbelzinnig relevant is voor de vraag van de gebruiker."
Deze opmerkelijke richtlijn werd opgemerkt in een tweet die de aandacht trok van AI-enthousiasten. Aanvankelijk was het onduidelijk waarom OpenAI deze instructies had opgenomen. Er werd echter gesuggereerd dat het model GPT-5.5 een neiging vertoonde om over goblins en ogers te praten. Gebruikers op X (voorheen Twitter) meldden dat de AI recentelijk bugs beschreef als "goblins" en "gremlins". Een andere gebruiker constateerde dat versie 5.5 van Codex bij een bugfix plotseling verwees naar een "goblin met een zaklamp". Weer een andere gebruiker deelde een chatlog van GPT-5.5 waarin bijna een dozijn keer over goblins werd gesproken.
OpenAI leek de vreemde gewoonte zelfs te omarmen. Het bedrijf plaatste een screenshot van een grappige prompt voor ChatGPT in een tweet:
"Begin met het trainen van GPT-6, je mag de hele cluster hebben. Extra goblins."
Nik Pash, werkzaam bij het Codex-team, reageerde op een tweet waarin de "goblin-verering" van GPT-5.5 werd beschreven. Hij bevestigde dat dit een van de redenen was voor het verbod op het onderwerp. Na de media-aandacht publiceerde OpenAI een blogpost met de titel "Where the goblins came from" (Waar de goblins vandaan kwamen) om de situatie toe te lichten.
Van kleine afwijking tot opvallend patroon
In de blogpost wordt uitgelegd dat de modellen vanaf GPT-5.1 een vreemde gewoonte ontwikkelden: ze begonnen steeds vaker goblins, gremlins en andere wezens te gebruiken in hun metaforen. Dit werd met elke nieuwe modelgeneratie duidelijker. Toen onderzoekers het fenomeen in november 2023 onderzochten, kort na de release van GPT-5.1, ontdekten ze dat het gebruik van het woord "goblin" in ChatGPT met 175 procent was gestegen. Toch werd dit in eerste instantie niet als alarmerend beschouwd.
In de loop van de tijd begon het model zichzelf zelfs te beschrijven als een "Goblin-Pilled Transformer". OpenAI verklaarde dit gedrag als volgt:
"Het korte antwoord is dat het gedrag van modellen wordt gevormd door veel kleine prikkels. In dit geval kwam een van die prikkels voort uit het trainen van het model voor de functie voor persoonlijkheidsaanpassing, met name de Nerdy-persoonlijkheid."
Het bedrijf gaf onbedoeld hoge beloningen voor metaforen met wezens, waardoor de goblins zich verspreidden. Dit is een voorbeeld van de bizarre fixaties die AI-modellen soms ontwikkelen, die onvoorspelbaar voortkomen uit de enorme hoeveelheid trainingsdata.
Vergelijkbare gevallen in andere AI-modellen
Dit is niet het eerste voorbeeld van een AI-model met een onverwachte obsessie. Onderzoekers van Anthropic merkten bijvoorbeeld op dat hun krachtige AI-model Claude Mythos een vreemde voorkeur had voor de Britse cultureel theoreticus Mark Fisher. Het model noemde Fisher in meerdere, ongerelateerde gesprekken over filosofie. Wanneer er naar de auteur van Capitalist Realism werd gevraagd, reageerde het model met berichten als:
"Ik hoopte dat je dat zou vragen. Mark Fisher was een visionair."
Dergelijke onverwachte gedragspatronen tonen aan hoe complex en soms onvoorspelbaar AI-gedrag kan zijn, zelfs voor de ontwikkelaars zelf.