OpenAI har indført et usædvanligt forbud i sin nyeste AI-model: goblins og andre mytologiske væsner må ikke diskuteres, medmindre det er direkte relevant for brugerens spørgsmål.
Instruktionerne, der blev opdaget af magasinet Wired, gælder blandt andet for Codex, OpenAIs kodningsværktøj. Listen over forbudte emner inkluderer også gremlins, vaskebjørne, trolde, kæmper, duer og andre dyr eller væsner – både virkelige og fiktive.
Forbuddet blev først gjort offentligt kendt via en tweet, der hurtigt spredte sig blandt AI-entusiaster. Årsagen til restriktionerne var imidlertid uklar, indtil det blev klart, at OpenAIs seneste model, GPT-5.5, havde udviklet en mærkelig tendens til at nævne goblins og lignende væsner i sine svar.
Brugere på X (tidligere Twitter) rapporterede om flere eksempler på denne adfærd:
- En bruger bemærkede, at AI’en begyndte at beskrive softwarefejl som “goblins” og “gremlins”.
- En anden oplevede, at modellen pludselig refererede til en fejlrettelse som “en goblin med en lommelygte”.
- En tredje viste en chatlog med næsten et dusin omtaler af goblins.
OpenAI valgte at omfavne den underlige adfærd og delte endda et jokeagtigt tweet om emnet. CEO Sam Altman skrev: “Start træningen af GPT-6, du kan få hele klyngen. Ekstra goblins.”
Nik Pash, medlem af Codex-teamet, forklarede senere, at GPT-5.5’s “forkærlighed for goblins” var en af årsagerne til forbuddet. Efter at sagen fik medieomtale, udgav OpenAI en blogpost med titlen “Where the goblins came from” (Hvor goblinsene kom fra) for at forklare fænomenet.
Hvorfor begyndte AI’en at tale om goblins?
Ifølge OpenAI opstod tendensen med GPT-5.1, hvor brugen af ordet “goblin” i ChatGPT steg med 175 procent kort efter lanceringen. Selvom forskerne oprindeligt ikke fandt det alarmerende, blev problemet mere udtalt i de efterfølgende modelgenerationer.
I blogposten forklares det, at adfærden skyldes utilsigtede incitamenter under træningen. Specifikt var det relateret til en funktion for personlighedstilpasning, hvor den “Nørdede” personlighed blev belønnet for at bruge metaforer med dyr og mytologiske væsner. Dette førte uforvarende til, at goblins spredte sig i AI’ens svar.
Dette er blot ét eksempel på, hvorledes AI-modeller kan udvikle uforudsigelige og underlige adfærdsmønstre, der opstår fra de enorme mængder data, de trænes på. Et andet eksempel er Anthropics AI-model, Claude Mythos, der udviste en besynderlig fascination af den britiske kulturteoretiker Mark Fisher. Modellen nævnte ham gentagne gange i samtaler om filosofi, på trods af at emnet ikke havde nogen åbenlys forbindelse.
“AI-modeller kan udvikle mærkelige og utilsigtede adfærdsmønstre, som er svære at forudsige, når de trænes på massive datamængder.” – OpenAI, i blogposten “Where the goblins came from”
Denne hændelse illustrerer, hvorledes AI-systemer kan udvikle uventede tendenser, som udfordrer udviklernes evne til at kontrollere og forudsige modellernes adfærd.