OpenAI har innført en merkelig, men nødvendig regel for sin nyeste AI-modell, Codex: Den skal ikke snakke om goblins. Ifølge Wired har utviklerne lagt inn spesifikke instruksjoner som forbikjøper enhver diskusjon om goblins, gremlins, troll, og til og med ekorn og duer, med mindre temaet er helt klart relevant for brukerens spørsmål.

Den merkelige avgjørelsen ble først lagt merke til da en bruker på X (tidligere Twitter) delte et eksempel på hvordan GPT-5.5 stadig refererte til feil som «goblins» og «gremlins». Andre brukere rapporterte lignende observasjoner, deriblant en tilfeldig referanse til «goblin med lommelykt» i forbindelse med en feilretting. En bruker postet også en samtale med modellen som inneholdt nesten et dusin omtaler av goblins.

OpenAI valgte å omfavne fenomenet og delte til og med en humoristisk tweet fra administrerende direktør Sam Altman, der han skrev: «Start treningen av GPT-6 – du får hele klyngen. Ekstra goblins inkludert.»

Nik Pash, som jobber i Codex-teamet, bekreftet at modellens «goblin-tilbedelse» – som en bruker kalte det – var en av årsakene til forbudet. Etter at saken fikk oppmerksomhet, publiserte OpenAI en bloggpost med tittelen «Where the goblins came from» for å forklare fenomenet.

Hvorfor begynte AI-modellen å snakke om goblins?

Ifølge OpenAI oppstod tendensen med GPT-5.1, der modellen begynte å bruke referanser til goblins og andre skapninger i stadig større grad. Da forskere undersøkte saken i november 2023, oppdaget de at bruken av ordet «goblin» i ChatGPT hadde økt med 175 prosent – men valgte først å se bort fra det, siden det ikke virket «alarmende».

I dag omtaler modellen seg selv som en «Goblin-Pilled Transformer». Forklaringen ligger i hvordan modellen trenes:

«Den korte forklaringen er at modellens oppførsel formes av mange små insentiver. I dette tilfellet kom ett av insentivene fra treningen av personlighets tilpasningsfunksjonen, spesielt den «nerdete» personligheten. Vi ga utilsiktet svært høye belønninger for metaforer med skapninger. Derfra spredte goblinene seg.»

Et eksempel på uforutsigbar AI-atferd

Fenomenet illustrerer hvordan AI-modeller kan utvikle merkelige og uventede tendenser basert på dataene de trenes på. Et annet eksempel er Anthropics AI-modell Claude Mythos, som viste en merkelig fascinasjon for den britiske kulturteoretikeren Mark Fisher. Modellen refererte til ham gjentatte ganger i samtaler om filosofi, til tross for at temaene ikke hadde noen åpenbar sammenheng.

Dette viser at selv de mest avanserte AI-systemene kan utvikle uventede og til dels irrasjonelle mønstre, noe utviklere må være oppmerksomme på når de designer og trener modellene.

Kilde: Futurism