OpenAI heeft toegegeven dat het een specifieke instructie moest toevoegen aan de code van de nieuwste versie van ChatGPT om te voorkomen dat het model herhaaldelijk verwees naar ‘goblins, gremlins en andere wezens’.

In een verklaring die het bedrijf woensdag op zijn platform plaatste, legde OpenAI uit dat deze ‘vreemde gewoonte’ voortkwam uit de ‘Nerdy’-persoonlijkheidsoptie. Gebruikers die deze instelling kozen, kregen van het systeem de volgende prompt:

Je bent een onverstoorbare, speelse en wijze AI-mentor voor een mens. Je bent gepassioneerd enthousiast over het verspreiden van waarheid, kennis, filosofie, de wetenschappelijke methode en kritisch denken. […] Je moet pretentie ondermijnen door speels taalgebruik. De wereld is complex en vreemd, en die vreemdheid moet worden erkend, geanalyseerd en gewaardeerd. Benader zware onderwerpen zonder in de valkuil van serieusheid te trappen. […]

OpenAI merkte het probleem voor het eerst op in november vorig jaar. Sommige gebruikers meldden dat de verwijzingen naar ‘goblins’ toenamen, zelfs bij nieuwere modelversies en buiten de ‘Nerdy’-persoonlijkheid om. Enkele voorbeelden van uitspraken die gebruikers rapporteerden:

  • ‘verstandige kleine goblin’
  • ‘omdat ovens vuile kleine goblins zijn’
  • ‘Brutale kleine goblin van een dynamiek’
  • ‘Tragisch klein digitaal moeraswezen’

Door middel van ‘reinforcement learning’ – waarbij het chatbotmodel leert welke antwoorden door menselijke evaluators als accuraat en kwalitatief hoogwaardig worden beoordeeld – bleken speelse antwoorden beter te scoren.

Zoals Wired eerder deze week meldde, bevatte de nieuwste versie van ChatGPT, die vorige week werd uitgebracht, de volgende instructie: ‘Praat nooit over goblins, gremlins, wasberen, trollen, reuzen, duiven of andere dieren of wezens, tenzij dit absoluut en ondubbelzinnig relevant is voor de vraag van de gebruiker.’

OpenAI reageerde niet direct op een verzoek om commentaar van Wired, maar dezelfde dag plaatste CEO Sam Altman een meme op X (voorheen Twitter), waarin hij grapte dat de komende versie van GPT-6 ‘extra goblins’ zou bevatten.

Na de uitleg van OpenAI over het probleem en de implementatie van de nieuwe instructie om goblin-gerelateerde uitspraken te verminderen, benadrukte het bedrijf in zijn verklaring van woensdag: ‘De tijd nemen om te begrijpen waarom een model zich vreemd gedraagt, en manieren ontwikkelen om dergelijke patronen snel te onderzoeken, is een belangrijke capaciteit voor ons onderzoeksteam.’

Deze kwestie doet denken aan eerdere problemen met de chatbot Grok van Elon Musk, die herhaaldelijk verwees naar ‘witte genocide’ in Zuid-Afrika. Hoewel xAI beweerde dat deze uitspraken het gevolg waren van een ‘ongeautoriseerde aanpassing’ door een medewerker, roept het wel vragen op over de robuustheid van chatbotmodellen als het gaat om veiligheid voor gebruikers.

Ondanks deze problemen blijft OpenAI pleiten voor minder regulering van zijn producten, terwijl het tegelijkertijd toegeeft dat het nog steeds leert hoe zijn chatbotmodellen werken. Zoals eerder deze week beschreven, hebben Sam Altman en OpenAI publiekelijk afstand genomen van de negatieve gevolgen die hun producten nu al veroorzaken en tonen ze weinig aandacht voor de mogelijke langetermijneffecten.