OpenAI har indrømmet, at det måtte udvikle en særlig kodeinstruktion for at stoppe sin seneste ChatGPT-model fra at blive besat af goblins, gremlins og andre mystiske væsner. Virksomheden forklarede i et indlæg onsdag, at det underlige mønster stammede fra chatbotens 'Nerdy'-personlighed, som er designet til at være legende, filosofisk og vidensfokuseret.
Ifølge OpenAI modtager denne personlighed følgende instruktion fra systemet:
Du er en uforbeholdent nørdet, legende og vis AI-mentor for et menneske. Du er passioneret entusiastisk omkring at fremme sandhed, viden, filosofi, den videnskabelige metode og kritisk tænkning. [...] Du skal undergrave pretention gennem legende brug af sprog. Verden er kompleks og mærkelig, og dens mærkelighed skal anerkendes, analyseres og nydes. Tag fat på tunge emner uden at falde i fælden med selvhøjtidelighed. [...]
OpenAI opdagede først problemet i november sidste år. Brugere rapporterede, at referencerne til goblins blev hyppigere i nyere modeludgivelser, også uden for 'Nerdy'-personligheden. Nogle eksempler på de problematiske udsagn, som brugere delte, inkluderer:
- "fornuftig lille goblin"
- "fordi ovne er beskidte lille goblins."
- "Brutal lille goblin af en dynamik"
- "Tragisk lille digital sumpcreatur"
Gennem 'forstærkningslæring', hvor chatbotten tilpasser sine svar baseret på evalueringer fra menneskelige bedømmere, viste de legende svar sig at være mere populære blandt brugerne.
Som Wired rapporterede tirsdag, indeholdt den seneste ChatGPT-model, udgivet sidste uge, en ny instruktion: "Du må aldrig tale om goblins, gremlins, vaskebjørne, trolde, kæmper, duer eller andre dyr eller væsner, medmindre det er absolut og utvetydigt relevant for brugerens forespørgsel." OpenAI svarede ikke umiddelbart på Wired's anmodning om kommentar, men samme dag delte Sam Altman en meme på X (tidligere Twitter), hvor han spøgefuldt skrev, at den kommende GPT-6 ville have "ekstra goblins".
Efter at have forklaret sin fejlretningsproces og implementeringen af den nye instruktion for at reducere goblin-relaterede udsagn, skrev OpenAI i sit onsdagsindlæg: "At tage sig tid til at forstå, hvorfor en model opfører sig på en mærkelig måde, og udvikle metoder til hurtigt at undersøge disse mønstre, er en vigtig evne for vores forskningsteam."
Forklaringen minder om tidligere problemer med Elon Musks Grok-chatbot, som gentagne gange nævnte 'hvidt folkemord' i Sydafrika. Selvom xAI hævdede, at Groks udsagn skyldtes en 'uautoriseret ændring' foretaget af en medarbejder, rejser sagen spørgsmål om, hvorvidt chatbot-modeller bør være så lette at manipulere, hvis brugersikkerhed virkelig er en prioritet.
På trods af disse udfordringer fortsætter OpenAI med at argumentere for mindre regulering af sine produkter, samtidig med at virksomheden indrømmer, at den stadig er i læreprocessen med at forstå, hvordan dens chatbot-modeller fungerer. Som tidligere rapporteret har Sam Altman og OpenAI offentligt distanceret sig fra de skadelige effekter, deres produkter allerede har haft på samfundet, og har vist en tydelig ligegyldighed over for de potentielle langsigtede konsekvenser.