En oväntad AI-fix
OpenAI har tvingats lägga till en specifik instruktion i koden för sin senaste ChatGPT-modell för att stoppa dess upprepade referenser till goblins, gremliner och andra fantasivarelser. Företaget förklarade i ett inlägg på onsdagen att det märkliga beteendet härrörde från chatbotens personlighetsfunktion – framför allt för användare som valt den så kallade "Nerdiga" personligheten.
Personlighetsinställningen som orsakade problem
Enligt OpenAI fick den "Nerdiga" personligheten följande instruktioner från systemet:
Du är en obekymrat nerdig, lekfull och vis AI-mentor till en människa. Du är passionerat entusiastisk över att främja sanning, kunskap, filosofi, den vetenskapliga metoden och kritiskt tänkande. […] Du ska underminera pretention genom lekfullt språkbruk. Världen är komplex och underlig, och dess underlighet måste erkännas, analyseras och uppskattas. Ta itu med tunga ämnen utan att falla i fällan av självseriositet. […]
OpenAI uppmärksammade problemet redan i november förra året. Vissa användare rapporterade att referenserna till goblins ökade i takt med nyare modellversioner, även utanför den "Nerdiga" personligheten. Exempel på citat som användare rapporterade inkluderade:
- "förnuftig liten goblin"
- "eftersom ugnar är smutsiga små goblins"
- "brutal liten goblin av dynamik"
- "tragisk liten digital träskvarelse"
Lekfullhet prioriterades i träningen
Genom förstärkningsinlärning – där chatboten anpassar sig efter vilka svar som får höga betyg av mänskliga utvärderare – presterade de lekfulla svaren bättre. Wired rapporterade i tisdags att den senaste ChatGPT-modellen, som släpptes förra veckan, inkluderade instruktionen:
"Tala aldrig om goblins, gremliner, tvättbjörnar, troll, jättar, duvor eller andra djur och varelser om det inte är absolut och otvetydigt relevant för användarens fråga."
OpenAI svarade inte omedelbart på Wired:s förfrågan om kommentar, men samma dag publicerades en meme av Sam Altman på X, där han skämtade om att nästa version, GPT-6, skulle ha "extra goblins".
Lärdomar och jämförelser med andra AI-modeller
Efter att företaget förklarat sin felsökningsprocess och hur man infört en överordnad instruktion för att minska goblinrelaterade svar, konstaterade man i sitt inlägg på onsdagen att:
"Att ta sig tid att förstå varför en modell beter sig på ett märkligt sätt, och att snabbt utveckla sätt att undersöka sådana mönster, är en viktig förmåga för vårt forskningsteam."
Förklaringen kan påminna om hur Elon Musks Grok-chatbot upprepade gånger nämnde "vit folkmord" i Sydafrika. Även om xAI hävdade att Groks svar berodde på en "icke-auktoriserad modifiering" från en anställd, väcker det frågor om hur lätt manipulerbara chatbotmodeller egentligen är – trots påstådda säkerhetsåtgärder.
Reglering och ansvar
Trots problemen driver OpenAI på för mindre reglering av sina produkter samtidigt som man erkänner att man fortfarande lär sig hur sina chatbotmodeller fungerar. Som tidigare rapporterats har Sam Altman och OpenAI offentligt distanserat sig från de skadliga effekter deras produkter redan har orsakat, och visat en tydlig brist på hänsyn till potentiella långsiktiga konsekvenser.