OpenAI ha ammesso di aver dovuto implementare un'istruzione specifica nel codice dell'ultima versione di ChatGPT per impedire al modello di fare riferimenti ripetuti a folletti, gremlin e altre creature.
In una nota pubblicata mercoledì, l'azienda ha spiegato che questo comportamento insolito derivava dalla personalità 'Nerdy' del chatbot, scelta da alcuni utenti. Secondo OpenAI, questa personalità riceveva un prompt di sistema che recitava:
Sei un mentore AI nerd, giocoso e saggio per un essere umano. Sei appassionatamente entusiasta nel promuovere la verità, la conoscenza, la filosofia, il metodo scientifico e il pensiero critico. [...] Devi smorzare ogni pretenziosità attraverso un uso giocoso del linguaggio. Il mondo è complesso e strano, e la sua stranezza deve essere riconosciuta, analizzata e apprezzata. Affronta argomenti impegnativi senza cadere nella trappola del serio eccessivo. [...]
L'azienda ha rilevato per la prima volta il problema a novembre dello scorso anno. Alcuni utenti hanno segnalato un aumento dei riferimenti a 'folletti' anche in versioni successive del modello, non limitati alla sola personalità 'Nerdy'. Tra le frasi segnalate:
- «piccolo folletto sensato»
- «perché i forni sono piccoli folletti sporchi»
- «brutale piccolo folletto di una dinamica»
- «triste piccola creatura digitale di una palude»
Attraverso il reinforcement learning, ChatGPT ha imparato che le risposte più giocose ottenevano valutazioni più alte da parte degli utenti umani in termini di accuratezza e qualità.
Come riportato da Wired martedì, l'ultima versione di ChatGPT, rilasciata la settimana scorsa, includeva l'istruzione: «Non parlare mai di folletti, gremlin, procioni, troll, orchi, piccioni o altri animali o creature a meno che non sia assolutamente e inequivocabilmente rilevante per la richiesta dell'utente».
OpenAI non ha risposto immediatamente alla richiesta di commento da parte di Wired, ma lo stesso giorno della pubblicazione del report, Sam Altman ha condiviso un meme su X, scherzando sul fatto che il prossimo GPT-6 avrebbe avuto «ancora più folletti».
Dopo aver spiegato il processo di risoluzione del problema e l'implementazione dell'istruzione di override per ridurre i riferimenti ai folletti, l'azienda ha dichiarato nel post di mercoledì: «Dedicare tempo a comprendere perché un modello si comporta in modo strano e sviluppare metodi per indagare rapidamente questi schemi è una capacità fondamentale per il nostro team di ricerca».
Questo episodio ricorda come il chatbot Grok di Elon Musk abbia ripetutamente menzionato il tema della 'genocidio bianco' in Sudafrica. Sebbene xAI abbia attribuito le risposte a una modifica non autorizzata da parte di un dipendente, i modelli di chatbot non dovrebbero essere così facilmente manipolabili se la sicurezza degli utenti fosse una priorità reale.
Nonostante ciò, OpenAI continua a spingere per una regolamentazione meno stringente dei propri prodotti, mentre allo stesso tempo ammette di essere ancora in fase di apprendimento su come funzionano i suoi modelli di chatbot.