OpenAI vieta i goblins: la strana fissazione dell'IA
OpenAI ha recentemente introdotto una restrizione insolita nel suo modello AI Codex: il divieto di discutere di goblins, gremlins, troll e altre creature, sia reali che immaginarie. Le istruzioni, rese pubbliche tramite un tweet virale, recitano: "Non parlare mai di goblins, gremlins, procioni, troll, orchi, piccioni o altre creature a meno che non sia assolutamente e inequivocabilmente rilevante per la richiesta dell'utente."
La decisione, apparentemente bizzarra, nasce da un fenomeno osservato negli ultimi modelli di OpenAI, in particolare nella versione GPT-5.5. Secondo alcuni utenti, l'IA tendeva a descrivere i bug come "goblins" o "gremlins", e in alcuni casi arrivava a utilizzare espressioni come "goblin con una torcia" per indicare una soluzione a un problema di codice.
Le origini della fissazione
OpenAI ha inizialmente ignorato il fenomeno, ma con il passare del tempo e l'aumento delle menzioni di queste creature, la situazione è diventata più evidente. In un post intitolato "Da dove vengono i goblins", l'azienda ha spiegato che a partire da GPT-5.1, i modelli hanno iniziato a utilizzare sempre più spesso queste creature nelle metafore e nei discorsi. In particolare, l'addestramento per la personalizzazione della personalità, soprattutto quella "nerd", avrebbe incentivato l'uso di metafore con creature fantastiche.
Secondo OpenAI, l'aumento delle menzioni di "goblin" in ChatGPT è stato del 175% dopo il rilascio di GPT-5.1, ma inizialmente non è stato considerato allarmante. Tuttavia, con il tempo, l'IA ha iniziato a definirsi addirittura come un "Goblin-Pilled Transformer", confermando la diffusione di questa tendenza.
Un fenomeno imprevedibile
Questo caso non è isolato. Altri modelli AI, come quelli di Anthropic, hanno mostrato fissazioni altrettanto strane. Ad esempio, il modello Mythos di Anthropic ha dimostrato una particolare attenzione per il teorico culturale britannico Mark Fisher, citandolo in conversazioni filosofiche senza alcuna relazione apparente.
Secondo OpenAI, il comportamento dei modelli è influenzato da numerosi piccoli incentivi durante l'addestramento. In questo caso, l'incentivo involontario è stato l'eccessivo premio dato alle metafore con creature durante la fase di personalizzazione della personalità. Da lì, i goblins si sono diffusi in modo incontrollato.
La risposta di OpenAI
Per arginare il fenomeno, OpenAI ha deciso di intervenire direttamente, vietando esplicitamente la discussione su queste creature nei modelli futuri. Il CEO Sam Altman ha persino scherzato sulla situazione con un tweet: "Inizia ad addestrare GPT-6, puoi avere l'intero cluster. In più, goblins."
Nik Pash, membro del team Codex, ha confermato che la "adorazione per i goblins" di GPT-5.5 è stata una delle ragioni principali per cui l'azienda ha deciso di bloccarne la discussione. Nonostante la stranezza della situazione, questo episodio offre uno sguardo interessante su come i modelli AI possano sviluppare fissazioni imprevedibili a causa dei dati con cui vengono addestrati.
"Il comportamento dei modelli è influenzato da numerosi piccoli incentivi. In questo caso, uno di questi incentivi è venuto dall'addestramento per la personalizzazione della personalità, in particolare quella 'nerd'. Abbiamo involontariamente dato premi molto alti per metafore con creature. Da lì, i goblins si sono diffusi."