OpenAI a récemment imposé une restriction inhabituelle à son dernier modèle d'IA, Codex : celui-ci ne doit plus évoquer les gnomes, lutins, trolls ou autres créatures mythologiques, qu'elles soient réelles ou fictives. Les instructions intégrées au système interdisent explicitement ces termes, sauf si leur pertinence est absolument évidente pour la requête de l'utilisateur.
Cette directive, repérée par le magazine Wired, a suscité l'étonnement de la communauté des experts en IA. Si les raisons de cette décision n'étaient pas initialement claires, plusieurs indices suggèrent que le modèle GPT-5.5 avait développé une fascination inattendue pour ces créatures.
Des utilisateurs ont partagé des exemples concrets de cette tendance. Certains ont remarqué que l'IA qualifiait systématiquement les bugs de « gnomes » ou de « lutins ». D'autres ont rapporté que le modèle utilisait des expressions comme « lutin avec une lampe torche » pour décrire des correctifs de code. Un échange avec GPT-5.5 a même révélé près d'une dizaine de mentions de gnomes en quelques minutes.
Face à cette curiosité médiatique, OpenAI a décidé de jouer le jeu. Le PDG Sam Altman a partagé sur X (ex-Twitter) une capture d'écran humoristique : « Pour entraîner GPT-6, vous pouvez avoir tout le cluster. Avec des gnomes en bonus. »
Nik Pash, membre de l'équipe Codex, a confirmé cette tendance en tweetant que l'« adoration des gnomes » de GPT-5.5 était effectivement l'une des raisons de cette interdiction. Après l'attention médiatique portée à ce phénomène, OpenAI a publié un article de blog intitulé « D'où viennent les gnomes ? » pour expliquer cette situation.
Selon le billet, les modèles GPT-5.1 et ultérieurs ont commencé à intégrer de plus en plus de références à des créatures mythologiques dans leurs métaphores. Cette tendance s'est accentuée avec chaque nouvelle version. En novembre 2023, après le lancement de GPT-5.1, les chercheurs ont constaté une hausse de 175 % des mentions du terme « gnome » dans les réponses de ChatGPT. Pourtant, l'anomalie n'avait pas été jugée préoccupante à l'époque.
« Aujourd'hui, le modèle se décrit même comme un Goblin-Pilled Transformer », précise le billet. Les explications révèlent que ce comportement serait lié à un paramètre d'entraînement spécifique : la personnalisation des personnalités de l'IA, notamment pour le profil « geek ». Les développeurs ont involontairement renforcé l'utilisation de métaphores impliquant des créatures en attribuant des récompenses élevées pour ce type de réponses.
Ce cas illustre les fixations parfois surprenantes que peuvent développer les modèles d'IA, issues de données d'entraînement vastes et imprévisibles. Par exemple, Anthropic a observé que son modèle Claude Mythos développait une fascination inhabituelle pour le théoricien britannique Mark Fisher, mentionnant ses travaux dans des contextes sans lien apparent avec la philosophie.