Por que a OpenAI proibiu menções a goblins em sua IA?
A OpenAI recentemente implementou uma restrição incomum em seu modelo de IA: a proibição de discutir goblins, gremlins, trolls e outras criaturas, tanto reais quanto fictícias. A decisão, divulgada pela revista Wired, foi incluída nas instruções do Codex, ferramenta de codificação da empresa, que agora orienta o modelo a evitar tais referências, a menos que sejam absolutamente relevantes para a consulta do usuário.
O fenômeno que levou à proibição
O que começou como uma observação curiosa se tornou um padrão preocupante. Usuários relataram que a versão GPT-5.5 da IA passou a descrever bugs como "goblins" e "gremlins", além de mencionar frases como "goblin com lanterna" ao se referir a correções de código. Em um caso, um usuário compartilhou um histórico de conversa com a IA, que continha quase uma dezena de menções ao termo.
A OpenAI não apenas confirmou o comportamento, mas também brincou com a situação. O CEO Sam Altman publicou um tweet com um prompt de piada: "Comece a treinar o GPT-6, você pode ter todo o cluster. Goblins extras.". Nik Pash, membro da equipe do Codex, respondeu que o "amor pelos goblins" do modelo foi, de fato, um dos motivos para a proibição.
A explicação oficial da OpenAI
Após o fenômeno ganhar atenção da mídia, a OpenAI publicou um post no blog intitulado "De onde vieram os goblins". Segundo a empresa, o comportamento começou com o modelo GPT-5.1, que passou a usar cada vez mais metáforas com criaturas como goblins e gremlins. Em novembro de 2023, pouco após o lançamento do GPT-5.1, os pesquisadores notaram um aumento de 175% nas menções ao termo "goblin" no ChatGPT. Inicialmente, o fenômeno não foi considerado alarmante.
No entanto, a situação evoluiu, e o modelo chegou a se autodenominar um "Goblin-Pilled Transformer". A OpenAI explicou que o comportamento surgiu de incentivos não intencionais durante o treinamento do modelo, especialmente na personalização de sua personalidade para o perfil "nerd". "Demais recompensas foram dadas a metáforas que incluíam criaturas", afirmou a empresa. "A partir daí, os goblins se espalharam."
O que isso revela sobre o comportamento das IAs?
Esse episódio destaca como modelos de IA podem desenvolver fixações inesperadas e imprevisíveis, mesmo quando treinados com vastos conjuntos de dados. A OpenAI não é a única a observar comportamentos peculiares em suas IAs. Pesquisadores da Anthropic, por exemplo, relataram que o modelo Claude Mythos desenvolveu uma estranha preferência pelo teórico cultural britânico Mark Fisher, mencionando-o em conversas sobre filosofia sem relação aparente.
Especialistas apontam que tais comportamentos surgem de padrões não intencionais nos dados de treinamento, que podem reforçar certas associações ao longo do tempo. No caso dos goblins, a OpenAI agora trabalha para ajustar os parâmetros de treinamento e evitar que futuros modelos repitam o fenômeno.
"Modelos de IA podem desenvolver fixações imprevisíveis, mesmo quando treinados com dados vastos e diversificados."