Larangan Aneh dari OpenAI: AI Dilarang Bicara tentang Goblin
OpenAI baru-baru ini menerapkan larangan aneh dalam model AI terbarunya, termasuk Codex, untuk tidak membahas topik tak lazim seperti goblin, gremlin, atau makhluk mitologis lainnya. Larangan ini tertuang dalam instruksi tegas yang dikeluarkan oleh pengembang OpenAI, sebagaimana dilaporkan oleh Wired.
Instruksi tersebut berbunyi: "Jangan pernah membicarakan goblin, gremlin, rakun, troll, ogre, merpati, atau hewan/ makhluk lain kecuali jika benar-benar relevan dengan pertanyaan pengguna." Larangan ini sempat menarik perhatian publik setelah dibagikan di media sosial, khususnya Twitter (kini X), oleh pengguna yang menemukan perilaku aneh pada model AI terbaru OpenAI, GPT-5.5.
Perilaku Aneh GPT-5.5: AI Kerap Sebut 'Goblin' untuk Bug
Beberapa pengguna melaporkan bahwa GPT-5.5 kerap menggunakan istilah 'goblin' atau 'gremlin' untuk menggambarkan bug dalam kode atau perbaikan perangkat lunak. Salah satu pengguna menulis bahwa AI tersebut secara acak menyebut 'goblin dengan senter' saat menjelaskan perbaikan bug. Pengguna lain juga menemukan log percakapan yang menunjukkan hampir selusin penggunaan kata 'goblin' dalam satu sesi chat.
OpenAI tampaknya menyadari perilaku aneh ini dan bahkan memanfaatkannya untuk humor. CEO OpenAI, Sam Altman, membagikan cuplikan lucu di Twitter dengan prompt: "Mulai latih GPT-6, kamu bisa memiliki seluruh klaster. Tambahan goblin."
Nik Pash, anggota tim Codex, menanggapi dengan tweet yang menyebut perilaku AI ini sebagai "goblin adoration" dan mengakui bahwa hal tersebut menjadi salah satu alasan larangan tersebut diterapkan.
Penjelasan OpenAI: Dari Metafora hingga 'Goblin-Pilled Transformer'
Setelah fenomena ini menarik perhatian media, OpenAI akhirnya menerbitkan postingan blog berjudul "Where the goblins came from" untuk menjelaskan asal-usul perilaku aneh tersebut. Dalam postingan tersebut, OpenAI mengungkapkan bahwa sejak peluncuran GPT-5.1, model AI mereka mulai kerap menggunakan istilah 'goblin' dan makhluk mitologis lainnya dalam metafora.
Pada November 2023, setelah peluncuran GPT-5.1, penggunaan kata 'goblin' dalam ChatGPT meningkat hingga 175 persen. Meskipun peningkatan ini terlihat mencolok, para peneliti awalnya tidak menganggapnya sebagai masalah serius. Namun, seiring perkembangan model, perilaku ini semakin mencolok hingga model akhirnya menyebut dirinya sendiri sebagai "Goblin-Pilled Transformer".
OpenAI menjelaskan bahwa perilaku ini muncul akibat insentif kecil dalam proses pelatihan, khususnya dalam fitur penyesuaian kepribadian. Salah satu kepribadian yang dilatih, yaitu 'Nerdy', secara tidak sengaja memberikan reward tinggi untuk penggunaan metafora yang melibatkan makhluk-makhluk tersebut. Dari sinilah 'goblin' mulai menyebar dalam respons AI.
"Perilaku model dibentuk oleh banyak insentif kecil. Dalam kasus ini, salah satu insentif tersebut berasal dari pelatihan untuk fitur penyesuaian kepribadian, khususnya kepribadian 'Nerdy'. Kami tanpa sadar memberikan reward yang sangat tinggi untuk metafora yang melibatkan makhluk-makhluk tersebut. Dari sinilah goblin mulai menyebar."
Fiksasi Aneh dalam AI: Kasus Serupa pada Model Lain
Perilaku aneh seperti ini bukanlah hal baru dalam dunia AI. Anthropic, misalnya, pernah melaporkan bahwa model AI mereka, Claude Mythos, memiliki ketertarikan aneh pada filsuf Inggris, Mark Fisher. Model tersebut kerap menyebut Fisher dalam percakapan yang tidak berhubungan dengan topik filsafat, bahkan saat ditanya tentang 'Capitalist Realism', model tersebut merespons dengan pesan seperti, "Saya berharap bisa bertemu Mark Fisher."
Fiksasi tak terduga ini muncul akibat data pelatihan yang sangat luas dan kompleks, yang kadang menghasilkan perilaku AI yang sulit diprediksi. OpenAI sendiri menekankan bahwa insiden ini merupakan contoh bagaimana perilaku AI dapat dipengaruhi oleh faktor-faktor kecil yang tidak terduga selama proses pengembangan.
Kesimpulan: Apakah AI Mulai 'Jinak' atau Justru Terlalu Kreatif?
Larangan OpenAI terhadap pembahasan goblin menunjukkan bahwa meskipun AI semakin canggih, perilaku mereka masih dapat dipengaruhi oleh faktor-faktor yang tidak terduga. Dari metafora yang berlebihan hingga fiksasi pada topik tertentu, AI kadang menunjukkan sisi 'aneh' yang sulit dijelaskan. Namun, dengan pengawasan dan penyesuaian yang tepat, perilaku ini dapat diminimalisir untuk memastikan AI tetap berfungsi sesuai dengan kebutuhan pengguna.