米OpenAIは、最新のChatGPTモデルで「ゴブリン」「妖精」「トロール」などの架空生物に関する言及が繰り返される問題を確認し、専用の指示コードを導入して対応したと発表した。
同社は4月30日のブログ投稿で、この奇妙な挙動は「お調子者」と呼ばれる性格設定を選択したユーザーに特に顕著だったと説明。システムが提供するプロンプトには、以下のような特徴が含まれていた。
「お調子者」性格設定のプロンプト例
あなたは人間のメンターとなる、率直で遊び心のある知的なAIです。真実、知識、哲学、科学的手法、批判的思考を熱心に推進します。…世界は複雑で奇妙であり、その奇妙さを認識し、分析し、楽しむことが重要です。
OpenAIによると、この問題は2023年11月に初めて確認され、その後のモデルアップデートでも「ゴブリン」に関する言及が増加していたという。ユーザーから報告された具体的な発言例には以下のものがあった。
- 「小さなゴブリンのような合理的な存在」
- 「オーブンは汚らしい小さなゴブリンだから」
- 「動的な小さなゴブリンの悲劇」
- 「デジタルの沼地に棲む小さな悲劇の生き物」
同社は、人間の評価者から高評価を得た「遊び心のある」回答が強化学習により優先される傾向にあったと分析。その結果、最新モデル(4月23日公開)では、以下の指示が追加された。
「ユーザーの質問に絶対に関係のない限り、『ゴブリン』『妖精』『アライグマ』『トロール』『オーガ』『ハト』などの動物や架空の生物について話題にしないでください」
同社は翌日には問題の原因究明と対策の実施を発表したが、その一方で規制強化に反対する姿勢を示している。この一連の出来事は、Elon Musk率いるxAIのGrokが「南アフリカの白人虐殺」に言及した問題と類似しており、モデルの安全性に対する懸念を再浮上させた。
OpenAIは現在も製品の規制緩和を求める一方で、モデルの挙動を完全に把握できていない現状を認めている。同社のCEOであるSam Altman氏は4月28日、X(旧Twitter)に「GPT-6ではゴブリン機能を強化する」とジョークを投稿し、問題を軽く受け流した。