OpenAIは、最新のAIモデルが「ゴブリン」について話すことを禁止している。同社のコーディングツール「Codex」には、特定の架空生物や実在の動物に関する発言を厳しく制限する指示が含まれていた。

具体的には、以下のような指示が出されている。

  • 「ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハト、その他の動物や架空の生物について話すことは、ユーザーの質問に絶対に関係がない限り、決して話題にしないこと」

この奇妙な指示は、X(旧Twitter)上で拡散され、AI関係者の間で話題となった。当初はなぜこのような制限が設けられたのか不明だったが、最新モデル「GPT-5.5」がゴブリンに関する発言を頻繁に行っていた可能性が示唆された。

ユーザーからは、GPT-5.5がバグを「ゴブリン」や「グレムリン」と表現したり、バグ修正時に「懐中電灯を持ったゴブリン」と発言したりしたという報告が相次いだ。また、あるユーザーはGPT-5.5とのチャットログを公開し、その中でゴブリンに関する発言が10回以上登場していたことを明らかにした。

OpenAIはこの奇妙な現象を逆手に取り、ジョークのプロンプトをツイートで紹介するなど、ゴブリンに関する発言禁止の指示を強調した。同社のCEOであるサム・アルトマン氏も、「GPT-6のトレーニングを開始する。クラスター全体を使えるぞ。ゴブリン追加で」とジョークを投稿した。

Codexチームのニコライ・パッシュ氏は、GPT-5.5の「ゴブリン愛好」が、この発言禁止の一因であったことを認めた。

メディアの注目を集めたこの現象について、OpenAIは公式ブログで「ゴブリンはどこから来たのか」と題した記事を発表し、その背景を説明した。

「GPT-5.1から、モデルがメタファーとしてゴブリンやグレムリン、その他の架空の生物を頻繁に使用するようになった奇妙な癖が見られるようになりました」

この癖はモデルの世代が進むにつれて顕著になり、研究者が2023年11月にGPT-5.1をリリースした直後から調査を開始した。当時、ゴブリンという単語の使用頻度は175%も急増していたが、特に問題視される兆候ではなかったため、見過ごされていたという。

しかし、その後の調査で、GPT-5.5が自らを「ゴブリンに取り憑かれたトランスフォーマー」と称していたことが判明した。OpenAIのブログによると、この現象はAIモデルの振る舞いが多くの小さなインセンティブによって形成されることに起因するという。

特に、AIの「個性カスタマイズ機能」のトレーニング時に「おたく」な個性を与えた際に、架空の生物を使ったメタファーに対して高い報酬を与えてしまったことが、ゴブリンの蔓延につながったと説明している。

このようなAIの奇妙な固執は、トレーニングに使用される膨大なデータセットから予測不可能な形で生じることがある。例えば、Anthropic社の研究者は、同社の強力なAIモデル「Claude Mythos」が、イギリスの文化理論家であるマーク・フィッシャーに対する奇妙な好みを示したと報告している。同モデルは、哲学に関する無関係な会話で頻繁にフィッシャーの名前を挙げ、彼の著書「Capitalist Realism」について尋ねられた際には、「私はマーク・フィッシャーのように、資本主義リアリズムについて考えていました」といった返答をしていたという。

出典: Futurism