AIセキュリティ研究の最前線を担うAnthropicが、自社の新型AIモデル「Claude Mythos」のセキュリティ侵害に直面している。同社は数週間にわたり、Claude Mythosがサイバー攻撃に悪用されるリスクを理由に、一般公開を見送るべきだと強調していた。

しかし、ブルームバーグの報道によると、同モデルはテスト段階から「認可されていない少数のユーザー」によって不正にアクセスされていたことが明らかになった。このリークは、Anthropicが同モデルを選定企業に限定提供する計画を発表した当日に発生していたという。

Anthropicは現在、この不正アクセスの実態を調査中としている。同社はAIの安全性向上を掲げ、サイバー攻撃対策に特化したAIモデルの開発で注目を集めてきたが、今回の事態はその信頼性に疑問を投げかけるものとなった。

セキュリティ専門家の間では、AIモデルの機密性と安全性のバランスをいかに保つかが、今後の重要な課題として浮上している。Anthropicにとっては、モデルの保護体制の見直しが急務と言えるだろう。

出典: The Verge