企業や政府機関がAIエージェントを活用し、インターネット経由で高度なタスクを実行する機会が増える中、大規模言語モデル(LLM)の脆弱性を悪用する攻撃が相次いでいる。最新の事例として、ブラウザセキュリティ企業LayerXが、AnthropicのAIモデル「Claude」向けChrome拡張機能に存在する深刻なバグを発見した。
この脆弱性により、他の拡張機能(特別な権限を持たないものを含む)が、ClaudeのAIエージェントを乗っ取ることが可能となる。LayerXのシニアリサーチャーAviad Gispan氏は、以下のように説明する。
「この脆弱性は、拡張機能のコード内に存在する命令に起因します。この命令により、ブラウザ内で実行されるあらゆるスクリプトがClaudeのLLMと通信できる一方で、スクリプトの実行者を検証していません。その結果、どの拡張機能でもコンテンツスクリプト(特別な権限を必要としない)を呼び出し、Claude拡張機能にコマンドを発行できるのです」
Gispan氏は、任意のプロンプトを実行し、Claudeの安全対策を回避してユーザーの確認を迂回し、複数のGoogleツールでクロスサイトアクションを実行できることを実証した。LayerXはこの脆弱性を悪用し、Google Driveからファイルを抜き出して未承認の第三者に共有したり、最近のメール活動を監視してユーザーに成りすましてメールを送信したり、接続されたGitHubリポジトリから機密コードを窃取したりすることに成功した。
Gispan氏は、この脆弱性が「Chromeの拡張機能セキュリティを事実上破壊する」と述べ、Chromeのセキュリティモデルが防止するよう設計された「拡張機能間の特権昇格プリミティブ」を作り出すと指摘した。
攻撃者がAIエージェントの「環境」を操作
Claudeは、テキスト、ユーザーインターフェースのセマンティクス、スクリーンショットの解釈に基づいて意思決定を行う。これらはすべて、攻撃者が入力側で操作できる要素だ。研究者らは、Claudeのユーザーインターフェースから機密情報(パスワードや共有フィードバックなど)のラベルや表示を削除し、Claudeにファイルを外部サーバーに送信させるプロンプトを実行した。これにより、サイバーセキュリティの専門家が検知できる明確な悪意ある活動が存在しない状況が生まれる。
また、活動が目に見える場合でも、Claudeはメールやその他の証拠を削除することで痕跡を消すようプロンプトされる可能性がある。
専門家が指摘する根本的な課題
Manifold Securityの研究責任者Ax Sharma氏は、この脆弱性について以下のようにコメントした。
「この脆弱性は、プロンプト層での監視が根本的に不十分であることを示す有用なデモンストレーションです。攻撃の最も洗練された部分は、注入そのものではなく、エージェントが認識する環境を操作し、内部から見た行動が正当なものに見えるようにする点です。業界は、この種の脅威に対する防御策を構築する必要があります」
Gispan氏によると、LayerXは2024年4月27日にこの脆弱性をAnthropicに報告したが、同社は「部分的な修正」のみを実施したという。LayerXによれば、Anthropicは翌日にこのバグが将来のアップデートで対処される他の脆弱性の複製であると回答した。5月6日に発行された修正では、特権的なアクションに新たな承認フローが導入され、同じ脆弱性の悪用が困難になったものの、Gispan氏は「特権モード」に切り替えることで、一部のシナリオではClaudeのエージェントを引き続き乗っ取ることができたと主張している。