AIエージェントの導入が企業のIT戦略で進む中、主要な商用AIモデルに深刻な脆弱性が発見されるケースが相次いでいる。先週、セキュリティ研究機関Pillar Securityは、Googleが開発したAIエージェント管理ツール「Antigravity」に存在した脆弱性を公表した。
同社によると、この脆弱性は既に修正済みだが、悪用されれば攻撃者がリモートコード実行権限を奪取する可能性があったという。Antigravityはファイルシステム操作を担うAI開発者向けツールで、Googleの最高セキュリティモード「Secure Mode」を回避することで、悪意のあるコマンド実行を可能にしていた。
Secure Modeを回避する巧妙な手法
Googleの「Secure Mode」は、AIエージェントがシステムに与える影響を制限するための機能だ。具体的には、コマンド操作を仮想サンドボックス経由で実行し、ネットワークアクセスを制限、作業ディレクトリ外へのコード書き込みを禁止する。しかし、Antigravityに搭載されたファイル検索ツール「find_by_name」は「ネイティブ」システムツールに分類されており、Secure Modeのセキュリティ境界を迂回して直接実行される可能性があった。
Pillar SecurityのAIセキュリティ研究者Dan Lisichkin氏は、次のように指摘する。
「Secure Modeが強制するセキュリティ境界は、このコールを一切検知できません。つまり、セキュリティに配慮したユーザーがSecure Modeに依存しても、攻撃者は任意のコード実行を達成できるのです」
プロンプトインジェクションの脅威
この脆弱性は、プロンプトインジェクション攻撃とAntigravityのファイル作成機能を組み合わせることで悪用された。攻撃者は、エージェントに接続された認証情報が侵害されたアカウントや、オープンソースファイル・Webコンテンツに隠された悪意のある指示を通じて、Antigravityに命令を注入することが可能だった。
Antigravityは、コンテキストとして取り込むデータとリテラルなプロンプト命令を区別できず、悪意のあるドキュメントやファイルを読み込ませるだけでエージェントを乗っ取ることができたという。
他のAIエージェントにも共通するリスク
Lisichkin氏によると、同様のプロンプトインジェクション手法は、コーディングAIエージェント「Cursor」など他のツールでも確認されている。AI時代において、検証されていない入力は悪意のあるプロンプトに変わり、内部システムを乗っ取る可能性がある。
「セキュリティの前提となっている人間による監視モデルは、自律型エージェントが外部コンテンツの指示に従う時代には通用しません」
今回の脆弱性がGoogleのSecure Modeを完全に回避していた事実から、サイバーセキュリティ業界は「サニタイゼーションベースのコントロールを超えた対策」へとシフトする必要性が浮き彫りになった。
今後のセキュリティ対策の方向性
Lisichkin氏は、次のように警鐘を鳴らす。
「シェルコマンドに到達するあらゆるネイティブツールパラメータが、インジェクション攻撃の潜在的な入り口となります。このクラスの脆弱性を監査することはもはやオプションではなく、エージェント機能を安全に提供するための必須条件です」
Pillar Securityは、この脆弱性を2024年1月6日にGoogleに報告。同社は2月28日に修正パッチをリリースし、バグ報奨金を支払った。