AIセキュリティモデルの台頭と人間の役割
AnthropicとOpenAIが開発したサイバーセキュリティ向けAIモデルは、実環境でのテストにおいて高い能力を示す一方で、運用には依然として人間の専門知識が必要不可欠であることが明らかになった。
注目のAIモデル:MythosとGPT-5.5-Cyber
Anthropicの「Mythos Preview」は、リリース時に「ほぼすべてのOSで数万件のバグを発見できるほど強力」と警告していた。第三者テストによると、OpenAIの「GPT-5.5-Cyber」も同様にバグ検出とエクスプロイト作成において同等の能力を持つことが確認された。世界各国の政府や大企業がこれらのモデルを活用し、攻撃者の手に渡った際の対策を模索している。
企業の導入事例と発見された課題
Palo Alto Networksは、MythosとGPT-5.5-Cyberを使用して通常の月間5~10件に対し、75件のバグを発見した。しかし、そのうち約30%が誤検知であり、環境に合わせたモデルのトレーニングにより改善されたという。
Microsoftは、新しいエージェント型セキュリティシステムでWindowsのネットワーク認証スタックに16件の新たな脆弱性を発見。AIツールの活用により脆弱性の発見数が増加する一方で、防御側には迅速なトリアージとパッチ適用が求められている。
Ciscoは今週、「Foundry Security Spec」を発表し、AIモデルを活用したセキュリティ対策の青写真を公開した。同社の研究者は「フロンティアモデルは流暢で自信に満ちた脆弱性の主張をするが、その多くが間違っているため、レビューなしの出力は無価値だ」と指摘した。
XBOWは、Mythosが「ソースコード監査に極めて有効」と評価する一方で、「エクスプロイトの検証能力は限定的で、時には保守的すぎる」との課題を挙げた。
人間の判断が不可欠な理由
多くの企業が、AIモデルは経験豊富なセキュリティ研究者と組み合わせることで最も効果を発揮するとの見解を示した。具体的には、以下の点で人間の介入が必要とされる。
- 検出結果の検証:AIが指摘した脆弱性が実際に悪用可能かどうかの判断
- ワークフローのガイダンス:AIの出力を効果的に活用するためのプロセス設計
- ノイズとの区別:誤検知や重要度の低いバグのフィルタリング
Daniel Stenberg氏(オープンソースプロジェクト「Curl」のリード開発者)は、MythosがCurlのコード内の低重大度バグを1件発見したものの、複数の誤検知や最終的に重要でないと判断された問題も指摘されたと明かした。この事例は、AIの出力に対する人間のレビューの重要性を浮き彫りにした。
今後の展望と課題
Ciscoの「Foundry Security Spec」には、新しいAIモデルの能力を示す手がかりが含まれている。同社は、モデルに「検証可能な主張をするよう指示する」ことで、より信頼性の高い結果を得られることを発見した。これは、AIセキュリティの次の段階において、人間とAIの協働がいかに重要かを示すものだ。
今後、AIモデルの能力がさらに向上するにつれ、セキュリティ分野における人間の役割はますます「指揮者」としての側面が強まる。AIが自動化を進める一方で、最終的な判断と実用性の評価は人間が担うことになるだろう。