AIが自律型サイバータスクで飛躍的進化、専門機関が警鐘
英国政府の委託で先端AIモデルの事前評価を担うAI安全研究所(AISI)と、サイバーセキュリティ大手パロアルトネットワークスは、最新のAIモデルが自律型サイバータスクの能力で従来のベンチマークを大幅に上回ったとする調査結果を公表した。対象となったのは、AnthropicのClaude Mythos PreviewとOpenAIのGPT-5.5で、いずれも2024年後半から続くAIの性能向上トレンドを凌駕する成果を示した。
AIの能力向上ペースが「月単位」に加速
AISIは2025年初頭、先端AIモデルのサイバータスク自律性を測る指標として「80%信頼性サイバー時間地平線」を設定していた。これは、人間の専門家が同じタスクを完了するのにかかる時間を基準としたもので、当初は約5カ月ごとに倍増するペースで向上すると推定されていた。しかし、最新のClaude Mythos PreviewとGPT-5.5は、このトレンドをはるかに上回る性能を示した。
AISIは声明で「先端AIの自律型サイバーおよびソフトウェア能力は急速に向上しており、AIが自律的に完了できるサイバータスクの長さは、数カ月単位で倍増している」と指摘した。
シミュレーション環境で実証された圧倒的な性能
最も顕著な成果は、AISIのサイバー実験環境「サイバーレンジ」におけるテストで明らかになった。サイバーレンジは、小規模で防御されていない企業ネットワークを対象とした多段階攻撃のシミュレーション環境だ。
Claude Mythos Previewは、AISIの2つの難易度の高いシナリオを初めて完了したモデルとなった。「The Last Ones」と呼ばれる32段階のシミュレーション企業ネットワーク攻撃では、10回中6回成功し、「Cooling Tower」と呼ばれるそれまでどのモデルも解決できなかった課題を10回中3回成功させた。一方、GPT-5.5は「The Last Ones」を10回中3回成功させた。
実務レベルでも顕著な脆弱性発見能力
パロアルトネットワークスも独自のテストで同様の結論に至った。同社は2025年4月からAnthropicのProject GlasswingのローンチパートナーとしてClaude Mythosのテストを開始し、その後Claude Opus 4.7やOpenAIのGPT-5.5-Cyberなどの最新モデルも評価した。その結果、最新モデルは「リアルタイムに近いスピードで脆弱性を発見し、クリティカルなエクスプロイトパスに変換する能力が極めて高い」と結論付けた。
同社はAIモデルによるスキャンで、通常の月間報告数(5件未満)をはるかに上回る26件のCVE(共通脆弱性識別子)と75件の問題を特定し、セキュリティアドバイザリを発表した。このうち重要な脆弱性については、SaaS製品はすべてパッチが適用され、顧客運用製品についてもパッチが提供されているという。
専門家が指摘する限界と今後の課題
AISIは、今回の分析には限界があることを認めている。対象となったモデル数が少なく、最も難易度の高いタスクについては人間の比較データが不足しているためだ。しかし、同研究所は「単一のモデルを除外しても分析結果に大きな変動はなく、推定された倍増ペースは1カ月未満の変動にとどまる」と強調し、全体的なトレンドは堅牢であると結論付けた。
別の非営利団体METRによる研究でも、AIがソフトウェアタスクを処理するスピードが加速していることが示唆されているが、詳細はまだ公開されていない。
専門家の反応と今後の展望
サイバーセキュリティの専門家からは、今回の結果に対する驚きと懸念の声が上がっている。あるアナリストは「AIの自律性がこれほどまでに向上するとは予想外だった。セキュリティ業界は今後、AIを活用した攻撃と防御の両面でさらなる進化が求められるだろう」と語った。
一方で、AIの倫理的なリスクや悪用の可能性についても議論が巻き起こっている。AISIは「AIの進化は加速しているが、その責任ある開発と利用が不可欠だ」と強調している。
まとめ:AIの自律性向上がもたらすセキュリティリスクとチャンス
最新のAIモデルが自律型サイバータスクで飛躍的な進化を遂げたことで、サイバーセキュリティの未来が大きく変わろうとしている。一方で、その能力が悪用されるリスクも高まっており、専門家らは責任あるAI開発の重要性を訴えている。今後、AIとサイバーセキュリティの関係は、より緊密な連携と規制の強化が求められる分野となるだろう。