英国のAIセキュリティ研究所(AISI)は先月、Anthropicの新モデル「Mythos Preview」がサイバーセキュリティ上の脅威となり得ると発表し、初期リリースを「重要産業パートナー」に限定していた。しかし、AISIの最新調査によると、OpenAIが先週一般公開した「GPT-5.5」が、Mythos Previewと同等のサイバーセキュリティ性能を達成したことが判明した。
GPT-5.5、専門的ハッキング課題で Mythos Preview を上回る
2023年以降、AISIはフロンティアAIモデルを対象に、リバースエンジニアリングやWeb攻撃、暗号解読など95種類の「Capture the Flag」チャレンジを実施してきた。その中で最も難易度の高い「エキスパート」レベルの課題において、GPT-5.5は平均71.4%の正解率を記録し、Mythos Previewの68.6%をわずかに上回った(誤差の範囲内)。
特に難易度の高い課題の一つである「Rustバイナリのデコードとディスアセンブル」では、GPT-5.5が10分22秒で完了し、APIコストはわずか1.73ドルだった。この課題は人間の支援なしで達成された。
「The Last Ones」テストでも Mythos Preview に匹敵
AISIは「The Last Ones(TLO)」と呼ばれるテスト環境を用意し、企業ネットワークへの32段階にわたるデータ抽出攻撃をシミュレーションしている。GPT-5.5は10回の試行中3回成功したが、Mythos Previewは2回だった。これまでのAIモデルでは、このテストに一度も成功した例はなかった。
一方で依然として課題も残る
その一方で、GPT-5.5はAISIのより難易度の高い「Cooling Tower」テスト(発電所の制御ソフトウェアを標的とした攻撃シミュレーション)にはまだ対応できていない。これまでにテストされたすべてのAIモデルが同様の結果だった。
今回の調査結果は、AIモデルのサイバーセキュリティ能力が急速に向上している一方で、依然として克服すべき課題が多いことを示している。