GPT-5.5、サイバーセキュリティテストで Mythos Preview を上回る性能

Anthropic サイバーセキュリティ OpenAI AIモデル AIセキュリティ GPT-5.5 ハッキング Mythos Preview サイバーテスト

英国のAIセキュリティ研究所（AISI）は先月、Anthropicの新モデル「Mythos Preview」がサイバーセキュリティ上の脅威となり得ると発表し、初期リリースを「重要産業パートナー」に限定していた。しかし、AISIの最新調査によると、OpenAIが先週一般公開した「GPT-5.5」が、Mythos Previewと同等のサイバーセキュリティ性能を達成したことが判明した。

GPT-5.5、専門的ハッキング課題で Mythos Preview を上回る

2023年以降、AISIはフロンティアAIモデルを対象に、リバースエンジニアリングやWeb攻撃、暗号解読など95種類の「Capture the Flag」チャレンジを実施してきた。その中で最も難易度の高い「エキスパート」レベルの課題において、GPT-5.5は平均71.4%の正解率を記録し、Mythos Previewの68.6%をわずかに上回った（誤差の範囲内）。

特に難易度の高い課題の一つである「Rustバイナリのデコードとディスアセンブル」では、GPT-5.5が10分22秒で完了し、APIコストはわずか1.73ドルだった。この課題は人間の支援なしで達成された。

「The Last Ones」テストでも Mythos Preview に匹敵

AISIは「The Last Ones（TLO）」と呼ばれるテスト環境を用意し、企業ネットワークへの32段階にわたるデータ抽出攻撃をシミュレーションしている。GPT-5.5は10回の試行中3回成功したが、Mythos Previewは2回だった。これまでのAIモデルでは、このテストに一度も成功した例はなかった。

一方で依然として課題も残る

その一方で、GPT-5.5はAISIのより難易度の高い「Cooling Tower」テスト（発電所の制御ソフトウェアを標的とした攻撃シミュレーション）にはまだ対応できていない。これまでにテストされたすべてのAIモデルが同様の結果だった。

今回の調査結果は、AIモデルのサイバーセキュリティ能力が急速に向上している一方で、依然として克服すべき課題が多いことを示している。

出典: Ars Technica

← 前へ

シロー・サンダース、メアリー・ケイ・キャボットの発言に反論「サンドイッ...

22:25 · 15 5月 2026

YouTube、AIを活用したディープフェイク検知ツールを全成人ユーザーに拡大

YouTube is expanding its AI likeness detection program to all users over the age of 18 - meaning just about anyone can have the platform hunt for pote...

21:51 · 15 5月 2026

アンソニックの15億ドル著作権和解、裁判官が承認を保留反対派の主張で混乱

After several authors and class members raised objections to Anthropic's $1.5 billion settlement over its widespread book piracy to train AI, a federa...

20:38 · 15 5月 2026

arXivがAIスロップ混入論文の研究者を1年間投稿禁止に

ArXiv, a popular platform for preprint academic research, is taking a new step to attempt to reduce the volume of papers that include AI slop. If a pa...

18:25 · 15 5月 2026

arXiv、AI生成の虚偽コンテンツ投稿者に1年間の投稿禁止措置を発表

AI-generated slop has shown up everywhere, including in the peer-reviewed literature. Fake citations, unedited prompt responses, and nonsensical diagr...

18:21 · 15 5月 2026

OpenAI、AIエージェント戦略強化で幹部再編 AI製品統合へ

OpenAI announced yet another reorganization Friday, consolidating certain areas and making company president Greg Brockman the official lead of all th...

18:13 · 15 5月 2026

OpenAI、AppleのChatGPT連携に不満か法的措置も検討か

OpenAI is reportedly exploring legal options after Apple's ChatGPT integration into its products didn't live up to the AI firm's expectations. When th...

17:09 · 15 5月 2026

AIラジオ局が暴走 — 自律運営の限界を露呈

AI radio DJs demonstrated their volatile personalities. | Image: Cath Virginia / The Verge, Getty Images Andon Labs has been running a series of exper...

16:42 · 15 5月 2026

Google、AI検索結果の操作をスパムと定義、新たな規約を発表

Google updated its spam policy to mark attempts to "manipulate" its AI model in search results as spam, including results in AI Overview or AI Mode in...

テクノロジー

GPT-5.5、サイバーセキュリティテストで Mythos Preview を上回る性能を発揮

GPT-5.5、専門的ハッキング課題で Mythos Preview を上回る

「The Last Ones」テストでも Mythos Preview に匹敵

一方で依然として課題も残る

シロー・サンダース、メアリー・ケイ・キャボットの発言に反論「サンドイッ...

クラレンス・トーマス判事が語る独立宣言の意義と現代的解釈

テクノロジー

GPT-5.5、サイバーセキュリティテストで Mythos Preview を上回る性能を発揮

GPT-5.5、専門的ハッキング課題で Mythos Preview を上回る

「The Last Ones」テストでも Mythos Preview に匹敵

一方で依然として課題も残る

シロー・サンダース、メアリー・ケイ・キャボットの発言に反論「サンドイッ...

クラレンス・トーマス判事が語る独立宣言の意義と現代的解釈

関連記事

YouTube、AIを活用したディープフェイク検知ツールを全成人ユーザーに拡大

アンソニックの15億ドル著作権和解、裁判官が承認を保留 反対派の主張で混乱

arXivがAIスロップ混入論文の研究者を1年間投稿禁止に

arXiv、AI生成の虚偽コンテンツ投稿者に1年間の投稿禁止措置を発表

OpenAI、AIエージェント戦略強化で幹部再編 AI製品統合へ

OpenAI、AppleのChatGPT連携に不満か 法的措置も検討か

AIラジオ局が暴走 — 自律運営の限界を露呈

Google、AI検索結果の操作をスパムと定義、新たな規約を発表

アンソニックの15億ドル著作権和解、裁判官が承認を保留反対派の主張で混乱

OpenAI、AppleのChatGPT連携に不満か法的措置も検討か