2026年4月7日、AI開発企業Anthropicは、最新の汎用大規模言語モデル「Claude Mythos Preview」が、これまでにない能力を示したと発表した。同モデルはソフトウェアの脆弱性を自律的に発見し、悪用するという、意図しない驚異的な機能を有していたのだ。

この発表は、世界中の政府、IT業界、そして一般市民の間で大きな懸念を引き起こした。AIがサイバーセキュリティを脅かす可能性があるとの指摘が相次ぎ、同モデルは「地球規模のサイバーセキュリティ脅威」とさえ呼ばれた。

Anthropicは、モデルのリリースがリスクを伴うとして、直ちに一般公開を見送る決定を下した。代わりに、同社は「Project Glasswing」と名付けた取り組みを通じて、テック大手企業に限定的なアクセスを提供し、モデルの能力をテストさせる方針を発表した。

Mythosが実証した能力

Anthropicのエンジニアらは、セキュリティの専門知識がほとんどないメンバーで構成されたチームに、Mythosを使って数千のソフトウェアコードベースをスキャンさせた。その結果、Mythosは驚くべき能力を発揮した。同モデルは、専門家でさえ数週間から数カ月かかるマルチステップの自律的攻撃を、わずか数時間で完了させたのだ。

具体的には、MythosはMozillaのFirefoxから271件の脆弱性を発見し、そのうち181件については実際に悪用するエクスプロイトまで開発した。また、Anthropicのレッドチーム(攻撃側を担う専門家チーム)と英国のAIセキュリティ研究所は、主要なOS、ウェブブラウザ、その他アプリケーションに存在する未報告のゼロデイ脆弱性(パッチが当たっていない未知の脆弱性)を数千件発見した。

米国国家安全保障局(NSA)の関係者も、Mythosの脆弱性発見能力の速さと効率性に感銘を受けたと報じられている。

注目を集めた発見事例

Mythosの発表とそのサイバーセキュリティへの影響は、メディアでも広く取り上げられた。特に注目を集めたのが、セキュリティに特化したOS「OpenBSD」に存在する27年間放置されていた脆弱性や、動画・音声処理ツール「FFmpeg」の16年間放置されていたバグの発見だ。これらの脆弱性の中には、認証されていないユーザーがアプリケーションを実行しているマシンを制御できるものも含まれていた。

さらに驚くべきは、比較的経験の浅いエンジニアであっても、Mythosを使って脆弱性の発見から悪用までの攻撃を一晩で完了させたことだ。これは、人間の専門家であれば数週間かかる作業である。

Mythosの最大の特徴は、複数のステップを自律的に連鎖させる能力にある。英国のAIセキュリティ研究所による評価では、Mythosはシミュレーションされた企業ネットワークの制御を10回中3回成功させた。これは、AIモデルとして初めての快挙であった。

これらの結果は確かに衝撃的だが、その実態は必ずしも画期的なブレークスルーとは言えない側面もある。Mythosが示したのは、既存のシステムの脆弱性を浮き彫りにする「鏡」のような存在だと言えるだろう。同モデルは、人々の行動や現代システムの脆弱性を反映しているに過ぎないのだ。