米OpenAIは現地時間10月16日、最新の大規模言語モデル「GPT-5.5」を発表した。同社によると、GPT-5.5はコーディングエージェント「Codex」の性能を飛躍的に向上させるだけでなく、科学的作業や幅広いデジタル業務タスクにも対応する包括的なAIシステムだという。
GPT-5.5は、従来モデルと比較して科学的作業、特に新たな仮説の生成と検証といった創造的な側面においても大きな改善が見られる。さらに、同社は「複雑なマルチステップタスクを人間のガイダンスなしで完了できるAIシステムへの一歩」と表現している。
ベンチマークテストで他社を圧倒
GPT-5.5は、ターミナル操作の複雑なワークフローを評価する「Terminal-Bench 2.0」で82.7%を記録し、GPT-5.4(75.1%)、AnthropicのOpus 4.7(69.4%)、GoogleのGemini 3.1 Pro(68.5%)を上回った。また、OSWorld-Verified(モデルの自律的なコンピュータ操作能力を測定)でも78.7%を達成し、GPT-5.4(75.0%)やOpus 4.7(78%)を凌駕した。
Anthropicは最新のフロンティアモデル「Mythos」を開発したが、現時点では未公開となっている。
コーディング能力が飛躍的に向上
OpenAIによると、Codexの利用者は週に約400万人の開発者に達しており、CEOのGreg Brockman氏は「GPT-5.5により、Codexは洗練されたコードを生成し、シニアエンジニアの判断力を持ってプロジェクトを遂行できるようになる」と述べた。
また、実世界のGitHub課題解決を測定する「SWE-Bench Pro」では、GPT-5.5が58.6%のタスクを一回の実行で解決できることが確認された。テスターからは「ソフトウェアシステムの構造をより深く理解し、エラーの原因や修正箇所、コードベースへの影響を正確に把握できる」との声が上がっている。
競合他社との競争激化
GPT-5.5のリリースは、直近のGPT-5.4発表からわずか数週間後のことだ。OpenAIは、特にAIコーディングアシスタントの分野で競合のAnthropicとの競争にさらされている。同社は、AI自体が新たなAIシステムのコーディングを支援することで、リリースペースの加速を実現している。
モデルの規模については、10兆パラメータに達する可能性が指摘されているが、Brockman氏は具体的な数値については明言を避けた。
提供開始と今後の展望
GPT-5.5は、ChatGPTとCodexにおいて、Plus、Pro、Business、Enterpriseの各有料プランユーザーに順次提供される。さらに高精度版の「GPT-5.5 Pro」は、Pro、Business、Enterpriseプランのユーザー向けに提供される。