Das britische AI Security Institute (AISI) hat in aktuellen Tests festgestellt, dass OpenAIs neues Modell GPT-5.5 in Cybersecurity-Aufgaben eine vergleichbare Leistung wie Anthropics Mythos Preview erbringt. Beide Modelle wurden im Rahmen von 95 sogenannten „Capture the Flag“-Herausforderungen geprüft, die Fähigkeiten wie Reverse Engineering, Web-Exploitation und Kryptographie umfassen.

Auf den höchsten Schwierigkeitsgraden („Expert“-Aufgaben) erreichte GPT-5.5 im Schnitt 71,4 % der Punkte – leicht über den 68,6 % von Mythos Preview. Die Differenz liegt jedoch innerhalb der Fehlergrenze. Besonders beeindruckend war die Leistung bei einer komplexen Aufgabe: GPT-5.5 entschlüsselte innerhalb von 10 Minuten und 22 Sekunden einen Rust-Binary-Code ohne menschliche Hilfe. Die Kosten für die API-Aufrufe beliefen sich dabei auf nur 1,73 US-Dollar.

Auch bei „The Last Ones“ (TLO), einem AISI-Test, der einen 32-stufigen Datenangriff auf ein Firmennetzwerk simuliert, zeigte GPT-5.5 vergleichbare Fortschritte. Das Modell gelangte in drei von zehn Versuchen zum Ziel – Mythos Preview schaffte dies in zwei von zehn Fällen. Kein anderes bisher getestetes KI-Modell hatte diese Aufgabe jemals erfolgreich bewältigt.

Allerdings stößt GPT-5.5 wie alle anderen getesteten Modelle an seine Grenzen, wenn es um die „Cooling Tower“-Simulation geht. Diese simuliert einen Angriff auf die Steuerungssoftware eines Kraftwerks und gilt als besonders anspruchsvoll. Bisher konnte kein Modell diese Herausforderung bestehen.