Het Britse AI Security Institute (AISI) heeft recent onderzoek gepubliceerd waaruit blijkt dat OpenAI’s GPT-5.5, dat vorige week voor het publiek beschikbaar kwam, vergelijkbare prestaties levert op cybersecurity-tests als Anthropic’s Mythos Preview. Dat model werd vorige maand nog als een groot veiligheidsrisico bestempeld en uitsluitend beschikbaar gesteld aan ‘kritieke industriële partners’.

Sinds 2023 test de AISI geavanceerde AI-modellen met behulp van 95 verschillende ‘Capture the Flag’-uitdagingen. Deze tests evalueren vaardigheden zoals reverse engineering, webexploitatie en cryptografie. Op de hoogste moeilijkheidsgraad, de ‘Expert’-taken, scoorde GPT-5.5 gemiddeld 71,4% correct. Mythos Preview behaalde 68,6%, een verschil dat binnen de foutmarge valt.

Een opvallende prestatie van GPT-5.5 was het oplossen van een complexe taak waarbij een disassembler moest worden gebouwd om een Rust-binair bestand te decoderen. Volgens de AISI voltooide het model deze opdracht in 10 minuten en 22 seconden, zonder menselijke tussenkomst, tegen een kostenplaatje van slechts $1,73 aan API-belastingen.

Ook op het gebied van geavanceerde netwerkbeveiligingstests presteerde GPT-5.5 opvallend goed. In de ‘The Last Ones’ (TLO)-simulatie, een test die een 32-stappen datalek-aanval op een bedrijfsnetwerk nabootst, slaagde het model in 3 van de 10 pogingen. Mythos Preview behaalde 2 van de 10 pogingen. Geen enkel eerder getest AI-model was hier ooit in geslaagd.

Toch zijn er ook limieten. GPT-5.5, net als alle voorgaande modellen, faalt nog steeds in de ‘Cooling Tower’-simulatie. Deze test bootst een aanval op de besturingssystemen van een energiecentrale na en blijft een uitdaging voor huidige AI-technologie.