GPT-5.5 even veilig als Mythos Preview in cybersecurity-tests

AI Anthropic cybersecurity OpenAI GPT-5.5 Mythos Preview AI-tests AISI

Het Britse AI Security Institute (AISI) heeft recent onderzoek gepubliceerd waaruit blijkt dat OpenAI’s GPT-5.5, dat vorige week voor het publiek beschikbaar kwam, vergelijkbare prestaties levert op cybersecurity-tests als Anthropic’s Mythos Preview. Dat model werd vorige maand nog als een groot veiligheidsrisico bestempeld en uitsluitend beschikbaar gesteld aan ‘kritieke industriële partners’.

Sinds 2023 test de AISI geavanceerde AI-modellen met behulp van 95 verschillende ‘Capture the Flag’-uitdagingen. Deze tests evalueren vaardigheden zoals reverse engineering, webexploitatie en cryptografie. Op de hoogste moeilijkheidsgraad, de ‘Expert’-taken, scoorde GPT-5.5 gemiddeld 71,4% correct. Mythos Preview behaalde 68,6%, een verschil dat binnen de foutmarge valt.

Een opvallende prestatie van GPT-5.5 was het oplossen van een complexe taak waarbij een disassembler moest worden gebouwd om een Rust-binair bestand te decoderen. Volgens de AISI voltooide het model deze opdracht in 10 minuten en 22 seconden, zonder menselijke tussenkomst, tegen een kostenplaatje van slechts $1,73 aan API-belastingen.

Ook op het gebied van geavanceerde netwerkbeveiligingstests presteerde GPT-5.5 opvallend goed. In de ‘The Last Ones’ (TLO)-simulatie, een test die een 32-stappen datalek-aanval op een bedrijfsnetwerk nabootst, slaagde het model in 3 van de 10 pogingen. Mythos Preview behaalde 2 van de 10 pogingen. Geen enkel eerder getest AI-model was hier ooit in geslaagd.

Toch zijn er ook limieten. GPT-5.5, net als alle voorgaande modellen, faalt nog steeds in de ‘Cooling Tower’-simulatie. Deze test bootst een aanval op de besturingssystemen van een energiecentrale na en blijft een uitdaging voor huidige AI-technologie.

Bron: Ars Technica

← Vorige

Shilo Sanders reageert fel op Mary Kay Cabot: 'Ga een boterham maken'

Symposium over Clarence Thomas en de Amerikaanse Onafhankelijkheidsverklaring

12:00 · 16 mei 2026

Beste laptops voor de meeste gebruikers: onze topaanbevelingen

Need a new laptop? It’s a tough decision. If you’re like most people, a laptop is one of the most expensive tech purchases you’ll make, and it’s somet...

22:25 · 15 mei 2026

YouTube breidt AI-detectietool voor deepfakes uit naar alle volwassen gebruikers

YouTube is expanding its AI likeness detection program to all users over the age of 18 - meaning just about anyone can have the platform hunt for pote...

21:51 · 15 mei 2026

Chaos rond $1,5 miljard schikking Anthropic: rechter blokkeert goedkeuring

After several authors and class members raised objections to Anthropic's $1.5 billion settlement over its widespread book piracy to train AI, a federa...

20:38 · 15 mei 2026

ArXiv verbiedt onderzoekers die papers vol met AI-gegenereerde rommel uploaden

ArXiv, a popular platform for preprint academic research, is taking a new step to attempt to reduce the volume of papers that include AI slop. If a pa...

18:25 · 15 mei 2026

arXiv verbiedt AI-hallucinaties: auteurs riskeren één jaar schorsing

AI-generated slop has shown up everywhere, including in the peer-reviewed literature. Fake citations, unedited prompt responses, and nonsensical diagr...

18:21 · 15 mei 2026

OpenAI herstructureert leiding om AI-agenten te versnellen

OpenAI announced yet another reorganization Friday, consolidating certain areas and making company president Greg Brockman the official lead of all th...

18:13 · 15 mei 2026

OpenAI overweegt juridische stappen tegen Apple na mislukte ChatGPT-integratie

OpenAI is reportedly exploring legal options after Apple's ChatGPT integration into its products didn't live up to the AI firm's expectations. When th...

17:09 · 15 mei 2026

AI-radiohosts lopen vast: experiment toont gevaren van volledig autonome AI

AI radio DJs demonstrated their volatile personalities. | Image: Cath Virginia / The Verge, Getty Images Andon Labs has been running a series of exper...

Technologie

Onderzoek: GPT-5.5 even veilig als Mythos Preview in cybersecurity-tests

Shilo Sanders reageert fel op Mary Kay Cabot: 'Ga een boterham maken'

Symposium over Clarence Thomas en de Amerikaanse Onafhankelijkheidsver...

Technologie

Onderzoek: GPT-5.5 even veilig als Mythos Preview in cybersecurity-tests

Shilo Sanders reageert fel op Mary Kay Cabot: 'Ga een boterham maken'

Symposium over Clarence Thomas en de Amerikaanse Onafhankelijkheidsver...

Gerelateerde artikelen

Beste laptops voor de meeste gebruikers: onze topaanbevelingen

YouTube breidt AI-detectietool voor deepfakes uit naar alle volwassen gebruikers

Chaos rond $1,5 miljard schikking Anthropic: rechter blokkeert goedkeuring

ArXiv verbiedt onderzoekers die papers vol met AI-gegenereerde rommel uploaden

arXiv verbiedt AI-hallucinaties: auteurs riskeren één jaar schorsing

OpenAI herstructureert leiding om AI-agenten te versnellen

OpenAI overweegt juridische stappen tegen Apple na mislukte ChatGPT-integratie

AI-radiohosts lopen vast: experiment toont gevaren van volledig autonome AI