GPT-5.5 vs Mythos Preview : qui est le plus performant en cybersécurité ?

OpenAI cybersécurité Anthropic Mythos Preview sécurité informatique modèles d'IA GPT-5.5 IA avancée AISI tests Capture the Flag

L'Agence britannique pour la sécurité de l'IA (AISI) a récemment publié les résultats de ses évaluations comparatives entre GPT-5.5 d'OpenAI et Mythos Preview d'Anthropic, deux modèles d'IA de pointe en matière de cybersécurité. Selon le rapport, les deux systèmes affichent des performances quasi identiques, malgré les restrictions imposées par Anthropic lors du lancement de Mythos Preview.

Depuis 2023, l'AISI soumet les modèles d'IA les plus avancés à 95 défis Capture the Flag, couvrant des tâches comme l'ingénierie inverse, l'exploitation web et la cryptographie. Sur les tâches les plus complexes, dites « Expert », GPT-5.5 a réussi en moyenne 71,4 % des cas, contre 68,6 % pour Mythos Preview. Cette différence, bien que minime, reste dans la marge d'erreur.

Parmi les défis les plus difficiles, l'AISI cite un cas où GPT-5.5 a décrypté un binaire Rust en seulement 10 minutes et 22 secondes, sans assistance humaine, pour un coût de 1,73 $ en appels API. Un exploit qui démontre une avancée significative par rapport aux modèles précédents.

Des progrès notables, mais des limites persistantes

Les deux modèles ont également progressé sur « The Last Ones » (TLO), un scénario simulant une attaque en 32 étapes sur un réseau d'entreprise. GPT-5.5 a réussi l'exercice à 3 reprises sur 10 tentatives, contre 2 pour Mythos Preview. Aucun autre modèle n'avait auparavant réussi ce test.

Cependant, les deux systèmes échouent toujours face à des simulations plus complexes, comme « Cooling Tower », qui reproduit une tentative de perturbation des logiciels de contrôle d'une centrale électrique. Aucun des modèles testés par l'AISI n'a jusqu'à présent réussi ce scénario.

Anthropic et OpenAI face à leurs responsabilités

Ces résultats soulèvent des questions sur la gestion des risques liés aux modèles d'IA avancés. Anthropic avait restreint l'accès à Mythos Preview aux « partenaires industriels critiques », invoquant des risques de cybersécurité. Pourtant, GPT-5.5, disponible publiquement, affiche des performances comparables sans restrictions.

L'AISI rappelle que ces évaluations visent à anticiper les menaces potentielles et à guider les régulateurs dans l'encadrement de ces technologies. Les prochains tests pourraient inclure des scénarios encore plus exigeants, afin de mieux comprendre les capacités réelles des modèles d'IA en matière de sécurité informatique.

Source : Ars Technica

← Précédent

Shilo Sanders claque la porte à Mary Kay Cabot après ses propos sur De...

Clarence Thomas et la Déclaration d'Indépendance : un symposium de Civitas suscite le débat

12:08 · 15 mai 2026

Le fisc britannique mise sur l'IA pour lutter contre la fraude fiscale

Human staff members will still check the AI's findings.

11:00 · 15 mai 2026

L'essor de l'IA menace l'intégrité de la recherche scientifique

Last summer, Peter Degen's postdoctoral supervisor came to him with an unusual problem: One of his papers was being cited too much. Citations are the...

10:30 · 15 mai 2026

Anthropic mise à jour Claude Code : limites d'usage, transparence et stratégie produit

SAN FRANCISCO—Amid an ever-expanding array of surfaces, growing demand for tokens and compute, and a rapidly evolving user base, Anthropic doesn't hav...

06:08 · 15 mai 2026

xAI lance Grok Build, un nouvel agent de codage en version bêta

It's in early beta and only available to SuperGrok Heavy subscribers right now.

22:21 · 14 mai 2026

Procès Musk vs Altman : un dérapage mémorable lors des plaidoiries finales

Today was closing arguments in the Musk v. Altman trial, and I almost feel bad writing about the unbelievable demolition derby I just witnessed. Steve...

21:08 · 14 mai 2026

Meta étend les fonctionnalités d’écriture gestuelle aux lunettes intelligentes Ray-Ban

Meta is rolling out new features to its Meta Ray-Ban Display smart glasses, including bringing the ability to write messages just with hand gestures t...

21:02 · 14 mai 2026

Des jumeaux hackers licenciés oublient d'arrêter l'enregistrement Teams et avouent leurs crimes

Perhaps you remember Muneeb and Sohaib Akhter, the 34-year-old twin brothers we profiled earlier this week. Although they had the tech chops to commit...

20:59 · 14 mai 2026

Un trophée insolite offert à Elon Musk lors du procès contre OpenAI

Yesterday, in Musk v. Altman, before the jurors came in, Sam Altman's team passed up what looked - from a distance - like a little league trophy. It w...

Technologie

GPT-5.5 rivalise avec Mythos Preview dans les tests de cybersécurité : les résultats surprenants de l'AISI

Des progrès notables, mais des limites persistantes

Anthropic et OpenAI face à leurs responsabilités

Shilo Sanders claque la porte à Mary Kay Cabot après ses propos sur De...

Clarence Thomas et la Déclaration d'Indépendance : un symposium de Civ...

Technologie

GPT-5.5 rivalise avec Mythos Preview dans les tests de cybersécurité : les résultats surprenants de l'AISI

Des progrès notables, mais des limites persistantes

Anthropic et OpenAI face à leurs responsabilités

Shilo Sanders claque la porte à Mary Kay Cabot après ses propos sur De...

Clarence Thomas et la Déclaration d'Indépendance : un symposium de Civ...

Articles connexes

Le fisc britannique mise sur l'IA pour lutter contre la fraude fiscale

L'essor de l'IA menace l'intégrité de la recherche scientifique

Anthropic mise à jour Claude Code : limites d'usage, transparence et stratégie produit

xAI lance Grok Build, un nouvel agent de codage en version bêta

Procès Musk vs Altman : un dérapage mémorable lors des plaidoiries finales

Meta étend les fonctionnalités d’écriture gestuelle aux lunettes intelligentes Ray-Ban

Des jumeaux hackers licenciés oublient d'arrêter l'enregistrement Teams et avouent leurs crimes

Un trophée insolite offert à Elon Musk lors du procès contre OpenAI