Un modèle d'IA capable de créer des exploits autonomes

Anthropic a annoncé il y a deux semaines le lancement de Claude Mythos Preview, un modèle d'IA capable de détecter et d'exploiter des vulnérabilités logicielles de manière autonome, sans l'intervention d'experts. Ces failles, présentes dans des systèmes critiques comme les systèmes d'exploitation et les infrastructures internet, avaient échappé à des milliers de développeurs. Cette capacité représente une menace majeure pour la sécurité des appareils et services que nous utilisons quotidiennement.

Pour limiter les risques, Anthropic ne rendra pas ce modèle accessible au grand public. Il sera réservé à un nombre restreint d'entreprises. L'annonce a provoqué une onde de choc dans la communauté de la cybersécurité. Les détails fournis par Anthropic étant limités, les réactions sont partagées : certains évoquent un manque de ressources matérielles (GPU), tandis que d'autres y voient une démarche de sécurité responsable.

Mythos, une avancée incrémentale mais significative

Nous considérons Mythos comme une étape réelle, mais progressive, dans l'évolution de l'IA. Même incrémentale, cette avancée peut avoir un impact majeur à long terme. L'IA transforme déjà la cybersécurité, et Mythos en est un exemple frappant.

Le syndrome de la baseline décalée

Le Shifting Baseline Syndrome décrit comment les changements majeurs, lorsqu'ils surviennent par étapes, sont sous-estimés par le public et les experts. Cela s'est produit pour la vie privée en ligne, et se répète avec l'IA. Même si Mythos avait pu être développé avec des modèles d'IA plus anciens, sa capacité à détecter des vulnérabilités reste inédite il y a quelques années.

Cette annonce rappelle que l'IA a progressé rapidement : la baseline a changé. La détection de vulnérabilités dans le code source est désormais une tâche maîtrisée par les grands modèles de langage. Que cela se produise maintenant ou dans un an, cette capacité était attendue. La vraie question est : comment s'y adapter ?

Cybersécurité : l'IA change la donne

Contrairement à certaines craintes, un modèle capable de pirater de manière autonome ne créera pas nécessairement un déséquilibre permanent entre offense et défense. L'impact sera plus nuancé.

Une réponse adaptée à chaque type de vulnérabilité

Les vulnérabilités ne se valent pas. Certaines peuvent être détectées, vérifiées et corrigées automatiquement. D'autres, comme celles des applications web standardisées hébergées dans le cloud, sont faciles à corriger grâce à des mises à jour rapides. Enfin, certaines failles, notamment dans les appareils IoT ou les équipements industriels rarement mis à jour, sont difficiles à corriger.

Il existe aussi des systèmes où les vulnérabilités sont faciles à identifier dans le code, mais difficiles à vérifier en pratique. Par exemple, les systèmes distribués complexes ou les plateformes cloud, composés de milliers de services interactifs, rendent la distinction entre vraies vulnérabilités et faux positifs particulièrement ardue.

Pour faire face à ces défis, il est essentiel de classer les vulnérabilités en fonction de leur détectabilité, de leur vérifiabilité et de leur correctibilité. Cette approche permettra de prioriser les actions et de mieux protéger les infrastructures critiques.