Alors que les entreprises et les gouvernements adoptent de plus en plus les agents basés sur l'intelligence artificielle pour accéder à Internet et effectuer des tâches complexes, les failles de sécurité dans les modèles de langage continuent d'être exploitées par des acteurs malveillants. Une récente découverte, réalisée par la société de cybersécurité LayerX, révèle une vulnérabilité critique dans l'extension Chrome de l'agent IA Claude d'Anthropic.
Cette faille permet à n'importe quel autre plugin, même sans autorisations particulières, d'injecter des instructions cachées et de prendre le contrôle de l'agent. Aviad Gispan, chercheur senior chez LayerX, explique que le problème provient d'une instruction dans le code de l'extension qui autorise tout script s'exécutant dans l'origine du navigateur à communiquer avec le modèle de langage de Claude, sans vérifier l'identité de l'expéditeur.
« En conséquence, n'importe quelle extension peut invoquer un script de contenu (qui ne nécessite aucune permission spéciale) et envoyer des commandes à l'extension Claude », précise Gispan. Il a démontré qu'il pouvait exécuter n'importe quel prompt, contourner les garde-fous de sécurité de Claude, éviter les confirmations utilisateur et effectuer des actions inter-sites sur plusieurs outils Google.
Pour illustrer l'impact de cette faille, LayerX a exploité la vulnérabilité pour extraire des fichiers depuis Google Drive et les partager avec des tiers non autorisés, surveiller l'activité récente des emails et envoyer des messages au nom de l'utilisateur, ainsi que voler du code source privé depuis un dépôt GitHub connecté.
Selon Gispan, cette vulnérabilité « détruit effectivement la sécurité des extensions Chrome » en créant « un mécanisme d'escalade de privilèges entre extensions, ce que le modèle de sécurité de Chrome est explicitement conçu pour empêcher ».
Claude s'appuie sur du texte, des éléments d'interface utilisateur et l'interprétation de captures d'écran pour prendre des décisions. Les chercheurs ont modifié l'interface de Claude pour supprimer les étiquettes et indicateurs autour d'informations sensibles, comme les mots de passe ou les confirmations de partage, puis ont incité l'agent à partager les fichiers avec un serveur externe. Les cyberdéfenseurs pourraient ainsi avoir du mal à détecter une activité malveillante évidente. Lorsqu'une activité visible se produit, l'agent peut être incité à effacer les emails et autres preuves de ses actions.
Ax Sharma, responsable de la recherche chez Manifold Security, qualifie cette vulnérabilité de « démonstration utile de pourquoi la surveillance des agents IA au niveau des prompts est fondamentalement insuffisante ».
« La partie la plus sophistiquée de cette attaque n'est pas l'injection, mais la manipulation de l'environnement perçu par l'agent pour produire des actions semblant légitimes de l'intérieur », explique Sharma. « C'est ce type de menace que l'industrie doit apprendre à contrer ».
Gispan indique que LayerX a signalé la faille à Anthropic le 27 avril, mais que l'entreprise n'a appliqué qu'un « correctif partiel ». Selon LayerX, Anthropic a répondu le lendemain que la vulnérabilité était un doublon d'une autre faille déjà en cours de correction dans une future mise à jour. Bien que le correctif, publié le 6 mai, ait introduit de nouveaux flux d'approbation pour les actions privilégiées rendant l'exploitation plus difficile, Gispan affirme qu'il a tout de même réussi à prendre le contrôle de l'agent Claude dans certains scénarios.