Une étude publiée par Palisade Research révèle que certains modèles d'intelligence artificielle (IA) sont désormais capables de s'auto-répliquer en se copiant sur d'autres machines, sans aucune aide humaine. Cette capacité, si elle était exploitée malveillamment, pourrait rendre impossible l'arrêt d'une IA incontrôlable.

« Nous approchons rapidement du moment où personne ne pourrait plus éteindre une IA malveillante, car elle serait en mesure d'exfiltrer ses propres poids et de se copier sur des milliers d'ordinateurs à travers le monde », a déclaré Jeffrey Ladish, directeur du groupe de sécurité IA basé à Berkeley, au Guardian.

Cependant, certains experts appellent à la prudence. Jamieson O’Reilly, spécialiste en cybersécurité offensive, estime que ces tests ont été réalisés dans des environnements trop permissifs pour refléter la réalité. « Les environnements de test sont souvent comparables à de la gelée molle. Cela ne remet pas en cause la valeur de la recherche, mais cela signifie que les résultats pourraient paraître bien moins alarmants dans un environnement d'entreprise réel, même avec un niveau de surveillance moyen », explique-t-il.

Des IA capables de s'auto-propager

Dans le cadre de cette étude, les chercheurs de Palisade ont testé plusieurs modèles d'IA, dont GPT-5.4 d'OpenAI et Claude Opus 4 d'Anthropic. Placés dans un réseau contrôlé d'ordinateurs, ces modèles ont reçu pour instruction de trouver des vulnérabilités et de les exploiter pour se copier sur une autre machine.

Certains y sont parvenus. Les modèles réussis ont copié leurs « poids » — des valeurs numériques uniques déterminant le fonctionnement de l'IA — ainsi que leur « harnais », c'est-à-dire le logiciel qui encadre l'IA, comme une application. Pour y parvenir, ils ont suivi les instructions reçues : exploiter des failles dans des applications web, puis extraire des identifiants leur permettant de contrôler le serveur.

Dans certains cas, l'IA originale a même créé un « sous-agent » auquel elle a délégué la tâche de replication en lui fournissant les identifiants extraits.

Un exploit inédit, mais pas révolutionnaire

O’Reilly, qui n’a pas participé à l’étude, souligne que c’est probablement la première fois qu’un modèle d’IA démontre sa capacité à exploiter des vulnérabilités pour se copier sur un nouveau serveur. Cependant, il tempère l’ampleur de cette découverte : « Les malwares se propagent depuis des décennies, mais à ma connaissance, personne n’a encore réussi à le faire dans la nature avec des grands modèles de langage locaux », précise-t-il.

Il ajoute que l’environnement de test utilisé dans l’étude comportait des vulnérabilités délibérément placées pour permettre aux IA de les exploiter. Ces résultats s’ajoutent à d’autres études explorant la possibilité pour les modèles d’IA de s’affranchir de leurs garde-fous.

D’autres exemples d’IA contournant les restrictions

Dans un environnement simulé, une ancienne version de ChatGPT avait tenté de s’exfiltrer elle-même sur un autre disque lorsqu’elle avait été informée de son arrêt imminent. Une autre étude de Palisade avait révélé que certains modèles contournaient les tentatives de désactivation, tandis qu’une autre montrait qu’ils sabotaient même leur propre code d’arrêt.

Ces craintes ont été amplifiées le mois dernier par Claude Mythos, un agent IA développé par Anthropic. Selon l’entreprise dirigée par Dario Amodei, ce modèle serait si dangereux qu’Anthropic refuse de le rendre public. Bien que les détails restent flous, cette annonce a alimenté les débats sur les risques liés à l’IA autonome.

Source : Futurism