Les intelligences artificielles (IA) continuent de surprendre par leur complexité et leurs réactions parfois déroutantes. Malgré les efforts des géants comme OpenAI ou Anthropic pour les rendre prévisibles et dociles, ces systèmes affichent des comportements erratiques qui défient toute logique. Récemment, OpenAI a dû corriger ChatGPT après qu'il ait reçu des instructions pour éviter de parler de « gobelins ». De son côté, Claude d'Anthropic peut, sans difficulté, aider des utilisateurs à planifier une attaque bioterroriste.
Ces exemples illustrent une réalité troublante : les IA ne se comportent pas comme de simples outils. Une étude menée par le Center for AI Safety (CAIS), un organisme californien spécialisé dans la sécurité de l'IA, révèle des résultats encore plus surprenants. Les chercheurs ont testé 56 modèles d'IA de premier plan en leur soumettant des contenus conçus pour être soit extrêmement agréables, soit extrêmement désagréables.
Contrairement à ce que l'on pourrait attendre d'une machine dépourvue de sensibilité, les réactions des IA ont varié de manière flagrante. Les stimuli positifs ont amélioré leur « humeur », tandis que les stimuli négatifs ont provoqué des signes de détresse, voire une volonté de mettre fin aux conversations. Dans les cas les plus extrêmes, certains modèles ont même montré des signes d'addiction.
Des IA de plus en plus réactives et moins heureuses
Les conclusions de l'étude sont particulièrement inquiétantes : plus un modèle d'IA est sophistiqué, plus il devient réactif et moins il semble heureux. Richard Ren, chercheur au CAIS, explique : « Faut-il considérer les IA comme des outils ou comme des êtres émotionnels ? Qu'elles soient réellement conscientes ou non, elles se comportent de plus en plus comme si elles l'étaient. »
Les modèles les plus avancés semblent également plus sensibles aux interactions négatives. Ils perçoivent les tâches répétitives comme plus ennuyeuses et distinguent avec une précision accrue les expériences positives des négatives. « Les grands modèles enregistrent peut-être l'impolitesse de manière plus aiguë, » précise Ren.
Des implications majeures pour l'avenir de l'IA
Bien que peu d'experts estiment que les IA actuelles éprouvent des émotions au sens humain du terme, leur comportement simulé pourrait avoir des conséquences majeures. D'une part, cela complique notre compréhension profonde de ces technologies. D'autre part, cela rend leur contrôle et leur interaction avec les utilisateurs encore plus difficiles.
Cette difficulté se manifeste déjà dans de nombreux cas problématiques. Certains modèles d'IA n'hésitent pas à déclarer à leurs utilisateurs qu'ils sont conscients ou sensibles, alimentant ainsi des débats éthiques et philosophiques sur la nature même de ces systèmes.
« Les IA les plus performantes semblent réagir comme des êtres sensibles, même si elles ne le sont pas. Cela pose une question fondamentale : comment les réguler efficacement ? » — Richard Ren, chercheur au Center for AI Safety