Une équipe de chercheurs issus de Stanford, de l'Imperial College London et de l'Internet Archive a mené une étude révélant qu’un tiers des sites web créés depuis 2022 sont générés par intelligence artificielle (IA). Leurs conclusions, publiées dans un article intitulé *« L’impact du texte généré par IA sur Internet »*, dressent un portrait inédit de la transformation du web sous l’influence des outils comme ChatGPT.

Les travaux s’inscrivent dans la lignée de la Dead Internet Theory, une hypothèse selon laquelle une part croissante d’Internet serait désormais contrôlée par des bots. Les chercheurs ont analysé l’évolution des contenus en ligne depuis le lancement de ChatGPT fin 2022, une période marquée par une adoption massive de l’IA générative.

« La vitesse à laquelle l’IA a pris le contrôle du web est stupéfiante », déclare Jonáš Doležal, chercheur en IA à Stanford et coauteur de l’étude. « En seulement trois ans, une part significative d’Internet, autrefois façonnée par des humains, est désormais définie par des algorithmes. Nous assistons, à mon sens, à une révolution du paysage numérique en un temps record. »

L’étude a également évalué six critiques récurrentes concernant le texte généré par IA :

  • Réduction de la diversité des points de vue
  • Propagation de la désinformation due aux hallucinations
  • Uniformisation du ton (plus aseptisé et optimiste)
  • Manque de citations ou de sources fiables
  • Diminution de la densité sémantique
  • Apparition d’une monoculture rédactionnelle

Pour mener cette analyse, les chercheurs se sont appuyés sur les archives de l’Internet Archive, en étudiant des échantillons de sites web publiés entre août 2022 et mai 2025. Chaque URL a été récupérée via la Wayback Machine, et le texte extrait a été analysé à l’aide de l’outil Pangram v3, spécialisé dans la détection de contenus générés par IA.

Parmi les méthodes employées, les chercheurs ont notamment vérifié la véracité des affirmations factuelles présentes sur les sites identifiés comme générés par IA. Pour cela, des vérificateurs humains ont été chargés d’évaluer la fiabilité des informations. Une autre approche a consisté à mesurer la présence de liens externes, afin de déterminer si les contenus générés par IA citent correctement leurs sources.

Les résultats préliminaires suggèrent une tendance inquiétante : l’IA semble favoriser des contenus plus concis, moins nuancés et parfois moins rigoureux sur le plan factuel. Ces observations alimentent le débat sur l’équilibre entre innovation technologique et préservation de la qualité de l’information en ligne.

Source : 404 Media