Un média piégé par des données simulées par IA

Le mois dernier, le site Axios a dû publier une correction inhabituelle pour un article évoquant une crise croissante de la santé maternelle aux États-Unis. L’article citait des résultats de sondage d’une entreprise nommée Aaru, présentés comme issus de réponses d’adultes américains. Pourtant, selon une note éditoriale, il a fallu préciser que Aaru est une firme spécialisée dans la simulation par IA.

En d’autres termes, Axios a publié des données de sondage entièrement générées par un modèle de langage, sans que cela soit clairement indiqué. Cette pratique, appelée « silicon sampling », illustre une tendance inquiétante : l’utilisation de l’IA pour remplacer les enquêtes d’opinion traditionnelles, même lorsque cela n’a aucun sens.

Le « silicon sampling » : une fausse solution aux coûts élevés des sondages

Comme l’expliquent Leif Weatherby, directeur du Digital Theory Lab, et Benjamin Recht, professeur d’informatique à l’Université de Californie à Berkeley, dans une tribune pour le New York Times, le « silicon sampling » repose sur une idée simple : les grands modèles de langage peuvent produire des réponses imitant celles des humains. Les entreprises de sondage y voient une opportunité pour simuler des réponses à moindre coût et en un temps record, par rapport aux méthodes traditionnelles.

Pourtant, cette approche pose un problème majeur : les données générées par IA n’ont de valeur que si elles reflètent les opinions réelles des humains. Comme le soulignent les experts, « utiliser des simulations d’opinions humaines au lieu de données réelles ne fera qu’aggraver notre écosystème d’information déjà défaillant et semer la méfiance ».

Les risques d’un système biaisé et peu fiable

Les sondages traditionnels utilisent des modèles statistiques pour compenser un échantillon parfois restreint et corriger les biais potentiels. Cependant, fabriquer des réponses artificielles avec l’IA est une alternative désastreuse, car elle introduit des biais supplémentaires et peut même influencer l’opinion publique au lieu de la refléter.

Le « silicon sampling » amplifie ces risques en intégrant les biais propres aux modèles d’IA. Une étude de l’Université Northeastern en 2025 a révélé que ces simulations ne sont pas des substituts fiables aux répondants humains, en particulier dans le domaine des politiques publiques. Les chercheurs ont constaté que les modèles peinent à saisir les opinions nuancées et reproduisent souvent des stéréotypes en raison des biais présents dans leurs données d’entraînement et de leurs filtres de sécurité.

Des choix analytiques qui faussent les résultats

Une autre étude, menée par Jamie Cummins, postdoctorant en psychologie à l’Université de Berne (non encore évaluée par des pairs), a montré que la génération de « silicon samples » implique de nombreuses décisions analytiques. Ces choix peuvent avoir un impact significatif sur la qualité des données. Même un petit nombre de modifications peut dramatiquement altérer la correspondance entre les échantillons simulés et les données humaines.

Une tendance dangereuse malgré les alertes

Malgré ces mises en garde répétées, des entreprises comme Aaru continuent de promouvoir le « silicon sampling » comme une solution viable. Pourtant, les experts s’accordent sur une approche plus prudente : utiliser l’IA pour optimiser la conception des recherches, mais conserver les échantillons humains comme référence absolue.

Cette affaire rappelle l’importance de la transparence et de la rigueur dans le traitement des données, surtout dans un contexte où l’IA s’immisce de plus en plus dans des domaines où la fiabilité est cruciale.

Source : Futurism