Le grattage de contenu, un marché parallèle florissant
Le conflit opposant l'industrie médiatique aux entreprises d'IA autour des droits d'auteur prend une nouvelle dimension : celle des sorties générées par ces technologies. Scraper des contenus sans autorisation reste moralement condamnable, mais si l'usage qui en est fait ne nuit pas directement aux créateurs, il devient difficile d'établir un préjudice tangible. Or, la plupart des procédures judiciaires, notamment les plaintes civiles, reposent sur la preuve d'un dommage.
L'affaire Silverman : un précédent révélateur
En 2023, une groupe d'auteurs, dont la comédienne Sarah Silverman, a poursuivi OpenAI pour avoir utilisé leurs livres sans compensation. Le tribunal a rejeté plusieurs de leurs revendications, faute de pouvoir identifier des copies directes dans les sorties de l'IA. La justice a rappelé un principe fondamental : il ne suffit pas de prouver que vos œuvres ont servi à entraîner un modèle d'IA. Il faut démontrer que les sorties générées par ce modèle portent atteinte à vos intérêts économiques.
L'ombre des entreprises de scraping
Les litiges comme celui de Silverman se heurtent à un obstacle majeur : l'invisibilité des activités de scraping. Ces opérations, souvent menées par des robots à grande échelle et en silence, échappent largement à la surveillance publique. Pourtant, une industrie parallèle s'est développée autour de cette pratique.
Selon une enquête approfondie menée par l'analyste Matthew Scott Goldstein, relayée par Digiday, au moins 21 entreprises, certaines financées à hauteur de centaines de millions de dollars, scrapent régulièrement le contenu des éditeurs sans rémunération. Elles revendent ensuite ces données à des clients incluant OpenAI, Amazon, et même des médias comme The Telegraph.
Ces sociétés, souvent méconnues du grand public, proposent des services de parsing de données internet pour les bots et agents automatisés. Parmi elles figurent Parallel AI, Exa et Bright Data. Goldstein souligne leur transparence : alors que Wall Street Journal présente Parallel AI comme une plateforme « dédiée au service des agents IA », l'analyste la qualifie sans détour de « société de scraping avec une meilleure image de marque ».
Un vide juridique exploité
Les revers judiciaires subis par les plaignants, couplés à la position de l'administration actuelle sur les droits d'auteur, envoient un message clair : le scraping non autorisé reste largement impuni. Les mécanismes légaux et techniques en vigueur favorisent un accès accru aux contenus pour les systèmes d'IA.
Le dilemme des médias : bloquer ou nourrir les robots ?
Cette situation place les entreprises médiatiques face à un choix cornélien. Faut-il bloquer systématiquement les robots pour protéger ses contenus ? Ou accepter leur passage, au risque de voir ses données exploitées sans contrepartie ?
La première option implique des coûts techniques et une perte potentielle de visibilité. La seconde revient à abandonner la lutte – ou à laisser d'autres acteurs porter le combat à leur place. Dans un contexte où les revenus publicitaires et abonnements dépendent de l'engagement en ligne, cette décision n'est pas anodine.
« Montrer-moi les incitations, et je vous montrerai le résultat. » — Proverbe populaire adapté
Dans l'écosystème actuel, les incitations favorisent le scraping massif, faute de sanctions. Les médias doivent désormais composer avec cette réalité.