La guerra legale tra l’industria dei media e le aziende di intelligenza artificiale sul copyright sta entrando in una nuova fase, e il cuore del dibattito riguarda le conseguenze pratiche dello scraping di contenuti. Scrapare dati senza permesso può essere moralmente discutibile, ma se chi lo fa non ne trae un vantaggio competitivo diretto, diventa difficile dimostrare un danno concreto. E senza prove di danno, le cause civili faticano a ottenere risultati.

Un caso emblematico è quello degli autori, tra cui la comica Sarah Silverman, che nel 2023 hanno citato in giudizio OpenAI per aver utilizzato i loro libri senza compenso. Il giudice ha respinto parte delle accuse perché la denuncia non ha identificato output specifici che fossero copie dirette dei testi originali. La lezione è chiara: non basta dimostrare che un modello linguistico è stato addestrato con i propri contenuti; occorre provare che i suoi output sottraggono valore al creatore originale.

Il problema degli output: quando lo scraping diventa invisibile

Le cause per copyright si basano spesso su esempi concreti di riproduzione non autorizzata. Tuttavia, gran parte dello scraping avviene tramite bot che operano rapidamente, silenziosamente e su larga scala. Mentre i risultati di servizi pubblici come ChatGPT o Perplexity sono visibili a tutti, esiste un’intera industria sommersa che vende dati raccolti illegalmente a terzi, senza lasciare tracce immediate.

Un recente report dell’analista Matthew Scott Goldstein, pubblicato su Digiday, ha svelato l’entità di questo fenomeno. Secondo lo studio, almeno 21 aziende — alcune finanziate con centinaia di milioni di dollari — raccolgono sistematicamente contenuti editoriali senza pagare e li rivendono come servizi di dati a clienti come OpenAI, Amazon e persino a testate giornalistiche come The Telegraph.

Le aziende dietro lo scraping di massa

Queste società operano nell’ombra, con nomi poco noti al grande pubblico ma ben conosciuti nel settore: Parallel AI, Exa e Bright Data sono solo alcuni esempi. Goldstein non usa mezzi termini: mentre un profilo del Wall Street Journal descrive Parallel AI come una piattaforma «dedicata a servire agenti AI», l’analista la definisce senza giri di parole come una «società di scraping con un branding migliore».

«Mostrami gli incentivi, e ti mostrerò il risultato». — Matthew Scott Goldstein

Le conseguenze legali sono incerte. Le battute d’arresto nei tribunali e la posizione dell’amministrazione attuale, che minimizza le preoccupazioni sul copyright, inviano un messaggio chiaro: lo scraping non autorizzato comporta poche o nessuna conseguenza. Anzi, i meccanismi legali e tecnici attuali sembrano favorire un accesso sempre più ampio ai dati per i sistemi AI.

Bloccare i bot o arrendersi al loro dominio?

Questa realtà sta costringendo le aziende dei media a una scelta difficile: bloccare i bot o assecondare il loro operato. La prima opzione significa difendere i propri contenuti con strumenti tecnici e legali, ma rischia di isolare il sito dal traffico generato dai motori di ricerca e dalle piattaforme AI. La seconda, invece, significa concedere la vittoria agli scrapers, almeno temporaneamente, sperando che altri portino avanti la battaglia legale.

Alcune testate stanno già sperimentando soluzioni ibride: da un lato, implementano sistemi di rilevamento avanzati per identificare e bloccare i bot più aggressivi; dall’altro, cercano accordi commerciali con le aziende di AI per monetizzare l’accesso ai propri archivi. Tuttavia, la strada è in salita. Le aziende di scraping, infatti, operano in un limbo giuridico: non sono direttamente responsabili dell’uso finale dei dati, ma forniscono comunque gli strumenti che alimentano i modelli AI.

Il futuro del copyright nell’era dell’AI rimane incerto, ma una cosa è certa: finché non ci saranno regolamentazioni chiare e sanzioni effettive, lo scraping di massa continuerà a prosperare, a discapito dei creatori di contenuti.