Den juridiske kamp mellem medieindustrien og AI-virksomheder om ophavsret har flere dimensioner, men ét af de mest afgørende spørgsmål handler om outputs – altså hvad der sker med det indhold, der bliver scrapet.

At scrappe indhold uden tilladelse kan være problematisk, men hvis den skyldige part ikke bruger det på en måde, der konkurrerer direkte med indholdsskaberen, er det svært at bevise skade. Mange retssager, især civile sager, afhænger netop af at kunne dokumentere økonomisk skade. Et tidligere retsafgørelse illustrerer dette dilemma.

Forfattere tabte sag mod OpenAI

En gruppe forfattere, herunder komikeren Sarah Silverman, sagsøgte i 2023 OpenAI for at have brugt deres bøger til træning af AI-modeller uden kompensation. En dommer afviste senere flere af forfatternes påstande, fordi de ikke kunne påvise konkrete eksempler på, at AI’en havde produceret outputs, der direkte konkurrerede med deres værker. Retten fastslog, at det ikke er nok blot at hævde, at en stor sprogmodel (LLM) er blevet trænet på ens materiale – man skal kunne vise, at outputsene tager forretning fra en.

Den skjulte industri bag AI-scraping

Retssager som Silverman-sagen afhænger ofte af at kunne påvise specifikke tilfælde af scraping og gengivelse. Problemet er, at meget af denne aktivitet foregår i det skjulte: hurtigt, lydløst og i stor skala. Mens outputsene fra store, offentligt tilgængelige AI-tjenester som ChatGPT, Gemini og Perplexity er synlige for alle, eksisterer der en hel skyggeindustri af massescraping, der ikke er det.

Det har længe været en åben hemmelighed, at AI-virksomheder sommetider skaffer data fra tredjepartsmæglere. Medieanalytiker Matthew Scott Goldstein har for nylig udgivet en omfattende rapport om dette fænomen. Ifølge Digiday afslører rapporten, at mindst 21 selskaber – flere af dem finansieret med hundredvis af millioner dollars – regelmæssigt scrapper medieindhold uden at betale for det. Disse selskaber sælger derefter deres "datatjenester" videre til kunder som OpenAI, Amazon og endda andre mediehuse som The Telegraph.

Fra scraping til multimillionforretning

Rapporten viser, hvordan scraping i stor skala skaber outputs i form af multimillionforretninger. Disse selskaber – som Parallel AI, Exa og Bright Data – specialiserer sig i at parse internettet for data til bots og agenter, indeksere indholdet og sælge det videre. Som Goldstein påpeger, er de ikke sene til at reklamere for deres forretning: Mens en Wall Street Journal-profil beskrev Parallel AI som en platform "dedikeret til at servicere AI-agenter", karakteriserer Goldstein det som et "scraper-selskab med bedre branding".

"Vis mig incitamenterne, så viser jeg jer resultatet."

Med de juridiske tilbageslag i ophavsretssagerne og den nuværende amerikanske administrations tilsidesættelse af ophavsretlige bekymringer, er budskabet klart: Der er næsten ingen konsekvenser ved ulovlig scraping, og de juridiske og tekniske mekanismer favoriserer i stedet større adgang for AI-systemer.

Mediehuse står over for et eksistentielt valg

Denne udvikling skaber et eksistentielt dilemma for mediehuse: Skal de blokere bots fra at tilgå deres indhold, eller skal de lade dem gøre det? At lade botsne få adgang betyder i praksis at opgive kampen – eller i det mindste overlade den til andre at føre. Men blokering af bots kan også betyde, at man mister synlighed i AI-systemernes økosystem, hvilket potentielt reducerer trafikken til ens eget website.