Der Rechtsstreit zwischen Medienhäusern und KI-Unternehmen um Urheberrechte hat viele Facetten. Ein zentraler Konfliktpunkt ist die Frage nach den Auswirkungen des Scrapings: Das unerlaubte Abschöpfen von Inhalten ist zwar verwerflich, doch ohne konkreten Nachweis eines Schadens für die Urheber ist eine Klage oft aussichtslos. Gerichte verlangen den Beweis, dass die KI-Systeme die Inhalte tatsächlich nutzen, um Einnahmen zu generieren oder Wettbewerbsvorteile zu schaffen.

Ein frühes Beispiel ist die Klage einer Gruppe von Autoren, darunter die Komikerin Sarah Silverman, gegen OpenAI aus dem Jahr 2023. Die Autoren warfen dem Unternehmen vor, ihre Bücher ohne Entschädigung für das Training von KI-Modellen verwendet zu haben. Doch das Gericht wies mehrere Ansprüche ab, weil die Kläger keine konkreten Fälle nachweisen konnten, in denen die KI direkte Kopien ihrer Werke erzeugt hatte. Die bloße Tatsache, dass ein Sprachmodell mit urheberrechtlich geschütztem Material trainiert wurde, reicht vor Gericht nicht aus.

Das Problem der KI-Ausgaben

Viele Urheberrechtsklagen scheitern daran, dass die Nutzung der gescrapten Inhalte im Verborgenen bleibt. Während große KI-Dienste wie ChatGPT oder Perplexity öffentlich zugänglich sind, operiert ein ganzer Schattenmarkt im Hintergrund: Firmen, die im großen Stil Inhalte abschöpfen, aufbereiten und weiterverkaufen – ohne Lizenzgebühren oder Einwilligung der Urheber.

Der Medienanalyst Matthew Scott Goldstein hat in einer aktuellen Studie für Digiday diese Praxis detailliert untersucht. Seine Erkenntnisse sind alarmierend: Mindestens 21 Unternehmen, einige mit Finanzierungen in Höhe von mehreren hundert Millionen Dollar, sammeln systematisch Inhalte von Verlagen ein und verkaufen sie als „Daten-Dienstleistung“ weiter. Zu den Kunden zählen nicht nur Tech-Giganten wie OpenAI und Amazon, sondern auch etablierte Medienhäuser wie The Telegraph.

Diese Firmen – darunter Namen wie Parallel AI, Exa und Bright Data – haben sich zu einem milliardenschweren Geschäft entwickelt. Sie scannen das Internet nach Inhalten, indizieren sie für KI-Systeme und vertreiben sie als Rohmaterial. Wie Goldstein betont, ist ihre Vorgehensweise kein Geheimnis: Während Wall Street Journal Parallel AI als Plattform für „KI-Agenten“ beschreibt, bezeichnet er das Unternehmen schlicht als „Scraping-Firma mit besserer PR“.

Keine Konsequenzen für Scraping

Die rechtliche Lage ist eindeutig: Da Gerichte bisher kaum Klagen wegen unerlaubten Scrapings stattgeben und die aktuelle US-Regierung Urheberrechtsbedenken weitgehend ignoriert, gibt es kaum Konsequenzen für die Praxis. Die rechtlichen und technischen Rahmenbedingungen begünstigen sogar den ungehinderten Zugang zu Inhalten für KI-Systeme. Medienunternehmen stehen damit vor einer schwierigen Entscheidung: Sollten sie Bots rigoros blockieren oder ihnen freien Zugang gewähren – und damit das Geschäft mit den Scraping-Firmen erst ermöglichen?

Die Antwort fällt vielen schwer. Einerseits riskieren Verlage durch zu lasche Maßnahmen, dass ihre Inhalte ohne Gegenleistung genutzt werden. Andererseits könnte ein vollständiger Block von Bots auch den eigenen Traffic und die Sichtbarkeit in Suchmaschinen beeinträchtigen. Die Branche steckt in einem Dilemma: Entweder sie kämpft aktiv gegen das Scraping – oder sie passt sich an und versucht, selbst von der Datenökonomie zu profitieren.