Новый фронт войны между СМИ и ИИ: кто виноват в нарушении авторских прав?

Правовая война между медиаиндустрией и компаниями, развивающими искусственный интеллект, вышла на новый уровень. Основной спор теперь разворачивается вокруг результатов — то есть, как именно используются данные, собранные без разрешения. Если компания не извлекает коммерческую выгоду из чужих материалов, доказать нарушение прав становится крайне сложно.

Почему суды не всегда на стороне авторов?

В 2023 году группа авторов, среди которых была комедиантка Сара Сильверман, подала иск против OpenAI. Они обвинили компанию в использовании их книг для обучения моделей без компенсации. Однако суд отклонил часть обвинений, так как истцы не смогли предъявить конкретные примеры выходных данных, которые напрямую копировали бы их произведения. Судьи пришли к выводу: одного факта обучения ИИ на чужих материалах недостаточно — нужно доказать, что это наносит реальный ущерб правообладателю.

Проблема в том, что большая часть таких данных собирается автоматически — быстро, скрытно и в огромных масштабах. Пользовательские интерфейсы ИИ, такие как ChatGPT или Gemini, лишь верхушка айсберга. За ними скрывается целая теневой рынок, где компании-«скрейперы» зарабатывают на перепродаже контента.

Кто стоит за массовым сбором данных для ИИ?

Аналитик медиаиндустрии Мэттью Скотт Голдштейн опубликовал отчёт, в котором раскрыл деятельность 21 компании, занимающейся нелегальным сбором и перепродажей контента. Эти фирмы, финансируемые на сотни миллионов долларов, поставляют данные крупнейшим ИИ-разработчикам, включая OpenAI, Amazon и даже традиционные СМИ, такие как The Telegraph.

Среди них — Parallel AI, Exa и Bright Data. По словам Голдштейна, их бизнес-модель строится на парсинге интернет-контента, индексации и последующей перепродаже. Как отметил аналитик, компании не скрывают свою деятельность: Parallel AI позиционирует себя как платформу для «обслуживания ИИ-агентов», но по сути это бизнес на нелегальном сборе данных.

Почему закон не работает против скрейперов?

Несмотря на судебные иски, а также критику со стороны властей, правовых последствий для компаний, занимающихся несанкционированным сбором данных, практически нет. Текущая судебная практика и технические механизмы защиты склоняются в пользу расширения доступа к контенту для ИИ-систем. Это создаёт парадокс: медиаресурсы вынуждены выбирать между блокировкой ботов или сотрудничеством с ними.

Что делать СМИ: бороться или сотрудничать?

У медиакомпаний есть два пути:

  • Агрессивная блокировка ботов: защита контента от несанкционированного сбора, но это требует значительных технических и финансовых затрат.
  • Легализация сбора данных: добровольное предоставление контента для обучения ИИ, что может привести к потере контроля над распространением материалов.

Пока судебная система не выработала единого подхода, медиа вынуждены лавировать между этими вариантами, рискуя потерять доходы или контроль над своими материалами.

«Если показать стимулы, станет ясно, каким будет результат». — Аналитик Мэттью Скотт Голдштейн о том, почему компании продолжают игнорировать вопросы авторского права.

Источник: Fast Company