O paradoxo da raspagem de conteúdo e os limites da lei

O conflito entre a indústria de mídia e as empresas de IA sobre direitos autorais tem múltiplas frentes, mas uma das mais críticas gira em torno das saídas (outputs) geradas pelos sistemas. Raspar conteúdo sem permissão pode ser reprovável, mas, se a empresa não utiliza esses dados de forma a competir diretamente com os criadores originais, fica difícil comprovar dano. E, sem dano demonstrável, muitos processos judiciais — especialmente ações civis — perdem força.

Um caso emblemático ilustra essa situação. Em 2023, um grupo de autores, incluindo a comediante Sarah Silverman, processou a OpenAI por usar seus livros para treinar modelos de linguagem sem compensação. No entanto, um juiz rejeitou parte das acusações porque os autores não apresentaram provas de que a IA gerava saídas específicas que copiavam diretamente seus trabalhos. A conclusão foi clara: apenas alegar que um grande modelo de linguagem (LLM) foi treinado com material protegido não é suficiente. É preciso demonstrar que os outputs resultantes prejudicam comercialmente os criadores originais.

A sombra do scraping em escala industrial

Os processos judiciais, como o de Silverman, dependem de evidências concretas de raspagem e reprodução. O problema é que grande parte dessa atividade ocorre de forma automatizada, silenciosa e em larga escala, por meio de bots. Enquanto outputs de serviços públicos de IA, como ChatGPT, Gemini e Perplexity, são visíveis, existe um mercado paralelo de raspagem de dados que opera na obscuridade.

Um relatório recente do analista de mídia Matthew Scott Goldstein, publicado pela Digiday, revelou um esquema preocupante: pelo menos 21 empresas, algumas avaliadas em centenas de milhões de dólares, raspam conteúdo de veículos de comunicação sem pagamento e revendem esses dados como "serviços de dados" para clientes como OpenAI, Amazon e até mesmo outros meios de comunicação, como o The Telegraph.

O negócio por trás da raspagem

Essas empresas não são as mais conhecidas do público, mas seus nomes já circulam no setor: Parallel AI, Exa e Bright Data. Goldstein destaca que elas não escondem suas atividades. Enquanto um perfil do Wall Street Journal descreveu a Parallel AI como uma plataforma "dedicada a atender agentes de IA", o analista a define como uma "empresa de raspagem com branding aprimorado".

A lógica é simples: onde há incentivo, há prática. Diante de derrotas judiciais em casos de direitos autorais e da postura permissiva do governo atual em relação ao tema, a mensagem é inequívoca: não há consequências significativas para a raspagem não autorizada. Os mecanismos legais e técnicos, na maioria dos casos, favorecem o acesso irrestrito dos sistemas de IA ao conteúdo.

O dilema das empresas de mídia: bloquear ou se render?

Essa realidade impõe uma escolha difícil para os veículos de comunicação. Bloquear os bots agressivamente pode reduzir o tráfego e limitar a visibilidade, mas é uma estratégia de defesa. Por outro lado, permitir a raspagem significa, em essência, ceder à exploração — ou, no mínimo, deixar que terceiros lucrem com o uso não autorizado de seu conteúdo.

Enquanto a Justiça não define regras claras e a fiscalização permanece frágil, o mercado de raspagem de dados para IA segue em expansão. Para os criadores de conteúdo, a batalha está longe de terminar, mas a estratégia de sobrevivência pode exigir inovações tanto no bloqueio de bots quanto na negociação de novos modelos de licenciamento.