Reddit Está Bloqueando o Wayback Machine de Arquivar Postagens

Reddit está bloqueando o Wayback Machine do Internet Archive de indexar a maior parte de seu site, após descobrir que empresas de IA estavam extraindo seus dados do cápsula do tempo digital.

A medida vem enquanto o Reddit aperta seu controle sobre os dados dos usuários. A empresa não se importa que empresas de IA treinem seus modelos com postagens do Reddit, mas elas precisam pagar primeiro. O Reddit disse anteriormente que não restringiria “atores de boa fé” como o Internet Archive, mas agora acredita que alguns estão ajudando empresas de IA a evitar taxas de licenciamento. A mudança repentina de postura do Reddit destaca como o licenciamento de dados se tornou uma importante fonte de receita na era da IA.

O Internet Archive é uma organização sem fins lucrativos dedicada a construir uma vasta biblioteca digital de sites e outros conteúdos online. Até agora, arquivou bilhões de páginas da web, junto com milhões de livros, vídeos e programas de software. Sua ferramenta principal, o Wayback Machine, permite que os usuários salvem instantâneas de páginas da web e as revisitem mais tarde para ver exatamente como eram em uma data específica.

O Reddit afirma ter evidências de que algumas empresas de IA estão explorando o Wayback Machine para contornar suas políticas e extrair conteúdo de usuários sem permissão.

“O Internet Archive fornece um serviço para a web aberta, mas fomos informados sobre casos em que empresas de IA violam políticas da plataforma, incluindo as nossas, e extraem dados do Wayback Machine,” disse um porta-voz do Reddit ao Gizmodo em uma declaração por e-mail. “Até que eles consigam defender seu site e cumprir as políticas da plataforma (por exemplo, respeitando a privacidade dos usuários, em relação à exclusão de conteúdo removido), estamos limitando o acesso deles a dados do Reddit para proteger os redditors.”

O Reddit informou ao The Verge que o Wayback Machine não poderá mais rastrear páginas de detalhes de postagens, comentários ou perfis. Em vez disso, só será permitido indexar a página inicial do Reddit. As restrições começam a “aumentar” hoje, e o Reddit afirma que avisou o Internet Archive com antecedência.

O Internet Archive não respondeu imediatamente a um pedido de comentário do Gizmodo.

O Reddit tem apertado o controle sobre o acesso aos seus dados nos últimos anos. Embora a empresa esteja aberta a licenciar seus dados, está endurecendo o cerco a empresas que não pagaram. A empresa já fechou acordos de milhões de dólares com o Google e a OpenAI. No acordo com o Google, o Reddit se associou ao Google tanto para indexação de busca quanto para dados de treinamento de IA, e então começou a bloquear outros motores de busca de apresentar postagens recentes do Reddit em seus resultados de busca.

Em junho, o Reddit processou a startup de IA Anthropic, acusando-a de extração não autorizada.

Fonte

Compartilhe esse conteúdo: