Tomando uma posição firme contra o uso não licenciado das obras de seus autores por empresas de tecnologia, a gigante editorial Penguin Random House mudará a linguagem nas páginas de copyright de todos os seus livros para proibir expressamente seu uso no treinamento de sistemas de inteligência artificial, de acordo com a reportagem do The Bookseller.
É uma mudança notável em relação a outras grandes editoras, como as imprensas acadêmicas Taylor & Francis, Wiley e Oxford University Press, que concordaram em licenciar seus portfólios para empresas de IA.
Matthew Sag, um especialista em IA e direitos autorais da Emory University School of Law, disse que a nova linguagem da Penguin Random House parece ser direcionada ao mercado da União Europeia, mas também pode impactar como as empresas de IA nos EUA usam seu material. Sob a lei da UE, os titulares de direitos autorais podem optar por não ter suas obras mineradas. Embora esse direito não esteja consagrado na lei dos EUA, os maiores desenvolvedores de IA geralmente não raspam conteúdo atrás de paywalls ou conteúdo excluído pelos arquivos robot.txt dos sites. “Você pensaria que não há razão para que eles não respeitem esse tipo de opt-out [que a Penguin Random House está incluindo em seus livros] desde que seja um sinal que eles possam processar em escala”, disse Sag.
Dezenas de autores e empresas de mídia processaram nos EUA o Google, Meta, Microsoft, OpenAI e outros desenvolvedores de IA, acusando-os de violar a lei ao treinar grandes modelos de linguagem com obras protegidas por direitos autorais. As empresas de tecnologia argumentam que suas ações se enquadram na doutrina de uso justo, que permite o uso não licenciado de material protegido em certas circunstâncias—por exemplo, se a obra derivada transforma substancialmente o conteúdo original ou se é usada para crítica, reportagem ou educação.
Os tribunais dos EUA ainda não decidiram se alimentar um livro em um grande modelo de linguagem constitui uso justo. Enquanto isso, as tendências nas redes sociais em que os usuários postam mensagens dizendo às plataformas de tecnologia para não treinar modelos de IA com seu conteúdo têm sido previsivelmente malsucedidas.
A mensagem de não treinamento da Penguin Random House é um pouco diferente dessas copypastas otimistas. Por um lado, os usuários das redes sociais precisam concordar com os termos de serviço de uma plataforma, que invariavelmente permite que seu conteúdo seja utilizado para treinar IA. Por outro lado, a Penguin Random House é uma editora internacional rica que pode respaldar sua mensagem com equipes de advogados.
O The Bookseller informou que as novas páginas de copyright da editora dirão, em parte: “Nenhuma parte deste livro pode ser usada ou reproduzida de qualquer maneira para fins de treinamento de tecnologias ou sistemas de inteligência artificial. De acordo com o Artigo 4(3) da Diretiva do Mercado Único Digital 2019/790, a Penguin Random House reserva expressamente este trabalho da exceção de text mining e data mining.”
As empresas de tecnologia estão felizes em minerar a internet, particularmente sites como Reddit, em busca de conjuntos de dados linguísticos, mas a qualidade desse conteúdo tende a ser baixa—cheia de conselhos ruins, racismo, sexismo e todos os outros ismos, contribuindo para preconceitos e imprecisões nos modelos resultantes. Pesquisadores de IA afirmaram que livros estão entre os dados de treinamento mais desejáveis para modelos devido à qualidade da escrita e à verificação de fatos.
Se a Penguin Random House conseguir efetivamente isolar seu conteúdo protegido por direitos autorais de grandes modelos de linguagem, isso pode ter um impacto significativo na indústria de IA generativa, forçando os desenvolvedores a começarem a pagar por conteúdo de alta qualidade—o que seria um golpe nos modelos de negócios que dependem do uso gratuito do trabalho de outras pessoas—ou tentar vender aos clientes modelos treinados com conteúdo de baixa qualidade da internet e material publicado desatualizado.
“O objetivo final de empresas como a Penguin Random House que optam por não treinar IA pode ser satisfazer os interesses dos autores que se opõem ao uso de suas obras como dados de treinamento por qualquer motivo, mas é provavelmente para que a editora possa reverter e [começar] a cobrar taxas de licença pelo acesso aos dados de treinamento”, disse Sag. “Se esse for o mundo em que acabamos, as empresas de IA continuarão a treinar na ‘internet aberta’, mas qualquer um que controla uma pilha moderadamente grande de texto desejará optar por não participar e cobrar pelo acesso. Isso parece ser um compromisso bastante bom que permite que editores e sites monetize o acesso sem criar custos de transação impossíveis para o treinamento de IA em geral.”