Um grande processo judicial de direitos autorais contra a Meta revelou uma série de comunicações internas sobre os planos da empresa para desenvolver seus modelos de IA de código aberto, Llama, que incluem discussões sobre como evitar “cobertura da mídia sugerindo que usamos um conjunto de dados que sabemos ser pirateado.”
As mensagens, que foram parte de uma série de documentos divulgados por um tribunal da Califórnia, sugerem que a Meta usou dados protegidos por direitos autorais ao treinar seus sistemas de IA e trabalhou para ocultá-los — enquanto corria para vencer rivais como OpenAI e Mistral. Trechos das mensagens foram revelados pela primeira vez na semana passada.
Em um e-mail de outubro de 2023 para o pesquisador de IA da Meta, Hugo Touvron, Ahmad Al-Dahle, vice-presidente de IA generativa da Meta, escreveu que o objetivo da empresa “precisa ser o GPT-4”, referindo-se ao grande modelo de linguagem que a OpenAI anunciou em março de 2023. A Meta “precisava aprender a construir fronteira e vencer essa corrida”, acrescentou Al-Dahle. Esses planos aparentemente envolviam o site de pirataria de livros Library Genesis (LibGen) para treinar seus sistemas de IA.
Um e-mail não datado do diretor de produto da Meta, Sony Theakanath, enviado à vice-presidente de pesquisa em IA, Joelle Pineau, ponderou se deveriam usar o LibGen internamente apenas, para benchmarks incluídos em um post de blog, ou criar um modelo treinado no site. No e-mail, Theakanath escreve que “GenAI foi aprovado para usar o LibGen para Llama3… com um número de mitigação acordadas” após escalá-lo para “MZ” — presumivelmente o CEO da Meta, Mark Zuckerberg. Como observado no e-mail, Theakanath acreditava que “Libgen é essencial para alcançar números SOTA [state-of-the-art]”, acrescentando que “é sabido que OpenAI e Mistral estão usando a biblioteca para seus modelos (por meio de boca a boca).” Mistral e OpenAI não afirmaram se usam ou não o LibGen. (A Verge entrou em contato com ambos para mais informações).
O Theakanath da Meta escreve que o LibGen é “essencial” para alcançar “números SOTA em todas as categorias.”
Os documentos do tribunal decorrem de uma ação coletiva que o autor Richard Kadrey, a comediante Sarah Silverman e outros entraram contra a Meta, acusando-a de usar conteúdo protegido por direitos autorais obtido ilegalmente para treinar seus modelos de IA em violação às leis de propriedade intelectual. A Meta, como outras empresas de IA, argumentou que o uso de material protegido por direitos autorais em dados de treinamento deve constituir uso justo legal. A Verge entrou em contato com a Meta com um pedido de comentário, mas não obteve resposta imediata.
Algumas das “mitigações” para o uso do LibGen incluíam estipulações de que a Meta deve “remover dados claramente marcados como pirateados/roubados”, enquanto evita citar externamente “o uso de qualquer dado de treinamento” do site. O e-mail de Theakanath também dizia que a empresa precisaria “red team” os modelos da empresa “para riscos de armas biológicas e CBRNE [Químico, Biológico, Radiológico, Nuclear e Explosivos].”
O e-mail também abordou alguns dos “riscos de política” impostos pelo uso do LibGen, incluindo como os reguladores poderiam responder à cobertura da mídia sugerindo o uso de conteúdo pirateado pela Meta. “Isso pode minar nossa posição de negociação com os reguladores sobre essas questões”, dizia o e-mail. Uma conversa de abril de 2023 entre o pesquisador da Meta, Nikolay Bashlykov, e o membro da equipe de IA, David Esiobu, também mostrou Bashlykov admitindo que “não tenho certeza se podemos usar os IPs da meta para carregar através de torrents [de] conteúdo pirata.”
Outros documentos internos mostram as medidas que a Meta tomou para obscurecer as informações de direitos autorais nos dados de treinamento do LibGen. Um documento intitulado “observações sobre LibGen-SciMag” mostra comentários deixados por funcionários sobre como melhorar o conjunto de dados. Uma sugestão é “remover mais cabeçalhos de direitos autorais e identificadores de documentos”, que inclui quaisquer linhas contendo “ISBN”, “Copyright”, “Todos os direitos reservados” ou o símbolo de direitos autorais. Outras notas mencionam retirar mais metadados “para evitar complicações legais potenciais”, bem como considerar se devem remover a lista de autores de um artigo “para reduzir a responsabilidade”.
O documento discute a remoção de “cabeçalhos de direitos autorais e identificadores de documentos.”
Em junho passado, o The New York Times relatou sobre a corrida frenética dentro da Meta após a estreia do ChatGPT, revelando que a empresa havia atingido um muro: havia usado quase todos os livros, artigos e poemas em inglês disponíveis online. Desesperados por mais dados, executivos supostamente discutiram a compra da Simon & Schuster e consideraram contratar contratados na África para resumir livros sem permissão.
No relatório, alguns executivos justificaram sua abordagem apontando para o “precedente de mercado” da OpenAI de usar obras protegidas por direitos autorais, enquanto outros argumentaram que a vitória judicial do Google em 2015, que estabeleceu seu direito de digitalizar livros, poderia fornecer cobertura legal. “A única coisa que nos impede de ser tão bons quanto o ChatGPT é literalmente apenas o volume de dados”, disse um executivo em uma reunião, segundo o The New York Times.
Foi relatado que laboratórios de fronteira como OpenAI e Anthropic atingiram um muro de dados, o que significa que não têm dados novos suficientes para treinar seus grandes modelos de linguagem. Muitos líderes negaram isso, o CEO da OpenAI, Sam Altman, disse claramente: “Não há muro.” O cofundador da OpenAI, Ilya Sutskever, que deixou a empresa em maio passado para iniciar um novo laboratório de fronteira, foi mais direto sobre o potencial de um muro de dados. Em uma conferência de IA de prestígio no mês passado, Sutskever disse: “Alcançamos o pico de dados e não haverá mais. Temos que lidar com os dados que temos. Só há uma internet.”
Essa escassez de dados levou a uma série de novas e estranhas maneiras de obter dados únicos. O Bloomberg relatou que laboratórios de fronteira como OpenAI e Google têm pago criadores de conteúdo digital entre US$ 1 e US$ 4 por minuto por suas filmagens de vídeo não utilizadas por meio de um terceiro para treinar LLMs (ambas as empresas têm produtos de geração de vídeo de IA concorrentes).
Com empresas como Meta e OpenAI esperando expandir seus sistemas de IA o mais rápido possível, as coisas estão destinadas a ficar um pouco bagunçadas. Embora um juiz tenha parcialmente rejeitado a ação coletiva de Kadrey e Silverman no ano passado, as evidências delineadas aqui podem fortalecer partes de seu caso à medida que avança no tribunal.