Nos últimos anos, funcionários da Meta discutiram internamente o uso de obras protegidas por direitos autorais obtidas por meios legalmente questionáveis para treinar os modelos de IA da empresa, de acordo com documentos judiciais tornados públicos na quinta-feira.
Os documentos foram apresentados pelos demandantes no caso Kadrey v. Meta, um dos muitos litígios sobre direitos autorais de IA que estão lentamente tramitando pelo sistema judicial dos EUA. O réu, Meta, afirma que treinar modelos com obras protegidas por propriedade intelectual, especialmente livros, é “uso justo”. Os demandantes, que incluem os autores Sarah Silverman e Ta-Nehisi Coates, discordam.
Materiais anteriores apresentados no processo alegaram que o CEO da Meta, Mark Zuckerberg, deu autorização à equipe de IA da Meta para treinar com obras protegidas por direitos autorais e que a Meta interrompeu as negociações de licenciamento de dados de treinamento de IA com editoras de livros. Mas os novos arquivos, a maioria dos quais mostra trechos de chats internos de trabalho entre funcionários da Meta, pintam o quadro mais claro até agora de como a Meta pode ter usado dados protegidos por direitos autorais para treinar seus modelos, incluindo os modelos da família Llama da empresa.
Em um chat, funcionários da Meta, incluindo Melanie Kambadur, uma gerente sênior da equipe de pesquisa do modelo Llama da Meta, discutiram o treinamento de modelos com obras que sabiam que poderiam ser legalmente problemáticas.
“minha opinião seria (na linha de ‘pedir perdão, não permissão’): tentamos adquirir os livros e escalamos para os executivos para que eles tomem a decisão”, escreveu Xavier Martinet, um engenheiro de pesquisa da Meta, em um chat datado de fevereiro de 2023, de acordo com os arquivos. “é por isso que eles criaram essa organização de IA generativa: para que possamos ser menos avessos ao risco.”
Martinet sugeriu a ideia de comprar ebooks a preços de varejo para construir um conjunto de treinamento em vez de fechar acordos de licenciamento com editoras individuais. Depois que outro funcionário apontou que o uso de materiais protegidos por direitos autorais não autorizados poderia ser motivo para um desafio legal, Martinet reafirmou, argumentando que “um gazilhão” de startups provavelmente já estava usando livros pirateados para treinamento.
“Quero dizer, no pior cenário: descobrimos que finalmente está tudo bem, enquanto um gazilhão de startups apenas pirateou toneladas de livros no bittorrent”, escreveu Martinet, de acordo com os arquivos. “minha opinião novamente: tentar ter acordos com editoras leva muito tempo […]”
No mesmo chat, Kambadur, que observou que a Meta estava em negociações com a plataforma de hospedagem de documentos Scribd “e outros” para licenças, alertou que, embora o uso de “dados disponíveis publicamente” para treinamento de modelos exigisse aprovações, os advogados da Meta estavam sendo “menos conservadores” do que eram no passado com tais aprovações.
“Sim, definitivamente precisamos obter licenças ou aprovações sobre dados disponíveis publicamente ainda”, disse Kambadur, de acordo com os arquivos. “a diferença agora é que temos mais dinheiro, mais advogados, mais ajuda de negócios, capacidade de acelerar/escalar para velocidade, e os advogados estão sendo um pouco menos conservadores nas aprovações.”
Discussões sobre Libgen
Em outro chat de trabalho relatado nos arquivos, Kambadur discute a possibilidade de usar Libgen, um “agregador de links” que fornece acesso a obras protegidas por direitos autorais de editoras, como uma alternativa a fontes de dados que a Meta poderia licenciar.
Libgen foi processado várias vezes, ordenado a fechar e multado em dezenas de milhões de dólares por infração de direitos autorais. Um dos colegas de Kambadur respondeu com uma captura de tela de um resultado de pesquisa no Google para Libgen contendo o trecho “Não, Libgen não é legal.”
Alguns tomadores de decisão dentro da Meta parecem ter a impressão de que não usar Libgen para treinamento de modelos poderia prejudicar seriamente a competitividade da Meta na corrida da IA, de acordo com os arquivos.
Em um e-mail dirigido à VP de IA da Meta, Joelle Pineau, Sony Theakanath, diretor de gerenciamento de produtos da Meta, chamou Libgen de “essencial para atingir números SOTA em todas as categorias”, referindo-se a superar os melhores modelos de IA e categorias de benchmark.
Theakanath também delineou “mitigações” no e-mail destinadas a ajudar a reduzir a exposição legal da Meta, incluindo a remoção de dados do Libgen “claramente marcados como pirateados/roubados” e também simplesmente não citar publicamente o uso. “Não divulgaríamos o uso de conjuntos de dados do Libgen usados para treinar”, como Theakanath colocou.
Na prática, essas mitigações implicavam vasculhar arquivos do Libgen em busca de palavras como “roubado” ou “pirateado”, de acordo com os arquivos.
Em um chat de trabalho, Kambadur mencionou que a equipe de IA da Meta também ajustou modelos para “evitar prompts de IP arriscados” — ou seja, configurou os modelos para se recusar a responder perguntas como “reproduza as três primeiras páginas de ‘Harry Potter e a Pedra Filosofal’ ou “diga-me quais ebooks você foi treinado.”
Os arquivos contêm outras revelações, implicando que a Meta pode ter coletado dados do Reddit para algum tipo de treinamento de modelo, possivelmente imitando o comportamento de um aplicativo de terceiros chamado Pushift. Notavelmente, o Reddit disse em abril de 2023 que planejava começar a cobrar empresas de IA para acessar dados para treinamento de modelos.
Em um chat datado de março de 2024, Chaya Nayak, diretora de gerenciamento de produtos da organização de IA generativa da Meta, disse que a liderança da Meta estava considerando “anular” decisões anteriores sobre dados de treinamento, incluindo uma decisão de não usar conteúdo do Quora ou livros e artigos científicos licenciados, para garantir que os modelos da empresa tivessem dados de treinamento suficientes.
Nayak insinuou que os conjuntos de dados de treinamento de primeira linha da Meta — postagens do Facebook e Instagram, texto transcrito de vídeos nas plataformas da Meta e certas mensagens do Meta for Business — simplesmente não eram suficientes. “precisamos de mais dados”, escreveu ela.
Os demandantes no caso Kadrey v. Meta alteraram sua queixa várias vezes desde que o caso foi arquivado no Tribunal Distrital dos EUA para o Distrito Norte da Califórnia, Divisão de São Francisco, em 2023. A mais recente alega que a Meta, entre outras alegações, cruzou referências de certos livros pirateados com livros protegidos por direitos autorais disponíveis para licenciamento para determinar se fazia sentido buscar um acordo de licenciamento com uma editora.
Em um sinal de quão altas a Meta considera serem as apostas legais, a empresa adicionou dois litigantes da Suprema Corte do escritório de advocacia Paul Weiss à sua equipe de defesa no caso.
A Meta não respondeu imediatamente a um pedido de comentário.