O Tribunal do Distrito Sul de Nova York arquivou um processo de violação de direitos autorais movido pela Raw Story Media, Inc. e pela AlterNet Media, Inc., veículos de notícias online de esquerda alternativa, contra a OpenAI, encerrando efetivamente as alegações de que a empresa de IA generativa violou direitos autorais ao usar conteúdo de notícias raspado em seus dados de treinamento.
Esse arquivamento pode ser visto como um momento importante na batalha em andamento sobre direitos autorais e ferramentas de IA—particularmente sob a Seção 1202(b) da Lei de Direitos Autorais do Milênio Digital (DMCA)—mas vale a pena notar que outros casos também falharam em estabelecer alegações bem-sucedidas sob essa disposição.
Vamos mergulhar no que aconteceu, por que o juiz arquivou o caso e o que isso significa para o futuro da IA, direitos autorais e a legalidade das empresas de tecnologia em raspar conteúdo da web sem a permissão expressa ou compensação dos criadores.
Entendendo a Seção 1202(b) do DMCA
O processo girava em torno da Seção 1202(b) do DMCA, uma disposição que visa proteger “informações de gerenciamento de direitos autorais” (CMI). Isso inclui nomes de autores, títulos e outras metadatas que identificam obras protegidas por direitos autorais. A Seção 1202(b) proíbe a remoção ou alteração de tais informações sem autorização, especialmente se isso facilitar a infração de direitos autorais.
Neste caso, a Raw Story e a AlterNet alegaram que a OpenAI usou artigos de seus sites para treinar o ChatGPT e outros modelos sem preservar a CMI, violando a Seção 1202(b).
A OpenAI não é a única empresa de IA que provavelmente raspou tal material da web—enquanto os provedores de modelos de IA tendem a proteger de perto seus conjuntos de dados de treinamento, a indústria em geral raspou grandes porções da web para treinar seus vários modelos (uma prática semelhante ao que o Google fez para rastrear e indexar resultados de busca em seu principal produto de motor de busca). Dessa forma, alguns criadores veem a raspagem de dados como o “pecado original” da IA.
Neste caso, os autores Raw Story e Alternet alegaram que as saídas da IA da OpenAI—respostas geradas pelos modelos—eram, às vezes, baseadas em seus artigos e que a empresa violou conscientemente os direitos autorais após a remoção da CMI.
Por que o tribunal arquivou as alegações da Raw Story
A juíza Colleen McMahon concedeu a moção da OpenAI para arquivar o caso com base na falta de legitimidade. Especificamente, a juíza constatou que os autores não conseguiram demonstrar que sofreram um dano concreto e real devido às ações da OpenAI—um requisito essencial sob o Artigo III da Constituição dos EUA para que qualquer processo prossiga.
A juíza McMahon também considerou o cenário em evolução das interfaces de modelos de linguagem grande (LLM), observando que as atualizações desses sistemas complicam ainda mais a atribuição e a rastreabilidade. Ela enfatizou que as melhorias iterativas da IA generativa tornam menos provável que o conteúdo seja reproduzido palavra por palavra, tornando as alegações dos autores ainda mais especulativas.
A juíza notou que “a probabilidade de o ChatGPT reproduzir um excerto idêntico de um dos artigos da Raw Story era altamente especulativa.” Isso reflete uma dificuldade chave nesses tipos de casos: a IA generativa é projetada para sintetizar informações em vez de replicá-las palavra por palavra. Os autores não conseguiram apresentar evidências convincentes de que suas obras específicas foram infringidas de uma maneira que levou a um dano identificável.
A decisão alinha-se a casos semelhantes em que os tribunais têm lutado para aplicar a lei de direitos autorais tradicional à IA generativa. Por exemplo, o caso Doe 1 v. GitHub, envolvendo o Copilot da Microsoft, também lidou com alegações sob a Seção 1202(b). Nesse caso, o tribunal concluiu que o código gerado pelo Copilot não era uma “cópia idêntica” do original, mas sim trechos que foram reconfigurados, dificultando a prova da violação dos requisitos de CMI.
Uma divisão crescente sobre a Seção 1202(b)
A decisão da Raw Story destaca as incertezas mais amplas que os tribunais estão enfrentando em relação à Seção 1202(b), especialmente com a IA generativa. Atualmente, não há um consenso firme sobre como a Seção 1202(b) se aplica a uma ampla gama de conteúdos online. Em um canto, alguns tribunais impuseram o que é chamado de requisito de “identicidade”—significando que os autores devem provar que as obras infratoras são uma cópia exata do conteúdo original, menos a CMI. Outros, no entanto, permitiram interpretações mais flexíveis.
Por exemplo, o tribunal no Distrito Sul do Texas recentemente rejeitou o requisito de identicidade, afirmando que mesmo reproduções parciais poderiam qualificar como violações se a CMI fosse deliberadamente removida.
Enquanto isso, no processo movido por Sarah Silverman e um grupo de autores, o tribunal decidiu que a autora não conseguiu apresentar evidências suficientes de que a OpenAI havia removido ativamente a CMI de seu conteúdo. Essa decisão, assim como a da Raw Story, sublinha o ônus probatório que os autores enfrentam.
Como explicado por Maria Crusey em um artigo para a Authors Alliance, “O aumento nas alegações de §1202(b) levanta questões desafiadoras, a saber: Como a §1202(b) se aplica ao uso de uma obra protegida por direitos autorais como parte de um conjunto de dados que deve ser limpo, reestruturado e processado de maneiras que separem as informações de gerenciamento de direitos autorais do conteúdo em si?”
Por que essa decisão é importante para a IA e criadores de conteúdo
O arquivamento do processo da Raw Story é mais do que uma vitória para a OpenAI—é um indicador de como os tribunais podem lidar com alegações de direitos autorais semelhantes no cenário em rápida evolução da IA generativa. Com a OpenAI e seu investidor Microsoft atualmente defendendo-se contra um processo semelhante movido pelo The New York Times, a decisão pode apenas ajudar a estabelecer um precedente para arquivar esta e futuras alegações.
De fato, a decisão sugere que, sem um dano claro e demonstrável ou reprodução exata, os autores podem ter dificuldades para levar seu caso ao tribunal.
A decisão da juíza McMahon também toca em um ponto mais amplo sobre como a IA sintetiza dados em vez de replicá-los diretamente. O ChatGPT da OpenAI não recorda diretamente artigos da Raw Story—ele, em vez disso, usa dados de treinamento para produzir saídas novas que se assemelham à escrita humana. Isso torna a prova de violações sob as leis de direitos autorais atuais inerentemente difícil.
Para os criadores de conteúdo, isso levanta um desafio significativo: como garantir o crédito adequado e prevenir o uso não autorizado de seu trabalho em conjuntos de dados de treinamento. Acordos de licenciamento como os que a OpenAI firmou com grandes editores de notícias, como a Vogue e a Condé Nast, poderiam se tornar um novo padrão, dando às empresas uma maneira de usar legalmente conteúdo protegido por direitos autorais enquanto compensam seus criadores.
Entre um robô e um lugar difícil
Os tribunais ainda estão descobrindo como lidar com a IA generativa, e decisões recentes sugerem que estão relutantes em estender as proteções da Seção 1202(b) a menos que os autores mostrem danos reais e específicos. O conteúdo gerado por IA sintetiza em vez de replicar, tornando difícil provar violações de direitos autorais.
Para os autores, isso significa que provar danos é uma batalha difícil. Os tribunais estão sinalizando que alegações vagas não são suficientes—os autores precisam de evidências concretas de danos. Para desenvolvedores e empresas de tecnologia, mesmo que as probabilidades pareçam favoráveis, ninguém quer um processo. Transparência, registros de dados e conformidade são essenciais para evitar problemas legais.
A juíza McMahon observou que o caso poderia ser refiled (junto com uma explicação de por que a emenda proposta não seria fútil, escreveu ela), mas obstáculos significativos permanecem.