OpenAI luta contra ordem para entregar 20 milhões de conversas privadas do ChatGPT

OpenAI quer uma nova chance

OpenAI: O NYT quer evidências de usuários do ChatGPT tentando contornar o paywall de notícias.

OpenAI quer que um tribunal reverta uma decisão que força a empresa criadora do ChatGPT a entregar 20 milhões de conversas de usuários para o The New York Times e outros demandantes de notícias que a processaram por suposta violação de direitos autorais. Embora a OpenAI tenha oferecido anteriormente 20 milhões de conversas de usuários como contraproposta à demanda do NYT por 120 milhões, a empresa de IA afirma que uma ordem judicial exigindo a produção das conversas é muito ampla.

“Os registros em questão aqui são conversas completas: cada registro no amostra de 20 milhões representa uma troca completa de múltiplos pares de prompt-resposta entre um usuário e o ChatGPT”, disse a OpenAI hoje em um documento no Tribunal Distrital dos EUA para o Sul de Nova York. “A divulgação desses registros é, portanto, muito mais provável de expor informações privadas [do que pares de prompt-resposta individuais], da mesma forma que escutar uma conversa inteira revela mais informações privadas do que um fragmento de conversa de 5 segundos.”

O documento da OpenAI afirmou que “mais de 99,99%” das conversas “não têm nada a ver com este caso”. Ela pediu ao tribunal distrital que “anule a ordem e ordene que os Demandantes de Notícias respondam à proposta da OpenAI para identificar registros relevantes”. A OpenAI também pode buscar revisão em um tribunal federal de apelações.

A OpenAI postou uma mensagem em seu site para os usuários hoje dizendo que “O New York Times está exigindo que entreguemos 20 milhões de suas conversas privadas do ChatGPT” para “encontrar exemplos de você usando o ChatGPT para tentar contornar seu paywall.”

Os usuários do ChatGPT preocupados com a privacidade têm mais com o que se preocupar além do caso do NYT. Por exemplo, conversas do ChatGPT foram encontradas nos resultados de busca do Google e na ferramenta Google Search Console que os desenvolvedores podem usar para monitorar o tráfego de busca. A OpenAI disse hoje que planeja desenvolver “recursos de segurança avançados projetados para manter seus dados privados, incluindo criptografia do lado do cliente para suas mensagens com o ChatGPT.”

OpenAI: Chats de IA devem ser tratados como e-mails privados

O documento da OpenAI argumenta que a produção dos registros de chat deve ser restringida com base na relevância das conversas para o caso.

“A OpenAI não tem conhecimento de qualquer tribunal ordenando a produção em massa de informações pessoais em tal escala”, afirmou o documento. “Isso estabelece um precedente perigoso: sugere que qualquer um que processe uma empresa de IA pode exigir a produção de dezenas de milhões de conversas sem primeiro restringir a relevância. Isso não é como a descoberta funciona em outros casos: os tribunais não permitem que os demandantes que processam o Google vasculhem os e-mails privados de dezenas de milhões de usuários do Gmail, independentemente de sua relevância. E não é assim que a descoberta deve funcionar para ferramentas de IA generativa também.”

Uma ordem de 7 de novembro da Juíza Magistrada dos EUA Ona Wang favoreceu o NYT, dizendo que a OpenAI deve “produzir os 20 milhões de Registros de ChatGPT do Consumidor desidentificados para os Demandantes de Notícias até 14 de novembro de 2025, ou dentro de 7 dias após a conclusão do processo de desidentificação.” Wang decidiu que a produção deve prosseguir, mesmo que as partes não concordem sobre se os registros devem ser produzidos na íntegra:

Se as partes chegaram ou não a um acordo para produzir os 20 milhões de Registros de ChatGPT do Consumidor na íntegra—o que as partes disputam veementemente—tal produção aqui é apropriada. A OpenAI não conseguiu explicar como os direitos de privacidade de seus consumidores não estão adequadamente protegidos pela: (1) a ordem de proteção existente nesta litígios multidistrital ou (2) a desidentificação exaustiva de todos os 20 milhões de Registros de ChatGPT do Consumidor.

O documento da OpenAI hoje disse que a ordem do tribunal “não reconheceu a declaração de testemunha juramentada da OpenAI explicando que o processo de desidentificação não tem a intenção de remover informações que são não identificáveis, mas que podem, no entanto, ser privadas, como o uso hipotético de um repórter do Washington Post do ChatGPT para ajudar na preparação de um artigo de notícias.”

Conversas armazenadas sob retenção legal

As 20 milhões de conversas consistem em uma amostra aleatória de conversas do ChatGPT de dezembro de 2022 a novembro de 2024 e não incluem conversas de clientes empresariais, disse a OpenAI na mensagem em seu site.

“Apresentamos várias opções que preservam a privacidade ao The Times, incluindo buscas direcionadas sobre a amostra (por exemplo, para buscar conversas que possam incluir texto de um artigo do New York Times para que eles recebam apenas as conversas relevantes para suas alegações), bem como dados de alto nível classificando como o ChatGPT foi usado na amostra. Essas foram rejeitadas pelo The Times”, disse a OpenAI.

As conversas estão armazenadas em um sistema seguro que está “protegido sob retenção legal, o que significa que não pode ser acessado ou usado para fins diferentes de atender às obrigações legais”, disse a OpenAI. O NYT “seria legalmente obrigado neste momento a não tornar nenhum dado público fora do processo judicial”, e a OpenAI disse que lutará contra quaisquer tentativas de tornar as conversas dos usuários públicas.

Um documento do NYT em 30 de outubro acusou a OpenAI de desrespeitar acordos anteriores “ao se recusar a produzir até mesmo uma pequena amostra dos bilhões de saídas do modelo que sua conduta colocou em questão neste caso.” O documento continuou:

A produção imediata da amostra do registro de saída é essencial para manter o cronograma para o prazo de descoberta de 26 de fevereiro de 2026. A proposta da OpenAI de realizar buscas nesta pequena amostra de suas saídas de modelo em nome dos Demandantes é tão ineficiente quanto inadequada para permitir que os Demandantes analisem de forma justa como os usuários “do mundo real” interagem com um produto central no centro deste litígio. Os Demandantes não podem razoavelmente conduzir análises de especialistas sobre como os modelos da OpenAI funcionam em seu produto voltado para o consumidor, como a geração aumentada por recuperação (RAG) funciona para fornecer conteúdo de notícias, como os consumidores interagem com esse produto e a frequência de alucinações sem acesso às saídas do modelo em si.

A OpenAI disse que os pedidos de descoberta do NYT foram inicialmente limitados a registros “relacionados ao conteúdo do Times” e que ela “tem trabalhado para satisfazer esses pedidos amostrando registros de conversa. Perto do final desse processo, os Demandantes de Notícias apresentaram uma moção com uma nova demanda: que, em vez de encontrar e produzir registros que estão ‘relacionados ao conteúdo do Times’, a OpenAI deveria entregar toda a amostra de 20 milhões de registros ‘via disco rígido’.”

OpenAI contesta o raciocínio do juiz

A ordem de 7 de novembro citou um caso da Califórnia, Concord Music Group, Inc. v. Anthropic PBC, no qual a Juíza Magistrada dos EUA Susan van Keulen ordenou a produção de 5 milhões de registros. A OpenAI confiou consistentemente no uso de uma fórmula de tamanho de amostra da van Keulen “em apoio à sua metodologia proposta anterior para amostragem de dados de conversa, mas não explica por que a ordem subsequente da Juíza [van] Keulen, que direciona a produção da amostra inteira de 5 milhões de registros ao demandante naquele caso, não é igualmente instrutiva aqui”, escreveu Wang.

O documento da OpenAI hoje disse que a empresa nunca teve a oportunidade de explicar por que Concord não deveria se aplicar neste caso porque os demandantes de notícias não o mencionaram em sua moção.

“A ordem citada de Concord não tratava de se a produção em massa da amostra era apropriada; tratava-se do mecanismo pelo qual a Anthropic efetivaria uma produção já acordada”, escreveu a OpenAI. “Nada sobre essa ordem sugere que a Juíza van Keulen teria ordenado a produção em massa se a OpenAI tivesse levantado as preocupações de privacidade que levantou ao longo deste caso.”

Os registros de Concord eram apenas pares de prompt-resposta, “ou seja, um único prompt de usuário seguido por uma única saída do modelo”, escreveu a OpenAI. “Os registros em questão aqui são conversas completas: cada registro na amostra de 20 milhões representa uma troca completa de múltiplos pares de prompt-resposta entre um usuário e o ChatGPT.” Isso poderia resultar em “até 80 milhões de pares de prompt-resposta”, disse a OpenAI.

Entramos em contato com o The New York Times sobre o documento da OpenAI e atualizaremos este artigo se ele fornecer algum comentário.

Fonte

Compartilhe esse conteúdo: