Harvard Torna 1 Milhão de Livros Disponíveis para Treinar Modelos de IA

Os dados são o novo petróleo, como dizem, e talvez isso faça da Universidade de Harvard a nova Exxon. A escola anunciou na quinta-feira o lançamento de um conjunto de dados contendo quase um milhão de livros de domínio público que podem ser usados para treinar modelos de IA. Sob a recém-formada Iniciativa de Dados Institucionais, o projeto recebeu financiamento tanto da Microsoft quanto da OpenAI, e contém livros digitalizados pelo Google Books que são antigos o suficiente para que sua proteção por direitos autorais tenha expirado.

A Wired, em uma matéria sobre o novo projeto, diz que o conjunto de dados inclui uma ampla variedade de livros, com “clássicos de Shakespeare, Charles Dickens e Dante, ao lado de obscuros livros de matemática tchecos e dicionários de bolso galeses.” Como regra geral, as proteções de direitos autorais duram durante a vida do autor mais 70 anos adicionais.

Modelos de linguagem fundamentais, como o ChatGPT, que se comportam como uma verossimilhança de um ser humano real, requerem uma quantidade imensa de texto de alta qualidade para seu treinamento—geralmente, quanto mais informações eles ingerem, melhor os modelos se saem em imitar humanos e fornecer conhecimento. Mas essa sede por dados causou problemas, já que empresas como a OpenAI enfrentaram barreiras sobre quanto de novas informações podem encontrar—sem roubar, pelo menos.

Editoras, incluindo o Wall Street Journal e o New York Times, processaram a OpenAI e a concorrente Perplexity por ingerir seus dados sem permissão. Os defensores das empresas de IA apresentaram vários argumentos para defender suas atividades. Às vezes, eles dizem que os humanos também produzem novas obras com base no estudo e na síntese de material de outras fontes, e a IA não é diferente. Todos vão à escola, leem livros e, em seguida, produzem novas obras usando o conhecimento que adquiriram. O remix é legalmente considerado uso justo se a nova criação for materialmente diferente. Mas isso não leva em conta que os humanos não podem ingerir bilhões de peças de texto na velocidade que um computador pode, então não é exatamente uma comparação justa. O Wall Street Journal, em seu processo contra a Perplexity, disse que a startup “copia em uma escala massiva.”

Os players do setor também apresentaram o argumento de que qualquer conteúdo disponibilizado na web aberta é essencialmente um jogo justo e que o usuário de um chatbot é quem acessa conteúdo protegido por direitos autorais ao solicitá-lo por meio de um prompt. Basicamente, um chatbot como a Perplexity é semelhante a um navegador da web. Levará algum tempo até que esses argumentos sejam decididos em tribunal.

A OpenAI fez acordos com alguns provedores de conteúdo em resposta às críticas, e a Perplexity lançou um programa de parceiros suportado por anúncios com editoras. Mas está claro que eles fizeram isso de má vontade.

Ao mesmo tempo em que as empresas de IA estão ficando sem novos conteúdos para utilizar, fontes da web comumente usadas que já estão incluídas em conjuntos de treinamento rapidamente começaram a restringir o acesso. Empresas como Reddit e X foram agressivas em limitar o uso de seus dados, pois reconheceram seu imenso valor, especialmente em ter dados em tempo real para aumentar modelos fundamentais com informações mais atualizadas sobre o mundo.

O Reddit faz centenas de milhões de dólares licenciando seu corpus de subreddits e comentários para o Google treinar seus modelos. O X de Elon Musk tem um acordo exclusivo com sua outra empresa, xAI, para dar acesso a seus modelos ao conteúdo da rede social para treinamento e recuperação de informações atuais. É meio irônico considerar que essas empresas guardam seus próprios dados, mas essencialmente pensam que o conteúdo de editoras de mídia não tem valor e deve ser gratuito.

Um milhão de livros não será suficiente para suprir as necessidades de treinamento de qualquer empresa de IA, especialmente considerando que esses livros são antigos e não contêm informações modernas, como a gíria que os jovens da Geração Z estão usando. Para se diferenciar de seus concorrentes, as empresas de IA continuarão querendo acessar outros dados—especialmente os exclusivos—para que não estejam todas criando modelos que são iguais. O conjunto de dados da Iniciativa de Dados Institucionais pode pelo menos oferecer alguma assistência às empresas de IA que tentam treinar seus modelos fundamentais iniciais sem entrar em problemas legais.

Fonte

Compartilhe esse conteúdo: