A Microsoft está lançando um projeto de pesquisa para estimar a influência de exemplos de treinamento específicos nos textos, imagens e outros tipos de mídia que os modelos de IA generativa criam.
Isso é de acordo com uma lista de empregos datada de dezembro que foi recentemente recirculada no LinkedIn.
De acordo com a lista, que busca um estagiário de pesquisa, o projeto tentará demonstrar que os modelos podem ser treinados de tal forma que o impacto de dados específicos — por exemplo, fotos e livros — em suas saídas pode ser “eficientemente e utilmente estimado.”
“As arquiteturas atuais de redes neurais são opacas em termos de fornecer fontes para suas gerações, e há […] boas razões para mudar isso,” diz a lista. “[Uma é,] incentivos, reconhecimento e potencialmente pagamento para pessoas que contribuem com certos dados valiosos para tipos de modelos imprevistos que desejaremos no futuro, assumindo que o futuro nos surpreenderá fundamentalmente.”
Geradores de texto, código, imagem, vídeo e música impulsionados por IA estão no centro de uma série de processos judiciais de propriedade intelectual contra empresas de IA. Frequentemente, essas empresas treinam seus modelos em enormes quantidades de dados de sites públicos, alguns dos quais são protegidos por direitos autorais. Muitas das empresas argumentam que a doutrina do uso justo protege suas práticas de coleta de dados e treinamento. Mas criativos — de artistas a programadores e autores — discordam amplamente.
A Microsoft em si está enfrentando pelo menos dois desafios legais de detentores de direitos autorais.
O New York Times processou o gigante da tecnologia e seu colaborador ocasional, OpenAI, em dezembro, acusando as duas empresas de infringir os direitos autorais do Times ao implantar modelos treinados em milhões de seus artigos. Vários desenvolvedores de software também processaram a Microsoft, alegando que o assistente de codificação AI GitHub Copilot da empresa foi treinado ilegalmente usando suas obras protegidas.
O novo esforço de pesquisa da Microsoft, que a lista descreve como “proveniência em tempo de treinamento,” supostamente conta com a participação de Jaron Lanier, o renomado tecnólogo e cientista interdisciplinar da Microsoft Research. Em um artigo de opinião de abril de 2023 na The New Yorker, Lanier escreveu sobre o conceito de “dignidade dos dados,” que para ele significava conectar “coisas digitais” com “os humanos que querem ser conhecidos por tê-las feito.”
“Uma abordagem de dignidade dos dados rastrearia os contribuintes mais únicos e influentes quando um grande modelo fornece uma saída valiosa,” escreveu Lanier. “Por exemplo, se você pedir a um modelo por ‘um filme animado dos meus filhos em um mundo de pintura a óleo de gatos falantes em uma aventura,’ então certos pintores a óleo, retratistas de gatos, dubladores e escritores — ou seus legados — poderiam ser calculados como tendo sido essencialmente únicos para a criação da nova obra-prima. Eles seriam reconhecidos e motivados. Eles poderiam até ser pagos.”
Já existem, por sinal, várias empresas tentando isso. A desenvolvedora de modelos de IA Bria, que recentemente levantou US$ 40 milhões em capital de risco, afirma compensar “programaticamente” os proprietários de dados de acordo com sua “influência geral.” A Adobe e a Shutterstock também concedem pagamentos regulares aos contribuintes de conjuntos de dados, embora os valores exatos dos pagamentos tendam a ser opacos.
Poucos grandes laboratórios estabeleceram programas de pagamento para contribuintes individuais, além de firmar acordos de licenciamento com editores, plataformas e corretores de dados. Eles, em vez disso, forneceram meios para que os detentores de direitos autorais “optassem por sair” do treinamento. Mas alguns desses processos de opt-out são onerosos e se aplicam apenas a modelos futuros — não a modelos já treinados.
Claro, o projeto da Microsoft pode se resumir a pouco mais do que um conceito. Há precedentes para isso. Em maio, a OpenAI disse que estava desenvolvendo tecnologia semelhante que permitiria aos criadores especificar como desejam que suas obras sejam incluídas — ou excluídas — dos dados de treinamento. Mas quase um ano depois, a ferramenta ainda não foi lançada, e muitas vezes não foi vista como uma prioridade internamente.
A Microsoft também pode estar tentando “lavar a ética” aqui — ou evitar decisões regulatórias e/ou judiciais que possam ser disruptivas para seus negócios de IA.
Mas o fato de a empresa estar investigando maneiras de rastrear dados de treinamento é notável à luz das recentes posições expressas por outros laboratórios de IA sobre o uso justo. Vários dos principais laboratórios, incluindo Google e OpenAI, publicaram documentos de política recomendando que a administração Trump enfraquecesse as proteções de direitos autorais em relação ao desenvolvimento de IA. A OpenAI pediu explicitamente ao governo dos EUA que codificasse o uso justo para o treinamento de modelos, o que argumenta que liberaria os desenvolvedores de restrições onerosas.