A nova definição de IA de código aberto deve revelar seus dados de treinamento, de acordo com a nova definição da OSI

A Iniciativa de Código Aberto (OSI) lançou sua definição oficial de inteligência artificial “aberta”, preparando o terreno para um conflito com gigantes da tecnologia como a Meta — cujos modelos não se encaixam nas regras.

A OSI há muito estabelece o padrão da indústria para o que constitui software de código aberto, mas os sistemas de IA incluem elementos que não estão cobertos por licenças convencionais, como os dados de treinamento do modelo. Agora, para que um sistema de IA seja considerado verdadeiramente de código aberto, ele deve fornecer:

Acesso a detalhes sobre os dados usados para treinar a IA para que outros possam entender e recriá-la

O código completo usado para construir e executar a IA

As configurações e pesos do treinamento, que ajudam a IA a produzir seus resultados

Essa definição desafia diretamente o Llama da Meta, amplamente promovido como o maior modelo de IA de código aberto. O Llama está disponível publicamente para download e uso, mas possui restrições sobre o uso comercial (para aplicações com mais de 700 milhões de usuários) e não fornece acesso aos dados de treinamento, fazendo com que não atenda aos padrões da OSI para liberdade irrestrita de uso, modificação e compartilhamento.

A porta-voz da Meta, Faith Eischen, disse ao The Verge que, embora “concordemos com nosso parceiro OSI em muitas coisas”, a empresa discorda desta definição. “Não existe uma única definição de IA de código aberto, e defini-la é um desafio porque as definições anteriores de código aberto não abrangem as complexidades dos modelos de IA que estão avançando rapidamente hoje.”

“Continuaremos trabalhando com a OSI e outros grupos da indústria para tornar a IA mais acessível e livre de forma responsável, independentemente das definições técnicas”, acrescentou Eischen.

Por 25 anos, a definição da OSI de software de código aberto foi amplamente aceita por desenvolvedores que desejam construir sobre o trabalho uns dos outros sem medo de processos judiciais ou armadilhas de licenciamento. Agora, à medida que a IA remodela o cenário, os gigantes da tecnologia enfrentam uma escolha crucial: abraçar esses princípios estabelecidos ou rejeitá-los. A Linux Foundation também fez uma tentativa recente de definir “IA de código aberto”, sinalizando um crescente debate sobre como os valores tradicionais de código aberto se adaptarão à era da IA.

“Agora que temos uma definição robusta em vigor, talvez possamos lutar mais agressivamente contra empresas que estão fazendo ‘open washing’ e declarando seu trabalho como código aberto quando na verdade não é”, disse Simon Willison, um pesquisador independente e criador da ferramenta multiuso de código aberto Datasette, ao The Verge.

O CEO da Hugging Face, Clément Delangue, chamou a definição da OSI de “uma grande ajuda para moldar a conversa sobre abertura em IA, especialmente quando se trata do papel crucial dos dados de treinamento.”

Stefano Maffulli, diretor executivo da OSI, diz que levou dois anos para a iniciativa refinar essa definição através de um processo colaborativo, consultando especialistas globalmente. Isso envolveu trabalhar com especialistas de acadêmicos em aprendizado de máquina e processamento de linguagem natural, filósofos, criadores de conteúdo do mundo do Creative Commons e mais.

Enquanto a Meta cita preocupações de segurança para restringir o acesso a seus dados de treinamento, críticos veem um motivo mais simples: minimizar sua responsabilidade legal e proteger sua vantagem competitiva. Muitos modelos de IA são quase certamente treinados com material protegido por direitos autorais; em abril, o New York Times relatou que a Meta reconheceu internamente que havia conteúdo protegido por direitos autorais em seus dados de treinamento “porque não temos como não coletar isso.” Há uma lista de processos judiciais contra a Meta, OpenAI, Perplexity, Anthropic e outros por alegadas infrações. Mas, com raras exceções — como o Stable Diffusion, que revela seus dados de treinamento — os demandantes devem atualmente depender de provas circunstanciais para demonstrar que seu trabalho foi copiado.

Enquanto isso, Maffulli vê a história do código aberto se repetindo. “A Meta está fazendo os mesmos argumentos” que a Microsoft fez na década de 1990, quando viu o código aberto como uma ameaça ao seu modelo de negócios, disse Maffulli ao The Verge. Ele se lembra de a Meta ter lhe contado sobre seu investimento intensivo no Llama, perguntando-lhe “quem você acha que será capaz de fazer a mesma coisa?” Maffulli viu um padrão familiar: um gigante da tecnologia usando custo e complexidade para justificar manter sua tecnologia trancada. “Voltamos aos primeiros dias”, disse ele.

“Esse é o segredo deles”, disse Maffulli sobre os dados de treinamento. “É a propriedade intelectual valiosa.”

Fonte

Compartilhe esse conteúdo: