O debate sobre IA de código aberto: Por que a transparência seletiva representa um sério risco

À medida que grandes empresas de tecnologia declaram seus lançamentos de IA como abertos — e até colocam a palavra em seus nomes — o termo antes interno “código aberto” irrompeu na consciência moderna. Durante este momento precário em que um erro de uma empresa pode retroceder em uma década ou mais a confiança do público na IA, os conceitos de abertura e transparência estão sendo utilizados de forma imprudente, e às vezes desonesta, para gerar confiança.

Ao mesmo tempo, com a nova administração da Casa Branca adotando uma abordagem mais hands-off em relação à regulamentação tecnológica, as linhas de batalha foram traçadas — colocando inovação contra regulação e prevendo consequências terríveis se o “lado errado” prevalecer.

No entanto, existe um terceiro caminho que foi testado e comprovado em outras ondas de mudança tecnológica. Fundamentado nos princípios de abertura e transparência, a verdadeira colaboração de código aberto desbloqueia taxas mais rápidas de inovação, mesmo enquanto capacita a indústria a desenvolver tecnologia que seja imparcial, ética e benéfica para a sociedade.

Entendendo o poder da verdadeira colaboração de código aberto

Em termos simples, o software de código aberto apresenta código-fonte livremente disponível que pode ser visualizado, modificado, dissecado, adotado e compartilhado para fins comerciais e não comerciais — e historicamente, isso foi monumental na geração de inovação. Ofertas de código aberto como Linux, Apache, MySQL e PHP, por exemplo, liberaram a internet como a conhecemos.

Agora, ao democratizar o acesso a modelos de IA, dados, parâmetros e ferramentas de IA de código aberto, a comunidade pode mais uma vez liberar uma inovação mais rápida em vez de continuamente recriar a roda — é por isso que um recente estudo da IBM com 2.400 decisores de TI revelou um crescente interesse em usar ferramentas de IA de código aberto para impulsionar o ROI. Embora o desenvolvimento e a inovação mais rápidos estivessem no topo da lista ao determinar o ROI em IA, a pesquisa também confirmou que a adoção de soluções abertas pode correlacionar-se com maior viabilidade financeira.

Em vez de ganhos de curto prazo que favorecem menos empresas, a IA de código aberto convida à criação de aplicações mais diversas e adaptadas em indústrias e domínios que, de outro modo, não teriam recursos para modelos proprietários.

Talvez, mais importante, a transparência do código aberto permite a fiscalização e auditoria independentes dos comportamentos e éticas dos sistemas de IA — e quando aproveitamos o interesse e a motivação existentes das massas, elas encontrarão os problemas e erros como fizeram com o fiasco do conjunto de dados LAION 5B.

Nesse caso, a multidão identificou mais de 1.000 URLs contendo material verificado de abuso sexual infantil escondido nos dados que alimentam modelos de IA generativa como Stable Diffusion e Midjourney — que produzem imagens a partir de prompts de texto e imagem e são fundamentais em muitas ferramentas e aplicativos de geração de vídeo online.

Embora essa descoberta tenha causado um alvoroço, se esse conjunto de dados tivesse sido fechado, como os da Sora da OpenAI ou do Gemini do Google, as consequências poderiam ter sido muito piores. É difícil imaginar a reação que surgiria se as ferramentas de criação de vídeo mais emocionantes da IA começassem a gerar conteúdo perturbador.

Felizmente, a natureza aberta do conjunto de dados LAION 5B capacitou a comunidade a motivar seus criadores a se juntarem a vigilantes da indústria para encontrar uma solução e liberar a RE-LAION 5B — o que exemplifica por que a transparência da verdadeira IA de código aberto beneficia não apenas os usuários, mas a indústria e os criadores que estão trabalhando para construir confiança com os consumidores e o público em geral.

O perigo da abertura na IA

Enquanto o código-fonte por si só é relativamente fácil de compartilhar, os sistemas de IA são muito mais complicados do que software. Eles dependem do código-fonte do sistema, bem como dos parâmetros do modelo, conjunto de dados, hiperparâmetros, código-fonte de treinamento, geração de números aleatórios e frameworks de software — e cada um desses componentes deve funcionar em conjunto para que um sistema de IA funcione corretamente.

Diante das preocupações com a segurança na IA, tornou-se comum afirmar que um lançamento é aberto ou de código aberto. Para que isso seja preciso, no entanto, os inovadores devem compartilhar todas as peças do quebra-cabeça para que outros jogadores possam entender, analisar e avaliar totalmente as propriedades do sistema de IA para reproduzir, modificar e estender suas capacidades.

A Meta, por exemplo, divulgou o Llama 3.1 405B como “o primeiro modelo de IA de nível fronteira de código aberto”, mas apenas compartilhou publicamente os parâmetros pré-treinados do sistema, ou pesos, e um pouco de software. Embora isso permita que os usuários baixem e usem o modelo à vontade, componentes-chave como o código-fonte e o conjunto de dados permanecem fechados — o que se torna mais preocupante à luz do anúncio de que a Meta injetará perfis de bots de IA no éter, mesmo quando parar de verificar o conteúdo para precisão.

Para ser justo, o que está sendo compartilhado certamente contribui para a comunidade. Modelos de pesos abertos oferecem flexibilidade, acessibilidade, inovação e um nível de transparência. A decisão da DeepSeek de abrir seus pesos, liberar seus relatórios técnicos para o R1 e torná-lo gratuito, por exemplo, permitiu que a comunidade de IA estudasse e verificasse sua metodologia e a integrasse em seu trabalho.

No entanto, é enganoso chamar um sistema de IA de código aberto quando ninguém pode realmente olhar, experimentar e entender cada parte do quebra-cabeça que foi criado.

Essa desinformação faz mais do que ameaçar a confiança pública. Em vez de capacitar todos na comunidade a colaborar, construir e avançar modelos como Llama X, força os inovadores que usam tais sistemas de IA a confiar cegamente nos componentes que não são compartilhados.

Encarando o desafio diante de nós

À medida que carros autônomos circulam nas ruas em grandes cidades e sistemas de IA ajudam cirurgiões na sala de operação, estamos apenas no começo de deixar essa tecnologia assumir a roda proverbial. A promessa é imensa, assim como o potencial para erros — por isso precisamos de novas medidas do que significa ser confiável no mundo da IA.

Mesmo quando Anka Reuel e colegas da Universidade de Stanford recentemente tentaram estabelecer um novo framework para as métricas de IA usadas para avaliar quão bem os modelos se desempenham, por exemplo, a prática de revisão em que a indústria e o público confiam ainda não é suficiente. A avaliação falha em levar em conta o fato de que os conjuntos de dados fundamentais dos sistemas de aprendizado estão constantemente mudando e que as métricas apropriadas variam de caso para caso. O campo também ainda carece de uma linguagem matemática rica para descrever as capacidades e limitações da IA contemporânea.

Ao compartilhar sistemas de IA inteiros para permitir abertura e transparência, em vez de depender de revisões insuficientes e pagar lábios a palavras da moda, podemos fomentar uma colaboração maior e cultivar inovação com IA segura e eticamente desenvolvida.

Enquanto a verdadeira IA de código aberto oferece uma estrutura comprovada para alcançar esses objetivos, há uma preocupante falta de transparência na indústria. Sem liderança ousada e cooperação das empresas de tecnologia para a autogovernança, essa lacuna de informação poderia prejudicar a confiança e aceitação pública. Abraçar a abertura, transparência e código aberto não é apenas um modelo de negócio forte — trata-se de escolher entre um futuro de IA que beneficie a todos e não apenas a poucos.

Fonte

Compartilhe esse conteúdo: