A Wikipédia Está Criando um Conjunto de Dados para Treinar IA Porque Está Sobrecarregada por Bots

Parece que os desenvolvedores de IA essencialmente chantagearam a Wikipédia para oferecer seus dados para treinamento. Na quarta-feira, a Fundação Wikimedia anunciou que está se juntando à Kaggle, uma plataforma popular de comunidade de ciência de dados de propriedade do Google, para liberar uma versão da Wikipédia otimizada para treinar modelos de IA. Começando com o inglês e o francês, a fundação oferecerá versões reduzidas do texto bruto da Wikipédia, excluindo quaisquer referências ou código markdown.

Sendo uma plataforma sem fins lucrativos e liderada por voluntários, a Wikipédia monetiza por meio de doações e não possui o conteúdo que hospeda, permitindo que qualquer pessoa use e remixe o conteúdo da plataforma. Ela está bem com outras organizações usando seu vasto corpus de conhecimento para todo tipo de casos – Kiwix, por exemplo, é uma versão offline da Wikipédia que tem sido usada para contrabandear informações para a Coreia do Norte.

Mas uma inundação de bots constantemente vasculhando seu site em busca de necessidades de treinamento de IA levou a um aumento no tráfego não humano para a Wikipédia, algo que ela estava interessada em resolver à medida que os custos disparavam. No início deste mês, a fundação disse que o consumo de largura de banda aumentou 50% desde janeiro de 2024. Isso não é bom para uma empresa que não monetiza diretamente seu site e, em vez disso, depende de campanhas de doação regulares. Oferecer uma versão padrão dos artigos da Wikipédia formatada em JSON deve dissuadir os desenvolvedores de IA de bombardear seu site.

“Como o lugar que a comunidade de aprendizado de máquina vem para ferramentas e testes, a Kaggle está extremamente empolgada em ser a anfitriã dos dados da Fundação Wikimedia”, disse Brenda Flynn, líder de parcerias da Kaggle, ao The Verge. “A Kaggle está animada em desempenhar um papel em manter esses dados acessíveis, disponíveis e úteis.”

Não é segredo que as empresas de tecnologia fundamentalmente não respeitam os criadores de conteúdo e atribuem pouco valor ao trabalho criativo de qualquer indivíduo. Há uma crescente escola de pensamento na indústria de IA de que todo conteúdo deve ser gratuito e que pegá-lo de qualquer lugar da web para treinar um modelo de IA constitui uso justo porque os modelos de IA ingerem o texto e o transformam em algo completamente novo.

Mas alguém tem que criar o conteúdo em primeiro lugar, o que não é barato, e as startups de IA têm sido muito dispostas a ignorar normas anteriormente aceitas sobre respeitar os desejos de um site de não ser rastreado. Modelos de linguagem que produzem saídas de texto semelhantes ao humano precisam ser treinados em vastas quantidades de material, e os dados de treinamento se tornaram algo semelhante ao petróleo na explosão da IA. É bem sabido que os modelos líderes são treinados usando obras protegidas por direitos autorais, e várias empresas de IA continuam em litígios sobre o assunto.

Alguns colaboradores da Wikipédia podem não gostar que seu conteúdo seja disponibilizado para treinamento de IA. Toda a escrita no site é licenciada sob a licença Creative Commons Attribution-ShareAlike, que permite que qualquer pessoa compartilhe, adapte e construa sobre uma obra, mesmo comercialmente, desde que credite o criador original e licencie suas obras derivadas sob os mesmos termos. Não está claro como a Wikimedia garantiria que as empresas de IA respeitassem esses requisitos, mas a Gizmodo entrou em contato para comentar.

Fonte

Compartilhe esse conteúdo: