Wikimedia Está Tornando Seus Dados Amigáveis para a IA

Wikimedia, a organização sem fins lucrativos por trás da Wikipedia e de sites irmãs como Wikimedia Commons e Wikidata, acaba de facilitar o acesso dos modelos de IA à sua vasta base de conhecimento.

Wikimedia Deutschland, o capítulo alemão da organização, lançou um novo recurso chamado Projeto de Embedding do Wikidata. Ele transforma os aproximadamente 120 milhões de pontos de dados abertos armazenados no Wikidata em um formato que é mais simples para os grandes modelos de linguagem utilizarem.

Embora os dados estruturados do Wikidata já sejam legíveis por máquinas, eles não eram diretamente compatíveis com os sistemas de IA generativa, que foram construídos para trabalhar com linguagem natural.

O novo projeto traduz as entradas do Wikidata em vetores, que são basicamente coordenadas numéricas que mostram como diferentes declarações se relacionam entre si.

Pense nisso como um mapa onde termos intimamente ligados, como “cachorro” e “filhote”, se agrupam juntos, enquanto termos não relacionados, como “cachorro” e “conta bancária”, estão muito mais distantes. Isso ajuda os sistemas de IA a entender os termos em contexto e processá-los de forma mais eficaz na linguagem natural.

O projeto foi projetado para fornecer aos modelos de IA informações de maior qualidade que levam a respostas mais confiáveis, disse Wikimedia Deutschland em um comunicado à imprensa. Ele afirmou que a maioria dos sistemas de IA atualmente depende de conjuntos de dados opacos.

Um objetivo secundário é nivelar o campo de jogo. Ao tornar o Wikidata livremente disponível, a Wikimedia espera que empresas menores de IA possam competir com gigantes da tecnologia que, de outra forma, teriam os recursos para vetorizar os dados por conta própria.

“O lançamento do projeto de embedding mostra que a IA poderosa não precisa ser controlada por um punhado de empresas – ela pode ser desenvolvida de forma aberta e colaborativa”, disse o gerente do projeto de IA do Wikidata, Philippe Saadé, em uma declaração.

A Wikimedia Deutschland vem trabalhando no projeto desde setembro de 2024 em colaboração com a Jina AI, que construiu o sistema de embedding que transforma as entradas do Wikidata em vetores, e o DataStax da IBM, que armazena esses vetores em seu banco de dados.

Em contraste, o lançamento ocorreu apenas um dia depois que Elon Musk anunciou no X que está construindo um rival da Wikipedia chamado Grokipedia.

“Estamos construindo a Grokipedia @xAI”, escreveu Musk na terça-feira. “Será uma melhoria massiva em relação à Wikipedia. Francamente, é um passo necessário em direção ao objetivo da xAI de entender o Universo.”

Musk tem repetidamente criticado a Wikipedia como “Wokipedia” e reclamado que não há uma alternativa alinhada com visões mais à direita. Ele também repostou Larry Sanger, o cofundador da Wikipedia, que saiu em 2002 e desde então tem tentado lançar vários projetos concorrentes. Sanger, um crítico de longa data da Wikipedia pela direita, postou recentemente no X que a Wikipedia se tornou muito globalista, acadêmica, secular e progressista.

A tentativa de Musk de construir uma enciclopédia rival recheada com seus fatos preferidos apenas sublinha por que a Wikimedia lançou seu próprio projeto de IA em primeiro lugar. À medida que a IA continua a se tornar mainstream, a qualidade e o viés dos dados que esses sistemas utilizam podem potencialmente influenciar o que milhões de pessoas acreditam ser verdade.

Fonte

Compartilhe esse conteúdo: