Novo projeto torna os dados da Wikipédia mais acessíveis para IA

Na quarta-feira, a Wikimedia Deutschland anunciou um novo banco de dados que tornará a riqueza de conhecimento da Wikipédia mais acessível aos modelos de IA.

Chamado de Projeto de Embedding do Wikidata, o sistema aplica uma busca semântica baseada em vetores – uma técnica que ajuda os computadores a entender o significado e as relações entre palavras – aos dados existentes na Wikipédia e suas plataformas irmãs, consistindo em quase 120 milhões de entradas.

Combinado com um novo suporte para o Protocolo de Contexto de Modelo (MCP), um padrão que ajuda os sistemas de IA a se comunicarem com fontes de dados, o projeto torna os dados mais acessíveis a consultas em linguagem natural de LLMs.

O projeto foi realizado pela filial alemã da Wikimedia em colaboração com a empresa de busca neural Jina.AI e a DataStax, uma empresa de dados de treinamento em tempo real pertencente à IBM.

O Wikidata tem oferecido dados legíveis por máquina de propriedades da Wikimedia há anos, mas as ferramentas preexistentes permitiam apenas buscas por palavras-chave e consultas SPARQL, uma linguagem de consulta especializada. O novo sistema funcionará melhor com sistemas de geração aumentada de recuperação (RAG) que permitem que modelos de IA incorporem informações externas, dando aos desenvolvedores a chance de fundamentar seus modelos em conhecimento verificado por editores da Wikipédia.

Os dados também estão estruturados para fornecer contexto semântico crucial. Consultar o banco de dados pela palavra “cientista”, por exemplo, produzirá listas de cientistas nucleares proeminentes, bem como cientistas que trabalharam nos Bell Labs. Há também traduções da palavra “cientista” em diferentes idiomas, uma imagem aprovada pela Wikimedia de cientistas em ação e extrapolações para conceitos relacionados como “pesquisador” e “erudito”.

O banco de dados é publicamente acessível no Toolforge. O Wikidata também está hospedando um webinar para desenvolvedores interessados no dia 9 de outubro.

O novo projeto surge enquanto os desenvolvedores de IA estão em busca de fontes de dados de alta qualidade que possam ser utilizadas para aprimorar modelos. Os sistemas de treinamento em si tornaram-se mais sofisticados – frequentemente montados como ambientes de treinamento complexos em vez de conjuntos de dados simples – mas ainda requerem dados cuidadosamente selecionados para funcionar bem. Para implementações que exigem alta precisão, a necessidade de dados confiáveis é particularmente urgente, e enquanto alguns podem menosprezar a Wikipédia, seus dados são significativamente mais orientados a fatos do que conjuntos de dados abrangentes como o Common Crawl, que é uma vasta coleção de páginas da web raspadas de toda a internet.

Em alguns casos, a pressão por dados de alta qualidade pode ter consequências financeiras caras para os laboratórios de IA. Em agosto, a Anthropic concordou em resolver um processo judicial com um grupo de autores cujas obras foram usadas como material de treinamento, concordando em pagar 1,5 bilhão de dólares para encerrar quaisquer reivindicações de irregularidades.

Em uma declaração à imprensa, o gerente do projeto Wikidata AI, Philippe Saadé, enfatizou a independência de seu projeto em relação a grandes laboratórios de IA ou grandes empresas de tecnologia. “Este lançamento do Projeto de Embedding mostra que a IA poderosa não precisa ser controlada por um punhado de empresas”, disse Saadé aos repórteres. “Pode ser aberta, colaborativa e construída para servir a todos.”

Fonte

Compartilhe esse conteúdo: