MLCommons e Hugging Face se unem para lançar um enorme conjunto de dados de fala para pesquisa em IA

MLCommons, um grupo de trabalho sem fins lucrativos em segurança de IA, se uniu à plataforma de desenvolvimento de IA Hugging Face para liberar uma das maiores coleções do mundo de gravações de voz em domínio público para pesquisa em IA.

O conjunto de dados, chamado Fala do Povo Não Supervisionada, contém mais de um milhão de horas de áudio abrangendo pelo menos 89 idiomas diferentes. A MLCommons diz que foi motivada a criá-lo pelo desejo de apoiar P&D em “várias áreas da tecnologia de fala.”

“Apoiar uma pesquisa mais ampla em processamento de linguagem natural para idiomas além do inglês ajuda a trazer tecnologias de comunicação para mais pessoas globalmente,” escreveu a organização em um post no blog na quinta-feira. “Antecipamos várias avenidas para a comunidade de pesquisa continuar a construir e desenvolver, especialmente nas áreas de melhoria de modelos de fala para idiomas de baixo recurso, reconhecimento de fala aprimorado em diferentes sotaques e dialetos, e novas aplicações em síntese de fala.”

É um objetivo admirável, sem dúvida. Mas conjuntos de dados de IA como a Fala do Povo Não Supervisionada podem trazer riscos para os pesquisadores que optam por usá-los.

Dados enviesados são um desses riscos. As gravações na Fala do Povo Não Supervisionada vieram do Archive.org, a entidade sem fins lucrativos talvez mais conhecida pela ferramenta de arquivamento da web Wayback Machine. Como muitos dos colaboradores do Archive.org são falantes de inglês — e americanos — quase todas as gravações na Fala do Povo Não Supervisionada estão em inglês com sotaque americano, de acordo com o arquivo de leitura na página oficial do projeto.

Isso significa que, sem filtragem cuidadosa, sistemas de IA como reconhecimento de fala e modelos de sintetizador de voz treinados na Fala do Povo Não Supervisionada poderiam exibir alguns dos mesmos preconceitos. Eles poderiam, por exemplo, ter dificuldade em transcrever inglês falado por um falante não nativo ou ter problemas para gerar vozes sintéticas em idiomas além do inglês.

A Fala do Povo Não Supervisionada também pode conter gravações de pessoas que não estavam cientes de que suas vozes estavam sendo usadas para fins de pesquisa de IA — incluindo aplicações comerciais. Embora a MLCommons afirme que todas as gravações no conjunto de dados são de domínio público ou disponíveis sob licenças Creative Commons, existe a possibilidade de que erros tenham sido cometidos.

De acordo com uma análise do MIT, centenas de conjuntos de dados de treinamento de IA disponíveis publicamente carecem de informações de licenciamento e contêm erros. Defensores dos criadores, incluindo Ed Newton-Rex, CEO da organização sem fins lucrativos focada em ética em IA Fairly Trained, defendem que os criadores não deveriam ser obrigados a “optar por sair” dos conjuntos de dados de IA devido ao ônus oneroso que optar por sair impõe a esses criadores.

“Muitos criadores (por exemplo, usuários do Squarespace) não têm uma maneira significativa de optar por sair,” escreveu Newton-Rex em um post no X em junho passado. “Para criadores que podem optar por sair, existem múltiplos métodos de opt-out sobrepostos, que são (1) incrivelmente confusos e (2) lamentavelmente incompletos em sua cobertura. Mesmo que um opt-out universal perfeito existisse, seria enormemente injusto colocar o ônus do opt-out nos criadores, dado que a IA generativa usa seu trabalho para competir com eles — muitos simplesmente não perceberiam que poderiam optar por sair.”

A MLCommons afirma que está comprometida em atualizar, manter e melhorar a qualidade da Fala do Povo Não Supervisionada. Mas, dadas as falhas potenciais, seria prudente os desenvolvedores exercerem cautela.

Fonte

Compartilhe esse conteúdo: