A promessa e os perigos dos dados sintéticos

É possível treinar uma IA apenas com dados gerados por outra IA? Pode parecer uma ideia absurda. Mas é uma que existe há algum tempo — e, à medida que novos dados reais se tornam cada vez mais difíceis de obter, está ganhando força.

A Anthropic usou alguns dados sintéticos para treinar um de seus modelos principais, o Claude 3.5 Sonnet. A Meta ajustou seus modelos Llama 3.1 usando dados gerados por IA. E a OpenAI está supostamente obtendo dados de treinamento sintéticos de o1, seu modelo de “raciocínio”, para o próximo Orion.

Mas por que a IA precisa de dados em primeiro lugar — e que tipo de dados ela precisa? E esses dados podem realmente ser substituídos por dados sintéticos?

A importância das anotações

Os sistemas de IA são máquinas estatísticas. Treinados com muitos exemplos, eles aprendem os padrões nesses exemplos para fazer previsões, como que o “a quem” em um e-mail geralmente precede “pode interessar”.

As anotações, geralmente textos que rotulam o significado ou as partes dos dados que esses sistemas ingerem, são uma peça chave nesses exemplos. Elas servem como guias, “ensinando” um modelo a distinguir entre coisas, lugares e ideias.

Considere um modelo de classificação de fotos mostrado a muitas imagens de cozinhas rotuladas com a palavra “cozinha”. À medida que treina, o modelo começará a fazer associações entre “cozinha” e características gerais de cozinhas (por exemplo, que elas contêm geladeiras e bancadas). Após o treinamento, dado uma foto de uma cozinha que não foi incluída nos exemplos iniciais, o modelo deve ser capaz de identificá-la como tal. (Claro, se as fotos de cozinhas fossem rotuladas como “vaca”, ele as identificaria como vacas, o que enfatiza a importância de uma boa anotação.)

O apetite pela IA e a necessidade de fornecer dados rotulados para seu desenvolvimento aumentaram o mercado de serviços de anotação. A Dimension Market Research estima que vale US$ 838,2 milhões hoje — e valerá US$ 10,34 bilhões nos próximos 10 anos. Embora não haja estimativas precisas sobre quantas pessoas trabalham na rotulagem, um artigo de 2022 estima que o número esteja na “casa das milhões”.

Empresas grandes e pequenas dependem de trabalhadores empregados por empresas de anotação de dados para criar rótulos para conjuntos de treinamento de IA. Alguns desses empregos pagam razoavelmente bem, especialmente se a rotulagem exigir conhecimento especializado (por exemplo, expertise em matemática). Outros podem ser desgastantes. Anotadores em países em desenvolvimento recebem apenas alguns dólares por hora, em média, sem quaisquer benefícios ou garantias de futuros trabalhos.

Um poço de dados secando

Portanto, existem razões humanísticas para buscar alternativas aos rótulos gerados por humanos. Por exemplo, a Uber está expandindo sua frota de trabalhadores autônomos para trabalhar na anotação e rotulagem de dados de IA. Mas também existem razões práticas.

Os humanos podem rotular apenas tão rápido. Os anotadores também têm preconceitos que podem se manifestar em suas anotações e, posteriormente, em qualquer modelo treinado com elas. Os anotadores cometem erros ou se confundem com as instruções de rotulagem. E pagar humanos para fazer essas tarefas é caro.

Os dados, de modo geral, são caros. A Shutterstock está cobrando dos fornecedores de IA dezenas de milhões de dólares para acessar seus arquivos, enquanto o Reddit arrecadou centenas de milhões licenciando dados para o Google, OpenAI e outros.

Por último, os dados também estão se tornando mais difíceis de adquirir.

A maioria dos modelos é treinada em coleções massivas de dados públicos — dados que seus proprietários estão cada vez mais optando por bloquear devido ao medo de que seus dados sejam plagiados ou que não recebam crédito ou atribuição por isso. Mais de 35% dos 1.000 principais sites do mundo agora bloqueiam o web scraper da OpenAI. E cerca de 25% dos dados de fontes “de alta qualidade” foram restringidos dos principais conjuntos de dados usados para treinar modelos, segundo um estudo recente.

Se a tendência atual de bloqueio de acesso continuar, o grupo de pesquisa Epoch AI projeta que os desenvolvedores ficarão sem dados para treinar modelos de IA gerativa entre 2026 e 2032. Isso, combinado com o medo de processos por direitos autorais e de material questionável chegar a conjuntos de dados abertos, forçou um reconhecimento para os fornecedores de IA.

Alternativas sintéticas

À primeira vista, os dados sintéticos pareceriam ser a solução para todos esses problemas. Precisa de anotações? Gere-as. Mais dados de exemplo? Sem problemas. O céu é o limite.

E até certo ponto, isso é verdade.

“Se ‘dados são o novo petróleo’, os dados sintéticos se apresentam como biocombustível, criável sem as externalidades negativas da coisa real”, disse Os Keyes, um candidato a PhD na Universidade de Washington que estuda o impacto ético de tecnologias emergentes, ao TechCrunch. “Você pode pegar um pequeno conjunto inicial de dados e simular e extrapolar novas entradas a partir dele.”

A indústria de IA pegou o conceito e correu com ele.

Este mês, a Writer, uma empresa de IA generativa voltada para empresas, lançou um modelo, Palmyra X 004, treinado quase inteiramente com dados sintéticos. Desenvolver isso custou apenas US$ 700.000, afirma a Writer — em comparação com estimativas de US$ 4,6 milhões para um modelo de tamanho comparável da OpenAI.

Os modelos abertos Phi da Microsoft foram treinados, em parte, usando dados sintéticos. Assim como os modelos Gemma do Google. A Nvidia revelou neste verão uma família de modelos projetados para gerar dados de treinamento sintéticos, e a startup de IA Hugging Face recentemente lançou o que afirma ser o maior conjunto de dados de treinamento de IA com texto sintético.

A geração de dados sintéticos se tornou um negócio próprio — um que poderia valer US$ 2,34 bilhões até 2030. A Gartner prevê que 60% dos dados usados para projetos de IA e análises este ano serão gerados sinteticamente.

Luca Soldaini, um cientista sênior de pesquisa do Allen Institute for AI, observou que técnicas de dados sintéticos podem ser usadas para gerar dados de treinamento em um formato que não é facilmente obtido por meio de scraping (ou mesmo licenciamento de conteúdo). Por exemplo, ao treinar seu gerador de vídeo Movie Gen, a Meta usou Llama 3 para criar legendas para a filmagem nos dados de treinamento, que os humanos então refinaram para adicionar mais detalhes, como descrições da iluminação.

Nesse mesmo sentido, a OpenAI afirma que ajustou o GPT-4o usando dados sintéticos para construir o recurso Canvas, semelhante a um esboço, para o ChatGPT. E a Amazon disse que gera dados sintéticos para complementar os dados do mundo real que usa para treinar modelos de reconhecimento de fala para a Alexa.

“Modelos de dados sintéticos podem ser usados para expandir rapidamente a intuição humana sobre quais dados são necessários para alcançar um comportamento específico do modelo”, disse Soldaini.

Riscos sintéticos

Os dados sintéticos não são uma panaceia, no entanto. Eles sofrem do mesmo problema de “lixo entra, lixo sai” que todas as IAs. Modelos criam dados sintéticos, e se os dados usados para treinar esses modelos tiverem preconceitos e limitações, suas saídas estarão igualmente contaminadas. Por exemplo, grupos mal representados nos dados base serão assim nos dados sintéticos.

“O problema é que você pode fazer apenas até certo ponto”, disse Keyes. “Digamos que você tenha apenas 30 pessoas negras em um conjunto de dados. Extrapolar pode ajudar, mas se essas 30 pessoas forem todas de classe média ou todas de pele clara, é isso que os dados ‘representativos’ parecerão.”

Para este ponto, um estudo de 2023 realizado por pesquisadores da Rice University e Stanford encontrou que a dependência excessiva de dados sintéticos durante o treinamento pode criar modelos cuja “qualidade ou diversidade diminuem progressivamente”. O viés de amostragem — a má representação do mundo real — causa o empobrecimento da diversidade de um modelo após algumas gerações de treinamento, segundo os pesquisadores (embora eles também tenham descoberto que misturar um pouco de dados do mundo real ajuda a mitigar isso).

Keyes vê riscos adicionais em modelos complexos, como o o1 da OpenAI, que ele acredita poder produzir alucinações mais difíceis de detectar em seus dados sintéticos. Isso, por sua vez, poderia reduzir a precisão dos modelos treinados com os dados — especialmente se as fontes das alucinações não forem fáceis de identificar.

“Modelos complexos alucinam; dados produzidos por modelos complexos contêm alucinações”, acrescentou Keyes. “E com um modelo como o o1, os desenvolvedores não podem necessariamente explicar por que artefatos aparecem.”

Alucinações acumuladas podem levar a modelos que produzem gibberish. Um estudo publicado na revista Nature revela como modelos, treinados com dados repletos de erros, geram ainda mais dados repletos de erros e como esse ciclo de retroalimentação degrada gerações futuras de modelos. Os modelos perdem a compreensão de conhecimentos mais esotéricos ao longo das gerações, descobriram os pesquisadores — tornando-se mais genéricos e frequentemente produzindo respostas irrelevantes para as perguntas que lhes são feitas.

Um estudo de acompanhamento mostra que outros tipos de modelos, como geradores de imagens, não estão imunes a esse tipo de colapso:

Soldaini concorda que dados sintéticos “crus” não devem ser confiáveis, pelo menos se o objetivo for evitar o treinamento de chatbots esquecidos e geradores de imagens homogêneos. Usá-los “com segurança”, diz ele, requer revisar, curar e filtrar minuciosamente, e idealmente emparelhá-los com dados reais frescos — assim como você faria com qualquer outro conjunto de dados.

Falhar em fazer isso poderia eventualmente levar ao colapso do modelo, onde um modelo se torna menos “criativo” — e mais tendencioso — em suas saídas, comprometendo seriamente sua funcionalidade. Embora esse processo possa ser identificado e interrompido antes de se tornar sério, é um risco.

“Os pesquisadores precisam examinar os dados gerados, iterar sobre o processo de geração e identificar salvaguardas para remover pontos de dados de baixa qualidade”, disse Soldaini. “As pipelines de dados sintéticos não são uma máquina autoaperfeiçoável; sua saída deve ser cuidadosamente inspecionada e melhorada antes de ser usada para treinamento.”

O CEO da OpenAI, Sam Altman, uma vez argumentou que a IA algum dia produzirá dados sintéticos bons o suficiente para efetivamente se treinar. Mas — assumindo que isso seja viável — a tecnologia ainda não existe. Nenhum grande laboratório de IA lançou um modelo treinado apenas com dados sintéticos.

Pelo menos no futuro próximo, parece que precisaremos de humanos no processo em algum lugar para garantir que o treinamento de um modelo não saia do controle.

Fonte

Compartilhe esse conteúdo: