Elon Musk concorda com outros especialistas em IA que há poucos dados do mundo real restantes para treinar modelos de IA.
“Agora esgotamos basicamente a soma cumulativa do conhecimento humano… em treinamento de IA,” disse Musk durante uma conversa ao vivo com o presidente da Stagwell, Mark Penn, transmitida no X na quarta-feira à noite. “Isso aconteceu basicamente no ano passado.”
Musk, que possui a empresa de IA xAI, ecoou temas que o ex-cientista-chefe da OpenAI, Ilya Sutskever, abordou na NeurIPS, a conferência de aprendizado de máquina, durante um discurso em dezembro. Sutskever, que disse que a indústria de IA havia alcançado o que chamou de “pico de dados,” previu que a falta de dados de treinamento forçaria uma mudança na forma como os modelos são treinados hoje.
De fato, Musk sugeriu que dados sintéticos — dados gerados pelos próprios modelos de IA — são o caminho a seguir. “Com dados sintéticos… [a IA] vai meio que se avaliar e passar por esse processo de auto-aprendizagem com dados sintéticos,” disse ele.
Outras empresas, incluindo gigantes da tecnologia como Microsoft, Meta, OpenAI e Anthropic, já estão usando dados sintéticos para treinar seus modelos de IA. A Gartner estima que 60% dos dados usados para projetos de IA e análise em 2024 foram gerados sinteticamente.
O Phi-4 da Microsoft, que foi de código aberto na quarta-feira, foi treinado com dados sintéticos junto com dados do mundo real. Assim como os modelos Gemma do Google. A Anthropic usou alguns dados sintéticos para desenvolver um de seus sistemas mais performáticos, Claude 3.5 Sonnet. E a Meta ajustou sua mais recente série de modelos Llama usando dados gerados por IA.
Treinar com dados sintéticos tem outras vantagens, como economia de custos. A startup de IA Writer afirma que seu modelo Palmyra X 004, que foi desenvolvido quase inteiramente com fontes sintéticas, custou apenas $700,000 para desenvolver — em comparação com estimativas de $4.6 milhões para um modelo do tamanho comparável da OpenAI.
Mas também existem desvantagens. Algumas pesquisas sugerem que dados sintéticos podem levar ao colapso do modelo, onde um modelo se torna menos “criativo” — e mais tendencioso — em suas saídas, comprometendo seriamente sua funcionalidade.