Pesquisadores da Universidade de Stanford pagaram 1.052 pessoas $60 para ler as duas primeiras linhas de O Grande Gatsby para um aplicativo. Após isso, uma IA que se parecia com um sprite 2D de um jogo Final Fantasy da era SNES pediu aos participantes para contar a história de suas vidas. Os cientistas pegaram essas entrevistas e as transformaram em uma IA que, segundo eles, replica o comportamento dos participantes com 85% de precisão.
O estudo, intitulado Simulações de Agentes Geradores de 1.000 Pessoas, é um empreendimento conjunto entre Stanford e cientistas que trabalham para o laboratório de pesquisa em IA DeepMind do Google. A proposta é que a criação de agentes de IA baseados em pessoas aleatórias poderia ajudar formuladores de políticas e pessoas de negócios a entender melhor o público. Por que usar grupos focais ou fazer uma pesquisa com o público quando você pode conversar com eles uma vez, gerar um LLM com base nessa conversa e então ter seus pensamentos e opiniões para sempre? Ou, pelo menos, uma aproximação tão próxima dos pensamentos e sentimentos que um LLM pode recriar.
“Este trabalho fornece uma base para novas ferramentas que podem ajudar a investigar o comportamento individual e coletivo,” disse o resumo do artigo.
“Como poderia, por exemplo, um conjunto diversificado de indivíduos responder a novas políticas e mensagens de saúde pública, reagir a lançamentos de produtos ou responder a choques importantes?” Continuou o artigo. “Quando indivíduos simulados são combinados em coletivos, essas simulações poderiam ajudar a pilotar intervenções, desenvolver teorias complexas que capturam interações causais e contextuais sutis e expandir nossa compreensão de estruturas como instituições e redes em domínios como economia, sociologia, organizações e ciência política.”
Todas essas possibilidades baseadas em uma entrevista de duas horas alimentada em um LLM que respondia perguntas principalmente como seus homólogos da vida real.
Muito do processo foi automatizado. Os pesquisadores contrataram a Bovitz, uma empresa de pesquisa de mercado, para reunir os participantes. O objetivo era obter uma amostra ampla da população dos EUA, o mais ampla possível, quando restrita a 1.000 pessoas. Para completar o estudo, os usuários se inscreveram em uma conta em uma interface feita sob medida, criaram um avatar sprite 2D e começaram a conversar com um entrevistador de IA.
As perguntas e o estilo da entrevista são uma versão modificada da usada pelo American Voices Project, um projeto conjunto de Stanford e da Universidade de Princeton que está entrevistando pessoas em todo o país.
Cada entrevista começou com os participantes lendo as duas primeiras linhas de O Grande Gatsby (“Nos meus anos mais jovens e vulneráveis, meu pai me deu um conselho que venho pensando desde então. ‘Sempre que você sentir vontade de criticar alguém,’ ele me disse, ‘apenas lembre-se de que todas as pessoas neste mundo não tiveram as vantagens que você teve.'”) como uma forma de calibrar o áudio.
De acordo com o artigo, “A interface da entrevista exibia o avatar sprite 2D representando o agente entrevistador no centro, com o avatar do participante mostrado na parte inferior, caminhando em direção a um gol para indicar progresso. Quando o agente entrevistador de IA estava falando, isso era sinalizado por uma animação pulsante do círculo central com o avatar do entrevistador.”
As entrevistas de duas horas, em média, produziam transcrições que tinham 6.491 palavras de comprimento. Foram feitas perguntas sobre raça, gênero, política, renda, uso de redes sociais, o estresse de seus empregos e a composição de suas famílias. Os pesquisadores publicaram o script da entrevista e as perguntas que a IA fez.
Essas transcrições, com menos de 10.000 palavras cada, foram então alimentadas em outro LLM que os pesquisadores usaram para gerar agentes geradores destinados a replicar os participantes. Em seguida, os pesquisadores colocaram tanto os participantes quanto os clones de IA sob mais perguntas e jogos econômicos para ver como eles se comparavam. “Quando um agente é questionado, toda a transcrição da entrevista é injetada no prompt do modelo, instruindo o modelo a imitar a pessoa com base em seus dados de entrevista,” disse o artigo.
Essa parte do processo foi o mais controlada possível. Os pesquisadores usaram a General Social Survey (GSS) e o Big Five Personality Inventory (BFI) para testar quão bem os LLMs correspondiam aos seus inspiradores. Eles então passaram os participantes e os LLMs por cinco jogos econômicos para ver como eles se comparavam.
Os resultados foram mistos. Os agentes de IA responderam cerca de 85% das perguntas da mesma forma que os participantes do mundo real na GSS. Eles obtiveram 80% no BFI. No entanto, os números despencaram quando os agentes começaram a jogar jogos econômicos. Os pesquisadores ofereceram aos participantes da vida real prêmios em dinheiro para jogar jogos como o Dilema do Prisioneiro e o Jogo do Ditador.
No Dilema do Prisioneiro, os participantes podem escolher trabalhar juntos e ambos terem sucesso ou traírem seu parceiro por uma chance de ganhar muito. No Jogo do Ditador, os participantes têm que escolher como alocar recursos para outros participantes. Os sujeitos da vida real ganharam dinheiro além dos $60 originais por jogar esses jogos.
Diante desses jogos econômicos, os clones de IA dos humanos não replicaram seus homólogos do mundo real tão bem. “Em média, os agentes geradores alcançaram uma correlação normalizada de 0,66,” ou cerca de 60%.
Todo o documento vale a pena ser lido se você estiver interessado em como os acadêmicos estão pensando sobre agentes de IA e o público. Não demorou muito para os pesquisadores reduzirem a personalidade de um ser humano a um LLM que se comportava de forma semelhante. Dado tempo e energia, eles provavelmente podem aproximar os dois ainda mais.
Isso me preocupa. Não porque eu não queira ver o espírito humano inefável reduzido a uma planilha, mas porque sei que esse tipo de tecnologia será usada para o mal. Já vimos LLMs mais simples treinados em gravações públicas enganando avós para dar informações bancárias a um parente de IA após uma rápida ligação. O que acontece quando essas máquinas têm um script? O que acontece quando têm acesso a personalidades feitas sob medida baseadas em atividade em redes sociais e outras informações disponíveis publicamente?
O que acontece quando uma corporação ou um político decide que o público quer e precisa de algo não com base em sua vontade falada, mas em uma aproximação disso?