A IA não é muito boa em história, diz novo artigo

A IA pode se destacar em certas tarefas como codificação ou geração de um podcast. Mas ela tem dificuldades para passar em um exame de história de alto nível, descobriu um novo artigo.

Uma equipe de pesquisadores criou um novo benchmark para testar três dos principais modelos de linguagem de grande escala (LLMs) — GPT-4 da OpenAI, Llama da Meta e Gemini do Google — em questões históricas. O benchmark, Hist-LLM, testa a correção das respostas de acordo com o Seshat Global History Databank, um vasto banco de dados de conhecimento histórico nomeado em homenagem à deusa egípcia antiga da sabedoria.

Os resultados, apresentados no mês passado na conferência de IA de alto nível NeurIPS, foram decepcionantes, de acordo com pesquisadores afiliados ao Complexity Science Hub (CSH), um instituto de pesquisa baseado na Áustria. O LLM com melhor desempenho foi o GPT-4 Turbo, mas ele alcançou apenas cerca de 46% de precisão — não muito acima do palpite aleatório.

“A principal conclusão deste estudo é que os LLMs, embora impressionantes, ainda carecem da profundidade de compreensão necessária para a história avançada. Eles são ótimos para fatos básicos, mas quando se trata de uma investigação histórica mais sutil, no nível de doutorado, ainda não estão à altura”, disse Maria del Rio-Chanona, uma das co-autoras do artigo e professora associada de ciência da computação na University College London.

Os pesquisadores compartilharam questões históricas de exemplo com o TechCrunch que os LLMs erraram. Por exemplo, perguntaram ao GPT-4 Turbo se a armadura de escala estava presente durante um período específico da história do Egito antigo. O LLM respondeu que sim, mas a tecnologia só apareceu no Egito 1.500 anos depois.

Por que os LLMs são ruins em responder a perguntas históricas técnicas, quando podem ser tão bons em responder a perguntas muito complicadas sobre codificação? Del Rio-Chanona disse ao TechCrunch que isso provavelmente se deve ao fato de que os LLMs tendem a extrapolar a partir de dados históricos que são muito proeminentes, encontrando dificuldade em recuperar conhecimentos históricos mais obscuros.

Por exemplo, os pesquisadores perguntaram ao GPT-4 se o Egito antigo tinha um exército profissional em um período histórico específico. Enquanto a resposta correta é não, o LLM respondeu incorretamente que sim. Isso provavelmente ocorre porque há muitas informações públicas sobre outros impérios antigos, como a Pérsia, tendo exércitos permanentes.

“Se você ouvir A e B 100 vezes, e C 1 vez, e então for perguntado sobre C, você pode apenas lembrar A e B e tentar extrapolar a partir disso”, disse del Rio-Chanona.

Os pesquisadores também identificaram outras tendências, incluindo que os modelos da OpenAI e Llama tiveram um desempenho pior em certas regiões, como a África Subsaariana, sugerindo potenciais preconceitos em seus dados de treinamento.

Os resultados mostram que os LLMs ainda não são um substituto para os humanos quando se trata de certos domínios, disse Peter Turchin, que liderou o estudo e é membro do corpo docente do CSH.

Mas os pesquisadores ainda têm esperança de que os LLMs possam ajudar historiadores no futuro. Eles estão trabalhando para refinar seu benchmark, incluindo mais dados de regiões sub-representadas e adicionando perguntas mais complexas.

“No geral, enquanto nossos resultados destacam áreas onde os LLMs precisam melhorar, eles também ressaltam o potencial desses modelos para auxiliar na pesquisa histórica”, diz o artigo.

Fonte

Compartilhe esse conteúdo: