Motores de busca de IA inventam fontes para ~60% das consultas, aponta estudo

Motores de busca de IA são como aquele amigo que afirma ser um especialista em uma série de tópicos, falando com autoridade mesmo quando não sabe realmente do que está falando. Um novo relatório de pesquisa do Columbia Journalism Review (CJR) descobriu que modelos de IA de empresas como OpenAI e xAI, ao serem questionados sobre um evento de notícias específico, muitas vezes simplesmente inventam uma história ou cometem erros significativos.

Os pesquisadores alimentaram vários modelos com trechos diretos de histórias reais e, em seguida, pediram que identificassem informações, incluindo o título do artigo, editor e URL. A Perplexity retornou informações incorretas 37% das vezes, enquanto, no extremo, o Grok da xAI inventou detalhes 97% do tempo. Os erros incluíam oferecer links para artigos que não iam a lugar nenhum porque o bot até mesmo inventou a URL. No geral, os pesquisadores descobriram que os modelos de IA produziram informações falsas em 60% das consultas testadas.

Às vezes, motores de busca como a Perplexity ignoram os paywalls de sites como a National Geographic, mesmo quando esses sites utilizaram texto de não rastrear que os motores de busca normalmente respeitam. A Perplexity já se meteu em problemas por causa disso no passado, mas argumentou que a prática é uso justo. Ela tentou oferecer acordos de compartilhamento de receita para apaziguar os editores, mas ainda se recusa a encerrar a prática.

Qualquer pessoa que usou chatbots nos últimos anos não deve se surpreender. Os chatbots tendem a retornar respostas mesmo quando não estão confiantes. A busca é habilitada em chatbots através de uma técnica chamada geração aumentada de recuperação, que, como o nome sugere, vasculha a web em busca de informações em tempo real enquanto produz uma resposta, em vez de se basear em um conjunto de dados fixo que um fabricante de modelo de IA forneceu. Isso pode agravar o problema da imprecisão, à medida que países como a Rússia alimentam motores de busca com propaganda.

Uma das coisas mais preocupantes que alguns usuários de chatbots notaram é que, ao revisar seu texto de “raciocínio”, ou a cadeia de lógica que os chatbots usam para responder a um prompt, eles frequentemente admitem que estão inventando coisas. O Claude da Anthropic foi pego inserindo dados de “placeholder” quando solicitado a realizar trabalhos de pesquisa, por exemplo.

Mark Howard, diretor de operações da revista Time, expressou preocupação ao CJR sobre a capacidade dos editores de controlar como seu conteúdo é ingerido e exibido em modelos de IA. Isso pode potencialmente prejudicar a marca dos editores se, por exemplo, os usuários descobrirem que histórias de notícias que estão recebendo supostamente do The Guardian estão erradas. Este tem sido um problema recente para a BBC, que criticou a Apple por causa dos resumos de notificações da Apple Intelligence que reescreveram alertas de notícias de forma imprecisa. Mas Howard também culpou os próprios usuários. Do Ars Technica:

No entanto, Howard também fez uma crítica aos usuários, sugerindo que é culpa do usuário se eles não forem céticos em relação à precisão das ferramentas de IA gratuitas: “Se alguém como consumidor acredita que qualquer um desses produtos gratuitos será 100% preciso, então que vergonha.”

As expectativas devem ser definidas no mínimo aqui. As pessoas são preguiçosas, e os chatbots respondem consultas de uma maneira que soa confiante, o que pode levar os usuários a uma complacência. O sentimento nas redes sociais demonstra que as pessoas não querem clicar em links e preferem obter uma resposta imediata de ferramentas como as Visões de IA do Google; o CJR diz que um em cada quatro americanos agora usa modelos de IA para pesquisa. E mesmo antes do lançamento de ferramentas de IA generativa, mais da metade das pesquisas no Google eram de “clique zero”, significando que o usuário obteve as informações de que precisava sem clicar em um site. Outros sites, como a Wikipedia, provaram ao longo dos anos que as pessoas aceitarão algo que pode ser menos autoritário se for gratuito e facilmente acessível.

Nenhuma dessas descobertas do CJR deve ser uma surpresa. Modelos de linguagem têm um desafio intratável em entender qualquer coisa que estão dizendo porque são apenas sistemas de autocompletar glorificados que tentam criar algo que pareça certo. Eles estão improvisando.

Uma outra citação de Howard que se destacou foi quando ele disse que vê espaço para melhorias futuras em chatbots. “Hoje é o pior que o produto jamais será”, citando todos os investimentos que estão sendo feitos na área. Mas isso pode ser dito sobre qualquer tecnologia ao longo da história. Ainda assim, é irresponsável liberar essas informações inventadas no mundo.

Fonte

Compartilhe esse conteúdo: