29 de outubro de 2024 15:17
Um problema bem conhecido dos grandes modelos de linguagem (LLMs) é sua tendência a gerar saídas incorretas ou sem sentido, frequentemente chamadas de “alucinações”. Embora muita pesquisa tenha se concentrado na análise desses erros a partir da perspectiva do usuário, um novo estudo de pesquisadores do Technion, Google Research e Apple investiga os mecanismos internos dos LLMs, revelando que esses modelos possuem uma compreensão muito mais profunda da veracidade do que se pensava anteriormente.
O termo alucinação não possui uma definição universalmente aceita e abrange uma ampla gama de erros de LLM. Para seu estudo, os pesquisadores adotaram uma interpretação ampla, considerando alucinações como todos os erros produzidos por um LLM, incluindo imprecisões factuais, preconceitos, falhas de raciocínio comum e outros erros do mundo real.
A maioria das pesquisas anteriores sobre alucinações se concentrou na análise do comportamento externo dos LLMs e na forma como os usuários percebem esses erros. No entanto, esses métodos oferecem uma visão limitada de como os erros são codificados e processados dentro dos próprios modelos.
Alguns pesquisadores exploraram as representações internas dos LLMs, sugerindo que eles codificam sinais de veracidade. No entanto, os esforços anteriores se concentraram principalmente na análise do último token gerado pelo modelo ou do último token no prompt. Como os LLMs normalmente geram respostas longas, essa prática pode perder detalhes cruciais.
O novo estudo adota uma abordagem diferente. Em vez de apenas olhar para a saída final, os pesquisadores analisam “tokens de resposta exatos”, os tokens de resposta que, se modificados, mudariam a correção da resposta.
Os pesquisadores realizaram seus experimentos em quatro variantes dos modelos Mistral 7B e Llama 2 em 10 conjuntos de dados que abrangem várias tarefas, incluindo resposta a perguntas, inferência em linguagem natural, resolução de problemas matemáticos e análise de sentimentos. Eles permitiram que os modelos gerassem respostas irrestritas para simular o uso no mundo real. As descobertas mostram que a informação de veracidade está concentrada nos tokens de resposta exatos.
“Esses padrões são consistentes em quase todos os conjuntos de dados e modelos, sugerindo um mecanismo geral pelo qual os LLMs codificam e processam a veracidade durante a geração de texto”, escrevem os pesquisadores.
Para prever alucinações, eles treinaram modelos classificadores, que chamam de “classificadores de sondagem”, para prever características relacionadas à veracidade das saídas geradas com base nas ativações internas dos LLMs. Os pesquisadores descobriram que treinar classificadores em tokens de resposta exatos melhora significativamente a detecção de erros.
“Nossa demonstração de que um classificador de sondagem treinado pode prever erros sugere que os LLMs codificam informações relacionadas à sua própria veracidade”, escrevem os pesquisadores.
Generalizabilidade e veracidade específica de habilidades
Os pesquisadores também investigaram se um classificador de sondagem treinado em um conjunto de dados poderia detectar erros em outros. Eles descobriram que os classificadores de sondagem não se generalizam entre diferentes tarefas. Em vez disso, exibem veracidade “específica de habilidades”, o que significa que podem se generalizar dentro de tarefas que exigem habilidades semelhantes, como recuperação factual ou raciocínio comum, mas não entre tarefas que exigem habilidades diferentes, como análise de sentimentos.
“No geral, nossas descobertas indicam que os modelos têm uma representação multifacetada da veracidade”, escrevem os pesquisadores. “Eles não codificam a veracidade por meio de um único mecanismo unificado, mas sim por meio de múltiplos mecanismos, cada um correspondente a diferentes noções de verdade.”
Experimentos adicionais mostraram que esses classificadores de sondagem poderiam prever não apenas a presença de erros, mas também os tipos de erros que o modelo é propenso a cometer. Isso sugere que as representações dos LLMs contêm informações sobre as maneiras específicas pelas quais eles podem falhar, o que pode ser útil para desenvolver estratégias de mitigação direcionadas.
Finalmente, os pesquisadores investigaram como os sinais de veracidade internos codificados nas ativações dos LLMs se alinham com seu comportamento externo. Eles encontraram uma discrepância surpreendente em alguns casos: as ativações internas do modelo podem identificar corretamente a resposta certa, mas ele gera consistentemente uma resposta incorreta.
Essa descoberta sugere que os métodos de avaliação atuais, que dependem exclusivamente da saída final dos LLMs, podem não refletir com precisão suas verdadeiras capacidades. Isso levanta a possibilidade de que, ao entender e aproveitar melhor o conhecimento interno dos LLMs, possamos desbloquear um potencial oculto e reduzir significativamente os erros.
Implicações futuras
As descobertas do estudo podem ajudar a projetar melhores sistemas de mitigação de alucinações. No entanto, as técnicas que utiliza exigem acesso às representações internas dos LLMs, o que é viável principalmente com modelos de código aberto.
As descobertas, no entanto, têm implicações mais amplas para o campo. As percepções obtidas a partir da análise das ativações internas podem ajudar a desenvolver técnicas de detecção e mitigação de erros mais eficazes. Este trabalho faz parte de um campo mais amplo de estudos que visa entender melhor o que está acontecendo dentro dos LLMs e as bilhões de ativações que ocorrem em cada etapa de inferência. Laboratórios de IA líderes, como OpenAI, Anthropic e Google DeepMind, têm trabalhado em várias técnicas para interpretar os mecanismos internos dos modelos de linguagem. Juntas, essas pesquisas podem ajudar a construir sistemas mais robóticos e confiáveis.
“Nossas descobertas sugerem que as representações internas dos LLMs fornecem percepções úteis sobre seus erros, destacam a complexa ligação entre os processos internos dos modelos e suas saídas externas e, esperançosamente, pavimentam o caminho para melhorias adicionais na detecção e mitigação de erros”, escrevem os pesquisadores.