O benchmark Michelangelo da DeepMind revela as limitações dos LLMs de longo contexto

Modelos de linguagem de grande escala (LLMs) com janelas de contexto muito longas têm ganhado destaque ultimamente. A capacidade de acomodar centenas de milhares ou até milhões de tokens em um único prompt desbloqueia muitas possibilidades para os desenvolvedores.

Mas quão bem esses LLMs de longo contexto realmente entendem e utilizam as vastas quantidades de informação que recebem?

Pesquisadores do Google DeepMind introduziram o Michelangelo, um novo benchmark projetado para avaliar as capacidades de raciocínio em longo contexto dos LLMs. Suas descobertas, publicadas em um novo artigo de pesquisa, mostram que, embora os modelos de ponta atuais tenham progredido na recuperação de informações de grandes dados contextuais, eles ainda enfrentam dificuldades em tarefas que requerem raciocínio sobre a estrutura dos dados.

A necessidade de melhores benchmarks de longo contexto

O surgimento de LLMs com janelas de contexto extremamente longas, variando de 128.000 a mais de 1 milhão de tokens, levou os pesquisadores a desenvolver novos benchmarks para avaliar suas capacidades. No entanto, a maior parte do foco tem sido em tarefas de recuperação, como a popular avaliação “agulha no palheiro”, onde o modelo deve encontrar uma peça específica de informação dentro de um grande contexto.

“Com o tempo, os modelos se tornaram consideravelmente mais capazes em desempenho de longo contexto”, disse Kiran Vodrahalli, cientista de pesquisa do Google DeepMind, ao VentureBeat. “Por exemplo, a popular avaliação de agulha no palheiro para recuperação agora saturou bem até comprimentos de contexto extremamente longos. Assim, tornou-se importante determinar se as tarefas mais difíceis que os modelos são capazes de resolver em regimes de contexto curto também são solucionáveis em longas distâncias.”

Tarefas de recuperação não refletem necessariamente a capacidade de um modelo de raciocinar sobre todo o contexto. Um modelo pode ser capaz de encontrar um fato específico sem entender as relações entre diferentes partes do texto. Enquanto isso, benchmarks existentes que avaliam a capacidade de um modelo de raciocinar sobre longos contextos têm limitações.

“É fácil desenvolver avaliações de raciocínio longo que podem ser resolvidas apenas com uma combinação de recuperação e informações armazenadas nos pesos do modelo, ‘curto-circuitando’ assim o teste da capacidade do modelo de usar o longo contexto”, disse Vodrahalli.

Michelangelo

Para abordar as limitações dos benchmarks atuais, os pesquisadores introduziram o Michelangelo, uma “avaliação mínima, sintética e não vazada de raciocínio em longo contexto para grandes modelos de linguagem.”

Michelangelo é baseado na analogia de um escultor talhando peças irrelevantes de mármore para revelar a estrutura subjacente. O benchmark se concentra em avaliar a capacidade do modelo de entender as relações e a estrutura das informações dentro de sua janela de contexto, em vez de simplesmente recuperar fatos isolados.

O benchmark consiste em três tarefas principais:

Lista latente: O modelo deve processar uma longa sequência de operações realizadas em uma lista Python, filtrar declarações irrelevantes ou redundantes e determinar o estado final da lista. “A Lista Latente mede a capacidade de um modelo de rastrear as propriedades de uma estrutura de dados latente ao longo de uma sequência de instruções de código”, escrevem os pesquisadores.

Resolução de co-referência em várias rodadas (MRCR): O modelo deve produzir partes de uma longa conversa entre um usuário e um LLM. Isso requer que o modelo entenda a estrutura da conversa e resolva referências a turnos anteriores, mesmo quando a conversa contém elementos confusos ou distrativos. “MRCR mede a capacidade do modelo de entender a ordenação em texto natural, distinguir entre rascunhos semelhantes de escrita e reproduzir um trecho específico de contexto anterior sujeito a consultas adversarialmente difíceis”, escrevem os pesquisadores.

“Eu não sei” (IDK): O modelo recebe uma longa história e é solicitado a responder a perguntas de múltipla escolha sobre ela. Para algumas perguntas, o contexto não contém a resposta, e o modelo deve ser capaz de reconhecer os limites de seu conhecimento e responder com “eu não sei.” “IDK mede a capacidade do modelo de entender se ele sabe o que não sabe com base no contexto apresentado”, escrevem os pesquisadores.

Consultas de Estrutura Latente

As tarefas em Michelangelo são baseadas em uma nova estrutura chamada Consultas de Estrutura Latente (LSQ). A LSQ fornece uma abordagem geral para projetar avaliações de raciocínio em longo contexto que podem ser estendidas a comprimentos arbitrários. Ela também pode testar a compreensão do modelo sobre informações implícitas, em vez de simplesmente recuperar fatos simples. A LSQ depende da síntese de dados de teste para evitar que dados de teste vazem para o corpus de treinamento.

“Exigindo que o modelo extraia informações de estruturas em vez de valores de chaves (esculturas de mármore em vez de agulhas de palheiro), podemos testar mais profundamente a compreensão do contexto dos modelos de linguagem além da recuperação”, escrevem os pesquisadores.

A LSQ tem três diferenças principais em relação a outras abordagens para avaliar LLMs de longo contexto. Primeiro, foi explicitamente projetada para evitar falhas de curto-circuito em avaliações que vão além de tarefas de recuperação. Em segundo lugar, especifica uma metodologia para aumentar a complexidade da tarefa e o comprimento do contexto de forma independente. E finalmente, é geral o suficiente para capturar uma ampla gama de tarefas de raciocínio. Os três testes utilizados em Michelangelo cobrem interpretação de código e raciocínio sobre textos vagamente escritos.

“O objetivo é que avaliações de raciocínio além da recuperação de longo contexto implementadas seguindo a LSQ levem a menos cenários onde uma avaliação proposta se reduza a resolver uma tarefa de recuperação”, disse Vodrahalli.

Avaliação de modelos de ponta no Michelangelo

Os pesquisadores avaliaram dez LLMs de ponta no Michelangelo, incluindo diferentes variantes do Gemini, GPT-4 e 4o, e Claude. Eles testaram os modelos em contextos de até 1 milhão de tokens. Os modelos Gemini se destacaram no MRCR, os modelos GPT se saíram bem na Lista Latente, e o Claude 3.5 Sonnet alcançou as maiores pontuações no IDK.

No entanto, todos os modelos apresentaram uma queda significativa no desempenho à medida que a complexidade das tarefas de raciocínio aumentava, sugerindo que, mesmo com janelas de contexto muito longas, os LLMs atuais ainda têm espaço para melhorar em sua capacidade de raciocinar sobre grandes quantidades de informação.

“Os modelos de ponta têm espaço para melhorar em todos os primitivos de raciocínio além da recuperação (Lista Latente, MRCR, IDK) que investigamos no Michelangelo”, disse Vodrahalli. “Diferentes modelos de ponta têm diferentes pontos fortes e fracos – cada classe se sai bem em diferentes intervalos de contexto e em diferentes tarefas. O que parece ser universal entre os modelos é a queda inicial de desempenho em tarefas de raciocínio longo.”

As avaliações do Michelangelo capturam os primitivos básicos necessários para raciocínio em longo contexto e as descobertas podem ter implicações importantes para aplicações empresariais. Por exemplo, em aplicações do mundo real onde o modelo não pode se apoiar em seu conhecimento prévio e deve realizar raciocínios de múltiplas etapas sobre muitos locais díspares em contextos muito longos, Vodrahalli espera que o desempenho caia à medida que o comprimento do contexto aumenta.

“Isto é particularmente verdadeiro se os documentos tiverem muitas informações que são irrelevantes para a tarefa em questão, tornando difícil para um modelo distinguir imediatamente quais informações são relevantes ou não”, disse Vodrahalli. “É também provável que os modelos continuem a se sair bem em tarefas onde todas as informações relevantes para responder a uma pergunta estão localizadas em um único local geral no documento.”

Os pesquisadores continuarão a adicionar mais avaliações ao Michelangelo e esperam torná-las diretamente disponíveis para que outros pesquisadores possam testar seus modelos nelas.

Fonte

Compartilhe esse conteúdo: