O Diferencial Transformer da Microsoft cancela o ruído de atenção em LLMs

16 de outubro de 2024 13:16

Melhorar as capacidades dos grandes modelos de linguagem (LLMs) na recuperação de informações em contexto permanece uma área de pesquisa ativa que pode impactar aplicações importantes, como geração aumentada por recuperação (RAG) e aprendizado em contexto (ICL).

Pesquisadores da Microsoft Research e da Universidade de Tsinghua introduziram o Diferencial Transformer (Diff Transformer), uma nova arquitetura de LLM que melhora o desempenho amplificando a atenção ao contexto relevante enquanto filtra o ruído. Seus achados, publicados em um artigo de pesquisa, mostram que o Diff Transformer supera a arquitetura clássica do Transformer em várias configurações.

Transformers e o fenômeno do “perdido no meio”

A arquitetura Transformer é a base da maioria dos LLMs modernos. Ela utiliza um mecanismo de atenção para pesar a importância de diferentes partes da sequência de entrada ao gerar a saída. O mecanismo de atenção emprega a função softmax, que normaliza um vetor de valores em uma distribuição de probabilidade. Nos Transformers, a função softmax atribui pontuações de atenção a diferentes tokens na sequência de entrada.

No entanto, estudos mostraram que os Transformers têm dificuldade em recuperar informações-chave de contextos longos.

“Começamos investigando o fenômeno chamado ‘perdido no meio'”, disse Furu Wei, Gerente de Pesquisa da Microsoft Research, ao VentureBeat, referindo-se a descobertas de pesquisas anteriores que mostraram que os LLMs “não utilizam robustamente as informações em contextos de entrada longos” e que “o desempenho degrada significativamente quando os modelos precisam acessar informações relevantes no meio de contextos longos.”

Wei e seus colegas também observaram que algumas alucinações de LLM, onde o modelo produz saídas incorretas apesar de ter informações contextuais relevantes, correlacionam-se com padrões de atenção espúrios.

“Por exemplo, grandes modelos de linguagem são facilmente distraídos pelo contexto”, disse Wei. “Analisamos os padrões de atenção e descobrimos que a atenção do Transformer tende a sobrecarregar o contexto irrelevante devido ao gargalo do softmax.”

A função softmax usada no mecanismo de atenção do Transformer tende a distribuir as pontuações de atenção entre todos os tokens, mesmo aqueles que não são relevantes para a tarefa. Isso pode fazer com que o modelo perca o foco nas partes mais importantes da entrada, especialmente em contextos longos.

“Estudos anteriores indicam que a atenção softmax tem um viés para aprender sinais de baixa frequência porque as pontuações de atenção softmax são restritas a valores positivos e devem somar 1”, disse Wei. “O gargalo teórico torna [isso] tal que o Transformer clássico não pode aprender distribuições de atenção esparsas. Em outras palavras, as pontuações de atenção tendem a se achatar em vez de focar no contexto relevante.”

Diferencial Transformer

Para abordar essa limitação, os pesquisadores desenvolveram o Diff Transformer, uma nova arquitetura base para LLMs. A ideia central é usar um mecanismo de “atenção diferencial” que cancela o ruído e amplifica a atenção dada às partes mais relevantes da entrada.

O Transformer usa três vetores para calcular a atenção: consulta, chave e valor. O mecanismo de atenção clássico realiza a função softmax em todo o vetor de consulta e chave.

A proposta de atenção diferencial funciona dividindo os vetores de consulta e chave em dois grupos e computando dois mapas de atenção softmax separados. A diferença entre esses dois mapas é então usada como a pontuação de atenção. Esse processo elimina o ruído comum, incentivando o modelo a se concentrar nas informações que são pertinentes à entrada.

Os pesquisadores comparam sua abordagem a fones de ouvido com cancelamento de ruído ou amplificadores diferenciais na engenharia elétrica, onde a diferença entre dois sinais cancela o ruído de modo comum.

Embora o Diff Transformer envolva uma operação de subtração adicional em comparação com o Transformer clássico, ele mantém a eficiência graças a técnicas de paralelização e otimização.

“Na configuração experimental, igualamos o número de parâmetros e FLOPs com os Transformers”, disse Wei. “Como o operador básico ainda é o softmax, ele também pode se beneficiar dos amplamente utilizados núcleos FlashAttention cuda para aceleração.”

Em retrospectiva, o método usado no Diff Transformer parece uma solução simples e intuitiva. Wei compara isso ao ResNet, uma arquitetura de aprendizado profundo popular que introduziu “conexões residuais” para melhorar o treinamento de redes neurais muito profundas. Conexões residuais fizeram uma mudança muito simples na arquitetura tradicional, mas tiveram um impacto profundo.

“Na pesquisa, a chave é descobrir ‘qual é o problema certo?'”, disse Wei. “Uma vez que podemos fazer a pergunta certa, a solução é frequentemente intuitiva. Semelhante ao ResNet, a conexão residual é uma adição, comparada à subtração no Diff Transformer, então não era imediatamente aparente para os pesquisadores propor a ideia.”

Diff Transformer em ação

Os pesquisadores avaliaram o Diff Transformer em várias tarefas de modelagem de linguagem, escalando-o em termos de tamanho do modelo (de 3 bilhões a 13 bilhões de parâmetros), tokens de treinamento e comprimento de contexto (até 64.000 tokens).

Seus experimentos mostraram que o Diff Transformer supera consistentemente a arquitetura clássica do Transformer em diferentes benchmarks. Um Diff Transformer de 3 bilhões de parâmetros treinado em 1 trilhão de tokens mostrou melhorias consistentes de vários pontos percentuais em comparação com modelos Transformer de tamanho semelhante.

Experimentos adicionais com diferentes tamanhos de modelo e tamanhos de conjuntos de dados de treinamento confirmaram a escalabilidade do Diff Transformer. Seus achados sugerem que, em geral, o Diff Transformer requer apenas cerca de 65% do tamanho do modelo ou tokens de treinamento necessários por um Transformer clássico para alcançar desempenho comparável.

O Diff Transformer é mais eficiente do que o Transformer clássico em termos de parâmetros e tokens de treinamento.

Os pesquisadores também descobriram que o Diff Transformer é particularmente eficaz em usar comprimentos de contexto crescentes. Ele mostrou melhorias significativas na recuperação de informações-chave, mitigação de alucinações e aprendizado em contexto.

Embora os resultados iniciais sejam promissores, ainda há espaço para melhorias. A equipe de pesquisa está trabalhando na escalabilidade do Diff Transformer para tamanhos de modelo maiores e conjuntos de dados de treinamento. Eles também planejam estendê-lo para outras modalidades, incluindo imagem, áudio, vídeo e dados multimodais.

Os pesquisadores liberaram o código para o Diff Transformer, implementado com diferentes mecanismos de atenção e otimização. Eles acreditam que a arquitetura pode ajudar a melhorar o desempenho em várias aplicações de LLM.

“À medida que o modelo pode atender ao contexto relevante com mais precisão, espera-se que esses modelos de linguagem possam entender melhor as informações contextuais com menos alucinações em contexto”, disse Wei. “Por exemplo, para as configurações de geração aumentada por recuperação (como Bing Chat, Perplexity e modelos personalizados para domínios ou indústrias específicas), os modelos podem gerar respostas mais precisas condicionando-se aos documentos recuperados.

Fonte