A comunidade de pesquisa em IA continua a encontrar novas maneiras de melhorar os grandes modelos de linguagem (LLMs), sendo a mais recente uma nova arquitetura introduzida por cientistas da Meta e da Universidade de Washington.
A técnica deles, Byte Latent Transformer (BLT), pode ser o próximo paradigma importante para tornar os LLMs mais versáteis e escaláveis.
BLT resolve um dos problemas de longa data dos LLMs que operam no nível de byte em vez de tokens. O BLT pode abrir caminho para novos modelos que possam processar dados raros, que são robustos a mudanças e que não dependem de vocabulários fixos.
Tokens vs bytes
A maioria dos LLMs é treinada com base em um conjunto estático de tokens, grupos pré-definidos de sequências de bytes. Durante a inferência, um tokenizador divide a sequência de entrada em tokens antes de passá-la para o LLM. Isso torna os modelos mais eficientes no uso de recursos computacionais, mas também cria preconceitos que podem degradar o desempenho do modelo quando enfrentam tokens não incluídos no vocabulário.
Por exemplo, muitos dos principais modelos de linguagem podem se tornar lentos e mais caros quando enfrentam idiomas que têm uma pequena representação na web, pois suas palavras não foram incluídas no vocabulário de tokens do modelo. Palavras escritas incorretamente também podem fazer com que o modelo tokenize a entrada de forma incorreta. E os modelos tokenizados podem ter dificuldades com tarefas de nível de caractere, como manipulação de sequências.
Além disso, modificar o vocabulário exige que o modelo seja re-treinado. E expandir o vocabulário de tokens pode exigir mudanças arquitetônicas no modelo para acomodar a complexidade adicionada.
Alternativamente, os LLMs podem ser treinados diretamente em bytes únicos, o que pode resolver muitos dos problemas mencionados acima. No entanto, os LLMs de nível de byte são proibitivamente caros para treinar em escala e não conseguem lidar com sequências muito longas, motivo pelo qual a tokenização continua sendo uma parte essencial dos LLMs atuais.
Byte latent transformer (BLT)
O Byte Latent Transformer (BLT) é uma arquitetura sem token que aprende diretamente de bytes brutos e iguala o desempenho de modelos baseados em tokenização. Para resolver as ineficiências de outros LLMs de nível de byte, o BLT usa um método dinâmico que agrupa bytes com base no nível de informação que eles contêm.
“Central para nossa arquitetura é a ideia de que os modelos devem alocar dinamicamente computação onde é necessária,” escrevem os pesquisadores.
Ao contrário dos modelos tokenizados, o BLT não possui vocabulário fixo. Em vez disso, ele mapeia grupos arbitrários de bytes em patches usando medidas de entropia. O BLT faz esse patching dinâmico através de uma nova arquitetura com três blocos de transformadores: dois pequenos modelos encoder/decoder de nível de byte e um grande “transformador global latente”.
O encoder e o decoder são modelos leves. O encoder recebe bytes de entrada brutos e cria as representações de patch que são alimentadas ao transformador global. No outro extremo, o decoder local recebe as representações de lote processadas pelo transformador global e as decodifica em bytes brutos.
O transformador global latente é a principal força de trabalho do modelo. Ele recebe as representações de patch geradas pelo encoder e prevê o próximo patch na sequência. Quando processado pelo decoder, esse patch é descompactado em um ou vários bytes.
O transformador global representa a maior parte dos recursos computacionais durante o treinamento e a inferência. Portanto, o mecanismo de patching determina como o transformador global é utilizado e pode ajudar a controlar a quantidade de computação usada para diferentes porções da entrada e saída.
O BLT redefine a troca entre tamanho do vocabulário e requisitos computacionais. Nos LLMs padrão, aumentar o tamanho do vocabulário significa tokens maiores em média, o que pode reduzir o número de etapas necessárias para processar uma sequência. No entanto, isso também exigirá dimensões maiores nas camadas de projeção dentro do transformador, o que consome mais recursos.
Em contraste, o BLT pode equilibrar os recursos computacionais com base na complexidade dos dados em vez do tamanho do vocabulário. Por exemplo, o final da maioria das palavras é fácil de prever e requer menos recursos. Por outro lado, prever o primeiro byte de uma nova palavra ou a primeira palavra de uma frase requer mais ciclos computacionais.
“O BLT desbloqueia uma nova dimensão para escalabilidade, permitindo aumentos simultâneos no tamanho do modelo e do patch dentro de um orçamento fixo de inferência,” escrevem os pesquisadores. “Este novo paradigma se torna vantajoso para regimes computacionais comumente encontrados em configurações práticas.”
BLT em ação
Os pesquisadores conduziram experimentos com o BLT e transformadores clássicos em modelos de diferentes escalas, variando de 400 milhões a 8 bilhões de parâmetros.
De acordo com os autores, este é “o primeiro estudo de escalabilidade controlado por flop de modelos de nível de byte até 8B parâmetros e 4T bytes de treinamento, mostrando que podemos treinar um modelo de ponta a ponta em escala a partir de bytes sem tokenização de vocabulário fixo.”
As descobertas mostram que, quando controlados pela quantidade de recursos computacionais alocados para o treinamento, o BLT iguala o desempenho do Llama 3 enquanto usa até 50% menos FLOPs na inferência. Essa eficiência vem do patching dinâmico do modelo, que resulta em grupos de bytes mais longos, economizando computação que pode ser realocada para aumentar o tamanho do transformador global latente.
“Para o melhor de nosso conhecimento, o BLT é a primeira arquitetura de Transformer de nível de byte a alcançar tendências de escalabilidade correspondentes com modelos baseados em BPE em regimes otimizados para computação,” escrevem os pesquisadores.
Além da eficiência, os modelos BLT se mostraram mais robustos a entradas ruidosas em comparação com modelos baseados em tokenização. Eles tiveram habilidades aprimoradas de compreensão de nível de caractere e também mostraram melhor desempenho em tarefas como manipulação de caracteres e tradução automática de recursos baixos. Segundo os pesquisadores, a capacidade do BLT de processar diretamente bytes brutos em vez de tokens “fornece melhorias significativas na modelagem da cauda longa dos dados,” o que significa que os modelos são melhores em trabalhar com padrões que não aparecem com frequência no corpus de treinamento.
Isso ainda é o começo do que pode se tornar um novo padrão para a criação de modelos de linguagem. Os pesquisadores observam que as bibliotecas e bases de código de transformadores existentes são projetadas para serem altamente eficientes para arquiteturas de transformadores com base em tokenização. Isso significa que o BLT ainda tem espaço para se beneficiar de otimizações de software e hardware.