Um olhar sob o capô dos transformadores, o motor que impulsiona a evolução dos modelos de IA

Hoje, virtualmente todos os produtos e modelos de IA de ponta usam uma arquitetura de transformador. Modelos de linguagem de grande porte (LLMs) como GPT-4o, LLaMA, Gemini e Claude são todos baseados em transformadores, e outras aplicações de IA, como conversão de texto em fala, reconhecimento automático de fala, geração de imagens e modelos de texto para vídeo têm transformadores como sua tecnologia subjacente.

Com o hype em torno da IA não mostrando sinais de desaceleração tão cedo, é hora de dar aos transformadores o devido reconhecimento, razão pela qual gostaria de explicar um pouco sobre como eles funcionam, por que são tão importantes para o crescimento de soluções escaláveis e por que são a espinha dorsal dos LLMs.

Transformadores são mais do que aparentam

Em resumo, um transformador é uma arquitetura de rede neural projetada para modelar sequências de dados, tornando-os ideais para tarefas como tradução de idiomas, conclusão de frases, reconhecimento automático de fala e mais. Os transformadores realmente se tornaram a arquitetura dominante para muitas dessas tarefas de modelagem de sequência porque o mecanismo de atenção subjacente pode ser facilmente paralelizado, permitindo uma escala massiva ao treinar e realizar inferências.

Originalmente introduzido em um artigo de 2017, “A Atenção é Tudo que Você Precisa” de pesquisadores do Google, o transformador foi apresentado como uma arquitetura de codificador-decodificador especificamente projetada para tradução de idiomas. No ano seguinte, o Google lançou representações de codificadores bidirecionais de transformadores (BERT), que podem ser considerados um dos primeiros LLMs – embora agora seja considerado pequeno pelos padrões de hoje.

Desde então – e especialmente acelerado com o advento dos modelos GPT da OpenAI – a tendência tem sido treinar modelos cada vez maiores com mais dados, mais parâmetros e janelas de contexto mais longas.

Para facilitar essa evolução, houve muitas inovações, como: hardware de GPU mais avançado e melhor software para treinamento em múltiplas GPUs; técnicas como quantização e mistura de especialistas (MoE) para reduzir o consumo de memória; novos otimizadores para treinamento, como Shampoo e AdamW; técnicas para computar eficientemente a atenção, como FlashAttention e KV Caching. A tendência provavelmente continuará no futuro previsível.

A importância da autoatenção nos transformadores

Dependendo da aplicação, um modelo de transformador segue uma arquitetura de codificador-decodificador. O componente do codificador aprende uma representação vetorial de dados que pode ser usada para tarefas subsequentes, como classificação e análise de sentimentos. O componente do decodificador pega uma representação vetorial ou latente do texto ou imagem e a utiliza para gerar novo texto, tornando-o útil para tarefas como conclusão de frases e resumo. Por esse motivo, muitos modelos de ponta conhecidos, como a família GPT, são apenas decodificadores.

Modelos codificador-decodificador combinam ambos os componentes, tornando-os úteis para tradução e outras tarefas de sequência para sequência. Para ambas as arquiteturas de codificador e decodificador, o componente central é a camada de atenção, pois é isso que permite que um modelo mantenha o contexto de palavras que aparecem muito antes no texto.

A atenção vem em duas variantes: autoatenção e atenção cruzada. A autoatenção é usada para capturar relações entre palavras dentro da mesma sequência, enquanto a atenção cruzada é usada para capturar relações entre palavras em duas sequências diferentes. A atenção cruzada conecta componentes de codificador e decodificador em um modelo e durante a tradução. Por exemplo, permite que a palavra em inglês “strawberry” se relacione com a palavra em francês “fraise”. Matematicamente, tanto a autoatenção quanto a atenção cruzada são diferentes formas de multiplicação de matrizes, que podem ser feitas de forma extremamente eficiente usando uma GPU.

Por causa da camada de atenção, os transformadores podem capturar melhor as relações entre palavras separadas por longas quantidades de texto, enquanto modelos anteriores, como redes neurais recorrentes (RNN) e modelos de memória de longo e curto prazo (LSTM), perdem o controle do contexto das palavras de antes no texto.

O futuro dos modelos

Atualmente, os transformadores são a arquitetura dominante para muitos casos de uso que exigem LLMs e se beneficiam da maior parte da pesquisa e desenvolvimento. Embora isso não pareça mudar tão cedo, uma classe diferente de modelo que ganhou interesse recentemente são os modelos de espaço de estado (SSMs) como Mamba. Este algoritmo altamente eficiente pode lidar com sequências de dados muito longas, enquanto os transformadores são limitados por uma janela de contexto.

Para mim, as aplicações mais empolgantes dos modelos de transformadores são os modelos multimodais. O GPT-4o da OpenAI, por exemplo, é capaz de lidar com texto, áudio e imagens – e outros provedores estão começando a seguir o exemplo. As aplicações multimodais são muito diversas, variando de legendagem de vídeo a clonagem de voz e segmentação de imagens (e mais). Elas também apresentam uma oportunidade de tornar a IA mais acessível àqueles com deficiências. Por exemplo, uma pessoa cega poderia ser grandemente beneficiada pela capacidade de interagir por meio de componentes de voz e áudio de uma aplicação multimodal.

É um espaço empolgante com muito potencial para descobrir novos casos de uso. Mas lembre-se de que, pelo menos no futuro previsível, são amplamente sustentados pela arquitetura de transformadores.

Fonte

Compartilhe esse conteúdo: