O VP de IA generativa da Meta, Ahmad Al-Dahle, anunciou na rede social rival X o lançamento do Llama 3.3, o mais recente modelo de linguagem grande (LLM) multilíngue de código aberto da empresa-mãe do Facebook, Instagram, WhatsApp e Quest VR.
Como ele escreveu: “O Llama 3.3 melhora o desempenho central a um custo significativamente menor, tornando-o ainda mais acessível a toda a comunidade de código aberto.”
Com 70 bilhões de parâmetros — ou configurações que governam o comportamento do modelo — o Llama 3.3 oferece resultados comparáveis ao modelo de 405B parâmetros do Llama 3.1 do verão, mas a uma fração do custo e da sobrecarga computacional — por exemplo, a capacidade de GPU necessária para executar o modelo em uma inferência.
Ele foi projetado para oferecer desempenho de primeira linha e acessibilidade em um pacote menor do que os modelos de fundação anteriores.
O Llama 3.3 da Meta é oferecido sob o Acordo de Licença da Comunidade Llama 3.3, que concede uma licença não exclusiva e isenta de royalties para uso, reprodução, distribuição e modificação do modelo e suas saídas. Desenvolvedores que integrem o Llama 3.3 em produtos ou serviços devem incluir a atribuição apropriada, como “Construído com Llama”, e seguir uma Política de Uso Aceitável que proíbe atividades como gerar conteúdo prejudicial, violar leis ou permitir ciberataques. Embora a licença seja geralmente gratuita, organizações com mais de 700 milhões de usuários ativos mensais devem obter uma licença comercial diretamente da Meta.
Uma declaração da equipe de IA da Meta enfatiza essa visão: “O Llama 3.3 oferece desempenho e qualidade líderes em casos de uso baseados em texto a uma fração do custo de inferência.”
Quais economias estamos realmente falando? Algumas contas rápidas:
O Llama 3.1-405B requer entre 243 GB e 1944 GB de memória GPU, de acordo com o blog Substratus (para a infraestrutura de nuvem cruzada de código aberto). Enquanto isso, o Llama 2-70B mais antigo requer entre 42-168 GB de memória GPU, segundo o mesmo blog, embora alguns tenham afirmado que pode ser tão baixo quanto 4 GB, ou como mostrado pela Exo Labs, alguns computadores Mac com chips M4 e sem GPUs discretas.
Portanto, se as economias de GPU para modelos de parâmetros inferiores se manterem neste caso, aqueles que buscam implantar os modelos Llama mais poderosos e de código aberto da Meta podem esperar economizar até quase 1940 GB de memória GPU, ou potencialmente, uma carga de GPU reduzida em 24 vezes para uma GPU Nvidia H100 padrão de 80 GB.
Com um custo estimado de $25.000 por GPU H100, isso pode representar até $600.000 em economias de custo de GPU iniciais, potencialmente — sem mencionar os custos contínuos de energia.
Um modelo altamente performático em um formato pequeno
De acordo com a Meta AI no X, o modelo Llama 3.3 supera facilmente o Llama 3.1-70B de tamanho idêntico, bem como o novo modelo Nova Pro da Amazon em vários benchmarks, como diálogos multilíngues, raciocínio e outras tarefas avançadas de processamento de linguagem natural (NLP) (Nova supera-o em tarefas de codificação HumanEval).
O Llama 3.3 foi pré-treinado em 15 trilhões de tokens de dados “publicamente disponíveis” e ajustado em mais de 25 milhões de exemplos gerados sinteticamente, de acordo com as informações fornecidas pela Meta no “cartão do modelo” postado em seu site.
Aproveitando 39,3 milhões de horas GPU em hardware H100-80GB, o desenvolvimento do modelo ressalta o compromisso da Meta com a eficiência energética e a sustentabilidade.
O Llama 3.3 lidera em tarefas de raciocínio multilíngue com uma taxa de precisão de 91,1% no MGSM, demonstrando sua eficácia em suportar idiomas como alemão, francês, italiano, hindi, português, espanhol e tailandês, além do inglês.
Custo-efetivo e ambientalmente consciente
O Llama 3.3 é especificamente otimizado para inferência custo-efetiva, com custos de geração de tokens tão baixos quanto $0,01 por milhão de tokens.
Isso torna o modelo altamente competitivo em relação a concorrentes da indústria, como o GPT-4 e o Claude 3.5, com maior acessibilidade para desenvolvedores que buscam implantar soluções de IA sofisticadas.
A Meta também enfatizou a responsabilidade ambiental deste lançamento. Apesar de seu intenso processo de treinamento, a empresa usou energia renovável para compensar as emissões de gases de efeito estufa, resultando em emissões líquidas zero para a fase de treinamento. As emissões baseadas em localização totalizaram 11.390 toneladas de CO2 equivalente, mas as iniciativas de energia renovável da Meta garantiram a sustentabilidade.
Recursos avançados e opções de implantação
O modelo introduz várias melhorias, incluindo uma janela de contexto mais longa de 128k tokens (comparável ao GPT-4o, cerca de 400 páginas de texto de livro), tornando-o adequado para geração de conteúdo de longo formato e outros casos de uso avançados.
Sua arquitetura incorpora Atenção por Consulta Agrupada (GQA), melhorando a escalabilidade e o desempenho durante a inferência.
Projetado para alinhar-se às preferências dos usuários por segurança e utilidade, o Llama 3.3 utiliza aprendizado por reforço com feedback humano (RLHF) e ajuste fino supervisionado (SFT). Esse alinhamento garante recusas robustas a prompts inadequados e um comportamento semelhante ao de assistente otimizado para aplicações do mundo real.
O Llama 3.3 já está disponível para download através da Meta, Hugging Face, GitHub e outras plataformas, com opções de integração para pesquisadores e desenvolvedores. A Meta também está oferecendo recursos como Llama Guard 3 e Prompt Guard para ajudar os usuários a implantar o modelo de maneira segura e responsável.