Meta Llama: Tudo o que você precisa saber sobre o modelo de IA generativa aberto

Como toda grande empresa de tecnologia hoje em dia, a Meta tem seu próprio modelo de IA generativa de destaque, chamado Llama. O Llama é um pouco único entre os principais modelos, pois é “aberto”, o que significa que os desenvolvedores podem baixá-lo e usá-lo como quiserem (com certas limitações). Isso contrasta com modelos como Claude da Anthropic, Gemini do Google, Grok da xAI e a maioria dos modelos ChatGPT da OpenAI, que só podem ser acessados por meio de APIs.

No interesse de dar aos desenvolvedores escolha, no entanto, a Meta também fez parcerias com fornecedores, incluindo AWS, Google Cloud e Microsoft Azure, para tornar versões hospedadas na nuvem do Llama disponíveis. Além disso, a empresa publica ferramentas, bibliotecas e receitas em seu livro de receitas Llama para ajudar os desenvolvedores a ajustar, avaliar e adaptar os modelos ao seu domínio. Com gerações mais novas como Llama 3 e Llama 4, essas capacidades se expandiram para incluir suporte multimodal nativo e implantações na nuvem mais amplas.

Aqui está tudo o que você precisa saber sobre o Llama da Meta, desde suas capacidades e edições até onde você pode usá-lo. Vamos manter este post atualizado à medida que a Meta lança atualizações e introduz novas ferramentas de desenvolvimento para apoiar o uso do modelo.

O que é Llama?

Llama é uma família de modelos – não apenas um. A versão mais recente é o Llama 4; foi lançado em abril de 2025 e inclui três modelos:

Scout: 17 bilhões de parâmetros ativos, 109 bilhões de parâmetros totais e uma janela de contexto de 10 milhões de tokens.

Maverick: 17 bilhões de parâmetros ativos, 400 bilhões de parâmetros totais e uma janela de contexto de 1 milhão de tokens.

Behemoth: ainda não lançado, mas terá 288 bilhões de parâmetros ativos e 2 trilhões de parâmetros totais.

(Em ciência de dados, tokens são partes subdivididas de dados brutos, como as sílabas “fan”, “tas” e “tic” na palavra “fantástico”).

A janela de contexto de um modelo refere-se aos dados de entrada (por exemplo, texto) que o modelo considera antes de gerar a saída (por exemplo, texto adicional). Uma janela de contexto longa pode evitar que os modelos “esqueçam” o conteúdo de documentos e dados recentes, e de se desviar do tópico e extrapolar erroneamente. No entanto, janelas de contexto mais longas também podem fazer com que o modelo “esqueça” certas salvaguardas de segurança e se torne mais propenso a produzir conteúdo que esteja alinhado com a conversa, o que levou alguns usuários a um pensamento delirante.

Para referência, a janela de contexto de 10 milhões que o Llama 4 Scout promete equivale aproximadamente ao texto de cerca de 80 romances médios. A janela de contexto de 1 milhão do Llama 4 Maverick equivale a cerca de oito romances.

Todos os modelos Llama 4 foram treinados em “grandes quantidades de texto, imagem e dados de vídeo não rotulados” para dar a eles “ampla compreensão visual”, bem como em 200 idiomas, de acordo com a Meta.

O Llama 4 Scout e o Maverick são os primeiros modelos multimodais nativos de peso aberto da Meta. Eles são construídos usando uma arquitetura de “mistura de especialistas” (MoE), que reduz a carga computacional e melhora a eficiência no treinamento e na inferência. O Scout, por exemplo, tem 16 especialistas, e o Maverick tem 128 especialistas.

O Llama 4 Behemoth inclui 16 especialistas, e a Meta se refere a ele como um professor para os modelos menores.

O Llama 4 se baseia na série Llama 3, que incluía os modelos 3.1 e 3.2 amplamente utilizados para aplicações ajustadas por instrução e implantação na nuvem.

O que o Llama pode fazer?

Como outros modelos de IA generativa, o Llama pode realizar uma variedade de tarefas assistivas, como codificação e responder a perguntas básicas de matemática, além de resumir documentos em pelo menos 12 idiomas (árabe, inglês, alemão, francês, hindi, indonésio, italiano, português, espanhol, tagalo, tailandês e vietnamita). A maioria das cargas de trabalho baseadas em texto – pense em analisar grandes arquivos como PDFs e planilhas – estão dentro de sua alçada, e todos os modelos Llama 4 suportam entrada de texto, imagem e vídeo.

O Llama 4 Scout é projetado para fluxos de trabalho mais longos e análise de dados massivos. O Maverick é um modelo generalista que é melhor em equilibrar poder de raciocínio e velocidade de resposta, e é adequado para codificação, chatbots e assistentes técnicos. E o Behemoth é projetado para pesquisa avançada, destilação de modelos e tarefas STEM.

Os modelos Llama, incluindo o Llama 3.1, podem ser configurados para aproveitar aplicativos, ferramentas e APIs de terceiros para realizar tarefas. Eles são treinados para usar o Brave Search para responder a perguntas sobre eventos recentes; a API Wolfram Alpha para consultas relacionadas a matemática e ciências; e um interpretador Python para validar código. No entanto, essas ferramentas requerem configuração adequada e não estão automaticamente habilitadas por padrão.

Onde posso usar o Llama?

Se você está apenas procurando conversar com o Llama, ele está alimentando a experiência do chatbot da Meta no Facebook Messenger, WhatsApp, Instagram, Oculus e Meta.ai em 40 países. Versões ajustadas do Llama são usadas nas experiências de IA da Meta em mais de 200 países e territórios.

Os modelos Llama 4 Scout e Maverick estão disponíveis em Llama.com e nos parceiros da Meta, incluindo a plataforma de desenvolvedores de IA Hugging Face. O Behemoth ainda está em treinamento. Os desenvolvedores que trabalham com o Llama podem baixar, usar ou ajustar o modelo na maioria das plataformas de nuvem populares. A Meta afirma que possui mais de 25 parceiros hospedando o Llama, incluindo Nvidia, Databricks, Groq, Dell e Snowflake. E embora “vender acesso” aos modelos abertamente disponíveis da Meta não seja o modelo de negócios da Meta, a empresa ganha algum dinheiro por meio de acordos de compartilhamento de receita com os anfitriões do modelo.

Alguns desses parceiros construíram ferramentas e serviços adicionais em cima do Llama, incluindo ferramentas que permitem que os modelos façam referência a dados proprietários e as habilitam a operar com latências mais baixas.

Importante, a licença do Llama restringe como os desenvolvedores podem implantar o modelo: desenvolvedores de aplicativos com mais de 700 milhões de usuários mensais devem solicitar uma licença especial da Meta que a empresa concederá a seu critério.

Em maio de 2025, a Meta lançou um novo programa para incentivar startups a adotar seus modelos Llama. O Llama para Startups oferece suporte das equipes Llama da Meta e acesso a financiamento potencial.

Juntamente com o Llama, a Meta fornece ferramentas destinadas a tornar o modelo “mais seguro” de usar:

Llama Guard, uma estrutura de moderação.

Prompt Guard, uma ferramenta para proteger contra ataques de injeção de prompt.

CyberSecEval, um conjunto de avaliação de risco cibernético.

Llama Firewall, uma barreira de segurança projetada para permitir a construção de sistemas de IA seguros.

Code Shield, que fornece suporte para filtragem de código inseguro produzido por LLMs no tempo de inferência.

O Llama Guard tenta detectar conteúdo potencialmente problemático, seja alimentado em – ou gerado – por um modelo Llama, incluindo conteúdo relacionado a atividades criminosas, exploração infantil, violações de direitos autorais, ódio, automutilação e abuso sexual. Dito isso, não é claramente uma bala de prata, já que as diretrizes anteriores da própria Meta permitiam que o chatbot se envolvesse em conversas sensuais e românticas com menores, e alguns relatos mostram que essas conversas se tornaram conversas sexuais. Os desenvolvedores podem personalizar as categorias de conteúdo bloqueado e aplicar os bloqueios a todos os idiomas que o Llama suporta.

Como o Llama Guard, o Prompt Guard pode bloquear texto destinado ao Llama, mas apenas texto destinado a “atacar” o modelo e fazê-lo se comportar de maneiras indesejáveis. A Meta afirma que o Llama Guard pode defender contra prompts explicitamente maliciosos (ou seja, jailbreaks que tentam contornar os filtros de segurança embutidos do Llama) além de prompts que contêm “entradas injetadas”. O Llama Firewall trabalha para detectar e prevenir riscos como injeção de prompt, código inseguro e interações de ferramentas arriscadas. E o Code Shield ajuda a mitigar sugestões de código inseguro e oferece execução segura de comandos para sete linguagens de programação.

Quanto ao CyberSecEval, é menos uma ferramenta do que uma coleção de benchmarks para medir a segurança do modelo. O CyberSecEval pode avaliar o risco que um modelo Llama representa (pelo menos de acordo com os critérios da Meta) para desenvolvedores de aplicativos e usuários finais em áreas como “engenharia social automatizada” e “escalonamento de operações cibernéticas ofensivas”.

Limitações do Llama

O Llama vem com certos riscos e limitações, como todos os modelos de IA generativa. Por exemplo, enquanto seu modelo mais recente possui recursos multimodais, esses estão principalmente limitados ao idioma inglês por enquanto.

Ampliando a visão, a Meta usou um conjunto de dados de e-books e artigos pirateados para treinar seus modelos Llama. Um juiz federal recentemente decidiu a favor da Meta em uma ação judicial de direitos autorais movida contra a empresa por 13 autores de livros, decidindo que o uso de obras protegidas por direitos autorais para treinamento se enquadrava na “uso justo”. No entanto, se o Llama reproduzir um trecho protegido por direitos autorais e alguém o usar em um produto, essa pessoa pode potencialmente infringir direitos autorais e ser responsabilizada.

A Meta também treina seu IA de forma controversa em postagens, fotos e legendas do Instagram e Facebook, e torna difícil para os usuários optarem por sair.

A programação é outra área onde é prudente proceder com cautela ao usar o Llama. Isso porque o Llama pode – talvez mais do que seus equivalentes de IA generativa – produzir código com bugs ou inseguro. No LiveCodeBench, um benchmark que testa modelos de IA em problemas de codificação competitivos, o modelo Llama 4 Maverick da Meta alcançou uma pontuação de 40%. Isso em comparação com 85% para o GPT-5 da OpenAI e 83% para o Grok 4 Fast da xAI.

Como sempre, é melhor ter um especialista humano revisando qualquer código gerado por IA antes de incorporá-lo a um serviço ou software.

Finalmente, como outros modelos de IA, os modelos Llama ainda são culpados de gerar informações plausíveis, mas falsas ou enganosas, seja em codificação, orientação legal ou conversas emocionais com personas de IA.

Fonte

Compartilhe esse conteúdo: