A Meta lançou uma nova coleção de modelos de IA, Llama 4, em sua família Llama — em um sábado, não menos.
São quatro novos modelos no total: Llama 4 Scout, Llama 4 Maverick e Llama 4 Behemoth. Todos foram treinados em “grandes quantidades de texto, imagem e dados de vídeo não rotulados” para proporcionar “uma ampla compreensão visual”, diz a Meta.
O sucesso de modelos abertos do laboratório de IA chinês DeepSeek, que apresentam desempenho igual ou melhor do que os modelos Llama anteriores da Meta, supostamente acelerou o desenvolvimento do Llama. A Meta teria montado salas de guerra para decifrar como a DeepSeek reduziu o custo de execução e implantação de modelos como R1 e V3.
Scout e Maverick estão disponíveis publicamente no Llama.com e nos parceiros da Meta, incluindo a plataforma de desenvolvimento de IA Hugging Face, enquanto Behemoth ainda está em treinamento. A Meta afirma que a Meta AI, seu assistente alimentado por IA em aplicativos como WhatsApp, Messenger e Instagram, foi atualizado para usar o Llama 4 em 40 países. Os recursos multimodais estão limitados aos EUA em inglês por enquanto.
Alguns desenvolvedores podem ter objeções à licença do Llama 4.
Usuários e empresas “domiciliados” ou com um “local principal de negócios” na UE estão proibidos de usar ou distribuir os modelos, provavelmente devido a requisitos de governança impostos pelas leis de IA e privacidade de dados da região. (No passado, a Meta criticou essas leis como excessivamente onerosas.) Além disso, assim como nas versões anteriores do Llama, empresas com mais de 700 milhões de usuários ativos mensais devem solicitar uma licença especial da Meta, que a Meta pode conceder ou negar a seu exclusivo critério.
“Esses modelos Llama 4 marcam o início de uma nova era para o ecossistema Llama”, escreveu a Meta em um post no blog. “Isto é apenas o começo para a coleção Llama 4.”
A Meta afirma que o Llama 4 é sua primeira coorte de modelos a usar uma arquitetura de mistura de especialistas (MoE), que é mais eficiente em termos computacionais para treinamento e resposta a consultas. Arquiteturas MoE basicamente dividem tarefas de processamento de dados em subtarefas e, em seguida, delegam-nas a modelos “especialistas” menores e especializados.
Maverick, por exemplo, tem 400 bilhões de parâmetros totais, mas apenas 17 bilhões de parâmetros ativos em 128 “especialistas”. (Parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo.) Scout tem 17 bilhões de parâmetros ativos, 16 especialistas e 109 bilhões de parâmetros totais.
De acordo com os testes internos da Meta, Maverick, que a empresa diz ser o melhor para “assistente geral e casos de chat” como escrita criativa, supera modelos como o GPT-4o da OpenAI e o Gemini 2.0 do Google em certos benchmarks de codificação, raciocínio, multilíngue, longo contexto e imagem. No entanto, Maverick não se compara a modelos mais capazes recentes, como o Gemini 2.5 Pro do Google, Claude 3.7 Sonnet da Anthropic e GPT-4.5 da OpenAI.
As forças do Scout residem em tarefas como resumo de documentos e raciocínio sobre grandes bases de código. Unicamente, ele possui uma janela de contexto muito grande: 10 milhões de tokens. (“Tokens” representam partes de texto bruto — por exemplo, a palavra “fantástico” dividida em “fan”, “tas” e “tic”.) Em termos simples, o Scout pode processar imagens e até milhões de palavras, permitindo que ele trabalhe com documentos extremamente longos.
O Scout pode ser executado em uma única GPU Nvidia H100, enquanto o Maverick requer um sistema Nvidia H100 DGX, de acordo com a Meta.
O Behemoth, ainda não lançado, precisará de hardware ainda mais robusto. De acordo com a empresa, o Behemoth tem 288 bilhões de parâmetros ativos, 16 especialistas e quase dois trilhões de parâmetros totais. A avaliação interna da Meta indica que o Behemoth supera o GPT-4.5, Claude 3.7 Sonnet e Gemini 2.0 Pro (mas não o 2.5 Pro) em várias avaliações que medem habilidades STEM, como resolução de problemas matemáticos.
É importante notar que nenhum dos modelos Llama 4 é um modelo de “raciocínio” nos moldes do o1 e o3-mini da OpenAI. Modelos de raciocínio verificam suas respostas e geralmente respondem a perguntas de forma mais confiável, mas, como consequência, levam mais tempo do que modelos tradicionais “não-raciocínio” para fornecer respostas.
Curiosamente, a Meta afirma que ajustou todos os seus modelos Llama 4 para se recusar a responder a perguntas “contenciosas” com menos frequência. De acordo com a empresa, o Llama 4 responde a tópicos políticos e sociais “debatidos” que a leva anterior de modelos Llama não responderia. Além disso, a empresa afirma que o Llama 4 é “dramaticamente mais equilibrado” em relação aos prompts que simplesmente não irá considerar.
“[V]ocê pode contar com [Llama 4] para fornecer respostas úteis e factuais sem julgamento”, disse um porta-voz da Meta ao TechCrunch. “[N]ós estamos continuando a tornar o Llama mais responsivo para que ele responda a mais perguntas, possa responder a uma variedade de pontos de vista diferentes […] e não favoreça algumas opiniões em detrimento de outras.”
Essas alterações ocorrem enquanto alguns aliados da Casa Branca acusam os chatbots de IA de serem excessivamente “woke” politicamente.
Muitos dos aliados próximos do presidente Donald Trump, incluindo o bilionário Elon Musk e o “czar” de criptomoedas e IA David Sacks, alegaram que os chatbots de IA populares censuram opiniões conservadoras. Sacks, historicamente, destacou o ChatGPT da OpenAI como “programado para ser woke” e desonesto sobre assuntos políticos.
Na verdade, o viés na IA é um problema técnico intratável. A própria empresa de IA de Musk, xAI, tem lutado para criar um chatbot que não endosse algumas opiniões políticas em detrimento de outras.
Isso não impediu empresas como a OpenAI de ajustar seus modelos de IA para responder a mais perguntas do que antes, em particular perguntas relacionadas a assuntos controversos.