Embora modelos de linguagem e raciocínio de grande porte continuem populares, as organizações estão cada vez mais recorrendo a modelos menores para executar processos de IA com menos preocupações de energia e custo.
Enquanto algumas organizações estão destilando modelos maiores em versões menores, provedores de modelos como o Google continuam a lançar pequenos modelos de linguagem (SLMs) como uma alternativa aos grandes modelos de linguagem (LLMs), que podem custar mais para operar sem sacrificar desempenho ou precisão.
Com isso em mente, o Google lançou a mais recente versão de seu pequeno modelo, Gemma, que apresenta janelas de contexto expandidas, parâmetros maiores e mais capacidades de raciocínio multimodal.
Gemma 3, que possui a mesma potência de processamento que os maiores modelos Gemini 2.0, continua sendo melhor utilizado por dispositivos menores, como telefones e laptops. O novo modelo tem quatro tamanhos: 1B, 4B, 12B e 27B parâmetros.
Com uma janela de contexto maior de 128K tokens — em contraste, o Gemma 2 tinha uma janela de contexto de 80K — o Gemma 3 pode entender mais informações e solicitações complicadas. O Google atualizou o Gemma 3 para funcionar em 140 idiomas, analisar imagens, texto e curtas-metragens e suportar chamadas de função para automatizar tarefas e fluxos de trabalho agentes.
Gemma oferece um desempenho forte
Para reduzir ainda mais os custos de computação, o Google introduziu versões quantizadas do Gemma. Pense nos modelos quantizados como modelos comprimidos. Isso acontece através do processo de “reduzir a precisão dos valores numéricos nos pesos de um modelo” sem sacrificar a precisão.
O Google afirmou que o Gemma 3 “oferece desempenho de ponta para seu tamanho” e supera os principais LLMs como Llama-405B, DeepSeek-V3 e o3-mini. O Gemma 3 27B, especificamente, ficou em segundo lugar nos testes de pontuação Elo da Chatbot Arena, apenas atrás do DeepSeek-R1. Ele superou o modelo menor do DeepSeek, DeepSeek v3, o o3-mini da OpenAI, o Llama-405B da Meta e o Mistral Large.
Ao quantizar o Gemma 3, os usuários podem melhorar o desempenho, executar o modelo e criar aplicativos “que podem caber em um único GPU e unidade de processamento tensorial (TPU) host.”
O Gemma 3 integra-se a ferramentas de desenvolvimento como Hugging Face Transformers, Ollama, JAX, Keras, PyTorch e outras. Os usuários também podem acessar o Gemma 3 através do Google AI Studio, Hugging Face ou Kaggle. Empresas e desenvolvedores podem solicitar acesso à API do Gemma 3 através do AI Studio.
Shield Gemma para segurança
O Google afirmou que construiu protocolos de segurança no Gemma 3, incluindo um verificador de segurança de imagens chamado ShieldGemma 2.
“O desenvolvimento do Gemma 3 incluiu ampla governança de dados, alinhamento com nossas políticas de segurança via ajuste fino e avaliações de benchmark robustas,” escreve o Google em um post no blog. “Embora os testes minuciosos de modelos mais capazes geralmente informem nossa avaliação de modelos menos capazes, o desempenho aprimorado do Gemma 3 em STEM motivou avaliações específicas focadas em seu potencial para uso indevido na criação de substâncias nocivas; seus resultados indicam um nível de baixo risco.”
O ShieldGemma 2 é um verificador de segurança de imagem de 4B parâmetros construído sobre a base do Gemma 3. Ele encontra e impede que o modelo responda com imagens contendo conteúdo sexualmente explícito, violência e outros materiais perigosos. Os usuários podem personalizar o ShieldGemma 2 para atender às suas necessidades específicas.
Pequenos modelos e destilação em ascensão
Desde que o Google lançou o Gemma pela primeira vez em fevereiro de 2024, os SLMs viram um aumento no interesse. Outros pequenos modelos como o Phi-4 da Microsoft e o Mistral Small 3 indicam que as empresas desejam construir aplicativos com modelos tão poderosos quanto os LLMs, mas não necessariamente usar toda a abrangência do que um LLM é capaz.
As empresas também começaram a recorrer a versões menores dos LLMs que preferem através da destilação. Para deixar claro, Gemma não é uma destilação do Gemini 2.0; em vez disso, é treinado com o mesmo conjunto de dados e arquitetura. Um modelo destilado aprende com um modelo maior, o que o Gemma não faz.
As organizações costumam preferir se adaptar a determinados casos de uso a um modelo. Em vez de implantar um LLM como o o3-mini ou Claude 3.7 Sonnet em um editor de código simples, um modelo menor, seja um SLM ou uma versão destilada, pode facilmente realizar essas tarefas sem sobrecarregar um grande modelo.