Em 28 de abril de 2025, a equipe Qwen da gigante do comércio eletrônico e da web da China, Alibaba, lançou oficialmente uma nova série de modelos multimodais de linguagem grande de código aberto conhecidos como Qwen3, que parecem estar entre os melhores modelos abertos, aproximando-se do desempenho dos modelos proprietários de empresas como OpenAI e Google.
A série Qwen3 apresenta dois modelos de “mistura de especialistas” e seis modelos densos, totalizando oito novos modelos. A abordagem de “mistura de especialistas” envolve ter vários tipos de modelos especializados combinados em um, com apenas os modelos relevantes para a tarefa em questão sendo ativados quando necessário nas configurações internas do modelo (conhecidas como parâmetros). Essa abordagem foi popularizada pela startup francesa de IA de código aberto Mistral.
De acordo com a equipe, a versão de 235 bilhões de parâmetros do Qwen3, codinome A22B, supera o R1 de código aberto da DeepSeek e o o1 proprietário da OpenAI em benchmarks de terceiros, incluindo o ArenaHard (com 500 perguntas de usuários em engenharia de software e matemática) e se aproxima do desempenho do novo Google Gemini 2.5-Pro.
No geral, os dados de benchmark posicionam o Qwen3-235B-A22B como um dos modelos mais poderosos disponíveis publicamente, alcançando paridade ou superioridade em relação às principais ofertas da indústria.
Os modelos Qwen3 são treinados para fornecer capacidades de “raciocínio híbrido” ou “raciocínio dinâmico”, permitindo que os usuários alternem entre respostas rápidas e precisas e etapas de raciocínio mais demoradas e intensivas em computação (semelhante à série “o” da OpenAI) para consultas mais difíceis em ciência, matemática, engenharia e outros campos especializados. Essa abordagem foi pioneira pela Nous Research e outros coletivos de startups e pesquisa de IA.
Com o Qwen3, os usuários podem ativar o modo mais intensivo de “Pensamento” usando o botão marcado como tal no site do Qwen Chat ou incorporando prompts específicos como /think ou /no_think ao implantar o modelo localmente ou por meio da API, permitindo o uso flexível dependendo da complexidade da tarefa.
Os usuários agora podem acessar e implantar esses modelos em plataformas como Hugging Face, ModelScope, Kaggle e GitHub, além de interagir diretamente com eles através da interface web do Qwen Chat e aplicativos móveis. O lançamento inclui tanto modelos de Mistura de Especialistas (MoE) quanto modelos densos, todos disponíveis sob a licença de código aberto Apache 2.0.
Em meu breve uso do site Qwen Chat até agora, ele conseguiu gerar imagens relativamente rápido e com boa adesão ao prompt — especialmente ao incorporar texto na imagem nativamente enquanto combina o estilo. No entanto, ele frequentemente me solicitou para fazer login e estava sujeito às habituais restrições de conteúdo da China (como proibir prompts ou respostas relacionadas aos protestos da Praça Tiananmen).
Além das ofertas de MoE, o Qwen3 inclui modelos densos em diferentes escalas: Qwen3-32B, Qwen3-14B, Qwen3-8B, Qwen3-4B, Qwen3-1.7B e Qwen3-0.6B.
Esses modelos variam em tamanho e arquitetura, oferecendo opções aos usuários para atender a diversas necessidades e orçamentos computacionais.
Os modelos Qwen3 também expandem significativamente o suporte multilíngue, agora cobrindo 119 idiomas e dialetos de grandes famílias linguísticas. Isso amplia as potenciais aplicações dos modelos globalmente, facilitando a pesquisa e a implantação em uma ampla gama de contextos linguísticos.
Em termos de treinamento de modelos, o Qwen3 representa um avanço substancial em relação ao seu antecessor, Qwen2.5. O conjunto de dados de pré-treinamento dobrou de tamanho para aproximadamente 36 trilhões de tokens.
As fontes de dados incluem rastreamentos da web, extrações de documentos semelhantes a PDFs e conteúdo sintético gerado usando modelos Qwen anteriores focados em matemática e codificação.
O pipeline de treinamento consistiu em um processo de pré-treinamento de três estágios seguido por um refinamento de pós-treinamento de quatro estágios para permitir as capacidades de pensamento híbrido e não pensamento. As melhorias de treinamento permitem que os modelos densos base do Qwen3 correspondam ou superem o desempenho de modelos Qwen2.5 muito maiores.
As opções de implantação são versáteis. Os usuários podem integrar os modelos Qwen3 usando frameworks como SGLang e vLLM, ambos oferecendo endpoints compatíveis com OpenAI.
Para uso local, opções como Ollama, LMStudio, MLX, llama.cpp e KTransformers são recomendadas. Além disso, os usuários interessados nas capacidades de agente dos modelos são incentivados a explorar o kit de ferramentas Qwen-Agent, que simplifica as operações de chamada de ferramentas.
Junyang Lin, membro da equipe Qwen, comentou no X que construir o Qwen3 envolveu enfrentar desafios técnicos críticos, mas menos glamourosos, como escalar o aprendizado por reforço de forma estável, equilibrar dados de múltiplos domínios e expandir o desempenho multilíngue sem sacrificar a qualidade.
Lin também indicou que a equipe está mudando o foco para treinar agentes capazes de raciocínio de longo prazo para tarefas do mundo real.
O que isso significa para os tomadores de decisão das empresas
As equipes de engenharia podem apontar endpoints compatíveis com OpenAI existentes para o novo modelo em horas, em vez de semanas. Os checkpoints de MoE (235 B parâmetros com 22 B ativos, e 30 B com 3 B ativos) oferecem raciocínio da classe GPT-4 a um custo de memória GPU semelhante ao de um modelo denso de 20 a 30 B.
Ganchos oficiais de LoRA e QLoRA permitem ajuste fino privado sem enviar dados proprietários para um fornecedor terceirizado.
As variantes densas de 0,6 B a 32 B facilitam a prototipagem em laptops e a escalabilidade para clusters multi-GPU sem reescrever prompts.
Executar os pesos localmente significa que todos os prompts e saídas podem ser registrados e inspecionados. A esparsidade de MoE reduz o número de parâmetros ativos por chamada, cortando a superfície de ataque de inferência.
A licença Apache-2.0 remove obstáculos legais baseados em uso, embora as organizações ainda devam revisar as implicações de controle de exportação e governança do uso de um modelo treinado por um fornecedor baseado na China.
Ainda assim, também oferece uma alternativa viável a outros jogadores chineses, incluindo DeepSeek, Tencent e ByteDance — assim como o crescente número de modelos norte-americanos, como os mencionados OpenAI, Google, Microsoft, Anthropic, Amazon, Meta e outros. A licença permissiva Apache 2.0 — que permite uso comercial ilimitado — também é uma grande vantagem sobre outros players de código aberto, como a Meta, cujas licenças são mais restritivas.
Isso indica, além disso, que a corrida entre os provedores de IA para oferecer modelos cada vez mais poderosos e acessíveis continua a ser altamente competitiva, e organizações inteligentes que buscam reduzir custos devem tentar permanecer flexíveis e abertas à avaliação desses novos modelos para seus agentes e fluxos de trabalho de IA.
Olhando para o futuro
A equipe Qwen posiciona o Qwen3 não apenas como uma melhoria incremental, mas como um passo significativo em direção a metas futuras em Inteligência Geral Artificial (AGI) e Inteligência Artificial Superinteligente (ASI), IA significativamente mais inteligente que os humanos.
Os planos para a próxima fase do Qwen incluem escalar dados e tamanhos de modelos ainda mais, estender comprimentos de contexto, ampliar o suporte à modalidade e aprimorar o aprendizado por reforço com mecanismos de feedback ambiental.
À medida que o cenário da pesquisa em IA em larga escala continua a evoluir, o lançamento de pesos abertos do Qwen3 sob uma licença acessível marca mais um marco importante, diminuindo as barreiras para pesquisadores, desenvolvedores e organizações que buscam inovar com LLMs de ponta.