Qwen-Image é um poderoso gerador de imagens AI open source com suporte para texto embutido em inglês e chinês

Após aproveitar o verão com um ataque de novos modelos de IA focados em linguagem e codificação disponíveis gratuitamente, que igualaram ou, em alguns casos, superaram rivais fechados/proprietários dos EUA, a equipe de pesquisadores de IA da Alibaba, chamada “Qwen Team”, está de volta hoje com o lançamento de um novo modelo altamente classificado de gerador de imagens AI — também open source.

Qwen-Image se destaca em um campo lotado de modelos de imagens gerativas devido à sua ênfase em renderizar texto com precisão dentro das visuais — uma área em que muitos rivais ainda lutam.

Suportando tanto scripts alfabéticos quanto logográficos, o modelo é particularmente hábil em gerenciar tipografia complexa, layouts de várias linhas, semântica em nível de parágrafo e conteúdo bilíngue (por exemplo, inglês-chinês).

Na prática, isso permite que os usuários gerem conteúdo como pôsteres de filmes, slides de apresentação, cenas de vitrines, poesia manuscrita e infográficos estilizados — com texto nítido que se alinha com seus prompts.

Os exemplos de saída do Qwen-Image incluem uma ampla variedade de casos de uso do mundo real:

Marketing e Branding: Pôsteres bilíngues com logotipos de marcas, caligrafia estilística e motivos de design consistentes

Design de Apresentações: Apresentações cientes de layout com hierarquias de títulos e visuais apropriados ao tema

Educação: Geração de materiais de sala de aula com diagramas e texto instrucional renderizado com precisão

Varejo e E-commerce: Cenas de vitrines onde rótulos de produtos, sinalização e contexto ambiental devem ser todos legíveis

Conteúdo Criativo: Poesia manuscrita, narrativas de cena, ilustrações em estilo anime com texto de história embutido

Os usuários podem interagir com o modelo no site Qwen Chat selecionando o modo “Geração de Imagens” nos botões abaixo do campo de entrada do prompt.

No entanto, meus breves testes iniciais revelaram que a aderência ao texto e ao prompt não era notavelmente melhor do que a do Midjourney, o popular gerador de imagens AI proprietário da empresa americana de mesmo nome. Minha sessão pelo chat Qwen produziu múltiplos erros na compreensão do prompt e na fidelidade do texto, para minha decepção, mesmo após tentativas repetidas e reformulação do prompt:

No entanto, o Midjourney oferece apenas um número limitado de gerações gratuitas e requer assinaturas para qualquer geração adicional, em comparação ao Qwen Image, que, graças à sua licença open source e pesos postados no Hugging Face, pode ser adotado por qualquer empresa ou fornecedor terceirizado gratuitamente.

Licenciamento e disponibilidade

Qwen-Image é distribuído sob a licença Apache 2.0, permitindo uso comercial e não comercial, redistribuição e modificação — embora a atribuição e a inclusão do texto da licença sejam exigidas para trabalhos derivados.

Isso pode torná-lo atraente para empresas que buscam uma ferramenta open source de geração de imagens para usar na criação de materiais internos ou voltados para o público, como panfletos, anúncios, avisos, newsletters e outras comunicações digitais.

Mas o fato de que os dados de treinamento do modelo permanecem um segredo bem guardado — como acontece com a maioria dos outros geradores de imagens AI líderes — pode desagradar algumas empresas sobre a ideia de usá-lo.

Qwen, ao contrário do Adobe Firefly ou da geração de imagens nativa do GPT-4 da OpenAI, por exemplo, não oferece indenização para usos comerciais de seu produto (ou seja, se um usuário for processado por infração de direitos autorais, a Adobe e a OpenAI oferecerão suporte em tribunal).

O modelo e os ativos associados — incluindo notebooks de demonstração, ferramentas de avaliação e scripts de ajuste fino — estão disponíveis através de vários repositórios:

Qwen.ai

Hugging Face

ModelScope

GitHub

Além disso, um portal de avaliação ao vivo chamado AI Arena permite que os usuários comparem gerações de imagens em rodadas pareadas, contribuindo para uma tabela de classificação pública estilo Elo.

Treinamento e desenvolvimento

Por trás do desempenho do Qwen-Image está um extenso processo de treinamento baseado em aprendizado progressivo, alinhamento de tarefas multimodais e curadoria de dados agressiva, de acordo com o artigo técnico que a equipe de pesquisa lançou hoje.

O corpus de treinamento inclui bilhões de pares de imagem-texto provenientes de quatro domínios: imagens naturais, retratos humanos, conteúdo artístico e de design (como pôsteres e layouts de UI) e dados focados em texto sintético. A equipe Qwen não especificou o tamanho do corpus de dados de treinamento, além de “bilhões de pares de imagem-texto”. Eles forneceram uma divisão da porcentagem aproximada de cada categoria de conteúdo incluído:

Natureza: ~55%

Design (UI, pôsteres, arte): ~27%

Pessoas (retratos, atividade humana): ~13%

Dados de renderização de texto sintético: ~5%

Notavelmente, a Qwen enfatiza que todos os dados sintéticos foram gerados internamente e nenhuma imagem criada por outros modelos de IA foi utilizada. Apesar das detalhadas etapas de curadoria e filtragem descritas, a documentação não esclarece se algum dos dados foi licenciado ou proveniente de conjuntos de dados públicos ou proprietários.

Ao contrário de muitos modelos gerativos que excluem texto sintético devido a riscos de ruído, o Qwen-Image utiliza pipelines de renderização sintética rigorosamente controladas para melhorar a cobertura de caracteres — especialmente para caracteres de baixa frequência em chinês.

Uma estratégia de estilo currículo é empregada: o modelo começa com imagens legendadas simples e conteúdo não-textual, depois avança para cenários de texto sensíveis ao layout, renderização de idiomas mistos e parágrafos densos. Esta exposição gradual ajuda o modelo a generalizar entre scripts e tipos de formatação.

Qwen-Image integra três módulos principais:

Qwen2.5-VL, o modelo de linguagem multimodal, extrai significado contextual e orienta a geração através de prompts de sistema.

Codificador/Decodificador VAE, treinado em documentos de alta resolução e layouts do mundo real, lida com representações visuais detalhadas, especialmente texto pequeno ou denso.

MMDiT, a espinha dorsal do modelo de difusão, coordena o aprendizado conjunto entre modalidades de imagem e texto. Um novo sistema MSRoPE (Codificação Posicional Rotatória Escalável Multimodal) melhora o alinhamento espacial entre os tokens.

Juntas, essas componentes permitem que o Qwen-Image opere efetivamente em tarefas que envolvem compreensão, geração e edição precisa de imagens.

Benchmarks de desempenho

O Qwen-Image foi avaliado em relação a vários benchmarks públicos:

GenEval e DPG para consistência de atributos de prompt e objeto

OneIG-Bench e TIIF para raciocínio composicional e fidelidade de layout

CVTG-2K, ChineseWord e LongText-Bench para renderização de texto, especialmente em contextos multilíngues

Em quase todos os casos, o Qwen-Image iguala ou supera modelos fechados existentes como GPT Image 1 [High], Seedream 3.0 e FLUX.1 Kontext [Pro]. Notavelmente, seu desempenho na renderização de texto em chinês foi significativamente melhor do que todos os sistemas comparados.

Na tabela de classificação pública do AI Arena — baseada em mais de 10.000 comparações humanas pareadas — o Qwen-Image ocupa o terceiro lugar geral e é o modelo open source mais bem classificado.

Implicações para tomadores de decisão técnica em empresas

Para equipes de IA em empresas que gerenciam fluxos de trabalho multimodais complexos, o Qwen-Image introduz várias vantagens funcionais que se alinham com as necessidades operacionais de diferentes funções.

Aqueles que gerenciam o ciclo de vida de modelos de visão-linguagem — desde o treinamento até a implantação — encontrarão valor na qualidade consistente de saída do Qwen-Image e em seus componentes prontos para integração. A natureza open source reduz os custos de licenciamento, enquanto a arquitetura modular (Qwen2.5-VL + VAE + MMDiT) facilita a adaptação a conjuntos de dados personalizados ou ajuste fino para saídas específicas de domínio.

Os dados de treinamento em estilo currículo e os resultados de benchmark claros ajudam as equipes a avaliar a adequação para o propósito. Seja implantando visuais de marketing, renderizações de documentos ou gráficos de produtos de e-commerce, o Qwen-Image permite experimentação rápida sem restrições proprietárias.

Engenheiros encarregados de construir pipelines de IA ou implantar modelos em sistemas distribuídos apreciarão a documentação detalhada da infraestrutura. O modelo foi treinado usando uma arquitetura de Produtor-Consumidor, suporta processamento multi-resolução escalável (256p a 1328p) e foi construído para rodar com Megatron-LM e paralelismo de tensor. Isso torna o Qwen-Image um candidato para implantação em ambientes de nuvem híbrida onde a confiabilidade e a capacidade de throughput são importantes.

Além disso, o suporte para fluxos de trabalho de edição de imagem para imagem (TI2I) e prompts específicos de tarefa permite seu uso em aplicações em tempo real ou interativas.

Profissionais focados em ingestão de dados, validação e transformação podem usar o Qwen-Image como uma ferramenta para gerar conjuntos de dados sintéticos para treinamento ou aumento de modelos de visão computacional. Sua capacidade de gerar imagens de alta resolução com anotações embutidas multilíngues pode melhorar o desempenho em tarefas posteriores de OCR, detecção de objetos ou análise de layout.

Como o Qwen-Image também foi treinado para evitar artefatos como códigos QR, texto distorcido e marcas d’água, ele oferece entradas sintéticas de qualidade superior do que muitos modelos públicos — ajudando as equipes de empresas a preservar a integridade do conjunto de treinamento.

Buscando feedback e oportunidades de colaboração

A equipe Qwen enfatiza a abertura e a colaboração comunitária no lançamento do modelo. Desenvolvedores são encorajados a testar e ajustar o Qwen-Image, oferecer pull requests e participar da tabela de classificação de avaliação. O feedback sobre renderização de texto, fidelidade de edição e casos de uso multilíngues moldará iterações futuras.

Com um objetivo declarado de “reduzir as barreiras técnicas à criação de conteúdo visual”, a equipe espera que o Qwen-Image sirva não apenas como um modelo, mas como uma base para mais pesquisas e implantação prática em diversas indústrias.

Fonte

Compartilhe esse conteúdo: