Após uma série de controvérsias decorrentes de erros técnicos e mudanças de licenciamento, a startup de IA Stability AI anunciou sua mais nova família de modelos de geração de imagens.
A nova série Stable Diffusion 3.5 é mais personalizável e versátil do que a tecnologia da geração anterior da Stability, afirma a empresa — além de ser mais performática. Existem três modelos ao todo:
Stable Diffusion 3.5 Large: Com 8 bilhões de parâmetros, é o modelo mais poderoso, capaz de gerar imagens em resoluções de até 1 megapixel. (Os parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente têm um desempenho melhor do que aqueles com menos.)
Stable Diffusion 3.5 Large Turbo: Uma versão destilada do Stable Diffusion 3.5 Large que gera imagens mais rapidamente, à custa de alguma qualidade.
Stable Diffusion 3.5 Medium: Um modelo otimizado para rodar em dispositivos de borda como smartphones e laptops, capaz de gerar imagens em resoluções que variam de 0,25 a 2 megapixels.
Enquanto o Stable Diffusion 3.5 Large e o 3.5 Large Turbo estão disponíveis hoje, o 3.5 Medium não será lançado até 29 de outubro.
A Stability diz que os modelos Stable Diffusion 3.5 devem gerar saídas mais ‘diversas’ — ou seja, imagens retratando pessoas com diferentes tons de pele e características — sem a necessidade de ‘extensos’ prompts.
“Durante o treinamento, cada imagem é legendada com várias versões de prompts, com prompts mais curtos priorizados”, disse Hanno Basse, CTO da Stability, em uma entrevista ao TechCrunch. “Isso garante uma distribuição mais ampla e diversificada de conceitos de imagem para qualquer descrição de texto. Como a maioria das empresas de IA generativa, treinamos em uma ampla variedade de dados, incluindo conjuntos de dados públicos filtrados e dados sintéticos.”
Algumas empresas construíram de forma desajeitada esses tipos de recursos de ‘diversificação’ em geradores de imagem no passado, provocando gritos nas redes sociais. Uma versão mais antiga do chatbot Gemini do Google, por exemplo, mostraria um grupo anacrônico de figuras para prompts históricos como “uma legião romana” ou “senadores dos EUA”. O Google foi forçado a interromper a geração de imagens de pessoas por quase seis meses enquanto desenvolvia uma correção.
Com sorte, a abordagem da Stability será mais reflexiva do que outras. Infelizmente, não podemos dar impressões, pois a Stability não forneceu acesso antecipado.
A imagem da Stability geradora anterior, Stable Diffusion 3 Medium, foi amplamente criticada por seus artefatos peculiares e má adesão aos prompts. A empresa avisa que os modelos Stable Diffusion 3.5 podem sofrer de erros semelhantes de prompting; ela culpa trocas de engenharia e arquitetura. Mas a Stability também afirma que os modelos são mais robustos do que seus predecessores na geração de imagens em uma variedade de estilos diferentes, incluindo arte 3D.
“Uma maior variação nas saídas a partir do mesmo prompt com diferentes sementes pode ocorrer, o que é intencional, pois ajuda a preservar uma base de conhecimento mais ampla e estilos diversos nos modelos base”, escreveu a Stability em um post de blog compartilhado com o TechCrunch. “No entanto, como resultado, prompts que carecem de especificidade podem levar a uma maior incerteza na saída, e o nível estético pode variar.”
Uma coisa que não mudou com os novos modelos são as licenças da Stability.
Assim como os modelos anteriores da Stability, os modelos da série Stable Diffusion 3.5 são gratuitos para uso em “não comercial”, incluindo pesquisa. Empresas com menos de $1 milhão em receita anual também podem comercializá-los sem custo. Organizações com mais de $1 milhão em receita, no entanto, devem contratar a Stability para uma licença empresarial.
A Stability causou alvoroço neste verão devido aos seus termos restritivos de ajuste fino, que davam (ou pelo menos pareciam dar) à empresa o direito de extrair taxas para modelos treinados em imagens de seus geradores de imagens. Em resposta ao desapontamento, a empresa ajustou seus termos para permitir um uso comercial mais liberal. A Stability reafirmou hoje que os usuários possuem a mídia que geram com os modelos da Stability.
“Encorajamos os criadores a distribuir e monetizar seu trabalho em toda a pipeline”, disse Ana Guillèn, VP de marketing e comunicações da Stability, em uma declaração enviada por e-mail, “desde que forneçam uma cópia de nossa licença comunitária aos usuários dessas criações e exibam de forma proeminente ‘Powered by Stability AI’ em sites, interfaces de usuário, posts de blogs, páginas Sobre, ou documentação de produtos relacionadas.”
Stable Diffusion 3.5 Large e Diffusion 3.5 Large Turbo podem ser auto-hospedados ou usados por meio da API da Stability e plataformas de terceiros, incluindo Hugging Face, Fireworks, Replicate e ComfyUI. A Stability diz que planeja lançar os ControlNets para os modelos, que permitem ajuste fino, nos próximos dias.
Os modelos da Stability, como a maioria dos modelos de IA, são treinados com dados da web pública — alguns dos quais podem estar protegidos por direitos autorais ou sob uma licença restritiva. A Stability e muitos outros fornecedores de IA argumentam que a doutrina de uso justo os protege de reivindicações de direitos autorais. Mas isso não impediu que os proprietários de dados apresentassem um número crescente de ações coletivas.
A Stability deixa a cargo dos clientes se defenderem contra reivindicações de direitos autorais e, ao contrário de alguns outros fornecedores, não possui carve-out de pagamento no caso de ser considerada responsável.
A Stability permite, no entanto, que os proprietários de dados solicitem a remoção de seus dados de seus conjuntos de treinamento, no entanto. Desde março de 2023, artistas haviam removido 80 milhões de imagens dos dados de treinamento do Stable Diffusion, de acordo com a empresa.
Quando questionada sobre as medidas de segurança em torno da desinformação à luz das próximas eleições gerais dos EUA, a Stability disse que “tomou — e continua a tomar — medidas razoáveis para prevenir o uso indevido do Stable Diffusion por atores mal-intencionados.” A startup se recusou a fornecer detalhes técnicos específicos sobre essas etapas, no entanto.
Até março, a Stability apenas proibia conteúdo explicitamente “enganoso” criado com suas ferramentas de IA generativa — não conteúdo que poderia influenciar eleições, prejudicar a integridade eleitoral ou que apresenta políticos e figuras públicas.