A Stability AI lançou hoje uma atualização importante para sua tecnologia de IA generativa de texto para imagem com a estreia do Stable Diffusion 3.5.
Um dos principais objetivos da nova atualização é elevar o padrão e melhorar a última atualização importante da Stability AI, que a empresa admitiu não atender aos seus próprios critérios. O Stable Diffusion 3 foi apresentado pela primeira vez em fevereiro e a primeira versão do modelo aberto ficou disponível em junho com a estreia do Stable Diffusion 3 Medium. Embora a Stability AI tenha sido uma pioneira no espaço de IA generativa de texto para imagem, tem enfrentado uma concorrência acirrada de vários rivais, incluindo Flux Pro, da Black Forest Labs, Dall-E, da OpenAI, Ideogram e Midjourney.
Com o Stable Diffusion 3.5, a Stability AI busca recuperar sua posição de liderança. Os novos modelos são altamente personalizáveis e podem gerar uma ampla gama de estilos diferentes. A nova atualização introduz várias variantes de modelo, cada uma projetada para atender a diferentes necessidades dos usuários. O Stable Diffusion 3.5 Large é um modelo de 8 bilhões de parâmetros que oferece a mais alta qualidade e aderência aos prompts na série. O Stable Diffusion 3.5 Large Turbo é uma versão destilada do modelo grande, proporcionando uma geração de imagem mais rápida. Completando os novos modelos está o Stable Diffusion 3.5 Medium, que possui 2,6 bilhões de parâmetros e é otimizado para implantações em computação de borda.
Todos os três novos modelos do Stable Diffusion 3.5 estão disponíveis sob a Licença da Comunidade da Stability AI, que é uma licença aberta que permite o uso não comercial gratuito e o uso comercial gratuito para entidades com receita anual abaixo de $1 milhão. A Stability AI possui uma licença empresarial para implantações maiores. Os modelos estão disponíveis por meio da API da Stability AI, bem como do Hugging Face.
A liberação original do Stable Diffusion 3 Medium em junho foi uma liberação menos do que ideal. As lições aprendidas dessa experiência ajudaram a informar e melhorar as novas atualizações do Stable Diffusion 3.5.
“Identificamos que várias escolhas de modelo e conjunto de dados que fizemos para o modelo Stable Diffusion Large 8B não eram ideais para o modelo Medium de menor tamanho,” disse Hanno Basse, CTO da Stability AI, ao VentureBeat. “Fizemos uma análise minuciosa desses gargalos e inovamos ainda mais em nossa arquitetura e protocolos de treinamento do modelo Medium para oferecer um melhor equilíbrio entre o tamanho do modelo e a qualidade de saída.”
Como a Stability AI está melhorando a IA generativa de texto para imagem com o Stable Diffusion 3.5
Como parte da construção do Stable Diffusion 3.5, a Stability AI aproveitou várias técnicas novas para melhorar a qualidade e o desempenho.
Uma adição notável ao Stable Diffusion 3.5 é a integração da Normalização de Consulta-Chave nos blocos do transformador. Essa técnica facilita o ajuste fino e o desenvolvimento adicional dos modelos pelos usuários finais. A Normalização de Consulta-Chave torna o modelo mais estável para treinamento e ajuste fino.
“Embora tenhamos experimentado com a normalização QK no passado, esta é a nossa primeira liberação de modelo com essa normalização,” explicou Basse. “Faz sentido usá-la para este novo modelo, já que priorizamos a personalização.”
A Stability AI também aprimorou sua arquitetura Multimodal Diffusion Transformer MMDiT-X, especificamente para o modelo médio. A Stability AI destacou pela primeira vez a abordagem da arquitetura MMDiT em abril, quando a API do Stable Diffusion 3 se tornou disponível. MMDiT é notável pois combina técnicas de modelo de difusão com técnicas de modelo de transformador. Com as atualizações do Stable Diffusion 3.5, o MMDiT-X agora pode ajudar a melhorar a qualidade da imagem, além de aprimorar as capacidades de geração multi-resolução.
A aderência ao prompt torna o Stable Diffusion 3.5 ainda mais poderoso.
A Stability AI relata que o Stable Diffusion 3.5 Large demonstra uma aderência ao prompt superior em comparação a outros modelos no mercado.
A promessa de uma melhor aderência ao prompt está toda relacionada à capacidade dos modelos de interpretar e renderizar com precisão os prompts dos usuários.
“Isso é alcançado com uma combinação de diferentes fatores – melhor curadoria de conjuntos de dados, legendagem e inovações adicionais nos protocolos de treinamento,” disse Basse.
A personalização ficará ainda melhor com os ControlNets.
Olhando para o futuro, a Stability AI planeja lançar uma capacidade de ControlNets para o Stable Diffusion 3.5.
A promessa dos ControlNets é mais controle para vários casos de uso profissional. A Stability AI introduziu pela primeira vez a tecnologia ControlNet como parte do lançamento do SDXL 1.0 em julho de 2023.
“Os ControlNets oferecem controle espacial sobre diferentes aplicações profissionais onde os usuários, por exemplo, podem querer aumentar a qualidade de uma imagem mantendo as cores gerais ou criar uma imagem que siga um padrão específico de profundidade,” disse Basse.