Midjourney, um dos primeiros serviços de geração de imagens AI na web, lançou seu primeiro novo modelo de imagem AI em quase um ano.
Batizado de V7, o modelo, que começou a ser lançado em alpha por volta da meia-noite, horário do leste, na sexta-feira, vem uma semana depois que a OpenAI apresentou um novo gerador de imagens no ChatGPT que rapidamente se tornou viral por sua capacidade de criar fotos no estilo Ghibli. O modelo da Midjourney não é otimizado para Ghibli – pelo menos não oficialmente – mas, no entanto, gera obras visualmente agradáveis, pelo menos aos olhos de um dilettante como eu.
Para usá-lo, você primeiro precisará classificar cerca de 200 imagens para construir um perfil de “personalização” da Midjourney, caso ainda não tenha feito isso. Este perfil ajusta o modelo às suas preferências visuais individuais; o V7 é o primeiro da Midjourney a ter a personalização ativada por padrão.
Depois de concluir essa tarefa, você será recebido com um V7 ativável no site da Midjourney e, se for membro do servidor Discord da Midjourney, no chatbot do Discord. No aplicativo web, você pode rapidamente selecionar o modelo no menu suspenso ao lado do rótulo “versão”.
O CEO da Midjourney, David Holz, descreveu o V7 como uma “arquitetura totalmente diferente” em um post no X.
“O V7 é […] muito mais inteligente com prompts de texto”, continuou Holz em um anúncio no Discord. “[Os] prompts de imagem parecem fantásticos, a qualidade da imagem é visivelmente mais alta com belas texturas, e corpos, mãos e objetos de todos os tipos têm uma coerência significativamente melhor em todos os detalhes.”
O V7 está disponível em duas versões, Turbo e Relax – a primeira das quais é mais cara de operar – e alimenta uma nova ferramenta chamada Modo Rascunho que renderiza imagens a 10 vezes a velocidade e metade do custo do modo padrão. As imagens de rascunho são de qualidade inferior em comparação com as imagens do modo padrão, mas podem ser aprimoradas e re-renderizadas com um clique do mouse.
Um número de capacidades da Midjourney ainda não estão disponíveis para o V7, de acordo com Holz, incluindo redimensionamento e retexturização de imagens. Esses recursos chegarão em breve, ele disse – possivelmente tão logo dentro de dois meses.
“Este é um modelo completamente novo com forças únicas e provavelmente algumas fraquezas” escreveu Holz no Discord. “[Nós] queremos aprender com você o que ele é bom e ruim, mas definitivamente tenha em mente que pode exigir estilos diferentes de solicitação. Portanto, experimente um pouco.”
Meu prompt: “Um dragão com uma cauda espinhosa.”
Em meus testes breves, o V7 atendeu razoavelmente bem aos prompts que forneci. Admito que não tive tempo de realmente colocar o modelo à prova.
Meu prompt: “Um personagem no estilo Ghibli.”
A Midjourney é uma operação incomum. Iniciada em 2022 por Holz, que co-fundou a empresa de periféricos PC Leap Motion, não recebeu um centavo de dinheiro externo.
No final de 2023, a Midjourney estava supostamente esperando gerar cerca de 200 milhões de dólares em receita. Recentemente, a empresa com sede em São Francisco disse que estava estabelecendo uma equipe de hardware para trabalhar em projetos não divulgados, e continua a treinar modelos previamente anunciados para geração de vídeo e objetos 3D.
Várias ações judiciais acusam a Midjourney de infringir os direitos de milhões de artistas ao treinar ferramentas de AI em imagens coletadas da web sem o consentimento dos criadores das imagens.