Misterioso Projeto 'Nano-Banana' Revelado como o Último Editor de Imagens do Google

O Google acaba de atualizar seu modelo de imagem AI, e parece ser um passo significativo. A empresa lançou hoje o Gemini 2.5 Flash Image, uma atualização importante que promete uma geração de imagens mais inteligente e flexível.

O modelo atualizado permite que os usuários emitam comandos em linguagem natural para não apenas gerar imagens, mas também fundir fotos existentes e fazer edições mais precisas sem criar distorções estranhas. Ele também utiliza o ‘conhecimento do mundo’ do Gemini para entender melhor o que está gerando.

Essa atualização ocorre enquanto o Google tenta fechar a lacuna com o líder do setor, OpenAI. No passado, a geração de imagens tem sido um grande motor para a IA. O uso do ChatGPT disparou em março quando a empresa lançou seu gerador de imagens nativo GPT-4. Os memes virais do Studio Ghibli gerados pelo modelo resultaram no superaquecimento dos modelos de GPU da empresa, segundo o CEO da OpenAI, Sam Altman. Atualmente, o ChatGPT tem mais de 700 milhões de usuários semanais. Em comparação, o CEO do Google, Sundar Pichai, revelou na chamada de lucros de julho da empresa que o Gemini tinha 450 milhões de usuários mensais, ainda atrás do ChatGPT.

Com sua atualização mais recente, o Google afirma ter resolvido uma das maiores dores de cabeça da IA. Até agora, manter personagens ou objetos consistentes em múltiplas edições tem sido um grande desafio para os geradores de imagens AI.

“Agora você pode colocar o mesmo personagem em diferentes ambientes, mostrar um único produto de vários ângulos em novas configurações ou gerar ativos de marca consistentes, tudo enquanto preserva o assunto”, escreveu a empresa em um post no blog.

O Google afirma que os usuários podem agora fazer ajustes muito específicos com apenas um comando. Por exemplo, os usuários podem desfocar o fundo de uma imagem, remover uma mancha de uma camiseta, mudar a pose de um sujeito ou até adicionar cor a uma foto em preto e branco.

Antes mesmo de seu lançamento oficial, o novo modelo estava chamando a atenção na plataforma de avaliação colaborativa LMArena, onde apareceu anonimamente sob o nome “nano-banana”. Um usuário do X compartilhou como usou o nano-banana para mudar a camisa de Altman em uma foto. O resultado foi surpreendentemente bom. Hoje, o Google deu um passo à frente e reivindicou a propriedade do modelo, revelando que o nano-banana era, na verdade, o Gemini 2.5 Flash Image.

Além de estar disponível no aplicativo Gemini, o novo modelo agora está acessível para desenvolvedores através da API Gemini, Google AI Studio e Vertex AI. O Google já construiu vários aplicativos de modelo que fazem uso do novo modelo no Google AI Studio, o assistente de codificação AI da empresa, e disse que os usuários podem adicionar código em cima deles.

A empresa também afirmou que alguns desenvolvedores já experimentaram o aplicativo para ver como ele poderia ser útil em cenários do mundo real, como criar cartões de listagem de imóveis, crachás de uniformes de funcionários e maquetes de produtos.

Fonte

Compartilhe esse conteúdo:

Tecnocrata

Misterioso Projeto ‘Nano-Banana’ Revelado como o Último Editor de Imagens do Google