Google Cloud lança modelo gerador de vídeo Veo AI no Vertex

Crédito: Google Veo/imagem por autor

Enquanto a Amazon dá um passo importante no espaço da IA com sua nova família de modelos de fundação Nova, o Google está reforçando suas próprias capacidades de IA multimodal. A divisão de nuvem do gigante da tecnologia anunciou que seus mais recentes modelos de geração de vídeo e imagem, Veo e Imagen 3, estão agora disponíveis no Vertex AI.

Esse movimento capacita equipes a integrar capacidades de geração de vídeo e imagem de ponta em seus fluxos de trabalho de IA, desbloqueando diversos casos de uso – especialmente em marketing e publicidade. Também torna o Google Cloud o primeiro hyperscaler a oferecer um modelo de vídeo aos seus clientes.

Enquanto o modelo Veo está atualmente em pré-visualização privada, o Imagen 3 estará disponível para todos os usuários do Vertex AI a partir da próxima semana. Notavelmente, o Imagen 3 também inclui recursos de edição, permitindo que os usuários refinem as imagens geradas para atender a necessidades criativas específicas.

O que Veo e Imagen 3 oferecem?

Primeiramente apresentado na conferência de desenvolvedores I/O do Google, o Veo é a resposta da Google DeepMind a concorrentes como o Gen-3 da Runway e o Sora da OpenAI, oferecendo uma experiência sofisticada de geração de vídeo. O modelo transforma prompts de texto ou imagem em vídeos cinematográficos em alta definição em vários estilos visuais, gerando clipes com mais de 60 segundos de duração. O que o diferencia é a consistência a nível de quadro, garantindo que os sujeitos se movam de forma suave dentro das cenas.

O Imagen 3, também da DeepMind, assume a tarefa de geração de imagem a partir de texto, produzindo visuais fotorrealistas em uma variedade de estilos. O Google afirma que ele supera seus predecessores em detalhes, precisão de iluminação e redução de artefatos.

Além da geração, usuários na lista de permissões do Google também podem acessar opções avançadas de personalização com o Imagen 3. Essas incluem aumento de imagem, inpainting, outpainting e substituição de fundo – tudo guiado por prompts de texto. Além disso, os usuários podem fornecer imagens de referência, permitindo que o Imagen 3 crie conteúdo alinhado à estética da marca específica, logotipos ou características de produtos.

Implicações mais amplas para a indústria

O Vertex AI tem sido a plataforma principal do Google Cloud para agilizar o desenvolvimento e implantação de aplicações de IA. Ao integrar Veo e Imagen 3, a plataforma oferece às organizações um conjunto ainda mais abrangente de ferramentas para inovar em marketing, vendas e além.

O Imagen 3, por exemplo, simplifica a criação de ativos de alta qualidade, como imagens de produtos e conteúdo para redes sociais, enquanto o Veo amplia essa capacidade oferecendo às equipes uma opção para converter esses visuais em vídeos polidos. Isso acelera a produção, reduz custos e acelera a prototipagem, permitindo que as equipes iterem rapidamente em suas estratégias criativas.

“Clientes como Agoda estão usando o poder de modelos de IA como Veo, Gemini e Imagen para agilizar a produção de seus anúncios em vídeo, alcançando uma redução significativa no tempo de produção”, disse Warren Barkley, diretor sênior de gerenciamento de produtos do Google, em um post no blog. Ele também destacou que ambos os modelos incluem recursos de segurança, como marca d’água digital e barreiras de moderação de conteúdo para mitigar riscos associados à IA generativa.

Outros primeiros adotantes incluem a Mondelez International – proprietária de marcas como Oreo, Cadbury e Milka – e o serviço global de marketing e comunicações WPP. À medida que os modelos de fundação do Google expandem seu alcance, empresas de diversas indústrias têm uma oportunidade poderosa de reimaginar como criam e entregam conteúdo visual.

A concorrência continua a esquentar

Enquanto todos os principais provedores de nuvem, incluindo Google Cloud, Amazon Web Services e Microsoft Azure, têm fornecido modelos de geração de imagem em suas respectivas plataformas de orquestração de IA, a geração de vídeo tem sido bastante rara até agora. O movimento do Google de lançar o Veo em pré-visualização privada hoje muda isso.

Curiosamente, logo após o anúncio do Veo, a AWS fez um grande alarde no re:Invent com o anúncio do Nova Reel, um modelo de fundação que gera vídeos de qualidade de estúdio de seis segundos a partir de prompts de texto e imagem.

Esse modelo, juntamente com outros da família Nova, deve estar disponível através do Amazon Bedrock, o serviço totalmente gerenciado da empresa projetado para simplificar a criação e a implantação de aplicações de IA generativa.

A Microsoft, por sua vez, parece estar atrasada nessa categoria neste momento. Sua AI Foundry não inclui modelos para geração de vídeo. No entanto, esperamos que isso mude assim que o Sora da OpenAI chegue ao mercado.

Fonte

Compartilhe esse conteúdo: