Google DeepMind apresenta um novo modelo de vídeo para rivalizar com Sora

Google DeepMind, o laboratório de pesquisa em IA da Google, deseja superar a OpenAI no jogo de geração de vídeo — e pode conseguir, pelo menos por um tempo.

Na segunda-feira, a DeepMind anunciou o Veo 2, uma IA de geração de vídeo de próxima geração e o sucessor do Veo, que alimenta um número crescente de produtos no portfólio da Google. O Veo 2 pode criar clipes de mais de dois minutos em resoluções de até 4k (4096 x 2160 pixels).

Notavelmente, isso é 4 vezes a resolução — e mais de 6 vezes a duração — que o Sora da OpenAI pode alcançar.

É uma vantagem teórica por enquanto, é claro. Na ferramenta experimental de criação de vídeo da Google, VideoFX, onde o Veo 2 está atualmente disponível apenas, os vídeos são limitados a 720p e oito segundos de duração. (Sora pode produzir clipes de até 1080p e 20 segundos de duração.)

O Veo 2 no VideoFX.

O VideoFX está por trás de uma lista de espera, mas a Google diz que está expandindo o número de usuários que podem acessá-lo esta semana.

Eli Collins, VP de produto da DeepMind, também disse ao TechCrunch que a Google tornará o Veo 2 disponível através de sua plataforma de desenvolvedores Vertex AI “à medida que o modelo se tornar pronto para uso em grande escala.”

“Nos próximos meses, continuaremos a iterar com base no feedback dos usuários,” disse Collins, “e [nós] procuraremos integrar as capacidades atualizadas do Veo 2 em casos de uso atraentes em todo o ecossistema da Google … [N]ós esperamos compartilhar mais atualizações no próximo ano.”

Mais controlável

Assim como o Veo, o Veo 2 pode gerar vídeos a partir de um prompt de texto (por exemplo, “Um carro correndo em uma rodovia”) ou texto e uma imagem de referência.

Então, o que há de novo no Veo 2? Bem, a DeepMind diz que o modelo, que pode gerar clipes em uma variedade de estilos, tem uma “compreensão” melhorada de física e controles de câmera, e produz imagens “mais nítidas.”

Por mais nítidas, a DeepMind se refere a texturas e imagens em clipes que são mais nítidas — especialmente em cenas com muito movimento. Quanto aos controles de câmera aprimorados, eles permitem que o Veo 2 posicione a “câmera” virtual nos vídeos que gera com mais precisão, e mova essa câmera para capturar objetos e pessoas de diferentes ângulos.

A DeepMind também afirma que o Veo 2 pode modelar de forma mais realista o movimento, dinâmica de fluidos (como café sendo vertido em uma caneca) e propriedades da luz (como sombras e reflexões). Isso inclui diferentes lentes e efeitos cinematográficos, diz a DeepMind, além de expressões humanas “nuançadas.”

A DeepMind compartilhou algumas amostras cuidadosamente selecionadas do Veo 2 com o TechCrunch na semana passada. Para vídeos gerados por IA, eles pareciam muito bons — excepcionalmente bons, até. O Veo 2 parece ter uma forte compreensão de refração e líquidos complicados, como xarope de bordo, e uma habilidade para imitar animações no estilo Pixar.

Mas apesar da insistência da DeepMind de que o modelo é menos provável de alucinar elementos como dedos extras ou “objetos inesperados,” o Veo 2 ainda não consegue evitar completamente o vale inquietante.

Observe os olhos sem vida nesta criatura parecida com um cachorro em cartoon:

E a estrada estranhamente escorregadia nesta filmagem — além dos pedestres ao fundo se misturando uns aos outros e aos prédios com fachadas fisicamente impossíveis:

Collins admitiu que ainda há trabalho a ser feito.

“A coerência e a consistência são áreas para crescimento,” disse ele. “O Veo pode aderir consistentemente a um prompt por alguns minutos, mas [ele não consegue] aderir a prompts complexos ao longo de longos períodos. Da mesma forma, a consistência do personagem pode ser um desafio. Também há espaço para melhorar na geração de detalhes intrincados, movimentos rápidos e complexos, e continuar a ultrapassar os limites do realismo.”

A DeepMind continuará a trabalhar com artistas e produtores para refinar seus modelos de geração de vídeo e ferramentas, acrescentou Collins.

“Começamos a trabalhar com criadores como Donald Glover, o Weeknd, d4vd, e outros desde o início do nosso desenvolvimento do Veo para realmente entender seu processo criativo e como a tecnologia poderia ajudar a trazer sua visão à vida,” disse Collins. “Nosso trabalho com criadores no Veo 1 informou o desenvolvimento do Veo 2, e estamos ansiosos para trabalhar com testadores e criadores confiáveis para obter feedback sobre este novo modelo.”

Segurança e treinamento

O Veo 2 foi treinado em muitos vídeos. Essa é geralmente a forma como os modelos de IA funcionam: fornecidos com exemplo após exemplo de alguma forma de dados, os modelos captam padrões nos dados que permitem que gerem novos dados.

A DeepMind não diz exatamente de onde obteve os vídeos para treinar o Veo 2, mas o YouTube é uma possível fonte; a Google é proprietária do YouTube, e a DeepMind já disse ao TechCrunch que modelos da Google como o Veo “podem” ser treinados com algum conteúdo do YouTube.

“O Veo foi treinado em pares de vídeo-descrição de alta qualidade,” disse Collins. “Pares de vídeo-descrição são um vídeo e uma descrição associada do que acontece naquele vídeo.”

Embora a DeepMind, através da Google, hospede ferramentas para permitir que webmasters bloqueiem os bots do laboratório de extrair dados de treinamento de seus sites, a DeepMind não oferece um mecanismo para permitir que criadores removam obras de seus conjuntos de treinamento existentes. O laboratório e sua empresa mãe sustentam que treinar modelos usando dados públicos é uso justo, o que significa que a DeepMind acredita que não é obrigada a pedir permissão aos proprietários dos dados.

Nem todos os criadores concordam — particularmente à luz de estudos que estimam que dezenas de milhares de empregos em filmes e TV podem ser afetados pela IA nos próximos anos. Várias empresas de IA, incluindo a startup homônima por trás do popular aplicativo de arte em IA Midjourney, estão no alvo de processos judiciais acusando-as de infringir os direitos dos artistas ao treinar com conteúdo sem consentimento.

“Estamos comprometidos em trabalhar colaborativamente com criadores e nossos parceiros para alcançar objetivos comuns,” disse Collins. “Continuamos a trabalhar com a comunidade criativa e pessoas em toda a indústria mais ampla, coletando insights e ouvindo feedback, incluindo aqueles que usam o VideoFX.”

Graças à maneira como os modelos gerativos de hoje se comportam quando treinados, eles carregam certos riscos, como regurgitação, que se refere quando um modelo gera uma cópia espelho dos dados de treinamento. A solução da DeepMind são filtros em nível de prompt, incluindo para conteúdo violento, gráfico e explícito.

A política de indenização da Google, que oferece uma defesa para certos clientes contra alegações de violação de direitos autorais decorrentes do uso de seus produtos, não se aplicará ao Veo 2 até que ele esteja disponível publicamente, disse Collins.

Para mitigar o risco de deepfakes, a DeepMind afirma que está usando sua tecnologia de marca d’água proprietária, SynthID, para inserir marcadores invisíveis em quadros gerados pelo Veo 2. No entanto, como toda tecnologia de marca d’água, o SynthID não é infalível.

Atualizações do Imagen

Além do Veo 2, a Google DeepMind anunciou esta manhã atualizações para o Imagen 3, seu modelo comercial de geração de imagens. Uma nova versão do Imagen 3 está sendo lançada para usuários do ImageFX, a ferramenta de geração de imagens da Google, a partir de hoje. Ele pode criar imagens e fotos “mais brilhantes, melhor compostas” em estilos como fotorrealismo, impressionismo e anime, segundo a DeepMind.

“Essa atualização [para o Imagen 3] também segue prompts com mais fidelidade, e renderiza detalhes e texturas mais ricas,” escreveu a DeepMind em um post no blog fornecido ao TechCrunch.

Fonte

Compartilhe esse conteúdo: