‘Isso é um divisor de águas’: Runway lança novo recurso de captura de movimento de expressão facial AI Act-One

O vídeo AI avançou incrivelmente nos anos desde que os primeiros modelos foram lançados no final de 2022, aumentando em realismo, resolução, fidelidade, aderência ao prompt (quão bem eles correspondem ao texto ou descrição do vídeo que o usuário digitou) e número.

Mas uma área que continua a ser uma limitação para muitos criadores de vídeo AI — eu incluído — é a representação de expressões faciais realistas em personagens gerados por AI. A maioria parece bastante limitada e difícil de controlar.

Mas não mais: hoje, a Runway, a startup de AI com sede em Nova York apoiada pelo Google e outros, anunciou um novo recurso “Act-One”, que permite aos usuários gravar vídeo de si mesmos ou de atores de qualquer câmera de vídeo — até mesmo a do smartphone — e, em seguida, transfere as expressões faciais do sujeito para um personagem gerado por AI com uma precisão impressionante.

A ferramenta gratuita está sendo lançada “gradualmente” para os usuários a partir de hoje, de acordo com o post no blog da Runway sobre o recurso.

Embora qualquer pessoa com uma conta Runway possa acessá-la, ela será limitada àqueles que têm créditos suficientes para gerar novos vídeos no modelo de geração de vídeo Gen-3 Alpha da empresa, introduzido no início deste ano, que suporta pipelines de criação de AI de texto para vídeo, imagem para vídeo e vídeo para vídeo (por exemplo, o usuário pode digitar uma descrição de cena, enviar uma imagem ou um vídeo, ou usar uma combinação desses inputs e o Gen-3 Alpha usará o que lhe foi dado para guiar sua geração de uma nova cena).

Apesar da disponibilidade limitada no momento da postagem, a crescente cena de criadores de vídeo AI online já está aplaudindo o novo recurso.

Como Allen T. comentou em sua conta no X “Isso é um divisor de águas!”

Isso também vem na esteira do movimento da Runway para a produção de filmes em Hollywood no mês passado, quando anunciou que havia fechado um acordo com a Lionsgate, o estúdio por trás das franquias de filmes John Wick e Jogos Vorazes, para criar um modelo de geração de vídeo AI personalizado com base no catálogo do estúdio de mais de 20.000 títulos.

Simplificando um processo criativo tradicionalmente complexo e pesado em equipamentos

Tradicionalmente, a animação facial requer processos extensos e muitas vezes complicados, incluindo equipamentos de captura de movimento, rigging facial manual e múltiplas filmagens de referência.

Qualquer pessoa interessada em filmmaking provavelmente já viu alguma da complexidade e dificuldade desse processo até agora em sets ou ao visualizar filmagens de bastidores de filmes com muitos efeitos e captura de movimento, como a série O Senhor dos Anéis, Avatar ou O Planeta dos Macacos, onde os atores são vistos cobertos com marcadores de bolinhas e seus rostos pontilhados com marcadores e bloqueados por aparelhos montados na cabeça.

Modelar com precisão expressões faciais intrincadas foi o que levou David Fincher e sua equipe de produção em O Curioso Caso de Benjamin Button a desenvolver processos inteiros de modelagem 3D e, em última análise, ganharam um Oscar da Academia, conforme relatado em um relatório anterior da VentureBeat.

No entanto, nos últimos anos, novos softwares e startups baseadas em AI, como a Move, buscaram reduzir o equipamento necessário para realizar captura de movimento precisa — embora essa empresa em particular tenha se concentrado principalmente em movimentos corporais completos e mais amplos, enquanto o Act-One da Runway se concentra mais na modelagem de expressões faciais.

Com o Act-One, a Runway visa tornar esse processo complexo muito mais acessível. A nova ferramenta permite que criadores animem personagens em uma variedade de estilos e designs, sem a necessidade de equipamentos de captura de movimento ou rigging de personagens.

Em vez disso, os usuários podem contar com um simples vídeo de condução para transpor performances — incluindo linhas de visão, micro-expressões e ritmos sutis — para um personagem gerado, ou até mesmo múltiplos personagens em diferentes estilos.

Como a Runway escreveu em sua conta no X: “Act-One é capaz de traduzir a performance de um único vídeo de entrada em incontáveis designs de personagens diferentes e em muitos estilos diferentes.”

O recurso é focado “principalmente” no rosto “por enquanto”, de acordo com Cristóbal Valenzuela, cofundador e CEO da Runway, que respondeu às perguntas da VentureBeat via mensagem direta no X.

A abordagem da Runway oferece vantagens significativas para animadores, desenvolvedores de jogos e cineastas. O modelo captura com precisão a profundidade da performance de um ator enquanto permanece versátil em diferentes designs e proporções de personagens. Isso abre possibilidades empolgantes para criar personagens únicos que expressam emoções e personalidades genuínas.

Realismo cinematográfico em diferentes ângulos de câmera

Uma das principais forças do Act-One reside em sua capacidade de fornecer saídas realistas de qualidade cinematográfica a partir de vários ângulos de câmera e distâncias focais.

Essa flexibilidade melhora a capacidade dos criadores de contar histórias emocionalmente ressonantes através de performances de personagens que eram anteriormente difíceis de alcançar sem equipamentos caros e fluxos de trabalho em várias etapas.

A capacidade da ferramenta de capturar fielmente a profundidade emocional e o estilo de performance de um ator, mesmo em cenas complexas.

Essa mudança permite que os criadores dêem vida a seus personagens de novas maneiras, desbloqueando o potencial para narrativas mais ricas em formatos tanto de live-action quanto animados.

Embora a Runway tenha apoiado anteriormente a conversão de vídeo para vídeo AI, como mencionado anteriormente neste artigo, que permitiu que os usuários enviassem filmagens de si mesmos e tivessem o Gen-3 Alpha ou outros modelos de vídeo AI anteriores da Runway, como o Gen-2, “revesti-los” com efeitos de AI, o novo recurso Act-One é otimizado para mapeamento facial e efeitos.

Como Valenzuela disse à VentureBeat via DM no X: “A consistência e a performance são incomparáveis com o Act-One.”

Permitindo uma narrativa de vídeo mais expansiva

Um único ator, usando apenas uma câmera de qualidade de consumidor, agora pode interpretar múltiplos personagens, com o modelo gerando saídas distintas para cada um.

Essa capacidade está prestes a transformar a criação de conteúdo narrativo, particularmente na produção de filmes independentes e na mídia digital, onde os recursos de produção de alto nível são frequentemente limitados.

Em um post público no X, Valenzuela observou uma mudança na forma como a indústria aborda modelos generativos. “Agora estamos além do limiar de nos perguntarmos se modelos generativos podem gerar vídeos consistentes. Um bom modelo agora é a nova linha de base. A diferença está no que você faz com o modelo — como você pensa sobre suas aplicações e casos de uso, e o que você acaba construindo”, escreveu Valenzuela.

Segurança e proteção para imitações de figuras públicas

Como em todos os lançamentos da Runway, o Act-One vem equipado com um conjunto abrangente de medidas de segurança.

Essas incluem salvaguardas para detectar e bloquear tentativas de gerar conteúdo apresentando figuras públicas sem autorização, bem como ferramentas técnicas para verificar os direitos de uso de voz.

O monitoramento contínuo também garante que a plataforma seja usada de forma responsável, prevenindo o uso indevido potencial da ferramenta.

O compromisso da Runway com o desenvolvimento ético se alinha com sua missão mais ampla de expandir as possibilidades criativas enquanto mantém um forte foco em segurança e moderação de conteúdo.

Olhando para o futuro

À medida que o Act-One é lançado gradualmente, a Runway está ansiosa para ver como artistas, cineastas e outros criadores aproveitarão essa nova ferramenta para dar vida às suas ideias.

Com o Act-One, técnicas de animação complexas agora estão ao alcance de um público mais amplo de criadores, permitindo que mais pessoas explorem novas formas de contar histórias e expressão artística.

Ao reduzir as barreiras técnicas tradicionalmente associadas à animação de personagens, a empresa espera inspirar novos níveis de criatividade em todo o cenário da mídia digital.

Isso também ajuda a Runway a se destacar e diferenciar sua plataforma de criação de vídeo AI em relação a uma série crescente de concorrentes, incluindo a Luma AI dos EUA e a Hailuo e Kling da China, bem como rivais de código aberto como o Mochi 1 da Genmo, que também estreou hoje.

Fonte

Compartilhe esse conteúdo: