Runway Gen-4 resolve o maior problema do vídeo AI: consistência de personagens em cenas

A Runway AI Inc. lançou seu modelo de geração de vídeo AI mais avançado hoje, entrando na próxima fase de competição para criar ferramentas que poderiam transformar a produção cinematográfica. O novo sistema Gen-4 introduz consistência de personagens e cenas em múltiplos takes — uma capacidade que tem evadido a maioria dos geradores de vídeo AI até agora.

A startup com sede em Nova York, apoiada pelo Google, Nvidia e Salesforce, está lançando o “Gen-4” para todos os assinantes pagos e clientes empresariais, com recursos adicionais planejados para mais tarde esta semana. Os usuários podem gerar clipes de cinco e dez segundos em resolução 720p.

O lançamento ocorre apenas dias após o recurso de geração de imagens da OpenAI criar um fenômeno cultural, com milhões de usuários solicitando imagens no estilo Studio Ghibli através do ChatGPT. A tendência viral se tornou tão popular que temporariamente derrubou os servidores da OpenAI, com o CEO Sam Altman twittando que “nossos GPUs estão derretendo” devido à demanda sem precedentes. As imagens no estilo Ghibli também provocaram debates acalorados sobre direitos autorais, com muitos questionando se as empresas de IA podem legalmente imitar estilos artísticos distintos.

Consistência visual: a peça que faltava na filmagem AI até agora

A consistência de personagens e cenas — manter os mesmos elementos visuais em múltiplos takes e ângulos — tem sido o calcanhar de Aquiles da geração de vídeo AI. Quando o rosto de um personagem muda sutilmente entre cortes ou um elemento de fundo desaparece sem explicação, a natureza artificial do conteúdo se torna imediatamente aparente para os espectadores.

O desafio decorre de como esses modelos funcionam em um nível fundamental. Geradores AI anteriores tratavam cada quadro como uma tarefa criativa separada, com apenas conexões soltas entre eles. Imagine pedir a um grupo de artistas para cada um desenhar um quadro de um filme sem ver o que veio antes ou depois — o resultado seria visualmente desconexo.

O Gen-4 da Runway parece ter enfrentado esse problema criando o que equivale a uma memória persistente de elementos visuais. Uma vez que um personagem, objeto ou ambiente é estabelecido, o sistema pode renderizá-lo de diferentes ângulos enquanto mantém suas características principais. Isso não é apenas uma melhoria técnica; é a diferença entre criar trechos visuais interessantes e contar histórias reais.

Usando referências visuais, combinadas com instruções, o Gen-4 permite que você crie novas imagens e vídeos com estilos, sujeitos, locais e mais consistentes. Isso permite continuidade e controle dentro de suas histórias.

Para testar as capacidades narrativas do modelo, montamos… pic.twitter.com/IYz2BaeW2U

— Runway (@runwayml) 31 de março de 2025

De acordo com a documentação da Runway, o Gen-4 permite que os usuários forneçam imagens de referência de sujeitos e descrevam a composição que desejam, com a IA gerando saídas consistentes de diferentes ângulos. A empresa afirma que o modelo pode renderizar vídeos com movimento realista enquanto mantém a consistência de sujeito, objeto e estilo.

Para mostrar as capacidades do modelo, a Runway lançou vários curtas-metragens criados inteiramente com o Gen-4. Um filme, “Nova York é um Zoológico”, demonstra os efeitos visuais do modelo colocando animais realistas em cenários cinematográficos de Nova York. Outro, intitulado “A Recuperação”, segue exploradores em busca de uma flor misteriosa e foi produzido em menos de uma semana.

Da animação facial a modelos de mundo: a evolução da filmagem AI da Runway

O Gen-4 se baseia nas ferramentas anteriores da Runway. Em outubro, a empresa lançou o Act-One, um recurso que permite que cineastas capturem expressões faciais de vídeo de smartphone e as transfiram para personagens gerados por IA. No mês seguinte, a Runway adicionou controles de câmera avançados semelhantes a 3D ao seu modelo Gen-3 Alpha Turbo, permitindo que os usuários se aproximem e se afastem de cenas enquanto preservam as formas dos personagens.

Essa trajetória revela a visão estratégica da Runway. Enquanto os concorrentes se concentram em criar imagens ou clipes únicos cada vez mais realistas, a Runway tem reunido os componentes de um pipeline de produção digital completo. A abordagem se assemelha mais a como cineastas reais trabalham — abordando problemas de desempenho, cobertura e continuidade visual como desafios interconectados, em vez de obstáculos técnicos isolados.

A evolução de ferramentas de animação facial para modelos de mundo consistentes sugere que a Runway entende que a filmagem assistida por IA precisa seguir a lógica da produção tradicional para ser verdadeiramente útil. É a diferença entre criar uma demonstração técnica e construir ferramentas que os profissionais possam realmente incorporar em seus fluxos de trabalho.

A batalha bilionária do vídeo AI esquenta

As implicações financeiras são substanciais para a Runway, que está supostamente levantando uma nova rodada de financiamento que avaliaria a empresa em 4 bilhões de dólares. De acordo com relatórios financeiros, a startup visa alcançar 300 milhões de dólares em receita anualizada este ano, após o lançamento de novos produtos e uma API para seus modelos de geração de vídeo.

A Runway tem buscado parcerias em Hollywood, garantindo um acordo com a Lionsgate para criar um modelo de geração de vídeo AI personalizado com base no catálogo do estúdio de mais de 20.000 títulos. A empresa também estabeleceu o Hundred Film Fund, oferecendo a cineastas até 1 milhão de dólares para produzir filmes usando IA.

“Acreditamos que as melhores histórias ainda estão por ser contadas, mas que os mecanismos tradicionais de financiamento muitas vezes ignoram novas e emergentes visões dentro do ecossistema maior da indústria”, explica a Runway no site de seu fundo.

No entanto, a tecnologia levanta preocupações para os profissionais da indústria cinematográfica. Um estudo de 2024 encomendado pelo Animation Guild descobriu que 75% das empresas de produção cinematográfica que adotaram IA reduziram, consolidaram ou eliminaram empregos. O estudo projeta que mais de 100.000 empregos de entretenimento nos EUA serão afetados pela IA generativa até 2026.

Questões de direitos autorais seguem a explosão criativa da IA

Como outras empresas de IA, a Runway enfrenta um escrutínio legal sobre seus dados de treinamento. A empresa está atualmente se defendendo em um processo movido por artistas que alegam que seu trabalho protegido por direitos autorais foi usado para treinar modelos de IA sem permissão. A Runway citou a doutrina de uso justo como sua defesa, embora os tribunais ainda não tenham decidido definitivamente sobre essa aplicação da lei de direitos autorais.

O debate sobre direitos autorais intensificou-se na semana passada com o recurso Studio Ghibli da OpenAI, que permitiu que os usuários gerassem imagens no estilo distinto do estúdio de animação de Hayao Miyazaki sem permissão explícita. Ao contrário da OpenAI, que se recusa a gerar imagens no estilo de artistas vivos, mas permite estilos de estúdios, a Runway não detalhou publicamente suas políticas sobre imitação de estilos.

Essa distinção parece cada vez mais arbitrária à medida que os modelos de IA se tornam mais sofisticados. A linha entre aprender com tradições artísticas amplas e copiar estilos de criadores específicos se tornou quase invisível. Quando uma IA pode imitar perfeitamente a linguagem visual que levou décadas para Miyazaki desenvolver, importa se estamos pedindo para copiar o estúdio ou o próprio artista?

Quando questionada sobre as fontes de dados de treinamento, a Runway se recusou a fornecer detalhes, citando preocupações competitivas. Essa opacidade se tornou uma prática padrão entre os desenvolvedores de IA, mas continua sendo um ponto de contenda para os criadores.

À medida que agências de marketing, criadores de conteúdo educacional e equipes de comunicação corporativa exploram como ferramentas como o Gen-4 poderiam agilizar a produção de vídeo, a questão muda de capacidades técnicas para aplicação criativa.

Para cineastas, a tecnologia representa tanto oportunidade quanto interrupção. Criadores independentes ganham acesso a capacidades de efeitos visuais anteriormente disponíveis apenas para grandes estúdios, enquanto profissionais tradicionais de VFX e animação enfrentam um futuro incerto.

A verdade desconfortável é que as limitações técnicas nunca foram o que impede a maioria das pessoas de fazer filmes envolventes. A capacidade de manter a continuidade visual não criará repentinamente uma geração de gênios da narrativa. O que pode fazer, no entanto, é remover fricções suficientes do processo para que mais pessoas possam experimentar com narrativas visuais sem precisar de treinamento especializado ou equipamentos caros.

Talvez o aspecto mais profundo do Gen-4 não seja o que pode criar, mas o que sugere sobre nosso relacionamento com a mídia visual daqui para frente. Estamos entrando em uma era onde o gargalo na produção não é habilidade técnica ou orçamento, mas imaginação e propósito. Em um mundo onde qualquer um pode criar qualquer imagem que possa descrever, a pergunta importante se torna: o que vale a pena mostrar?

À medida que entramos em uma era onde criar um filme requer pouco mais do que uma imagem de referência e um prompt, a pergunta mais urgente não é se a IA pode fazer vídeos envolventes, mas se podemos encontrar algo significativo para dizer quando as ferramentas para dizer qualquer coisa estão ao nosso alcance.

Fonte

Compartilhe esse conteúdo: