O número de modelos de geração de vídeo AI continua a crescer com o lançamento de um novo, Pyramid Flow, esta semana, oferecendo clipes de vídeo de alta qualidade de até 10 segundos de duração — rapidamente, e totalmente de código aberto.
Desenvolvido por uma colaboração de pesquisadores da Universidade de Peking, da Universidade de Comunicações de Pequim e da Kuaishou Technology — esta última a criadora do bem avaliado gerador de vídeo AI proprietário Kling — Pyramid Flow aproveita uma nova técnica onde um único modelo de IA gera vídeo em estágios, a maioria deles em baixa resolução, salvando apenas uma versão em alta resolução para o final do seu processo de geração.
Está disponível como código bruto para download no Hugging Face e no Github, e pode ser executado em um shell de inferência aqui, mas requer que o usuário baixe e execute o código do modelo em sua própria máquina.
Na inferência, o modelo pode gerar um vídeo de 5 segundos em 384p em apenas 56 segundos — comparável ou mais rápido do que muitos concorrentes de difusão de sequência completa — embora o Gen 3-Alpha Turbo da Runway ainda seja mais rápido em termos de velocidade de geração de vídeo AI, levando menos de um minuto e muitas vezes de 10 a 20 segundos em nossos testes. Não tivemos a chance de testar o Pyramid Flow ainda, mas os vídeos postados pelos criadores do modelo parecem ser incrivelmente realistas, com alta resolução e atraentes — análogos aos de ofertas proprietárias. Você pode ver vários exemplos aqui na página do projeto no Github.
De fato, o Pyramid Flow está disponível para download e uso — mesmo para fins comerciais/empresariais — e foi projetado para competir diretamente com ofertas proprietárias pagas, como o Gen-3 Alpha da Runway, a Dream Machine da Luma, Kling e Haulio, que podem custar centenas ou até milhares de dólares por ano para usuários em assinaturas de geração ilimitada.
À medida que a corrida entre vários provedores de vídeo AI para ganhar usuários continua, o Pyramid Flow visa trazer mais eficiência e flexibilidade para desenvolvedores, artistas e criadores que buscam capacidades avançadas de geração de vídeo.
Uma nova técnica para vídeos AI de alta qualidade: ‘matching de fluxo piramidal’
A geração de vídeo AI é uma tarefa computacionalmente intensiva que normalmente envolve modelar grandes espaços espaciotemporais. Métodos tradicionais geralmente exigem modelos separados para diferentes estágios do processo, o que limita a flexibilidade e aumenta a complexidade do treinamento.
O Pyramid Flow é construído sobre o conceito de matching de fluxo piramidal, um método que reduz drasticamente o custo computacional da geração de vídeo enquanto mantém alta qualidade visual, completando o processo de geração de vídeo como uma série de estágios de “pirâmide”, com apenas o estágio final operando em alta resolução.
É descrito em um artigo pré-revisado, “Matching de Fluxo Piramidal para Modelagem Generativa de Vídeo Eficiente”, submetido ao jornal científico de acesso aberto arXiv em 8 de outubro de 2024.
Os autores incluem Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu e Zhouchen Lin. A maioria desses pesquisadores está afiliada à Universidade de Peking, enquanto outros são da Kuaishou Technology.
Como eles escrevem, a capacidade de comprimir e otimizar a geração de vídeo em diferentes estágios leva a uma convergência mais rápida durante o treinamento, permitindo que o Pyramid Flow gere mais amostras por lote de treinamento.
Por exemplo, o fluxo piramidal proposto reduz a contagem de tokens em um fator de quatro em comparação com modelos de difusão tradicionais, o que resulta em um treinamento mais eficiente.
O modelo pode produzir vídeos de 5 a 10 segundos em resolução de 768p e 24 quadros por segundo, tudo enquanto é treinado em conjuntos de dados de código aberto. Especificamente, o artigo afirma que o Pyramid Flow foi treinado em:
LAION-5B, um grande conjunto de dados para pesquisa multimodal em IA.
CC-12M, um conjunto de dados de pares de imagem-texto coletados da web.
SA-1B, que apresenta imagens de alta qualidade e não borradas.
WebVid-10M e OpenVid-1M, que são conjuntos de dados de vídeo amplamente utilizados para geração de texto para vídeo.
No total, os autores curaram aproximadamente 10 milhões de vídeos de uma única tomada.
No entanto, muitos desses conjuntos de dados “públicos” ou “de código aberto” foram criticados nos últimos anos por incluir material protegido por direitos autorais sem permissão ou consentimento informado dos detentores dos direitos autorais, e o LAION-5B em particular foi acusado de hospedar material de abuso sexual infantil.
Separadamente, a Runway está entre as empresas sendo processadas por artistas em uma ação coletiva por treinar em materiais sem permissão, compensação ou consentimento — supostamente em violação dos direitos autorais dos EUA. O caso ainda está sendo discutido no tribunal, por enquanto.
Licenciado permissivamente, código aberto para uso comercial
O Pyramid Flow é lançado sob a Licença MIT, permitindo uma ampla gama de usos, incluindo aplicações comerciais, modificações e redistribuição, desde que o aviso de copyright seja preservado.
Isso torna o Pyramid Flow uma opção atraente para desenvolvedores e empresas que buscam integrar o modelo em sistemas proprietários, e pode desafiar a Luma AI e a Runway, já que ambas buscam oferecer interfaces de programação de aplicativos pagas para desenvolvedores que desejam integrar sua tecnologia de geração de vídeo AI proprietária em aplicativos voltados para clientes ou funcionários.
No entanto, esses modelos proprietários já existem como inferências adequadas para desenvolvedores, enquanto o Pyramid Flow possui uma inferência de demonstração no Hugging Face, não sendo adequado para construir aplicativos completos sobre ele e os usuários precisariam hospedar sua própria versão de uma inferência, o que também pode ser custoso, apesar do modelo em si ser “gratuito”.
Além disso, o Pyramid Flow pode se mostrar atraente para estúdios de cinema que buscam aproveitar a IA para ganhar eficiência, reduzir custos e explorar novas ferramentas criativas. Um grande estúdio de cinema, a Lionsgate — proprietária das franquias de filmes John Wick e Twilight, entre muitos outros títulos — recentemente fechou um acordo por um valor não especificado com a Runway para treinar um modelo de geração de vídeo AI personalizado. Além disso, o diretor de Titanic e Terminator, James Cameron, se juntou ao conselho da provedora de modelos de vídeo e imagem AI Stability (esta última também sujeita à mesma ação coletiva de artistas que a Runway).
Usando o Pyramid Flow, a Lionsgate ou qualquer outro estúdio de cinema poderia ajustar a versão de código aberto sem pagar a uma empresa terceirizada. No entanto, eles ainda precisariam ter à disposição ou contratar o talento de desenvolvedores e os recursos computacionais necessários para fazê-lo, o que pode tornar a parceria com provedores de IA estabelecidos, como a Runway, mais atraente, uma vez que essa empresa e outras como ela já possuem o talento de engenharia de IA à sua disposição internamente.
A equipe de pesquisa por trás do Matching de Fluxo Piramidal também se comprometeu com a abertura e acessibilidade. Todo o código e os pesos do modelo serão disponibilizados gratuitamente ao público por meio de sua página oficial do projeto, garantindo que pesquisadores e desenvolvedores em todo o mundo possam utilizar e construir sobre este trabalho.
Apesar de suas forças, o Pyramid Flow tem algumas limitações. Por enquanto, falta algumas das capacidades avançadas de ajuste fino encontradas em modelos como o Gen-3 Alpha da Runway, que oferece controle preciso sobre elementos cinematográficos como ângulos de câmera, keyframes e gestos humanos. Da mesma forma, a Dream Machine da Luma fornece opções avançadas de controle de câmera que o Pyramid Flow ainda está alcançando.
Além disso, o lançamento relativamente recente do Pyramid Flow significa que seu ecossistema — embora robusto — não é tão maduro quanto os de seus concorrentes.
Olhando para o futuro: a corrida de vídeo AI não mostra sinais de desaceleração
À medida que o mercado de geração de vídeo AI continua a evoluir, o lançamento do Pyramid Flow sinaliza uma mudança em direção a soluções de código aberto mais acessíveis que podem competir com ofertas proprietárias, como Runway e Luma.
Por enquanto, oferece uma alternativa sólida para aqueles que buscam evitar os custos e limitações de modelos fechados, enquanto fornece qualidade de vídeo impressionante comparável a seus concorrentes comerciais.
Nos próximos meses, desenvolvedores e criadores provavelmente ficarão de olho no crescimento do Pyramid Flow. Com o potencial para mais melhorias e otimizações, ele pode muito bem se tornar uma ferramenta essencial no arsenal de criadores de conteúdo em vídeo em todo lugar. Todas as empresas e pesquisadores estão atualmente lutando tanto pela supremacia tecnológica quanto pelos usuários.
