Genmo, uma empresa de IA focada na geração de vídeos, anunciou o lançamento de uma prévia de pesquisa para o Mochi 1, um modelo inovador de código aberto para gerar vídeos de alta qualidade a partir de prompts de texto — e afirma que seu desempenho é comparável ou superior aos principais rivais fechados/proprietários, como o Gen-3 Alpha da Runway, a Dream Machine da Luma AI, o Kling da Kuaishou, o Hailuo da Minimax e muitos outros.
Disponível sob a licença permissiva Apache 2.0, o Mochi 1 oferece aos usuários acesso gratuito a capacidades avançadas de geração de vídeo — enquanto os preços de outros modelos começam em níveis gratuitos limitados, mas vão até $94,99 por mês (para o nível Hailuo Unlimited).
Além do lançamento do modelo, a Genmo também está disponibilizando um playground hospedado, permitindo que os usuários experimentem em primeira mão as funcionalidades do Mochi 1.
O modelo 480p está disponível para uso hoje, e uma versão de maior definição, o Mochi 1 HD, deve ser lançada ainda este ano.
Os vídeos iniciais compartilhados com o VentureBeat mostram cenários e movimentos impressionantemente realistas, particularmente com sujeitos humanos, conforme visto no vídeo de uma mulher idosa abaixo:
Avançando o estado da arte
O Mochi 1 traz vários avanços significativos para o campo da geração de vídeo, incluindo movimento de alta fidelidade e forte adesão aos prompts. De acordo com a Genmo, o Mochi 1 se destaca em seguir instruções detalhadas dos usuários, permitindo um controle preciso sobre personagens, cenários e ações em vídeos gerados.
A Genmo posicionou o Mochi 1 como uma solução que estreita a lacuna entre modelos de geração de vídeo abertos e fechados.
“Estamos 1% do caminho para o futuro do vídeo generativo. O verdadeiro desafio é criar vídeo longo, de alta qualidade e fluido. Estamos focando fortemente na melhoria da qualidade do movimento”, disse Paras Jain, CEO e cofundador da Genmo, em entrevista ao VentureBeat.
A perspectiva de Jain sobre o papel do vídeo na IA vai além do entretenimento ou da criação de conteúdo. “O vídeo é a forma definitiva de comunicação — 30 a 50% do córtex do nosso cérebro é dedicado ao processamento de sinais visuais. É assim que os humanos operam”, disse ele.
A visão de longo prazo da Genmo se estende à construção de ferramentas que podem impulsionar o futuro da robótica e dos sistemas autônomos. “A visão de longo prazo é que, se conseguirmos dominar a geração de vídeo, construiremos os melhores simuladores do mundo, o que poderia ajudar a resolver a IA incorporada, robótica e direção autônoma”, explicou Jain.
Aberto à colaboração — mas os dados de treinamento ainda são reservados
O Mochi 1 é construído sobre a nova arquitetura Asymmetric Diffusion Transformer (AsymmDiT) da Genmo. Com 10 bilhões de parâmetros, é o maior modelo de geração de vídeo de código aberto já lançado. A arquitetura foca no raciocínio visual, com quatro vezes mais parâmetros dedicados ao processamento de dados de vídeo em comparação com texto.
A eficiência é um aspecto chave do design do modelo. O Mochi 1 aproveita um VAE de vídeo (Autoencoder Variacional) que comprime os dados de vídeo a uma fração de seu tamanho original, reduzindo os requisitos de memória para dispositivos dos usuários finais. Isso torna mais acessível para a comunidade de desenvolvedores, que pode baixar os pesos do modelo do HuggingFace ou integrá-lo via API.
Jain acredita que a natureza de código aberto do Mochi 1 é fundamental para impulsionar a inovação. “Modelos abertos são como petróleo bruto. Eles precisam ser refinados e ajustados. Isso é o que queremos habilitar para a comunidade — para que eles possam construir coisas incríveis em cima disso”, disse ele.
No entanto, quando questionado sobre o conjunto de dados de treinamento do modelo — entre os aspectos mais controversos das ferramentas criativas de IA, pois evidências mostraram que muitas foram treinadas em vastas porções do trabalho criativo humano online sem permissão ou compensação expressa, e alguns deles eram obras protegidas por direitos autorais — Jain foi evasivo.
“Geralmente, usamos dados disponíveis publicamente e, às vezes, trabalhamos com uma variedade de parceiros de dados”, disse ele ao VentureBeat, recusando-se a entrar em detalhes devido a razões competitivas. “É muito importante ter dados diversos, e isso é crítico para nós.”
Limitações e roteiro
Como uma prévia, o Mochi 1 ainda possui algumas limitações. A versão atual suporta apenas resolução de 480p, e distorções visuais menores podem ocorrer em casos extremos envolvendo movimento complexo. Além disso, enquanto o modelo se destaca em estilos fotorealistas, ele tem dificuldades com conteúdo animado.
No entanto, a Genmo planeja lançar o Mochi 1 HD ainda este ano, que suportará resolução de 720p e oferecerá uma fidelidade de movimento ainda maior.
“O único vídeo pouco interessante é aquele que não se move — o movimento é o coração do vídeo. É por isso que investimos fortemente na qualidade do movimento em comparação com outros modelos”, disse Jain.
Olhando para frente, a Genmo está desenvolvendo capacidades de síntese de imagem para vídeo e planeja melhorar a controlabilidade do modelo, dando aos usuários ainda mais controle preciso sobre as saídas de vídeo.
Expansão de casos de uso via AI de vídeo de código aberto
O lançamento do Mochi 1 abre possibilidades para várias indústrias. Pesquisadores podem expandir os limites das tecnologias de geração de vídeo, enquanto desenvolvedores e equipes de produtos podem encontrar novas aplicações em entretenimento, publicidade e educação.
O Mochi 1 também pode ser usado para gerar dados sintéticos para treinar modelos de IA em robótica e sistemas autônomos.
Refletindo sobre o potencial impacto de democratizar essa tecnologia, Jain disse: “Em cinco anos, vejo um mundo onde uma criança pobre em Mumbai pode pegar seu telefone, ter uma grande ideia e ganhar um Oscar — esse é o tipo de democratização que estamos almejando.”
Genmo convida os usuários a experimentar a versão de prévia do Mochi 1 através de seu playground hospedado em genmo.ai/play, onde o modelo pode ser testado com prompts personalizados.
Um chamado para talentos
Enquanto continua a puxar a fronteira da IA de código aberto, a Genmo está ativamente contratando pesquisadores e engenheiros para se juntarem à sua equipe. “Somos um laboratório de pesquisa trabalhando para construir modelos de fronteira para geração de vídeo. Esta é uma área incrivelmente empolgante — a próxima fase para a IA — desbloquear o cérebro direito da inteligência artificial”, disse Jain. A empresa está focada em avançar o estado da geração de vídeo e desenvolver ainda mais sua visão para o futuro da inteligência artificial geral.