Moonvalley quer construir modelos de vídeo mais éticos

A ampla disponibilidade de ferramentas para construir IA generativa levou a uma explosão de startups no espaço. O capital abundante também não prejudicou, nem o custo decrescente da infraestrutura técnica necessária.

Na verdade, uma das aplicações mais chamativas da IA generativa, o vídeo generativo, corre o risco de se tornar saturada. Laboratórios como Genmo, Haiper e Rhymes AI estão lançando modelos em um ritmo acelerado, e em alguns casos, pouco os distingue do estado da arte anterior.

Naeem Talukdar acredita que a confiança — não necessariamente as capacidades de um modelo — é o que irá diferenciar algumas empresas de vídeo generativo das demais. É por isso que ele está fundando a Moonvalley, uma startup baseada em Los Angeles que está desenvolvendo ferramentas de vídeo generativo ostensivamente mais “transparentes”.

Talukdar liderou o crescimento de produtos na Zapier antes de fundar uma empresa apoiada pelo Y Combinator, a Draft, que hospedava um mercado para conteúdo de IA empresarial. Ele recrutou Mateusz Malinowski e Mik Binkowski para lançar a Moonvalley — ambos ex-cientistas da DeepMind, onde estudaram técnicas de geração de vídeo.

“Compartilhamos a crença de que a geração de vídeo iria transformar a mídia e o entretenimento, mas as startups que vimos operando no espaço não tinham os atributos necessários para ter sucesso,” disse Talukdar ao TechCrunch. “As empresas existentes eram profundamente antagônicas em relação a artistas, criadores e à indústria em geral.”

Para o ponto de Talukdar, a maioria das empresas de IA generativa treina modelos em dados públicos, alguns dos quais são invariavelmente protegidos por direitos autorais. Essas empresas argumentam que a doutrina de uso justo protege a prática. Por exemplo, a OpenAI insistiu que não pode treinar adequadamente modelos sem material protegido por direitos autorais, e a Suno argumentou que o treinamento indiscriminado não é diferente de uma “criança escrevendo suas próprias músicas de rock depois de ouvir o gênero.”

Mas isso não impediu os detentores de direitos de apresentarem reclamações ou de entrarem com pedidos de cessação e desistência.

Os vendedores se tornaram bastante ousados, mesmo enquanto os processos judiciais contra eles se acumulam. No início deste ano, a ex-CTO da OpenAI, Mira Murati, não negou que o modelo de vídeo da OpenAI, Sora, foi treinado em clipes do YouTube — em aparente violação da política de uso do YouTube. Em outro lugar, um relatório da 404 Media sugere que a Runway, uma startup de vídeo generativo, raspou filmagens do YouTube de canais pertencentes à Disney e criadores como MKBHD sem permissão.

A startup canadense de IA Viggle admite abertamente que usa vídeos do YouTube para alimentar seus modelos de vídeo. E, como a maioria de seus rivais, não oferece recurso para criadores cujas obras possam ter sido incluídas em seu treinamento.

“Modelos generativos precisam respeitar direitos autorais, marcas registradas e direitos de imagem,” disse Talukdar. “É por isso que estamos fazendo parcerias estreitas com criadores em nossos modelos.”

A Moonvalley, que ainda não possui um modelo de vídeo totalmente treinado, afirma ser uma das poucas empresas que utiliza exclusivamente dados licenciados de proprietários de conteúdo que “optaram por participar”. Para cobrir suas bases, a Moonvalley pretende permitir que criadores solicitem a remoção de seu conteúdo de seus modelos, permitir que clientes excluam seus dados a qualquer momento e oferecer uma política de indenização para proteger usuários de desafios de direitos autorais.

A abordagem é paralela à da Adobe, que está treinando seus modelos de vídeo Firefly com conteúdo licenciado de sua plataforma Adobe Stock. Talukdar não revelou quanto a Moonvalley está pagando aos colaboradores por clipes, mas pode ser bastante. A Bloomberg informou que a Adobe estava oferecendo cerca de US$ 120 por cada 40-45 minutos de vídeo.

Para ser claro, a Moonvalley não está adquirindo conteúdo por conta própria. Está trabalhando com parceiros não revelados que cuidam dos arranjos de licenciamento e agrupam vídeos em conjuntos de dados que a Moonvalley compra.

Esses parceiros — os chamados “corretores de dados” — estão em alta demanda atualmente, graças ao boom da IA generativa. O mercado de dados de treinamento de IA deve crescer de cerca de US$ 2,5 bilhões agora para quase US$ 30 bilhões dentro de uma década.

“Estamos licenciando dados de alta qualidade de várias fontes que trabalham diretamente com criadores e os compensam bem pelo uso de seu conteúdo,” acrescentou Talukdar. “Estamos garantindo que estamos usando um conjunto de dados diversificado e de alta qualidade.”

Diferentemente de alguns modelos de vídeo “não filtrados” que inserem livremente a imagem de uma pessoa em clipes, a Moonvalley também se compromete a construir barreiras em torno de suas ferramentas criativas. Assim como o Sora da OpenAI, os modelos da Moonvalley bloquearão certos conteúdos, como frases NSFW, e não permitirão que as pessoas solicitem a geração de vídeos de pessoas ou celebridades específicas.

Claro, nenhum filtro é perfeito, mas Talukdar afirma que esse “teste rigoroso” será uma parte central da estratégia de lançamento da Moonvalley.

“À medida que a relação entre mídia e IA continua a evoluir rapidamente, e não sem ceticismo, a Moonvalley pretende se estabelecer como o parceiro mais confiável para organizações de mídia,” disse ele.

Mas a Moonvalley pode realmente competir?

Como mencionado anteriormente, Google, Meta e incontáveis outros estão perseguindo vídeo generativo — com vários graus de consideração ética. As gigantes da tecnologia estão mudando seus termos de uso para ganhar uma vantagem em dados: o Google está treinando seu modelo de vídeo Veo com vídeos do YouTube, enquanto a Meta está treinando seus modelos com conteúdo do Instagram e Facebook.

A Moonvalley espera atrair marcas e casas criativas, mas alguns vendedores já fizeram avanços significativos nesse sentido. A Runway recentemente assinou um contrato com a Lionsgate para treinar um modelo personalizado no catálogo de filmes do estúdio; a Stability AI recrutou o diretor de “Avatar”, James Cameron, para seu conselho de diretores; e a OpenAI se uniu a marcas e diretores independentes para mostrar o potencial do Sora.

Além disso, a Adobe está mirando no mercado-alvo da Moonvalley: artistas e criadores de conteúdo que desejam ferramentas de vídeo generativo “mais seguras” (pelo menos do ponto de vista legal).

O desafio da Moonvalley é triplo. Ela terá que convencer os clientes de que suas ferramentas são competitivas com o que já existe. Precisará construir um tempo suficiente para poder treinar e servir modelos subsequentes. E terá que garantir uma base de clientes leais que não mudarão para outro fornecedor a qualquer momento.

Muitos artistas e criadores estão compreensivelmente cautelosos em relação à IA generativa, uma vez que isso ameaça desestabilizar a indústria cinematográfica e televisiva. Um estudo de 2024 encomendado pelo Animation Guild, um sindicato que representa animadores e cartunistas de Hollywood, estima que mais de 100.000 empregos baseados nos EUA em cinema, televisão e animação serão afetados pela IA até 2026.

“Nosso foco é construir ferramentas para ajudar os criadores a criar conteúdos cada vez mais grandiosos e imersivos,” disse Talukdar quando perguntei a ele sobre o risco de criativos perderem seus empregos devido à IA generativa.

No que diz respeito ao financiamento, a Moonvalley fez alguns progressos: a empresa recentemente levantou US$ 70 milhões em uma rodada de financiamento semente co-liderada pela General Catalyst e Khosla Ventures, com participação da Bessemer Ventures. Isso financiará a P&D e a contratação da Moonvalley.

Atualmente, a empresa tem cerca de 30 funcionários que trabalharam anteriormente na DeepMind, Meta, Microsoft e TikTok, diz Talukdar.

“O que nos diferencia de outras empresas é o foco no produto,” acrescentou. “Enquanto o núcleo da nossa empresa está no treinamento de modelos generativos de ponta, nosso foco é construir ferramentas criativas profundamente capazes para transformar esses modelos em equipamentos potentes para criadores profissionais, estúdios e marcas.”

Talukdar afirma que o plano é lançar o primeiro modelo da Moonvalley ainda este ano. A empresa terá que se apressar se espera superar os lançamentos iminentes da Black Forest Labs, Luma Labs, Midjourney e o elefante na sala.

Fonte

Compartilhe esse conteúdo: