Há uma grande oportunidade para IA generativa no mundo da tradução, e uma startup chamada Panjaya está levando o conceito a um novo nível: uma ferramenta de dublagem baseada em IA generativa hiper-realista para vídeos que recria a voz original de uma pessoa falando o novo idioma, com o vídeo e os movimentos físicos do falante sendo automaticamente modificados para combinar naturalmente com os novos padrões de fala.
Depois de estar em stealth nos últimos três anos, a startup está revelando o BodyTalk, a primeira versão de seu produto, juntamente com seu primeiro financiamento externo de $9,5 milhões.
Panjaya é fruto da mente de Hilik Shani e Ariel Shalom, dois especialistas em aprendizado profundo que passaram a maior parte de suas vidas profissionais trabalhando silenciosamente em tecnologia de aprendizado profundo para o governo israelense e agora são, respectivamente, o gerente geral e o CTO da startup. Eles abandonaram seus chapéus de G-man em 2021 com a vontade de empreender, e 1,5 anos atrás, foram acompanhados por Guy Piekarz como CEO.
Piekarz não é um fundador da Panjaya, mas é um nome notável a bordo: em 2013, ele vendeu uma startup que fundou para a Apple. Matcha, como a startup foi chamada, foi um dos primeiros players agitados em descoberta e recomendação de vídeo em streaming, e foi adquirida durante os primeiros dias da estratégia de TV e streaming da Apple, quando essas eram mais rumores do que produtos reais. Matcha foi financiada de forma independente e vendida por uma quantia modesta: entre $10 milhões e $15 milhões — modesto considerando a significativa direção que a Apple eventualmente tomou em mídias transmitidas.
Piekarz permaneceu na Apple por quase uma década construindo o Apple TV e, em seguida, seu vertical esportivo. Depois, ele foi apresentado à Panjaya através da Viola Ventures, um de seus apoiadores (outros incluem R-Squared Ventures, o cofundador e CEO da JFrog Shlomi Ben Haim, Chris Rice, Guy Schory, Ryan Floyd da Storm Ventures, Ali Behnam da Riviera Partners e Oded Vardi).
“Eu já havia deixado a Apple e estava planejando fazer algo completamente diferente”, disse Piekarz. “No entanto, ver uma demonstração da tecnologia me deixou impressionado, e o resto é história.”
O BodyTalk é interessante por como simultaneamente traz várias peças de tecnologia que jogam em diferentes aspectos da mídia sintética para o quadro.
Começa com tradução baseada em áudio que atualmente pode oferecer traduções em 29 idiomas. A tradução é então falada em uma voz que imita o falante original, que por sua vez é ajustada a uma versão do vídeo original onde os lábios do falante e outros movimentos são modificados para se adequar às novas palavras e frases. Tudo isso é criado automaticamente em vídeos após os usuários carregá-los na plataforma, que também vem com um painel que inclui ferramentas de edição adicionais. Planos futuros incluem uma API, bem como chegar mais perto do processamento em tempo real. (No momento, o BodyTalk é “quase em tempo real”, levando minutos para processar vídeos, disse Piekarz.)
“Estamos usando o que há de melhor onde precisamos”, disse Piekarz sobre o uso da empresa de modelos de linguagem de terceiros e outras ferramentas. “E estamos construindo nossos próprios modelos de IA onde o mercado não tem realmente uma solução.”
Um exemplo disso é o motor de sincronização labial da empresa, continuou ele. “Todo o nosso motor de sincronização labial é desenvolvido internamente pela nossa equipe de pesquisa em IA, porque não encontramos nada que atinja aquele nível e qualidade de múltiplos falantes, ângulos e todos os casos de uso de negócios que queremos suportar.”
Seu foco por enquanto é apenas no B2B; os clientes incluem JFrog e a organização de mídia TED. A empresa tem planos de expandir ainda mais na mídia, especificamente em áreas como esportes, educação, marketing, saúde e medicina.
Os vídeos traduzidos resultantes são muito estranhos, não muito diferentes do que você obtém com deepfakes, embora Piekarz não goste desse termo, que adquiriu conotações negativas ao longo dos anos que são exatamente opostas ao mercado que a startup está visando.
“‘Deepfake’ não é algo que nos interessa”, disse ele. “Estamos buscando evitar todo esse nome.” Em vez disso, disse ele, pense na Panjaya como parte da categoria “deep real”.
Ao visar apenas o mercado B2B e controlar quem tem acesso às suas ferramentas, a empresa está criando “barreiras” em torno da tecnologia para proteger contra o uso indevido, acrescentou. Ele também acredita que a longo prazo haverá mais ferramentas construídas, incluindo marca d’água, para ajudar a detectar quando quaisquer vídeos foram modificados para criar mídia sintética, tanto legítima quanto nefasta. “Definitivamente queremos fazer parte disso e não permitir desinformação”, disse ele.
As letras miúdas
Há várias startups que competem com a Panjaya na área mais ampla de tradução baseada em IA para vídeos, incluindo grandes nomes como Vimeo e Eleven Labs, bem como jogadores menores como Speechify e Synthesis. Para todos eles, construir maneiras de melhorar como a dublagem funciona parece um pouco como nadar contra uma corrente forte. Isso porque as legendas se tornaram uma parte muito padrão de como o vídeo é consumido atualmente.
Na TV, é por uma variedade de razões como falantes pouco audíveis, ruído de fundo em nossas vidas agitadas, atores que falam de forma pouco clara, orçamentos de produção limitados e mais efeitos sonoros. A CBS descobriu em uma pesquisa com espectadores de TV americanos que mais da metade deles mantinha as legendas ativadas “algumas (21%) ou todas (34%) as vezes.”
Mas alguns amam as legendas apenas porque são divertidas de ler, e uma verdadeira cultura foi construída em torno disso.
Nas mídias sociais e outros aplicativos, as legendas são simplesmente incorporadas à experiência. O TikTok, como um exemplo, começou em novembro de 2023 a ativar a legendagem por padrão em todos os vídeos.
Ainda assim, existe um enorme mercado internacional para conteúdo dublado, e mesmo que o inglês seja frequentemente considerado a língua franca da internet, há evidências de grupos de pesquisa como a CSA de que o conteúdo entregue em idiomas nativos tem um engajamento melhor, especialmente no contexto B2B. A proposta da Panjaya é que conteúdos nativos mais naturais podem ter um desempenho ainda melhor.
Alguns de seus clientes parecem apoiar essa teoria. A TED afirma que as palestras dubladas usando as ferramentas da Panjaya tiveram um aumento de 115% nas visualizações, com taxas de conclusão dobrando para aqueles vídeos traduzidos.