PlayAI clona vozes sob comando

Em 2016, Hammad Syed e Mahmoud Felfel, um ex-engenheiro do WhatsApp, acharam que seria interessante criar uma extensão do Chrome para texto-para-fala para artigos do Medium. A extensão, que podia ler qualquer história do Medium em voz alta, foi destaque no Product Hunt. Um ano depois, gerou um negócio inteiro.

“Vimos uma oportunidade maior em ajudar indivíduos e organizações a criar conteúdo de áudio realista para suas aplicações”, disse Syed ao TechCrunch. “Sem a necessidade de construir seu próprio modelo, eles poderiam implantar experiências de fala de qualidade humana mais rápido do que nunca.”

A empresa de Syed e Felfel, a PlayAI (anteriormente PlayHT), se apresenta como a “interface de voz da IA”. Os clientes podem escolher entre várias vozes predefinidas ou clonar uma voz e usar a API da PlayAI para integrar texto-para-fala em seus aplicativos.

Os controles permitem que os usuários ajustem a entonação, cadência e tom das vozes.

A PlayAI também oferece um “playground” onde os usuários podem fazer upload de um arquivo para gerar uma versão lida em voz alta e um painel para criar narrações de áudio mais polidas e voiceovers. Recentemente, a empresa entrou no jogo dos “agentes de IA” com ferramentas que podem ser usadas para automatizar tarefas, como responder chamadas de clientes em um negócio.

Uma das experiências mais interessantes da PlayAI é o PlayNote, que transforma PDFs, vídeos, fotos, músicas e outros arquivos em shows estilo podcast, resumos lidos em voz alta, debates um-a-um e até histórias infantis. Como o NotebookLM do Google, o PlayNote gera um roteiro a partir de um arquivo ou URL enviado e o alimenta a uma coleção de modelos de IA, que juntos criam o produto final.

Eu testei e os resultados não estavam nada mal. O modo “podcast” do PlayNote produz clipes mais ou menos comparáveis em qualidade aos do NotebookLM, e a capacidade da ferramenta de ingerir fotos e vídeos resulta em criações fascinantes. Dada uma foto de um prato de mole de frango que tive recentemente, o PlayNote escreveu um roteiro de podcast de cinco minutos sobre isso. Verdadeiramente, estamos vivendo no futuro.

É claro que a ferramenta, como todas as ferramentas de IA, gera artefatos e alucinações estranhas de vez em quando. E enquanto o PlayNote fará o seu melhor para adaptar um arquivo ao formato que você escolheu, não espere, digamos, que um processo legal seco sirva como o melhor material de origem. Veja: o processo Musk v. OpenAI enquadrado como uma história para dormir:

O formato de podcast do PlayNote é possibilitado pelo modelo mais recente da PlayAI, o PlayDialog, que Syed diz que pode usar o “contexto e a história” de uma conversa para gerar fala que reflita o fluxo da conversa. “Usando o contexto histórico de uma conversa para controlar prosódia, emoção e ritmo, o PlayDialog oferece uma conversa com entrega natural e tom apropriado”, continuou.

A PlayAI, que é rival próxima da ElevenLabs, foi criticada no passado por sua abordagem laissez faire em relação à segurança. A ferramenta de clonagem de voz da empresa exige que os usuários marquem uma caixa indicando que “têm todos os direitos ou consentimento necessários” para clonar uma voz — mas não há nenhum mecanismo de aplicação. Eu não tive problemas para criar uma clone da voz de Kamala Harris a partir de uma gravação.

Isso é preocupante, considerando o potencial para fraudes e deepfakes.

A PlayAI também afirma que detecta e bloqueia automaticamente conteúdo “sexual, ofensivo, racista ou ameaçador”. Mas isso não foi o que aconteceu nos meus testes. Eu usei o clone de Harris para gerar uma fala que, francamente, não posso incluir aqui e nunca vi uma mensagem de aviso.

Enquanto isso, o portal comunitário do PlayNote, que está cheio de conteúdo gerado publicamente, tem arquivos com títulos explícitos como “Mulher Realizando Sexo Oral”.

Syed me disse que a PlayAI responde a relatos de vozes clonadas sem consentimento, como este, bloqueando o usuário responsável e removendo a voz clonada imediatamente. Ele também argumenta que os clones de voz de maior fidelidade da PlayAI, que exigem 20 minutos de amostras de voz, são mais caros ($49 por mês faturados anualmente ou $99 por mês) do que a maioria dos golpistas estaria disposta a pagar.

“A PlayAI tem várias salvaguardas éticas em vigor”, disse Syed. “Implementamos mecanismos robustos para identificar se uma voz foi sintetizada usando nossa tecnologia, por exemplo. Se qualquer uso indevido for relatado, verificamos prontamente a origem do conteúdo e tomamos ações decisivas para retificar a situação e prevenir mais violações éticas.”

Eu certamente espero que esse seja o caso — e que a PlayAI se afaste de campanhas de marketing apresentando celebridades da tecnologia falecidas. Se a moderação da PlayAI não for robusta, ela pode enfrentar desafios legais no Tennessee, que tem uma lei que proíbe plataformas de hospedar IA para fazer gravações não autorizadas da voz de uma pessoa.

A abordagem da PlayAI para treinar sua IA de clonagem de voz também é um pouco obscura. A empresa não revela de onde obteve os dados para seus modelos, ostensivamente por razões competitivas.

“A PlayAI usa principalmente conjuntos de dados abertos, [bem como dados licenciados] e conjuntos de dados proprietários que são construídos internamente”, disse Syed. “Não usamos dados de usuários dos produtos no treinamento, ou criadores para treinar modelos. Nossos modelos são treinados em milhões de horas de fala humana real, entregando vozes em gêneros masculino e feminino em vários idiomas e sotaques.”

A maioria dos modelos de IA é treinada em dados da web públicos — alguns dos quais podem ser protegidos por direitos autorais ou sob uma licença restritiva. Muitos fornecedores de IA argumentam que a doutrina de uso justo os protege de reivindicações de direitos autorais. Mas isso não impediu que os proprietários de dados entrassem com ações coletivas alegando que os fornecedores usaram seus dados sem permissão.

A PlayAI não foi processada. No entanto, seus termos de serviço sugerem que ela não irá defender os usuários se eles se encontrarem sob ameaça legal.

Plataformas de clonagem de voz como a PlayAI enfrentam críticas de atores que temem que o trabalho de voz eventualmente seja substituído por vocais gerados por IA, e que os atores terão pouco controle sobre como seus duplicados digitais são usados.

O sindicato dos atores de Hollywood, SAG-AFTRA, fez acordos com algumas startups, incluindo o mercado de talentos online Narrativ e a Replica Studios, para o que descreve como arranjos de clonagem de voz “justos” e “éticos”. Mas mesmo esses acordos foram submetidos a um intenso escrutínio, inclusive pelos próprios membros da SAG-AFTRA.

Na Califórnia, as leis exigem que empresas que dependem da réplica digital de um intérprete (por exemplo, voz clonada) forneçam uma descrição do uso pretendido da réplica e negociem com o advogado do intérprete. Elas também exigem que empregadores de entretenimento obtenham o consentimento do espólio de um intérprete falecido antes de usar um clone digital dessa pessoa.

Syed diz que a PlayAI “garante” que cada clone de voz gerado através de sua plataforma é exclusivo para o criador. “Essa exclusividade é vital para proteger os direitos criativos dos usuários”, acrescentou.

O aumento da carga legal é um obstáculo para a PlayAI. Outro é a concorrência. Papercup, Deepdub, Acapela, Respeecher e Voice.ai, assim como grandes incumbentes da tecnologia, Amazon, Microsoft e Google, oferecem ferramentas de dublagem e clonagem de voz de IA. A mencionada ElevenLabs, um dos fornecedores de clonagem de voz mais proeminentes, está supostamente levantando novos fundos a uma avaliação superior a $3 bilhões.

A PlayAI não está lutando para encontrar investidores, no entanto. Este mês, a empresa apoiada pelo Y Combinator fechou uma rodada de financiamento seed de $20 milhões liderada pela Kindred Ventures, elevando seu capital total levantado para $21 milhões. Race Capital e 500 Global também participaram.

“O novo capital será usado para investir em nossos modelos de voz de IA generativa e na plataforma de agentes de voz, e para encurtar o tempo que as empresas levam para construir experiências de fala de qualidade humana”, disse Syed, acrescentando que a PlayAI planeja expandir sua força de trabalho de 40 pessoas.

Fonte

Compartilhe esse conteúdo: