A DeepL se destacou com sua tradução de texto online, que afirma ser mais nuançada e precisa do que serviços como o do Google — uma proposta que catapultou a startup alemã a uma avaliação de 2 bilhões de dólares e mais de 100.000 clientes pagantes. Agora, à medida que a empolgação pelos serviços de IA continua a crescer, está adicionando mais um modo à plataforma: áudio. Os usuários poderão agora usar o DeepL Voice para ouvir alguém falando em um idioma e traduzir automaticamente para outro, em tempo real.
Inglês, alemão, japonês, coreano, sueco, holandês, francês, turco, polonês, português, russo, espanhol e italiano são os idiomas falados que o DeepL pode “ouvir” hoje. As legendas traduzidas, por sua vez, estão disponíveis para todos os 33 idiomas atualmente suportados pelo DeepL Translator.
O DeepL Voice atualmente não entrega o resultado como um arquivo de áudio ou vídeo: o serviço é voltado para conversas ao vivo e videoconferências e aparece como texto, não áudio. No primeiro desses casos, você pode configurar suas traduções para aparecer como ‘espelhos’ em um smartphone — a ideia é colocar o telefone entre você e a outra pessoa em uma mesa de reunião para que cada lado veja as palavras traduzidas — ou como uma transcrição que você compartilha lado a lado com alguém. O serviço de videoconferência vê as traduções aparecendo como legendas.
Isso pode ser algo que mude com o tempo, Jarek Kutylowski, fundador e CEO da empresa, insinuou em uma entrevista. Este é o primeiro produto da DeepL em voz, mas provavelmente não será o último. “[A voz] é para onde a tradução vai se desenvolver no próximo ano”, acrescentou.
Há outras evidências que apoiam essa afirmação. O Google — um dos maiores concorrentes da DeepL — também começou a incorporar legendas traduzidas em tempo real em seu serviço de videoconferência Meet. E há uma infinidade de startups de IA construindo serviços de tradução de voz. Elas incluem esforços do especialista em voz de IA Eleven Labs (Eleven Labs Dubbing) e outros como a Panjaya, que cria traduções usando vozes e vídeos “deepfake” que combinam com o áudio. Esta última usa a API da Eleven Labs, e de acordo com Kutylowski, a própria Eleven Labs está usando tecnologia da — você adivinhou — DeepL para alimentar seu serviço de tradução.
A saída de áudio não é a única coisa que ainda não foi lançada. Atualmente, também não há uma API para o produto Voice. O principal negócio da DeepL é focado em B2B e Kutylowski disse que a empresa está trabalhando com parceiros e clientes diretamente para usá-lo.
Nem há uma ampla escolha de integrações: o único serviço de videoconferência que suporta as legendas da DeepL atualmente é o Teams, que “cobre a maioria de nossos clientes”, disse Kutylowski. Não há informações sobre quando ou se o Zoom, ou o Google Meet, por sua vez, incorporarão o DeepL Voice no futuro.
O produto pode parecer uma longa espera para os usuários da DeepL, não apenas porque estamos inundados com uma infinidade de outros serviços de voz de IA voltados para tradução. Kutylowski disse que esse foi o pedido número um dos clientes desde 2017, ano em que a DeepL foi lançada.
Parte da razão pela espera é que a DeepL tem adotado uma abordagem bastante deliberada ao construir seu produto. Ao contrário de muitos outros no mundo das aplicações de IA que se baseiam e ajustam os Modelos de Linguagem de Grande Escala de outras empresas, o objetivo da DeepL é construir seu serviço do zero. Em julho, a empresa lançou um novo LLM otimizado para traduções que afirma superar o GPT-4, Google e Microsoft, não menos porque seu propósito principal é a tradução. Em torno disso, também continuou a melhorar a qualidade de sua produção escrita e glossário.
Da mesma forma, um dos pontos de venda únicos do DeepL Voice é que funcionará em tempo real, importante, dado que muitos serviços de “tradução de IA” no mercado atualmente funcionam com atraso, tornando-os mais difíceis/impossíveis de usar em situações ao vivo, que é o caso de uso que a DeepL está especificamente abordando. Kutylowski insinuou que essa foi outra razão pela qual este novo produto de processamento de voz está focando em traduções baseadas em texto: elas podem ser computadas e produzidas muito rapidamente, enquanto o processamento e a arquitetura de IA ainda têm um caminho a percorrer antes de poderem produzir áudio e vídeo tão rapidamente.
Embora você possa imaginar que videoconferências e reuniões são casos de uso prováveis para o DeepL Voice, Kutylowski observou que outro grande que a empresa está imaginando é no setor de serviços, onde trabalhadores de linha de frente em, digamos, restaurantes poderiam usar o serviço para ajudar a se comunicar com os clientes mais facilmente.
Isso pode ser útil, mas também destaca um dos pontos mais difíceis do serviço. Em um mundo onde todos nós estamos repentinamente mais cientes da proteção de dados e das preocupações sobre como novos serviços e plataformas estão cooptando informações privadas ou proprietárias, permanece a dúvida sobre quão dispostos as pessoas estarão a ter suas vozes captadas e usadas dessa forma.
Kutylowski insistiu que, embora as vozes estejam sendo enviadas para seus servidores para serem traduzidas (o processamento não acontece no dispositivo), nada é retido por seus sistemas, nem usado para treinar seus LLMs, e que, em última análise, trabalhará com seus clientes para garantir que não violem o GDPR ou quaisquer outras regulamentações de proteção de dados.