Hume lança Controle de Voz permitindo que usuários e desenvolvedores criem vozes de IA personalizadas

Hume AI, a startup especializada em interfaces de voz emocionalmente inteligentes, lançou o Controle de Voz, um recurso experimental que capacita desenvolvedores e usuários a criar vozes de IA personalizadas através da modulação precisa de características vocais — sem a necessidade de codificação, engenharia de prompts de IA ou habilidades de design de som.

Este lançamento se baseia na fundação estabelecida pela interface de voz empática 2 (EVI 2) da empresa, que introduziu capacidades avançadas em naturalidade, responsividade emocional e personalização.

Tanto o EVI 2 quanto o Controle de Voz evitam os riscos da clonagem de voz, uma prática que Cowen afirmou carregar desafios éticos e práticos. Em vez disso, a Hume se concentra em fornecer ferramentas para criar vozes únicas e expressivas que se alinham com as necessidades dos usuários, como chatbots de atendimento ao cliente, assistentes digitais, tutores, guias ou recursos de acessibilidade.

O Controle de Voz oferece aos desenvolvedores a capacidade de ajustar vozes em 10 dimensões distintas, incluindo:

“Masculino/Feminino: A vocalização de gênero, variando entre mais masculino e mais feminino.

Assertividade: A firmeza da voz, variando entre tímido e ousado.

Alegria: A densidade da voz, variando entre deflacionada e alegre.

Confiança: A segurança da voz, variando entre tímido e confiante.

Entusiasmo: A excitação na voz, variando entre calma e entusiástica.

Nasalidade: A abertura da voz, variando entre clara e nasal.

Relaxamento: O estresse na voz, variando entre tenso e relaxado.

Suavidade: A textura da voz, variando entre suave e staccato.

Tepidez: A vivacidade por trás da voz, variando entre morna e vigorosa.

Aperto: A contenção da voz, variando entre apertada e ofegante.”

Esta ferramenta sem código permite que os usuários ajustem atributos vocais em tempo real através de deslizadores virtuais na tela. Está atualmente disponível no playground virtual da Hume, que requer um cadastro de usuário gratuito para acesso.

O lançamento aborda um ponto crítico na indústria de IA: a dependência de vozes pré-definidas, que muitas vezes não atendem às necessidades específicas de marcas ou aplicações, ou os riscos associados à clonagem de voz.

Esse foco na personalização se alinha com o objetivo mais amplo da Hume de desenvolver IA de voz emocionalmente matizada.

Os esforços da empresa para avançar na IA de voz foram destacados em setembro de 2024 com o lançamento do EVI 2, que a empresa descreveu como uma atualização significativa em relação ao seu antecessor.

O EVI 2 melhorou a latência em 40%, reduziu custos em 30% e expandiu os recursos de modulação de voz, oferecendo aos desenvolvedores uma alternativa mais segura à clonagem de voz.

A abordagem orientada por pesquisa da Hume desempenha um papel central em seu desenvolvimento de produtos. A empresa, co-fundada pelo ex-Google DeepMinder Alan Cowen, utiliza um modelo proprietário baseado em gravações de voz interculturais emparelhadas com dados de pesquisa emocional.

Essa metodologia, enraizada na ciência das emoções, forma a espinha dorsal tanto do EVI 2 quanto do recém-lançado Controle de Voz.

O Controle de Voz estende esses princípios ao abordar as maneiras granulares, muitas vezes inefáveis, como os humanos percebem as vozes.

A interface baseada em deslizadores da ferramenta reflete qualidades perceptuais comuns da voz, como alegria ou assertividade, sem tentar simplificar excessivamente esses atributos através de prompts baseados em texto.

O Controle de Voz está imediatamente disponível em beta e se integra à Interface de Voz Empática (EVI) da Hume, tornando-o acessível para uma ampla gama de aplicações.

Os desenvolvedores podem selecionar uma voz base, ajustar suas características e visualizar os resultados em tempo real. Esse processo garante reprodutibilidade e estabilidade entre as sessões, características-chave para aplicações em tempo real, como bots de atendimento ao cliente ou assistentes virtuais.

A influência do EVI 2 é evidente nas capacidades do Controle de Voz. O modelo anterior introduziu recursos como prompts em conversação e capacidades multilíngues, que ampliaram o escopo das aplicações de IA de voz.

Por exemplo, o EVI 2 suporta tempos de resposta sub-segundo, permitindo conversas naturais e imediatas. Ele também permite ajustes dinâmicos no estilo de fala durante as interações, tornando-o uma ferramenta versátil para empresas.

O foco da Hume na personalização de voz e inteligência emocional a posiciona como uma forte concorrente no espaço de IA de voz, mesmo contra rivais bem financiados, como a OpenAI com seu Modo de Voz Avançado e ElevenLabs, ambos oferecendo bibliotecas de vozes pré-definidas.

A Hume continua a construir sobre sua abordagem inovadora para a IA de voz. Os planos para expandir o Controle de Voz incluem a introdução de dimensões modificáveis adicionais, refinamento da qualidade da voz sob ajustes extremos e aumento da gama de vozes base disponíveis.

Com o lançamento do Controle de Voz, a Hume reforça sua posição como líder em inovação de IA de voz, oferecendo ferramentas que priorizam personalização, inteligência emocional e adaptabilidade em tempo real. Os desenvolvedores podem acessar o Controle de Voz hoje através da plataforma da Hume, marcando mais um passo à frente na evolução das soluções de voz impulsionadas por IA.

Fonte

Compartilhe esse conteúdo: