Hume lança modelo de texto-para-fala Octave que gera vozes AI emotivas e ajustáveis sob demanda com base em seus comandos

A startup Hume AI de Nova York surgiu do modo stealth há dois anos e desde então levantou multimilhões em financiamento com base em sua tecnologia que cria vozes AI emotivas para uso em aplicações empresariais.

Hoje, ela está levando suas ofertas um passo adiante com um novo modelo de linguagem e fala chamado “motor de texto e voz onipresente”, ou Octave, projetado para produzir fala realista e emocionalmente sutil para uso em diferentes formas de conteúdo, desde audiolivros até diálogos pré-gravados de personagens de videogame e filmes/TV/vídeo.

A Hume afirma que o Octave é o primeiro sistema de texto-para-fala alimentado por um grande modelo de linguagem (LLM) treinado não apenas em texto, mas também em tokens de fala e emoção, permitindo que ele entenda palavras em contexto e ajuste o tom, ritmo e cadência de acordo – e que o usuário pode ajustar no nível da sentença com comandos de texto.

“Estamos lançando o primeiro LLM para texto-para-fala – um modelo que entende palavras em contexto, prevendo as emoções, o ritmo, a cadência e a ênfase corretas, fazendo a fala soar mais humana do que nunca”, disse Alan Cowen, co-fundador e CEO da Hume AI, em uma entrevista por videochamada com a VentureBeat.

As capacidades do Octave vão além da geração básica de vozes. Ele pode interpretar traços de personagem e estilo apenas a partir de um roteiro, ajustando as inflexões vocais para corresponder às emoções implícitas. Uma observação sarcástica será falada sarcasticamente, uma frase em pânico soará urgente, e um segredo sussurrado será murmurante – tudo isso sem precisar de direção explícita.

Além disso, se o usuário não gostar da voz gerada ou quiser ajustá-la, pode fazê-lo de forma granular através da linguagem natural, digitando uma instrução de texto para o Octave, como “mais feliz, mais triste, mais frustrado, mais irritado, mais sarcástico, mais sincero”, etc.

“Você pode descrever um personagem – como um camponês medieval sarcástico – e o modelo criará instantaneamente essa voz, ajustando emoções como raiva, tristeza ou felicidade com base em suas instruções”, acrescentou Cowen.

Embora o lançamento atual se concentre na fala em inglês, o Octave também oferece suporte ao espanhol e espera-se que expanda suas capacidades linguísticas em breve.

Personalizado para a criação de conteúdo

O Octave é personalizado para criadores de conteúdo e produção de mídia, oferecendo aplicações em audiolivros, podcasts, personagens de videogame e voiceovers de vídeo.

“Este novo modelo foi projetado para texto-para-fala offline – perfeito para audiolivros, podcasts, voiceovers de vídeo e personagens de videogame – onde os criadores precisam de vozes realistas e específicas de personagens”, explicou Cowen.

No entanto, o usuário deve acessá-lo através do site da Hume, seja em sua página de Projetos ou através de uma interface de programação de aplicativos (API). O componente “offline” se refere ao fato de que este modelo é projetado para produzir arquivos de áudio discretos que podem ser adicionados a projetos, como vídeos ou audiolivros. Não é projetado para manter uma conversa em tempo real, embora isso possa ser teoricamente permitido ao inserir consultas de texto no site.

A API da Hume permite que os desenvolvedores façam até 50 solicitações do novo modelo Octave por minuto, com um comprimento máximo de texto de 5.000 caracteres e descrições limitadas a 1.000 caracteres. Cada solicitação pode gerar até cinco saídas, e os formatos de áudio suportados incluem MP3, WAV e PCM.

A série de modelos EVI da Hume anterior permite interações em tempo real de streaming e conversas de vai-e-vem e continua disponível e será desenvolvida.

A Hume AI oferece um modelo de preços baseado em assinatura com faixas que vão de uma opção gratuita a planos Creator, Creator Pro e Enterprise.

Aqui está um resumo conciso das ofertas:

Gratuito ($0/mês) – 10.000 caracteres de texto-para-fala por mês (~10 minutos) com vozes personalizadas ilimitadas.

Starter ($3/mês) – 30.000 caracteres (~30 minutos) mais suporte para até 20 projetos.

Creator ($10/mês) – 100.000 caracteres (~100 minutos), preços baseados no uso para caracteres extras ($0,20/1.000), e suporte para até 1.000 projetos.

Pro ($50/mês) – 500.000 caracteres (~500 minutos), preços baseados no uso mais baixos ($0,15/1.000), e suporte para até 3.000 projetos.

Scale ($150/mês) – 2.000.000 caracteres (~2.000 minutos), preços baseados no uso ainda mais reduzidos ($0,13/1.000), e suporte para até 10.000 projetos.

Business ($900/mês) – 10.000.000 caracteres (~10.000 minutos), preços baseados no uso ainda mais baixos ($0,10/1.000), e suporte para até 20.000 projetos.

Enterprise (Preço personalizado) – Uso ilimitado, termos legais personalizados, garantias de segurança, preços em massa significativamente descontados, e suporte prioritário.

No total, a Hume enfatizou que os preços do Octave TTS estão em torno da metade do custo da startup concorrente ElevenLabs, mostrando a intensificação da competição no espaço de texto-para-fala.

Além disso, a Hume AI realizou um estudo de comparação cega com 180 avaliadores humanos para comparar o Octave com o ElevenLabs. Os resultados mostraram que o Octave foi preferido em termos de qualidade de áudio (71,6% dos testes), naturalidade (51,7% dos testes), e como a fala correspondia às descrições da voz desejada (57,7% dos testes), em 120 prompts diversos.

Para avaliar ainda mais seu desempenho, a Hume AI também lançou a Expressive TTS Arena, um benchmark público projetado para testar como bem os modelos AI lidam com fala longa e expressiva – uma área que os benchmarks TTS anteriores ignoraram em grande parte.

Dezenas de trilhões de tokens de linguagem

Diferentemente dos sistemas tradicionais de texto-para-fala que dependem de conjuntos de dados de fala limitados, o Octave TTS é construído sobre um LLM treinado em dezenas de trilhões de tokens de linguagem.

“Modelos tradicionais de texto-para-fala são treinados em dados de fala limitados, mas o nosso é construído sobre um LLM treinado em dezenas de trilhões de tokens, permitindo que ele raciocine, pense e infira emoções a partir do texto”, disse Cowen.

O modelo foi treinado usando milhões de horas de dados de fala pública e conjuntos de dados proprietários da Hume AI de novas vozes gravadas por participantes de pesquisa.

“Coletamos dados de pessoas gravando a si mesmas através de webcams, reagindo naturalmente a vídeos, contando histórias e conversando com outras pessoas, incluindo amigos e familiares, para capturar uma ampla gama de expressões emocionais”, disse Cowen.

Esse treinamento extensivo permite que o modelo infira o contexto emocional e siga instruções detalhadas, criando vozes que correspondem a descrições e atributos específicos dos personagens.

O modelo, disponível hoje através da plataforma e API da Hume AI, oferece controle emocional ao nível da sentença, com alguma flexibilidade dentro das sentenças.

“A modulação de voz funciona no nível da sentença, mas você também pode ajustar partes de uma sentença, instruindo o modelo a transmitir emoções nuançadas como leve frustração misturada com humor ou exasperação”, observou Cowen. O modelo também considera o contexto além de frases individuais. “Diferentemente dos modelos tradicionais que processam texto palavra por palavra, nosso modelo considera parágrafos inteiros, capturando o contexto para entregar uma fala mais natural e emocionalmente precisa”, explicou ele.

Vozes consistentes de personagens e limitações

O Octave TTS mantém vozes de personagens consistentes em conteúdo longo.

“Com nossa plataforma, você pode gerar vozes únicas para cada personagem em um audiolivro – como um orc de meia-idade – e manter a voz desse personagem ao longo da história”, disse Cowen.

Essa capacidade é suportada pela página de Projetos da Hume AI, que lida com conteúdo longo como audiolivros, dividindo automaticamente o texto enquanto preserva a consistência e o contexto dos personagens nos capítulos.

A Hume tem guardrails técnicos incorporados em seu site e API que proíbem a criação de vozes realistas de crianças e imitações de indivíduos específicos, mas fora isso, está aberta ao uso em uma ampla gama de conteúdos e assuntos, incluindo cenas potencialmente não seguras para trabalho, como aquelas em romances populares.

“Damos liberdade aos desenvolvedores, permitindo conteúdo em uma ampla gama de experiências humanas, embora restrinjamos a criação de vozes realistas de crianças e imitações de indivíduos específicos”, explicou Cowen.

Além disso, Cowen disse que a empresa poderia ajustar essas guardrails para clientes específicos mediante solicitação, como um editor de livros infantis que procura criar vozes para audiolivros infantis.

Adicionalmente, a Hume AI está trabalhando em um recurso de Clonagem de Voz que permitirá aos usuários replicar uma voz a partir de apenas cinco segundos de áudio. A empresa está desenvolvendo salvaguardas para garantir o uso ético antes de lançar o recurso publicamente.

Com sua combinação de consciência contextual, expressão emocional e personalização de personagens, o Octave TTS visa fornecer aos criadores de conteúdo mais controle e flexibilidade, entregando vozes que soam tanto realistas quanto emocionalmente envolventes.

Fonte

Compartilhe esse conteúdo: