OpenAI atualizou sua API em tempo real hoje, que atualmente está em beta. Esta atualização adiciona novas vozes para aplicações de fala para fala em sua plataforma e reduz os custos associados ao armazenamento em cache de prompts.
Os usuários beta da API em tempo real agora têm cinco novas vozes que podem usar para construir suas aplicações. A OpenAI apresentou três das novas vozes, Ash, Verse e a voz de sotaque britânico Ballad, em uma postagem no X.
A empresa disse em sua documentação da API que o recurso nativo de fala para fala “pula uma forma de texto intermediária, o que significa baixa latência e saída nuançada”, enquanto as vozes são mais fáceis de direcionar e mais expressivas do que suas vozes anteriores.
No entanto, a OpenAI alerta que não pode oferecer autenticação do lado do cliente para a API agora, pois ainda está em beta. Ela também disse que pode haver problemas com o processamento de áudio em tempo real.
“As condições da rede afetam fortemente o áudio em tempo real, e entregar áudio de forma confiável de um cliente para um servidor em grande escala é desafiador quando as condições da rede são imprevisíveis”, compartilhou a empresa.
A história da OpenAI com vozes e fala alimentadas por IA tem sido controversa. Em março, lançou o Voice Engine, uma plataforma de clonagem de voz para rivalizar com a ElevenLabs, mas limitou o acesso a apenas alguns pesquisadores. Em maio, após a empresa demonstrar seu GPT-4o e o Modo de Voz, pausou o uso de uma das vozes, Sky, depois que a atriz Scarlett Johansson se manifestou sobre a semelhança com sua voz.
A empresa lançou o Modo de Voz Avançado do ChatGPT para assinantes pagantes (aqueles que usam ChatGPT Plus, Enterprise, Teams e Edu) nos EUA em setembro.
A IA de fala para fala idealmente permitiria que as empresas construíssem respostas mais em tempo real usando uma voz. Suponha que um cliente ligue para a plataforma de atendimento ao cliente de uma empresa. Nesse caso, a capacidade de fala para fala pode pegar a voz da pessoa, entender o que ela está perguntando e responder usando uma voz gerada por IA com menor latência. A fala para fala também permite que os usuários gerem dublagens, com um usuário falando suas falas, mas a saída de voz não é a deles. Uma plataforma que oferece isso é a Replica e, claro, a ElevenLabs.
A OpenAI lançou a API em tempo real este mês durante seu Dev Day. A API visa acelerar a construção de assistentes de voz.
Reduzindo custos
Usar recursos de fala para fala, no entanto, pode ficar caro.
Quando a API em tempo real foi lançada, a estrutura de preços era de $0,06 por minuto de entrada de áudio e $0,24 por saída de áudio, o que não é barato. No entanto, a empresa planeja reduzir os preços da API em tempo real com o armazenamento em cache de prompts.
As entradas de texto em cache cairão 50%, e as entradas de áudio em cache serão descontadas em 80%.
A OpenAI também anunciou o Armazenamento em Cache de Prompt durante o Dev Day e manteria contextos e prompts frequentemente solicitados na memória do modelo. Isso reduzirá o número de tokens que precisa gerar para criar respostas. Reduzir os preços de entrada pode incentivar mais desenvolvedores interessados a se conectar à API.
A OpenAI não é a única empresa a lançar o Armazenamento em Cache de Prompt. A Anthropic lançou o armazenamento em cache de prompts para o Claude 3.5 Sonnet em agosto.