OpenAI expande a API em tempo real com novas vozes e reduz preços para desenvolvedores

OpenAI atualizou sua API em tempo real hoje, que atualmente está em beta. Esta atualização adiciona novas vozes para aplicações de fala para fala em sua plataforma e reduz os custos associados ao armazenamento em cache de prompts.

Os usuários beta da API em tempo real agora têm cinco novas vozes que podem usar para construir suas aplicações. A OpenAI apresentou três das novas vozes, Ash, Verse e a voz de sotaque britânico Ballad, em uma postagem no X.

A empresa disse em sua documentação da API que o recurso nativo de fala para fala “pula uma forma de texto intermediária, o que significa baixa latência e saída nuançada”, enquanto as vozes são mais fáceis de direcionar e mais expressivas do que suas vozes anteriores.

No entanto, a OpenAI alerta que não pode oferecer autenticação do lado do cliente para a API agora, pois ainda está em beta. Ela também disse que pode haver problemas com o processamento de áudio em tempo real.

“As condições da rede afetam fortemente o áudio em tempo real, e entregar áudio de forma confiável de um cliente para um servidor em grande escala é desafiador quando as condições da rede são imprevisíveis”, compartilhou a empresa.

A história da OpenAI com vozes e fala alimentadas por IA tem sido controversa. Em março, lançou o Voice Engine, uma plataforma de clonagem de voz para rivalizar com a ElevenLabs, mas limitou o acesso a apenas alguns pesquisadores. Em maio, após a empresa demonstrar seu GPT-4o e o Modo de Voz, pausou o uso de uma das vozes, Sky, depois que a atriz Scarlett Johansson se manifestou sobre a semelhança com sua voz.

A empresa lançou o Modo de Voz Avançado do ChatGPT para assinantes pagantes (aqueles que usam ChatGPT Plus, Enterprise, Teams e Edu) nos EUA em setembro.

A IA de fala para fala idealmente permitiria que as empresas construíssem respostas mais em tempo real usando uma voz. Suponha que um cliente ligue para a plataforma de atendimento ao cliente de uma empresa. Nesse caso, a capacidade de fala para fala pode pegar a voz da pessoa, entender o que ela está perguntando e responder usando uma voz gerada por IA com menor latência. A fala para fala também permite que os usuários gerem dublagens, com um usuário falando suas falas, mas a saída de voz não é a deles. Uma plataforma que oferece isso é a Replica e, claro, a ElevenLabs.

A OpenAI lançou a API em tempo real este mês durante seu Dev Day. A API visa acelerar a construção de assistentes de voz.

Reduzindo custos

Usar recursos de fala para fala, no entanto, pode ficar caro.

Quando a API em tempo real foi lançada, a estrutura de preços era de $0,06 por minuto de entrada de áudio e $0,24 por saída de áudio, o que não é barato. No entanto, a empresa planeja reduzir os preços da API em tempo real com o armazenamento em cache de prompts.

As entradas de texto em cache cairão 50%, e as entradas de áudio em cache serão descontadas em 80%.

A OpenAI também anunciou o Armazenamento em Cache de Prompt durante o Dev Day e manteria contextos e prompts frequentemente solicitados na memória do modelo. Isso reduzirá o número de tokens que precisa gerar para criar respostas. Reduzir os preços de entrada pode incentivar mais desenvolvedores interessados a se conectar à API.

A OpenAI não é a única empresa a lançar o Armazenamento em Cache de Prompt. A Anthropic lançou o armazenamento em cache de prompts para o Claude 3.5 Sonnet em agosto.

Fonte

Compartilhe esse conteúdo: