ElevenLabs, uma startup que fornece clonagem de voz de IA e uma API de texto para fala, lançou a capacidade de construir bots de IA conversacionais na segunda-feira.
A empresa anunciou que os usuários agora podem construir agentes conversacionais completos na plataforma de desenvolvedores da ElevenLabs, com variáveis personalizáveis como tom de voz e comprimento da resposta.
A ElevenLabs trabalhou principalmente em fornecer diferentes vozes e ferramentas de IA para serviços de texto para fala. O chefe de crescimento da empresa, Sam Sklar, disse ao TechCrunch que muitos de seus clientes já estavam usando essa capacidade para criar agentes de IA conversacionais. No entanto, as partes mais difíceis eram integrar a base de conhecimento e lidar com interrupções dos clientes. É por isso que a empresa decidiu construir um pipeline completo para bots conversacionais.
Os usuários podem fazer login em sua conta ElevenLabs e começar a construir um agente de conversa selecionando um modelo ou criando um novo projeto. Eles podem escolher o idioma principal do agente, a primeira mensagem e o prompt do sistema para determinar a persona do agente. Os desenvolvedores também precisam selecionar um modelo de linguagem grande (Gemini, GPT ou Claude), a temperatura das respostas (para determinar quão criativa a resposta deve ser) e o limite de uso de tokens.
Eles também podem ajustar outros aspectos, como voz, latência, estabilidade, critérios de autenticação e comprimento máximo da conversa com o agente de IA.
Os usuários podem adicionar sua própria base de conhecimento, como um arquivo, URL ou bloco de texto, para alimentar o bot conversacional. Além disso, eles também podem integrar seu próprio LLM personalizado com o bot. O SDK da ElevenLabs é compatível com Python, Javascript, React e Swift. A empresa também oferece uma API WebSocket para mais personalização.
As empresas também podem definir critérios para coletar certos itens de dados — por exemplo, nome e e-mail dos clientes que falam com o agente — junto com critérios de avaliação em linguagem natural para definir o sucesso ou fracasso da chamada.
A ElevenLabs está aproveitando seu pipeline existente para a parte de texto para fala. A empresa precisa desenvolver capacidades de fala para texto para o novo produto de IA conversacional. A empresa não está oferecendo sua API de fala para texto como um produto independente no momento, mas pode fazer isso no futuro, tornando-se uma concorrente das APIs de fala para texto do Google, Microsoft e Amazon, bem como de APIs especializadas, como o Whisper da OpenAI, AssemblyAI, Deepgram, Speechmatics e Gladia.
A empresa, que está buscando levantar novos fundos com uma avaliação superior a $3 bilhões, também compete com outras startups de IA de voz, como Vapi e Retell — que também estão construindo agentes conversacionais. Mais notavelmente, a empresa também rivalizará com a API de conversa em tempo real da OpenAI. No entanto, a ElevenLabs acredita que suas personalizações e a capacidade de alternar modelos lhe darão uma vantagem sobre a OpenAI.