Muito do foco em IA generativa até agora tem sido em interfaces baseadas em texto usadas para gerar texto, imagens e mais. A próxima onda parece ser a voz, e está chegando rapidamente. No último desenvolvimento, o Google anunciou hoje que adicionaria o Chirp 3 — sua interface de voz HD — à sua plataforma de desenvolvimento Vertex AI a partir da próxima semana.
Na semana passada, o Google anunciou discretamente que o Chirp 3 estaria lançando 8 novas vozes para 31 idiomas. Os casos de uso para a plataforma incluem a construção de assistentes de voz, criação de audiolivros, desenvolvimento de agentes de suporte e narrações para vídeos. A notícia foi anunciada em um evento nas escritórios da DeepMind do Google em Londres.
Seus esforços estão ocorrendo ao mesmo tempo que outros também estão avançando rapidamente com seu trabalho em IA de voz. Na semana passada, a Sesame — a startup por trás dos aplicativos de IA “Maya” e “Miles”, com som muito realista — anunciou o lançamento de seu modelo para desenvolvedores construírem seus próprios aplicativos e serviços personalizados com base em sua tecnologia.
Notavelmente, haverá restrições de uso em torno do Chirp 3 para tentar controlar abusos. “Estamos apenas trabalhando em algumas dessas questões com nossa equipe de segurança”, disse Thomas Kurian, CEO do Google Cloud, em um evento de notícias hoje.
A ElevenLabs está entre as principais startups que levantaram centenas de milhões em financiamento para expandir seu trabalho em serviços de voz de IA.
A notícia trará o Chirp 3 para o mesmo grupo que as versões mais novas de seu LLM de destaque, Gemini, que estão sendo testadas, bem como seu modelo de geração de imagens, Imagen, e sua cara ferramenta de geração de vídeo, Veo 2.
É discutível se o que o Google está lançando com o Chirp 3 será tão “realista” quanto alguns dos outros esforços de IA para criar vozes “humanas” (o trabalho da Sesame se destaca em particular). Mas, como enfatizou Demis Hassabis, o CEO da DeepMind, isso continua sendo uma maratona, não um sprint.
“Em um futuro próximo… essa ideia de que [IA é] uma solução mágica para tudo nos próximos dois anos, não vejo isso acontecendo ainda. Acho que ainda estamos a alguns anos de algo como AGI acontecer”, disse ele. “Vai mudar as coisas… ao longo da próxima década, então, no médio a longo prazo. É um desses momentos interessantes no tempo.”
O Google lançou o Vertex AI lá em 2021 como uma plataforma para desenvolvedores construírem serviços de aprendizado de máquina na nuvem. Isso, claro, muito antes da explosão de interesse em IA, e especificamente IA generativa, que veio com o lançamento dos serviços GPT da OpenAI.
Desde então, a empresa tem se aprofundado no Vertex AI, em parte, enquanto tenta alcançar outras empresas como Microsoft e Amazon que estão construindo ferramentas de IA generativa para desenvolvedores. Além de construir IA generativa em cima do Gemini, os desenvolvedores podem usar o Vertex AI para classificar dados, treinar modelos e configurar modelos de treinamento para produção. Será interessante ver se ele se expandirá para modelos além daqueles criados pelo próprio Google.
O Google tem construído serviços de voz “Chirp” há anos, voltando a usar o nome como um codinome para seus esforços iniciais para competir contra o serviço Alexa da Amazon.