Na quarta-feira, a Google lançou atualizações para vários de seus modelos de IA geradores de mídia de primeira linha disponíveis através de sua plataforma de nuvem Vertex AI.
Lyria, o modelo de texto para música da Google, agora está disponível em pré-visualização para clientes selecionados, e o modelo de criação de vídeo Veo 2 foi aprimorado com novas opções de edição e personalização de efeitos visuais. A empresa também lançou um recurso de clonagem de voz alimentado pelo Chirp 3, o modelo de compreensão de áudio da Google, para usuários “autorizados”. E o gerador de imagens Imagen 3 agora oferece o que a empresa descreve como um desempenho “significativamente” melhor.
As atualizações, programadas para o Cloud Next, são o mais recente esforço da Google para dominar o mercado empresarial de IA generativa. A empresa compete talvez mais diretamente com a Amazon, que oferece uma plataforma de IA em nuvem comparável chamada Bedrock, com seu próprio conjunto de modelos de IA gerativos proprietários.
A Google está promovendo o Lyria como uma alternativa às bibliotecas de música royalty-free. Usando o modelo, os clientes podem criar músicas em uma variedade de estilos e gêneros, desde solos de piano jazz até faixas lo-fi, disse a empresa.
O Chirp 3, por sua vez, pode sintetizar fala em cerca de 35 idiomas. Primeiro apresentado no início deste ano, o Chirp 3 impulsiona a Voz Personalizada Instantânea, que supostamente pode clonar uma voz com 10 segundos de áudio. Agora está disponível em geral. Este modelo também fundamenta uma nova ferramenta que será lançada em pré-visualização, chamada Transcrição com Diarização, que separa e identifica os falantes em gravações com múltiplos participantes.
Para evitar abusos, a Voz Personalizada Instantânea está sujeita a um processo de “diligência” para verificar as “permissões de uso adequado da voz”, diz a Google.
Quanto ao Veo 2, o modelo agora pode remover imagens de fundo, logotipos e objetos de vídeos existentes, e estender o quadro de filmagens de vídeo (para converter vídeo paisagem em retrato, por exemplo). Ele também pode agora ajustar os ângulos de câmera e o ritmo em cenas geradas por IA para criar timelapses, clipes estilo drone e mais, e pode interpolar entre quadros de início e fim especificados.
Esses recursos do Veo estão disponíveis em pré-visualização por enquanto.
Quanto às atualizações mencionadas do Imagen 3, a Google disse que elas melhoram a capacidade do modelo de remover objetos e reconstruir porções ausentes ou danificadas de imagens.
Toda a mídia gerada pelo Imagen, Veo e Lyria (mas não pelo Chirp) é marcada com a tecnologia SynthID da Google. A empresa disse que todos os seus modelos de IA gerativa têm “salvaguardas embutidas” para proteger contra a criação de conteúdo prejudicial.
A Google não indicou historicamente quais dados específicos usa para treinar seus modelos, e o gigante da tecnologia manteve esse precedente hoje. Os dados de treinamento tendem a ser um assunto controverso por razões relacionadas à propriedade intelectual. Algumas empresas treinam seus modelos em obras protegidas por direitos autorais sem obter permissão prévia dos detentores de direitos. Embora essas empresas aleguem que a doutrina de uso justo dos EUA protege a prática, alguns criadores, compreensivelmente, discordam. Muitos estão processando fornecedores em tribunal.
A Google já disse ao TechCrunch que oferece mecanismos de exclusão para o treinamento de modelos, bem como uma política de indenização para proteger os clientes do Google Cloud e do Vertex AI de disputas de direitos autorais relacionadas à IA.