O Projeto Super Sonic da Adobe usa IA para gerar efeitos sonoros para seus vídeos

Criar vídeos envolventes não é apenas sobre os visuais. Muito do apelo de um bom conteúdo em vídeo está sobre o áudio, mas encontrar (ou talvez até criar) os efeitos de áudio certos pode ser um processo que consome tempo. Na sua conferência anual Max, a Adobe está apresentando o Projeto Super Sonic, uma demonstração de protótipo experimental que mostra como você poderia um dia usar texto para áudio, reconhecimento de objetos e até mesmo sua própria voz para gerar rapidamente áudio de fundo e efeitos sonoros para seus projetos de vídeo.

Ser capaz de gerar efeitos de áudio a partir de um prompt de texto é divertido, mas dado que a ElevenLabs e outros já oferecem isso comercialmente, pode não ser tão inovador.

O que é mais interessante aqui é que a Adobe está levando tudo isso um passo adiante, adicionando dois modos adicionais para criar essas trilhas sonoras. O primeiro é usando seus modelos de reconhecimento de objetos para permitir que você clique em qualquer parte de um quadro de vídeo, crie um prompt para você e, em seguida, gere esse som. Essa é uma maneira inteligente de combinar vários modelos em um único fluxo de trabalho.

O verdadeiro momento de surpresa, no entanto, vem com o terceiro modo, que permite que você grave a si mesmo imitando os sons que está procurando (sincronizado com o vídeo) e, em seguida, faça o Projeto Super Sonic gerar automaticamente o áudio apropriado.

Justin Salamon, o chefe de Design de Som AI da Adobe, me disse que a equipe começou com o modelo de texto para áudio — e ele observou que, como todos os projetos de IA generativa da Adobe, a equipe usou apenas dados licenciados.

“O que realmente queríamos era dar aos nossos usuários controle sobre o processo. Queremos que isso seja uma ferramenta para criadores, para designers de som, para todos que desejam elevar seu vídeo com som. E por isso queríamos ir além do fluxo de trabalho inicial de texto para som e é por isso que trabalhamos em um controle vocal que realmente dá a você esse controle preciso sobre energia e tempo, que realmente o transforma em uma ferramenta expressiva”, explicou Salamon.

Para o controle vocal, a ferramenta analisa as diferentes características da voz e o espectro do som que você está fazendo e usa isso para guiar o processo de geração. Salamon observou que, enquanto a demonstração usa a voz, os usuários também poderiam bater palmas ou tocar um instrumento, também.

Vale a pena notar que o Adobe Max sempre apresenta uma série do que chama de ‘sneaks’. Estes, como o Projeto Super Sonic, são destinados a ser mostras de alguns dos recursos experimentais que a empresa está trabalhando atualmente. Embora muitos desses projetos encontrem seu caminho para a Creative Suite da Adobe, não há garantia de que o farão. E enquanto o Projeto Super Sonic certamente seria uma adição útil a algo como o Adobe Premiere, também há a chance de que nunca o vejamos novamente.

Uma razão pela qual acredito que este projeto fará parte da produção é que o mesmo grupo também trabalhou na parte de áudio do Generative Extend, um recurso de seu modelo de IA generativa Firefly que estende clipes de vídeo curtos por alguns segundos — incluindo sua trilha sonora. Até agora, no entanto, o Projeto Super Sonic permanece uma demonstração.

Fonte