A Meta lançou uma implementação “aberta” do recurso viral de gerar um podcast no NotebookLM do Google.
Chamado de NotebookLlama, o projeto utiliza os próprios modelos Llama da Meta para grande parte do processamento, como era de se esperar. Assim como o NotebookLM, ele pode gerar resumos em estilo de podcast, de perguntas e respostas, a partir de arquivos de texto enviados a ele.
O NotebookLlama primeiro cria uma transcrição de um arquivo — por exemplo, um PDF de um artigo de notícias ou post de blog. Em seguida, adiciona “mais dramatização” e interrupções antes de alimentar a transcrição em modelos abertos de texto-para-fala.
Os resultados não soam tão bons quanto os do NotebookLM. Nos samples do NotebookLlama que ouvi, as vozes têm uma qualidade claramente robótica e tendem a falar umas sobre as outras em pontos estranhos.
Mas os pesquisadores da Meta por trás do projeto dizem que a qualidade poderia ser melhorada com modelos mais fortes. “O modelo de texto-para-fala é a limitação de quão natural isso vai soar”, escreveram na página do GitHub do NotebookLlama. “[Além disso,] outra abordagem para escrever o podcast seria ter dois agentes debatendo o tópico de interesse e escrevendo o esboço do podcast. No momento, usamos um único modelo para escrever o esboço do podcast.”
NotebookLlama não é a primeira tentativa de replicar o recurso de podcast do NotebookLM. Alguns projetos tiveram mais sucesso do que outros. Mas nenhum — nem mesmo o NotebookLM — conseguiu resolver o problema da alucinação que aflige toda a IA. Ou seja, podcasts gerados por IA estão condenados a conter algumas informações inventadas.