Em tempo para o Halloween de 2024, a Meta revelou o Meta Spirit LM, o primeiro modelo de linguagem multimodal open-source da empresa, capaz de integrar de forma contínua entradas e saídas de texto e fala.
Como tal, compete diretamente com o GPT-4o da OpenAI (também nativamente multimodal) e outros modelos multimodais, como o EVI 2 da Hume, além de ofertas dedicadas de texto-para-fala e fala-para-texto, como o ElevenLabs.
Desenvolvido pela equipe de Pesquisa em IA Fundamental (FAIR) da Meta, o Spirit LM visa abordar as limitações das experiências de voz em IA existentes, oferecendo uma geração de fala mais expressiva e natural, enquanto aprende tarefas em várias modalidades, como reconhecimento automático de fala (ASR), texto-para-fala (TTS) e classificação de fala.
Infelizmente para empreendedores e líderes empresariais, o modelo está atualmente disponível apenas para uso não comercial sob a Licença de Pesquisa Não Comercial da FAIR da Meta, que concede aos usuários o direito de usar, reproduzir, modificar e criar obras derivadas dos modelos Meta Spirit LM, mas apenas para fins não comerciais. Qualquer distribuição desses modelos ou derivados também deve cumprir a restrição não comercial.
Uma nova abordagem para texto e fala
Modelos tradicionais de IA para voz dependem do reconhecimento automático de fala para processar a entrada falada antes de sintetizá-la com um modelo de linguagem, que é então convertido em fala usando técnicas de texto-para-fala. Embora eficaz, esse processo muitas vezes sacrifica as qualidades expressivas inerentes à fala humana, como tom e emoção. O Meta Spirit LM introduz uma solução mais avançada ao incorporar tokens fonéticos, de pitch e de tom para superar essas limitações.
A Meta lançou duas versões do Spirit LM:
• Spirit LM Base: Usa tokens fonéticos para processar e gerar fala.
• Spirit LM Expressive: Inclui tokens adicionais para pitch e tom, permitindo que o modelo capture estados emocionais mais sutis, como excitação ou tristeza, e os reflita na fala gerada.
Ambos os modelos são treinados em uma combinação de conjuntos de dados de texto e fala, permitindo que o Spirit LM execute tarefas cross-modal como fala-para-texto e texto-para-fala, enquanto mantém a expressividade natural da fala em suas saídas.
Open-source não comercial — disponível apenas para pesquisa
Em linha com o compromisso da Meta com a ciência aberta, a empresa tornou o Spirit LM totalmente open-source, fornecendo aos pesquisadores e desenvolvedores os pesos do modelo, código e documentação de suporte para construir sobre isso.
A Meta espera que a natureza aberta do Spirit LM incentive a comunidade de pesquisa em IA a explorar novos métodos para integrar fala e texto em sistemas de IA.
O lançamento também inclui um artigo de pesquisa detalhando a arquitetura e as capacidades do modelo.
Mark Zuckerberg, CEO da Meta, tem sido um forte defensor da IA open-source, afirmando em uma carta aberta recente que a IA tem o potencial de “aumentar a produtividade humana, criatividade e qualidade de vida” enquanto acelera os avanços em áreas como pesquisa médica e descoberta científica.
Aplicações e potencial futuro
O Meta Spirit LM é projetado para aprender novas tarefas em várias modalidades, como:
• Reconhecimento Automático de Fala (ASR): Convertendo linguagem falada em texto escrito.
• Texto-para-Fala (TTS): Gerando linguagem falada a partir de texto escrito.
• Classificação de Fala: Identificando e categorizando a fala com base em seu conteúdo ou tom emocional.
O modelo Spirit LM Expressive vai um passo além ao incorporar pistas emocionais em sua geração de fala. Por exemplo, ele pode detectar e refletir estados emocionais como raiva, surpresa ou alegria em sua saída, tornando a interação com a IA mais parecida com a humana e envolvente.
Isso tem implicações significativas para aplicações como assistentes virtuais, bots de atendimento ao cliente e outros sistemas interativos de IA onde uma comunicação mais sutil e expressiva é essencial.
Um esforço mais amplo
O Meta Spirit LM é parte de um conjunto mais amplo de ferramentas e modelos de pesquisa que a Meta FAIR está liberando ao público. Isso inclui uma atualização do Modelo Segment Anything 2.1 (SAM 2.1) da Meta para segmentação de imagem e vídeo, que tem sido usado em disciplinas como imagem médica e meteorologia, e pesquisa sobre como aumentar a eficiência de grandes modelos de linguagem.
O objetivo geral da Meta é alcançar inteligência de máquina avançada (AMI), com ênfase no desenvolvimento de sistemas de IA que sejam poderosos e acessíveis.
A equipe FAIR tem compartilhado sua pesquisa por mais de uma década, visando avançar a IA de uma maneira que beneficie não apenas a comunidade tecnológica, mas a sociedade como um todo. O Spirit LM é um componente chave desse esforço, apoiando a ciência aberta e a reprodutibilidade enquanto empurra os limites do que a IA pode alcançar em processamento de linguagem natural.
O que vem a seguir para o Spirit LM?
Com o lançamento do Meta Spirit LM, a Meta está dando um passo significativo na integração de fala e texto em sistemas de IA. Ao oferecer uma abordagem mais natural e expressiva para a fala gerada por IA, e tornando o modelo open-source, a Meta está permitindo que a comunidade de pesquisa mais ampla explore novas possibilidades para aplicações de IA multimodal. Seja em ASR, TTS ou além, o Spirit LM representa um avanço promissor no campo do aprendizado de máquina, com o potencial de impulsionar uma nova geração de interações de IA mais parecidas com as humanas.