Em uma colaboração que parece saída da ficção científica, mas que está muito enraizada em décadas de ciência oceânica, o Google se uniu a biólogos marinhos e pesquisadores de IA para construir um modelo de linguagem grande projetado não para conversar com humanos, mas com golfinhos.
O modelo é o DolphinGemma, um LLM de ponta treinado para reconhecer, prever e eventualmente gerar vocalizações de golfinhos, na tentativa de não apenas decifrar o código sobre como os cetáceos se comunicam entre si, mas também como poderíamos nos comunicar com eles. Desenvolvido em parceria com o Wild Dolphin Project (WDP) e pesquisadores do Georgia Tech, o modelo representa o mais recente marco em uma busca que está em andamento há mais de 40 anos.
Uma imersão em uma comunidade de golfinhos
Desde 1985, o WDP realiza o estudo subaquático mais longo do mundo sobre golfinhos. O projeto investiga um grupo de golfinhos manchados do Atlântico (S. frontalis) nas Bahamas. Ao longo das décadas, a equipe coletou dados de áudio e vídeo subaquáticos de forma não invasiva, que estão associados a golfinhos individuais no grupo, detalhando aspectos das relações e histórias de vida dos animais.
O projeto gerou um conjunto de dados extraordinário—um repleto de 41 anos de emparelhamentos som-sonho, como zumbidos de cortejo, gritos agressivos usados em altercações cetáceas e “apitos de assinatura” que atuam como etiquetas de nome para golfinhos.
Esse tesouro de vocalizações rotuladas deu aos pesquisadores do Google o que precisavam para treinar um modelo de IA projetado para fazer com os sons dos golfinhos o que o ChatGPT faz com palavras. Assim nasceu o DolphinGemma: um modelo de aproximadamente 400 milhões de parâmetros construído com a mesma pesquisa que alimenta os modelos Gemini do Google.
O DolphinGemma é áudio de entrada, áudio de saída—o modelo “ouve” as vocalizações dos golfinhos e prevê qual som vem a seguir—essencialmente aprendendo a estrutura da comunicação dos golfinhos.
IA e comunicação animal
Modelos de inteligência artificial estão mudando a velocidade com que os especialistas podem decifrar a comunicação animal. Tudo sob o sol—desde latidos de cães até assobios de pássaros—é facilmente alimentado em modelos de linguagem grandes que podem usar reconhecimento de padrões e qualquer contexto relevante para filtrar o ruído e positivar o que os animais estão “dizendo”.
No ano passado, pesquisadores da Universidade de Michigan, do Instituto Nacional de Astrofísica do México e do Instituto de Óptica e Eletrônica usaram um modelo de fala de IA para identificar emoções, gênero e identidade de cães a partir de um conjunto de dados de latidos.
Cetáceos, um grupo que inclui golfinhos e baleias, são um alvo especialmente bom para interpretação alimentada por IA devido aos seus estilos de vida e à forma como se comunicam. Por um lado, baleias e golfinhos são criaturas sociais sofisticadas, o que significa que sua comunicação está repleta de nuances. Mas os cliques e assobios estridentes que os animais usam para se comunicar também são fáceis de gravar e alimentar em um modelo que pode desvendar a “gramática” dos sons dos animais. No último mês de maio, por exemplo, a organização sem fins lucrativos Project CETI usou ferramentas de software e aprendizado de máquina em uma biblioteca de 8.000 codas de baleias espermacete e encontrou padrões de ritmo e tempo que permitiram aos pesquisadores criar o alfabeto fonético das baleias.
Falando com golfinhos com um smartphone
O modelo DolphinGemma pode gerar novos sons semelhantes a golfinhos nos padrões acústicos corretos, potencialmente ajudando os humanos a se envolverem em trocas simplificadas em tempo real com golfinhos. Essa comunicação bidirecional depende do que um blog do Google se referiu como Telemetria de Aumento da Audição Cetácea, ou CHAT—um computador subaquático que gera sons de golfinhos que o sistema associa a objetos que os golfinhos gostam e com os quais interagem regularmente, incluindo ervas marinhas e lenços dos pesquisadores.
“Demonstrando o sistema entre humanos, os pesquisadores esperam que os golfinhos naturalmente curiosos aprendam a imitar os assobios para solicitar esses itens”, afirmou o blog do Google Keyword. “Eventualmente, à medida que mais dos sons naturais dos golfinhos forem compreendidos, eles também podem ser adicionados ao sistema.”
O CHAT é instalado em smartphones modificados, e a ideia dos pesquisadores é usá-lo para criar um vocabulário básico compartilhado entre golfinhos e humanos. Se um golfinho imitar um assobio sintético associado a um brinquedo, um pesquisador pode responder entregando-o—meio que como um charadas de golfinhos, com a nova tecnologia atuando como intermediária.
Futuras iterações do CHAT incluirão mais poder de processamento e algoritmos mais inteligentes, permitindo respostas mais rápidas e interações mais claras entre os golfinhos e seus contrapartes humanos. Claro, isso é facilmente dito para ambientes controlados—mas levanta sérias considerações éticas sobre como interagir com golfinhos na natureza, caso os métodos de comunicação se tornem mais sofisticados.
Um verão de ciência dos golfinhos
O Google planeja lançar o DolphinGemma como um modelo aberto neste verão, permitindo que pesquisadores que estudam outras espécies, incluindo golfinhos-nariz-de-garrafa ou golfinhos giradores, o apliquem de forma mais ampla. O DolphinGemma pode ser um passo significativo em direção à melhor compreensão de um dos rostos mamíferos mais familiares do oceano.
Ainda não estamos prontos para uma palestra TED de golfinhos, mas a possibilidade de comunicação bidirecional é um indicador tentador do que os modelos de IA podem tornar possível.