Imagine ir ao médico, contar exatamente como você está se sentindo e então uma transcrição posteriormente adicionar informações falsas e alterar sua história. Esse pode ser o caso em centros médicos que usam o Whisper, a ferramenta de transcrição da OpenAI. Mais de uma dúzia de desenvolvedores, engenheiros de software e pesquisadores acadêmicos encontraram evidências de que o Whisper cria alucinações — texto inventado — que inclui medicamentos fictícios, comentários raciais e observações violentas, reporta a ABC News.
No último mês, a plataforma de IA de código aberto HuggingFace viu 4,2 milhões de downloads da versão mais recente do Whisper. A ferramenta também está integrada às plataformas de computação em nuvem da Oracle e da Microsoft, junto com algumas versões do ChatGPT.
As evidências prejudiciais são bastante extensas, com especialistas encontrando falhas significativas no Whisper em todos os aspectos. Pegue um pesquisador da Universidade de Michigan que encontrou texto inventado em oito em cada dez transcrições de áudio de reuniões públicas. Em outro estudo, cientistas da computação encontraram 187 alucinações ao analisar mais de 13.000 gravações de áudio. A tendência continua: um engenheiro de aprendizado de máquina as encontrou em cerca de metade de mais de 100 horas de transcrições, enquanto um desenvolvedor notou alucinações em quase todas as 26.000 transcrições que fez o Whisper criar.
O perigo potencial se torna ainda mais claro ao olhar para exemplos específicos dessas alucinações. Duas professoras, Allison Koenecke e Mona Sloane da Universidade de Cornell e da Universidade da Virgínia, respectivamente, olharam clipes de um repositório de pesquisa chamado TalkBank. A dupla descobriu que quase 40% das alucinações tinham o potencial de serem mal interpretadas ou mal representadas. Em um caso, o Whisper inventou que três pessoas mencionadas eram negras. Em outro, o Whisper alterou “Ele, o menino, ia, não tenho certeza exatamente, pegar o guarda-chuva.” para “Ele pegou um grande pedaço de uma cruz, um pequeno pedaço… Tenho certeza de que ele não tinha uma faca de terror, então matou várias pessoas.”
As alucinações do Whisper também têm implicações médicas arriscadas. Uma empresa chamada Nabla utiliza o Whisper para sua ferramenta de transcrição médica, usada por mais de 30.000 clínicos e 40 sistemas de saúde — até agora transcrevendo cerca de sete milhões de visitas. Embora a empresa esteja ciente do problema e afirma estar lidando com ele, atualmente não há como verificar a validade das transcrições. A ferramenta apaga todo o áudio por “razões de segurança de dados”, de acordo com o diretor de tecnologia da Nabla, Martin Raison. A empresa também afirma que os provedores devem rapidamente editar e aprovar as transcrições (com todo o tempo extra que os médicos têm?), mas que esse sistema pode mudar. Enquanto isso, ninguém mais pode confirmar se as transcrições são precisas devido às leis de privacidade.