Hospitais usam uma ferramenta de transcrição alimentada por um modelo propenso a alucinações da OpenAI

Há alguns meses, meu médico mostrou uma ferramenta de transcrição de IA que ele usava para gravar e resumir suas reuniões com pacientes. No meu caso, o resumo estava bom, mas pesquisadores citados pela ABC News descobriram que isso nem sempre é verdade com o Whisper da OpenAI, que alimenta uma ferramenta usada por muitos hospitais — às vezes, simplesmente inventa coisas.

O Whisper é usado por uma empresa chamada Nabla para uma ferramenta de transcrição médica que estima ter transcrito 7 milhões de conversas médicas, de acordo com a ABC News. Mais de 30.000 clínicos e 40 sistemas de saúde a utilizam, escreve o veículo. A Nabla está ciente de que o Whisper pode alucinar e está “abordando o problema”.

Um grupo de pesquisadores da Universidade de Cornell, da Universidade de Washington e de outras instituições descobriu em um estudo que o Whisper alucina em cerca de 1% das transcrições, inventando frases inteiras com sentimentos violentos ou expressões sem sentido durante os silêncios nas gravações. Os pesquisadores, que coletaram amostras de áudio do AphasiaBank do TalkBank como parte do estudo, observam que o silêncio é particularmente comum quando alguém com um distúrbio de linguagem chamado afasia está falando.

Uma das pesquisadoras, Allison Koenecke da Universidade de Cornell, postou exemplos como o abaixo em um thread sobre o estudo.

Os pesquisadores descobriram que as alucinações também incluíam condições médicas inventadas ou frases que você poderia esperar de um vídeo do YouTube, como “Obrigado por assistir!” (A OpenAI supostamente usou para transcrever mais de um milhão de horas de vídeos do YouTube para treinar o GPT-4.)

O estudo foi apresentado em junho na conferência FAccT da Association for Computing Machinery no Brasil. Não está claro se foi revisado por pares.

Fonte

Compartilhe esse conteúdo: