As empresas que buscam usar modelos de IA para transcrever áudio, especificamente a fala humana de executivos, funcionários e clientes, podem ficar receosas com a ideia de um programa de IA ouvindo e gravando informações sensíveis.
No entanto, a startup israelense de IA de áudio aiOla tem um novo modelo que aborda essa preocupação. Construído sobre o modelo de código aberto Whisper, padrão da indústria da OpenAI, o novo Whisper-NER da aiOla é totalmente de código aberto e está disponível agora no Hugging Face e no Github para organizações empresariais e indivíduos utilizarem, adaptarem, modificarem e implementarem.
Ele integra reconhecimento automático de fala (ASR) com reconhecimento de entidade nomeada (NER). Esta inovação visa melhorar a privacidade, identificando e ocultando automaticamente informações sensíveis, como nomes, números de telefone e endereços, durante o processo de transcrição.
Um modelo de demonstração está disponível para os usuários testarem no Hugging Face, permitindo que eles gravem trechos de fala e façam o modelo ocultar palavras específicas que digitam na transcrição resultante. O modelo funcionou com sucesso em meu breve teste de ocultar a palavra “VentureBeat” na minha fala, que é um substantivo próprio e jargão.
O Whisper-NER aborda um desafio significativo na transcrição de conteúdo falado: garantir a privacidade e conformidade com as regulamentações de proteção de dados. O modelo processa arquivos de áudio e aplica simultaneamente NER para marcar ou ocultar tipos específicos de informações sensíveis diretamente dentro do pipeline de transcrição. Ao contrário de sistemas tradicionais de múltiplas etapas, que deixam os dados expostos durante as etapas intermediárias de processamento, o Whisper-NER elimina a necessidade de ferramentas separadas de ASR e NER, reduzindo a vulnerabilidade a violações.
“Desenhamos isso como uma ferramenta de código aberto para avançar na privacidade em IA,” disse Gill Hetz, vice-presidente de pesquisa da aiOla, em uma recente entrevista por vídeo com a VentureBeat. “Isso ajuda os usuários a ocultar dados sensíveis sem precisar de etapas adicionais de software.”
Anteriormente, a aiOla foi reconhecida por lançar variantes do Whisper que podiam reconhecer jargões específicos da indústria com precisão e confiabilidade e também um modelo de reconhecimento de fala e conversão de fala para texto muito mais rápido.
Totalmente de Código Aberto para Uso Comunitário e Comercial
O Whisper-NER é totalmente de código aberto e está disponível sob a Licença MIT, permitindo que os usuários adotem, modifiquem e implementem livremente, inclusive para aplicações comerciais.
O modelo pode ser acessado no GitHub e Hugging Face, garantindo que suas capacidades avançadas estejam amplamente disponíveis. Uma demonstração também é fornecida para ajudar os usuários a explorar sua funcionalidade e adaptabilidade.
O lançamento de código aberto está alinhado com a filosofia da aiOla de fomentar a colaboração e a inovação.
“A IA avança quando as pessoas colaboram,” disse Hetz. “É por isso que fizemos este modelo de código aberto—para encorajar a adoção e a melhoria pela comunidade.”
Inovação em Fala e Privacidade de Dados
Construído sobre a estrutura Whisper da OpenAI, o Whisper-NER foi treinado em um conjunto de dados sintético que combina fala sintética e conjuntos de dados de NER baseados em texto. Essa abordagem de treinamento única permitiu que o modelo lidasse com tarefas de transcrição e reconhecimento de entidades simultaneamente, oferecendo superioridade em precisão.
“Em vez de separar a transcrição ASR e a extração de entidade NLP [processamento de linguagem natural], resolvemos ambos em um único bloco,” disse Hetz. “Ao extrair texto, o modelo identifica simultaneamente entidades especificadas.”
Essa abordagem integrada, descrita em um artigo de pesquisa publicado no site de acesso aberto e não revisado por pares arXiv.org, não apenas simplifica os fluxos de trabalho, mas também melhora significativamente a segurança dos dados.
Além disso, o Whisper-NER suporta aprendizado de zero-shot, permitindo que reconheça e oculte tipos de entidades que não foram explicitamente incluídas durante o treinamento.
A flexibilidade do Whisper-NER torna-o adequado para uma variedade de casos de uso, incluindo monitoramento de conformidade, gestão de inventário, garantia de qualidade e muito mais.
Para aplicações que não requerem ocultação, o modelo pode ser configurado para simplesmente marcar entidades sensíveis, proporcionando às organizações opções personalizáveis para atender às suas necessidades.
“Indústrias altamente regulamentadas, como saúde e direito, se beneficiam mais de nossa abordagem focada na privacidade, mas até mesmo empresas com dados sensíveis limitados podem usar essa tecnologia,” disse Hetz.
IA Ética e Adaptabilidade
O Whisper-NER representa um avanço no desenvolvimento de IA ética ao permitir uma transcrição segura e focada na privacidade. Sua disponibilidade de código aberto garante que desenvolvedores, pesquisadores e organizações possam incorporar livremente o modelo em suas operações. Ao reduzir os riscos associados a violações de dados, ele se alinha com a crescente demanda por soluções seguras e impulsionadas por IA em indústrias como saúde, jurídica e atendimento ao cliente.
“Esta versão, construída sobre o Whisper, é melhor para inglês, mas suporta vários idiomas. Contribuidores de código aberto podem adaptá-la ainda mais para diversos idiomas e jargões,” explicou Hetz. A aiOla incentiva contribuições globais para estender o alcance e a funcionalidade do modelo.
Com o Whisper-NER agora disponível ao público, a aiOla reforça seu compromisso em criar ferramentas de IA responsáveis que priorizam a privacidade e a segurança dos usuários, ao mesmo tempo em que fomentam a colaboração e a inovação por meio do acesso aberto.