DeepMind e Hugging Face lançam SynthID para marcar texto gerado por LLM

25 de outubro de 2024 12:36 PM

Google DeepMind e Hugging Face acabaram de lançar o SynthID Text, uma ferramenta para marcar e detectar texto gerado por grandes modelos de linguagem (LLMs). O SynthID Text codifica uma marca d’água no texto gerado por IA de uma maneira que ajuda a determinar se um LLM específico o produziu. Mais importante ainda, ele faz isso sem modificar como o LLM subjacente funciona ou reduzir a qualidade do texto gerado.

A técnica por trás do SynthID Text foi desenvolvida por pesquisadores da DeepMind e apresentada em um artigo publicado na Nature em 23 de outubro. Uma implementação do SynthID Text foi adicionada à biblioteca Transformers da Hugging Face, que é usada para criar aplicações baseadas em LLM. Vale ressaltar que o SynthID não é destinado a detectar qualquer texto gerado por um LLM. Ele foi projetado para marcar a saída de um LLM específico.

Usar o SynthID não requer o re-treinamento do LLM subjacente. Ele utiliza um conjunto de parâmetros que pode configurar o equilíbrio entre a força da marca d’água e a preservação da resposta. Uma empresa que utiliza LLMs pode ter diferentes configurações de marca d’água para diferentes modelos. Essas configurações devem ser armazenadas de forma segura e privada para evitar que sejam replicadas por outros.

Para cada configuração de marca d’água, é necessário treinar um modelo classificador que receba uma sequência de texto e determine se ela contém a marca d’água do modelo ou não. Detectores de marcas d’água podem ser treinados com alguns milhares de exemplos de texto normal e respostas que foram marcadas com a configuração especificada.

A marca d’água é uma área ativa de pesquisa, especialmente com o aumento e a adoção de LLMs em diferentes campos e aplicações. Empresas e instituições estão procurando maneiras de detectar texto gerado por IA para prevenir campanhas de desinformação em massa, moderar conteúdo gerado por IA e prevenir o uso de ferramentas de IA na educação.

Várias técnicas existem para marcar texto gerado por LLM, cada uma com limitações. Algumas exigem a coleta e armazenamento de informações sensíveis, enquanto outras requerem processamento computacionalmente caro após o modelo gerar sua resposta.

O SynthID utiliza “modelagem generativa”, uma classe de técnicas de marca d’água que não afetam o treinamento do LLM e apenas modificam o procedimento de amostragem do modelo. As técnicas de marca d’água generativa modificam o procedimento de geração do próximo token para fazer alterações sutis e específicas ao contexto no texto gerado. Essas modificações criam uma assinatura estatística no texto gerado enquanto mantêm sua qualidade.

Um modelo classificador é então treinado para detectar a assinatura estatística da marca d’água para determinar se uma resposta foi gerada pelo modelo ou não. Um benefício chave dessa técnica é que a detecção da marca d’água é computacionalmente eficiente e não requer acesso ao LLM subjacente.

O processo do SynthID Text constrói sobre trabalhos anteriores em marca d’água generativa e utiliza um novo algoritmo de amostragem chamado “amostragem de torneio”, que usa um processo em várias etapas para escolher o próximo token ao criar marcas d’água. A técnica de marca d’água utiliza uma função pseudo-aleatória para aumentar o processo de geração de qualquer LLM de modo que a marca d’água seja imperceptível para humanos, mas visível para um modelo classificador treinado. A integração na biblioteca Hugging Face facilitará para os desenvolvedores adicionar capacidades de marca d’água a aplicações existentes.

Para demonstrar a viabilidade da marca d’água em sistemas de produção em grande escala, pesquisadores da DeepMind realizaram um experimento ao vivo que avaliou o feedback de quase 20 milhões de respostas geradas pelos modelos Gemini. Seus achados mostram que o SynthID conseguiu preservar a qualidade das respostas enquanto também permanecia detectável por seus classificadores.

Segundo a DeepMind, o SynthID-Text foi usado para marcar o Gemini e o Gemini Advanced.

“Isso serve como prova prática de que a marca d’água de texto gerativa pode ser implementada e escalada com sucesso em sistemas de produção do mundo real, servindo milhões de usuários e desempenhando um papel integral na identificação e gestão de conteúdo gerado por inteligência artificial,” escrevem em seu artigo.

Limitações

De acordo com os pesquisadores, o SynthID Text é robusto a algumas transformações pós-geração, como recortar partes do texto ou modificar algumas palavras no texto gerado. Ele também é resiliente a paráfrases até certo ponto.

No entanto, a técnica também tem algumas limitações. Por exemplo, é menos eficaz em consultas que requerem respostas factuais e não tem espaço para modificação sem reduzir a precisão. Eles também alertam que a qualidade do detector de marcas d’água pode cair consideravelmente quando o texto é reescrito completamente.

“O SynthID Text não foi criado para impedir diretamente adversários motivados de causar danos,” escrevem. “No entanto, ele pode dificultar o uso de conteúdo gerado por IA para fins maliciosos, e pode ser combinado com outras abordagens para oferecer uma melhor cobertura em diferentes tipos de conteúdo e plataformas.

Fonte

Compartilhe esse conteúdo: