O Google está tornando o SynthID Text, sua tecnologia que permite aos desenvolvedores marcar e detectar texto gerado por modelos de IA generativa, disponível ao público.
O SynthID Text pode ser baixado da plataforma de IA Hugging Face e do Kit de Ferramentas GenAI Responsável atualizado do Google.
“Hoje, estamos disponibilizando como código aberto nossa ferramenta de marcação SynthID Text”, escreveu a empresa em uma postagem no X. “Disponível gratuitamente para desenvolvedores e empresas, ajudará a identificar seu conteúdo gerado por IA.”
Como funciona?
Dado um prompt como “Qual é sua fruta favorita?”, modelos de geração de texto preveem qual “token” é mais provável de seguir outro — um token de cada vez. Tokens são os blocos de construção que um modelo generativo usa para processar informações. Eles podem ser um único caractere, palavra ou parte de uma frase.
O modelo atribui a cada token possível uma pontuação, que é a porcentagem de chance de ser incluído no texto gerado. O SynthID Text insere dados adicionais nessa distribuição de tokens, “modulando a probabilidade de tokens serem gerados”, diz o Google.
“O padrão final de pontuações para as escolhas de palavras do modelo, combinado com as pontuações de probabilidade ajustadas, é considerado a marca d’água”, escreveu a empresa em um post no blog. “Esse padrão de pontuações é comparado com o padrão esperado de pontuações para textos com e sem marca d’água, ajudando o SynthID a detectar se uma ferramenta de IA gerou o texto ou se pode vir de outras fontes.”
O Google afirma que o SynthID Text, que foi integrado aos seus modelos Gemini desde a primavera, não compromete a qualidade, precisão ou velocidade da geração de texto e funciona mesmo em textos que foram cortados, parafraseados ou modificados.
Mas a empresa também admite que sua tecnologia de marcação tem limitações.
Por exemplo, o SynthID Text não funciona tão bem com textos curtos ou textos que foram reescritos ou traduzidos de outra língua, e com respostas a perguntas factuais. “Em respostas a prompts factuais, há menos oportunidades de ajustar a distribuição de tokens sem afetar a precisão factual”, explica a empresa. “Isso inclui prompts como ‘Qual é a capital da França?’ ou consultas onde pouca ou nenhuma variação é esperada, como ‘recite um poema de William Wordsworth.'”
O Google não é a única empresa trabalhando em tecnologia de marcação de texto de IA. A OpenAI pesquisa métodos de marcação há anos, mas adiou seu lançamento devido a preocupações técnicas e comerciais.