Imagine que você conhece alguém novo. Seja em um aplicativo de namoro ou nas redes sociais, vocês se deparam online e começam a conversar. Eles são genuínos e relacionáveis, então você rapidamente leva a conversa para uma plataforma como Telegram ou WhatsApp. Vocês trocam fotos e até fazem chamadas de vídeo um para o outro. Você começa a se sentir à vontade. Então, de repente, eles trazem à tona o assunto do dinheiro.
Eles precisam que você cubra o custo do acesso à internet, talvez. Ou estão experimentando essa nova criptomoeda. Você realmente deveria entrar nisso cedo! E então, só depois que é tarde demais, você percebe que a pessoa com quem estava falando não era real.
Na verdade, era um deepfake gerado por IA em tempo real escondendo o rosto de alguém que está aplicando um golpe.
Esse cenário pode parecer distópico ou de ficção científica demais para ser verdade, mas já aconteceu com inúmeras pessoas. Com o aumento das capacidades da IA generativa nos últimos anos, os golpistas agora podem criar rostos e vozes falsas realistas para mascarar os seus em tempo real. E os especialistas alertam que esses deepfakes podem potencializar uma variedade vertiginosa de golpes online, desde romance até emprego e fraude fiscal.
David Maimon, chefe de insights de fraude na empresa de verificação de identidade SentiLink e professor de criminologia na Georgia State University, tem acompanhado a evolução dos golpes românticos com IA e outros tipos de fraude com IA nos últimos seis anos. “Estamos vendo um aumento dramático no volume de deepfakes, especialmente em comparação com 2023 e 2024”, diz Maimon.
“Não era muito. Estávamos falando de talvez quatro ou cinco por mês”, diz ele. “Agora, estamos vendo centenas desses mensalmente, o que é impressionante.”
Deepfakes já estão sendo usados em uma variedade de golpes online. Um trabalhador financeiro em Hong Kong, por exemplo, pagou US$ 25 milhões a um golpista que se apresentou como o diretor financeiro da empresa em uma chamada de vídeo com deepfake. Alguns golpistas deepfake até postaram vídeos instrutivos no YouTube, que têm um aviso de que são para “pegadinhas e propósitos educacionais apenas.” Esses vídeos geralmente começam com uma chamada de golpe romântico, onde um jovem bonito gerado por IA está conversando com uma mulher mais velha.
Deepfakes mais tradicionais—como um vídeo pré-renderizado de uma celebridade ou político, em vez de um falso ao vivo—também se tornaram mais prevalentes. No ano passado, um aposentado na Nova Zelândia perdeu cerca de US$ 133.000 em um golpe de investimento em criptomoedas após ver um anúncio no Facebook com um deepfake do primeiro-ministro do país encorajando as pessoas a investirem.
Maimon diz que a SentiLink começou a ver deepfakes sendo usados para criar contas bancárias para alugar um apartamento ou se envolver em fraude de reembolso de impostos. Ele diz que um número crescente de empresas também viu deepfakes em entrevistas de emprego por vídeo.
“Qualquer coisa que exija que as pessoas estejam online e que suporte a oportunidade de trocar rostos com alguém—isso estará disponível e aberto para que fraudes se aproveitem disso”, diz Maimon.
Parte da razão para esse aumento é que as barreiras para criar deepfakes estão diminuindo. Existem muitas ferramentas de IA facilmente acessíveis que podem gerar rostos realistas e muitas ferramentas que podem animar esses rostos ou criar vídeos completos a partir deles. Os golpistas costumam usar imagens e vídeos de pessoas reais, deepfaked para mudar levemente seus rostos ou alterar o que estão dizendo, para atingir seus entes queridos ou sequestrar sua influência pública.
Matt Groh, professor de gestão na Northwestern University que pesquisa a capacidade das pessoas de detectar deepfakes, diz que ferramentas de IA generativa de ponto e clique tornam muito mais fácil fazer pequenas mudanças críveis em mídias já existentes.
“Se houver uma imagem sua na internet, isso seria o suficiente para manipular um rosto para parecer que está dizendo algo que você não disse antes ou fazendo algo que você não fez antes”, diz Groh.
Não é apenas vídeo falso que você precisa se preocupar. Com alguns clipes de áudio, também é possível fazer uma cópia crível da voz de alguém. Um estudo de 2023 descobriu que os humanos falharam em detectar áudio deepfake em mais de um quarto das vezes.
“Uma única imagem e cinco segundos de áudio online significam que é definitivamente possível para um golpista criar algum tipo de deepfake realista de você”, diz Groh.
Deepfakes estão se tornando mais presentes em contextos além de golpes diretos. As redes sociais foram inundadas no último ano com “influenciadores” gerados por IA roubando conteúdo de criadores adultos ao deepfak-arem novos rostos em seus corpos e monetizarem os vídeos resultantes. Deepfakes até invadiram a geopolítica, como quando os prefeitos de várias capitais europeias participaram de chamadas de vídeo com uma versão falsa do prefeito de Kyiv, Ucrânia. As pessoas começaram a usar deepfakes por razões pessoais, como trazer de volta um parente falecido ou criar um avatar de uma vítima para testemunhar em tribunal.
Então, se os deepfakes estão em toda parte, como você os identifica? A resposta não é tecnologia. Várias empresas de tecnologia, incluindo a OpenAI, lançaram ferramentas de detecção de deepfake. Pesquisadores também propuseram mecanismos para detectar deepfakes com base em coisas como a luz refletida nos olhos de uma pessoa ou movimentos faciais inconsistentes, e começaram a investigar como implementá-los em tempo real.
Mas esses modelos muitas vezes não conseguem detectar de forma confiável diferentes tipos de falsificações de IA. O modelo da OpenAI, por exemplo, é especificamente projetado apenas para relatar conteúdo gerado com a própria ferramenta Dall-E 3 da empresa, mas não outros modelos de geração de imagem.
Há também o risco de que os golpistas possam abusar dos detectores de IA ajustando repetidamente seu conteúdo até que ele engane o software.
“A principal coisa que temos que entender é que a tecnologia que temos agora não é boa o suficiente para detectar esses deepfakes”, diz Maimon. “Ainda estamos muito atrás.”
Por enquanto, à medida que os deepfakes em vídeo se tornam mais populares, a melhor maneira de detectar um depende dos humanos. Estudos sobre a detecção de deepfake mostram que as pessoas são melhores em distinguir se os vídeos são reais ou falsos, em vez de apenas conteúdo de áudio ou texto, e em alguns casos são até melhores do que os principais modelos de detecção.
A equipe de Groh conduziu um estudo que descobriu que levar mais tempo para determinar se uma imagem era real ou falsa levou a um aumento significativo na precisão, de até oito pontos percentuais com apenas 10 segundos de tempo de visualização.
“Isso parece quase tão simples”, diz Groh. “Mas se você gastar apenas alguns segundos a mais, isso leva a taxas muito mais altas de conseguir distinguir uma imagem como real ou falsa. Uma das maneiras para qualquer pessoa comum ser um pouco menos suscetível a um golpe é perguntar: ‘Isso parece realmente real?’ E se você apenas fizer isso por alguns segundos a mais, todos nós estaremos um pouco melhor.”
A popularidade dos deepfakes pode ser uma espada de dois gumes para os golpistas, diz Groh. Quanto mais disseminados eles estiverem, mais as pessoas estarão familiarizadas com eles e saberão o que procurar.
Essa familiaridade já teve seus efeitos positivos em alguns casos. No verão passado, um executivo da Ferrari recebeu uma chamada de alguém que se dizia ser o CEO da empresa. A pessoa emulou convincentemente a voz do CEO, mas desligou a chamada abruptamente quando o executivo tentou verificar sua identidade perguntando qual livro o CEO havia recomendado apenas alguns dias antes. O CEO da WPP, a maior agência de publicidade do mundo, também foi alvo de um golpe similar com deepfake que não teve sucesso.
“Acho que há um ato de equilíbrio acontecendo”, diz Groh. “Definitivamente temos tecnologia hoje que é geralmente difícil para as pessoas identificarem. Mas, ao mesmo tempo, uma vez que você sabe que existe uma ferramenta de ponto e clique que permite transformar um elemento em outra coisa, todos se tornam muito mais céticos.
