Foi chocantemente fácil criar um deepfake de áudio convincente da Kamala Harris no Dia da Eleição. Custou-me $5 e levou menos de dois minutos, ilustrando como a IA generativa barata e onipresente abriu as comportas para a desinformação.
Criar um deepfake de Harris não era minha intenção original. Eu estava brincando com o Voice Changer da Cartesia, um modelo que transforma sua voz em outra voz enquanto preserva a prosódia original. Essa segunda voz pode ser um “clone” de outra pessoa — a Cartesia criará um dublê digital de voz a partir de qualquer gravação de 10 segundos.
Então, me perguntei, o Voice Changer transformaria minha voz na de Harris? Paguei $5 para desbloquear o recurso de clonagem de voz da Cartesia, criei um clone da voz de Harris usando discursos de campanha recentes e selecionei esse clone como saída no Voice Changer.
Funcionou perfeitamente:
Estou confiante de que a Cartesia não pretendia exatamente que suas ferramentas fossem usadas dessa maneira. Para permitir a clonagem de voz, a Cartesia exige que você marque uma caixa indicando que não gerará nada prejudicial ou ilegal e que consente com a clonagem de suas gravações de fala.
Mas isso é apenas um sistema de honra. Na ausência de verdadeiras salvaguardas, não há nada impedindo uma pessoa de criar quantos deepfakes “prejudiciais ou ilegais” desejar.
Esse é um problema, não é preciso dizer. Então, qual é a solução? Existe uma? A Cartesia pode implementar verificação de voz, como algumas outras plataformas fizeram. Mas, quando isso acontecer, é provável que uma nova ferramenta de clonagem de voz não restrita tenha surgido.
Falei sobre essa questão com especialistas na conferência Disrupt da TC na semana passada. Alguns apoiaram a ideia de marcas d’água invisíveis para que seja mais fácil saber se o conteúdo foi gerado por IA. Outros apontaram para leis de moderação de conteúdo, como a Lei de Segurança Online no Reino Unido, que, segundo eles, poderia ajudar a conter a onda de desinformação.
Chame-me de pessimista, mas acho que esses navios já zarparam. Estamos olhando para, como disse o CEO do Centro para Combate ao Ódio Digital, Imran Ahmed, uma “máquina de bobagens perpétua.”
A desinformação está se espalhando a uma taxa alarmante. Alguns exemplos de alto perfil do ano passado incluem uma rede de bots no X direcionando as eleições federais dos EUA e um deepfake de correio de voz do presidente Joe Biden desencorajando os residentes de New Hampshire a votar. Mas os eleitores dos EUA e as pessoas com conhecimento técnico não são os alvos da maioria desse conteúdo, de acordo com a análise da True Media.org, então tendemos a subestimar sua presença em outros lugares.
O volume de deepfakes gerados por IA cresceu 900% entre 2019 e 2020, de acordo com dados do Fórum Econômico Mundial.
Enquanto isso, há relativamente poucas leis direcionadas a deepfakes em vigor. E a detecção de deepfakes está prestes a se tornar uma corrida armamentista sem fim. Algumas ferramentas inevitavelmente não optarão por usar medidas de segurança, como a marcação de água, ou serão implantadas com aplicações expressamente maliciosas em mente.
A menos que ocorra uma mudança radical, acho que o melhor que podemos fazer é ser intensamente céticos sobre o que está por aí — particularmente o conteúdo viral. Não é tão fácil quanto antes distinguir a verdade da ficção online. Mas ainda estamos no controle do que compartilhamos e do que não compartilhamos. E isso é muito mais impactante do que pode parecer.
Notícias
Revisão da busca do ChatGPT: Meu colega Max testou a nova integração de busca do OpenAI para o ChatGPT, ChatGPT Search. Ele achou impressionante em alguns aspectos, mas pouco confiável para consultas curtas contendo apenas algumas palavras.
Drones da Amazon no Phoenix: Alguns meses após o término de seu programa de entrega com drones, Prime Air, na Califórnia, a Amazon diz que começou a fazer entregas a clientes selecionados via drone em Phoenix, Arizona.
Ex-líder de AR do Meta se junta à OpenAI: A ex-chefe dos esforços de óculos AR do Meta, incluindo Orion, anunciou na segunda-feira que está se juntando à OpenAI para liderar robótica e hardware de consumo. A notícia vem após a OpenAI contratar o cofundador do desafiante Pebble do X (anteriormente Twitter).
Atrasado por computação: Em um AMA no Reddit, o CEO da OpenAI, Sam Altman, admitiu que a falta de capacidade de computação é um dos principais fatores que impedem a empresa de enviar produtos com a frequência que gostaria.
Recaps gerados por IA: A Amazon lançou “X-Ray Recaps”, um recurso impulsionado por IA generativa que cria resumos concisos de temporadas inteiras de TV, episódios individuais e até partes de episódios.
Aumentos de preços do Haiku da Anthropic: O mais novo modelo de IA da Anthropic chegou: Claude 3.5 Haiku. Mas é mais caro do que a última geração, e ao contrário dos outros modelos da Anthropic, ele ainda não pode analisar imagens, gráficos ou diagramas.
Apple adquire Pixelmator: O editor de imagens alimentado por IA Pixelmator anunciou na sexta-feira que está sendo adquirido pela Apple. O acordo vem enquanto a Apple se tornou mais agressiva na integração de IA em seus aplicativos de imagem.
Um Alexa ‘agente’: O CEO da Amazon, Andy Jassy, na semana passada, insinuou uma versão melhorada do assistente Alexa da empresa — uma que poderia agir em nome de um usuário. O Alexa reformulado supostamente enfrentou atrasos e reveses técnicos, e pode não ser lançado até 2025.
Pesquisa da semana
Pop-ups na web também podem enganar a IA — não apenas os avós.
Em um novo artigo, pesquisadores do Georgia Tech, da Universidade de Hong Kong e de Stanford mostram que “agentes” de IA — modelos de IA que podem completar tarefas — podem ser sequestrados por “pop-ups adversariais” que instruem os modelos a fazer coisas como baixar extensões de arquivos maliciosos.
Alguns desses pop-ups são armadilhas bastante óbvias para o olho humano — mas a IA não é tão exigente. Os pesquisadores afirmam que os modelos que testaram falharam em ignorar pop-ups 86% das vezes e, como resultado, eram 47% menos propensos a completar tarefas.
Defesas básicas, como instruir os modelos a ignorar os pop-ups, não foram eficazes. “Implantar agentes de uso de computador ainda sofre de riscos significativos”, escreveram os co-autores do estudo, “e sistemas de agentes mais robustos são necessários para garantir um fluxo de trabalho seguro dos agentes.”
Modelo da semana
A Meta anunciou ontem que está trabalhando com parceiros para tornar seus modelos de IA “abertos” Llama disponíveis para aplicações de defesa. Hoje, um desses parceiros, Scale AI, anunciou o Defense Llama, um modelo construído sobre o Llama 3 da Meta que é “personalizado e ajustado para apoiar missões de segurança nacional dos EUA.”
Defense Llama, que está disponível na plataforma de chatbot Donavan da Scale para clientes do governo dos EUA, foi otimizado para o planejamento de operações militares e de inteligência, diz a Scale. O Defense Llama pode responder a perguntas relacionadas à defesa, como um adversário poderia planejar um ataque contra uma base militar dos EUA.
Então, o que torna o Defense Llama diferente do Llama padrão? Bem, a Scale diz que foi ajustado com conteúdo que pode ser relevante para operações militares, como doutrina militar e direito humanitário internacional, bem como as capacidades de várias armas e sistemas de defesa. Também não está restringido a responder perguntas sobre guerra, como um chatbot civil poderia ser:
Não está claro quem pode estar inclinado a usá-lo.
O exército dos EUA tem sido lento para adotar IA generativa — e cético quanto ao seu ROI. Até agora, o Exército dos EUA é o único ramo das forças armadas dos EUA com uma implantação de IA generativa. Funcionários militares expressaram preocupações sobre vulnerabilidades de segurança em modelos comerciais, bem como desafios legais associados ao compartilhamento de dados de inteligência e a imprevisibilidade dos modelos quando confrontados com casos extremos.
Pacote de novidades
Spawning AI, uma startup que cria ferramentas para permitir que criadores optem por não participar do treinamento de IA generativa, lançou um conjunto de dados de imagens para treinar modelos de IA que afirma ser totalmente de domínio público.
A maioria dos modelos de IA generativa é treinada com dados públicos da web, alguns dos quais podem ser protegidos por direitos autorais ou sob uma licença restritiva. A OpenAI e muitos outros fornecedores de IA argumentam que a doutrina do uso justo os protege de reivindicações de direitos autorais. Mas isso não impediu os proprietários de dados de entrarem com processos judiciais.
A Spawning AI diz que seu conjunto de dados de treinamento de 12,4 milhões de pares de imagem-legenda inclui apenas conteúdo com “proveniência conhecida” e “rotulado com direitos claros e inequívocos” para treinamento de IA. Ao contrário de alguns outros conjuntos de dados, também está disponível para download de um host dedicado, eliminando a necessidade de web-scraping.
“Significativamente, o status de domínio público do conjunto de dados é integral a esses objetivos maiores”, escreve a Spawning em um post no blog. “Conjuntos de dados que incluem imagens protegidas por direitos autorais continuarão a depender de web-scraping porque hospedar as imagens violaria os direitos autorais.”
O conjunto de dados da Spawning, PD12M, e uma versão curada para imagens “esteticamente agradáveis”, PD3M, podem ser encontrados neste link.