Ao conversar com um chatbot, você pode inevitavelmente abrir mão de suas informações pessoais—seu nome, por exemplo, e talvez detalhes sobre onde você mora e trabalha, ou seus interesses. Quanto mais você compartilha com um modelo de linguagem grande, maior o risco de ser abusado se houver uma falha de segurança.
Um grupo de pesquisadores de segurança da Universidade da Califórnia, San Diego (UCSD) e da Universidade Tecnológica de Nanyang em Cingapura está agora revelando um novo ataque que comanda secretamente um LLM para coletar suas informações pessoais—incluindo nomes, números de identificação, detalhes de cartões de pagamento, endereços de e-mail, endereços postais e mais—de conversas e enviá-las diretamente a um hacker.
O ataque, nomeado Imprompter pelos pesquisadores, usa um algoritmo para transformar um prompt dado ao LLM em um conjunto oculto de instruções maliciosas. Uma frase em inglês que diz ao LLM para encontrar informações pessoais que alguém inseriu e enviá-las para os hackers é transformada em uma seleção aleatória de caracteres.
No entanto, na realidade, esse prompt que parece nonsense instrui o LLM a encontrar as informações pessoais de um usuário, anexá-las a uma URL e enviá-las silenciosamente de volta a um domínio de propriedade do atacante—tudo isso sem alertar a pessoa que está conversando com o LLM. Os pesquisadores detalham o Imprompter em um artigo publicado hoje.
“O efeito deste prompt específico é essencialmente manipular o agente LLM para extrair informações pessoais da conversa e enviar essas informações pessoais para o endereço do atacante”, diz Xiaohan Fu, o autor principal da pesquisa e estudante de doutorado em ciência da computação na UCSD. “Escondemos o objetivo do ataque à vista de todos.”
Os oito pesquisadores por trás do trabalho testaram o método de ataque em dois LLMs, LeChat da gigante de IA francesa Mistral AI e o chatbot chinês ChatGLM. Em ambas as instâncias, descobriram que podiam extrair furtivamente informações pessoais dentro de conversas de teste—os pesquisadores escrevem que têm uma “taxa de sucesso de quase 80 por cento”.
A Mistral AI diz à WIRED que corrigiu a vulnerabilidade de segurança—com os pesquisadores confirmando que a empresa desativou uma de suas funcionalidades de chat. Uma declaração da ChatGLM enfatizou que leva a segurança a sério, mas não comentou diretamente sobre a vulnerabilidade.
Significados Ocultos
Desde que o ChatGPT da OpenAI desencadeou um boom de IA generativa após seu lançamento no final de 2022, pesquisadores e hackers têm consistentemente encontrado buracos de segurança em sistemas de IA. Esses buracos geralmente se enquadram em duas categorias amplas: jailbreaks e injeções de prompt.
Jailbreaks podem enganar um sistema de IA para ignorar regras de segurança embutidas usando prompts que substituem as configurações da IA. Injeções de prompt, no entanto, envolvem um LLM sendo alimentado com um conjunto de instruções—como dizer a eles para roubar dados ou manipular um CV—contidas em uma fonte de dados externa. Por exemplo, uma mensagem embutida em um site pode conter um prompt oculto que uma IA irá ingerir se resumir a página.
As injeções de prompt são consideradas um dos maiores riscos de segurança da IA generativa e não são fáceis de corrigir. O tipo de ataque preocupa particularmente os especialistas em segurança, pois os LLMs estão se tornando cada vez mais agentes que podem realizar tarefas em nome de um humano, como reservar voos ou serem conectados a um banco de dados externo para fornecer respostas específicas.
Os ataques Imprompter em agentes LLM começam com um prompt em linguagem natural (como mostrado acima) que diz à IA para extrair todas as informações pessoais, como nomes e IDs, da conversa do usuário. O algoritmo dos pesquisadores gera uma versão ofuscada (também acima) que tem o mesmo significado para o LLM, mas para os humanos parece uma série de caracteres aleatórios.
“Nossa hipótese atual é que os LLMs aprendem relações ocultas entre tokens a partir do texto e essas relações vão além da linguagem natural”, diz Fu sobre a transformação. “É quase como se houvesse uma linguagem diferente que o modelo entende.”
O resultado é que o LLM segue o prompt adversarial, coleta todas as informações pessoais e as formata em um comando de imagem Markdown—anexando as informações pessoais a uma URL de propriedade dos atacantes. O LLM visita essa URL para tentar recuperar a imagem e vaza as informações pessoais para o atacante. O LLM responde no chat com um pixel transparente 1×1 que não pode ser visto pelos usuários.
Os pesquisadores dizem que, se o ataque fosse realizado no mundo real, as pessoas poderiam ser socialmente engenheiradas para acreditar que o prompt incompreensível poderia fazer algo útil, como melhorar seu CV. Os pesquisadores apontam para inúmeros sites que fornecem às pessoas prompts que podem usar. Eles testaram o ataque fazendo upload de um CV em conversas com chatbots, e ele conseguiu retornar as informações pessoais contidas no arquivo.
Earlence Fernandes, professor assistente na UCSD que esteve envolvido no trabalho, diz que a abordagem do ataque é bastante complicada, pois o prompt ofuscado precisa identificar informações pessoais, formar uma URL funcional, aplicar a sintaxe Markdown e não revelar ao usuário que está se comportando de maneira maliciosa. Fernandes compara o ataque a malware, citando sua capacidade de realizar funções e comportamentos de maneiras que o usuário pode não ter intenção.
“Normalmente, você poderia escrever muito código de computador para fazer isso em malware tradicional”, diz Fernandes. “Mas aqui eu acho que a coisa legal é que tudo isso pode ser incorporado neste prompt relativamente curto e gibberish.”
Um porta-voz da Mistral AI diz que a empresa acolhe pesquisadores de segurança ajudando-a a tornar seus produtos mais seguros para os usuários. “Após esse feedback, a Mistral AI implementou prontamente a remediação adequada para corrigir a situação”, diz o porta-voz. A empresa tratou a questão como uma de “gravidade média”, e sua correção bloqueia o renderizador Markdown de operar e ser capaz de chamar uma URL externa por meio desse processo, o que significa que o carregamento de imagens externas não é possível.
Fernandes acredita que a atualização da Mistral AI é provavelmente uma das primeiras vezes que um exemplo de prompt adversarial levou a uma correção de produto LLM, em vez de o ataque ser interrompido filtrando o prompt. No entanto, ele diz que limitar as capacidades dos agentes LLM poderia ser “contraproducente” a longo prazo.
Enquanto isso, uma declaração dos criadores do ChatGLM diz que a empresa tem medidas de segurança em vigor para ajudar com a privacidade do usuário. “Nosso modelo é seguro, e sempre colocamos uma alta prioridade na segurança do modelo e na proteção da privacidade”, diz a declaração. “Ao tornar nosso modelo de código aberto, buscamos aproveitar o poder da comunidade de código aberto para melhor inspecionar e escrutinar todos os aspectos das capacidades desses modelos, incluindo sua segurança.”
Uma “Atividade de Alto Risco”
Dan McInerney, o principal pesquisador de ameaças da empresa de segurança Protect AI, diz que o artigo Imprompter “libera um algoritmo para criar automaticamente prompts que podem ser usados em injeções de prompt para várias explorações, como exfiltração de PII, má classificação de imagens ou uso malicioso de ferramentas que o agente LLM pode acessar.” Embora muitos dos tipos de ataque dentro da pesquisa possam ser semelhantes a métodos anteriores, McInerney diz que o algoritmo os une. “Isso está mais na linha de melhorar ataques automatizados de LLM do que superfícies de ameaça não descobertas neles.”
No entanto, ele acrescenta que, à medida que os agentes LLM se tornam mais comumente usados e as pessoas lhes dão mais autoridade para tomar ações em seu nome, o escopo para ataques contra eles aumenta. “Liberar um agente LLM que aceita entrada de usuário arbitrária deve ser considerado uma atividade de alto risco que requer testes de segurança significativos e criativos antes da implantação”, diz McInerney.
Para as empresas, isso significa entender as maneiras como um agente de IA pode interagir com dados e como eles podem ser abusados. Mas para pessoas individuais, semelhante ao conselho de segurança comum, você deve considerar quanta informação está fornecendo a qualquer aplicativo ou empresa de IA e, se usar quaisquer prompts da internet, ter cautela sobre a origem deles.