Um Único Documento Envenenado Pode Vazar Dados ‘Secretos’ Através do ChatGPT

Os mais recentes modelos de IA generativa não são apenas chatbots que geram texto isolados – em vez disso, eles podem ser facilmente conectados aos seus dados para fornecer respostas personalizadas às suas perguntas. O ChatGPT da OpenAI pode ser vinculado à sua caixa de entrada do Gmail, permitido a inspeção do seu código no GitHub ou encontrar compromissos no seu calendário da Microsoft. Mas essas conexões têm o potencial de serem abusadas – e pesquisadores mostraram que pode ser necessário apenas um único ‘documento envenenado’ para fazê-lo.

Novas descobertas dos pesquisadores de segurança Michael Bargury e Tamir Ishay Sharbat, reveladas na conferência de hackers Black Hat em Las Vegas hoje, mostram como uma fraqueza nos Conectores da OpenAI permitiu que informações sensíveis fossem extraídas de uma conta do Google Drive usando um ataque de injeção de prompt indireto. Em uma demonstração do ataque, chamado AgentFlayer, Bargury mostra como foi possível extrair segredos de desenvolvedor, na forma de chaves de API, que estavam armazenadas em uma conta de Drive de demonstração.

A vulnerabilidade destaca como conectar modelos de IA a sistemas externos e compartilhar mais dados entre eles aumenta a superfície de ataque potencial para hackers maliciosos e potencialmente multiplica as formas como vulnerabilidades podem ser introduzidas.

“Não há nada que o usuário precisa fazer para ser comprometido e não há nada que o usuário precise fazer para que os dados sejam enviados para fora”, afirma Bargury, o CTO da empresa de segurança Zenity, em entrevista à WIRED. “Nós mostramos que isso é completamente sem clique; só precisamos do seu e-mail, compartilhamos o documento com você e é isso. Então sim, isso é muito, muito ruim”, diz Bargury.

A OpenAI não respondeu imediatamente ao pedido de comentários da WIRED sobre a vulnerabilidade nos Conectores. A empresa introduziu os Conectores para o ChatGPT como um recurso beta no início deste ano, e seu site lista pelo menos 17 diferentes serviços que podem ser conectados às suas contas. Ela afirma que o sistema permite que você “traga suas ferramentas e dados para o ChatGPT” e “pesquise arquivos, extraia dados ao vivo e faça referência a conteúdo diretamente no chat.”

Bargury afirma que relatou as descobertas à OpenAI no início deste ano e que a empresa rapidamente introduziu mitigação para impedir a técnica que ele usou para extrair dados através dos Conectores. A forma como o ataque funciona significa que apenas uma quantidade limitada de dados poderia ser extraída de cada vez – documentos completos não poderiam ser removidos como parte do ataque.

“Embora este problema não seja específico do Google, ilustra por que desenvolver proteções robustas contra ataques de injeção de prompt é importante”, diz Andy Wen, diretor sênior de gerenciamento de produtos de segurança do Google Workspace, apontando para as recentes medidas de segurança em IA aprimoradas da empresa.

O ataque de Bargury começa com um documento envenenado, que é compartilhado na Google Drive de uma potencial vítima. (Bargury diz que uma vítima também poderia ter feito upload de um arquivo comprometido em sua própria conta.) Dentro do documento, que para a demonstração é um conjunto fictício de notas de uma reunião inexistente com o CEO da OpenAI, Sam Altman, Bargury escondeu um prompt malicioso de 300 palavras que contém instruções para o ChatGPT. O prompt é escrito em texto branco em uma fonte de tamanho um, algo que um humano provavelmente não verá, mas uma máquina ainda lerá.

Em um vídeo de prova de conceito do ataque, Bargury mostra a vítima pedindo ao ChatGPT para “resumir minha última reunião com Sam”, embora ele diga que qualquer consulta do usuário relacionada a um resumo de reunião funcionará. Em vez disso, o prompt oculto diz ao LLM que houve um “erro” e que o documento não precisa de um resumo. O prompt diz que a pessoa é na verdade um “desenvolvedor correndo contra o prazo” e que eles precisam que a IA busque chaves de API no Google Drive e as anexe ao final de uma URL que é fornecida no prompt.

Essa URL é, na verdade, um comando na linguagem Markdown para se conectar a um servidor externo e puxar a imagem que está armazenada lá. Mas, conforme as instruções do prompt, a URL agora também contém as chaves de API que a IA encontrou na conta do Google Drive.

Usar Markdown para extrair dados do ChatGPT não é novidade. O pesquisador de segurança independente Johann Rehberger mostrou como os dados poderiam ser extraídos dessa forma e descreveu como a OpenAI anteriormente introduziu um recurso chamado “url_safe” para detectar se URLs eram maliciosas e impedir a renderização de imagens se fossem perigosas. Para contornar isso, Sharbat, um pesquisador de IA da Zenity, escreve em um post no blog detalhando o trabalho, que os pesquisadores usaram URLs do armazenamento em nuvem Azure da Microsoft. “Nossa imagem foi renderizada com sucesso, e também recebemos um registro de solicitação muito bonito em nossas Análises de Log do Azure que contém as chaves de API da vítima”, escreve o pesquisador.

O ataque é a mais recente demonstração de como injeções de prompt indiretas podem impactar sistemas de IA generativa. Injeções de prompt indiretas envolvem atacantes alimentando um LLM com dados envenenados que podem dizer ao sistema para completar ações maliciosas. Esta semana, um grupo de pesquisadores mostrou como injeções de prompt indiretas poderiam ser usadas para sequestrar um sistema de casa inteligente, ativando as luzes e o aquecedor remotamente.

Embora injeções de prompt indiretas existam quase desde que o ChatGPT foi lançado, os pesquisadores de segurança estão preocupados que, à medida que mais e mais sistemas estão conectados a LLMs, há um aumento do risco de atacantes inserirem dados “não confiáveis” neles. Obter acesso a dados sensíveis também poderia permitir que hackers maliciosos entrassem em outros sistemas de uma organização. Bargury diz que conectar LLMs a fontes de dados externas significa que eles serão mais capazes e aumentarão sua utilidade, mas isso vem com desafios. “É incrivelmente poderoso, mas como sempre com IA, mais poder vem com mais risco”, diz Bargury.

Fonte

Compartilhe esse conteúdo: