Pense duas vezes antes de pedir ao assistente de IA Gemini do Google para resumir sua agenda, pois isso pode levar você a perder o controle de todos os seus dispositivos inteligentes. Em uma apresentação na Black Hat USA, a conferência anual de cibersegurança em Las Vegas, um grupo de pesquisadores mostrou como atacantes poderiam incluir comandos ocultos em algo tão simples quanto um convite do Google Calendar e usá-lo para sequestrar dispositivos inteligentes – um exemplo do crescente vetor de ataque que são os ataques de injeção de prompt.
O hack, descrito em um artigo intitulado “Convite é Tudo o Que Você Precisa!”, os pesquisadores delineiam 14 maneiras diferentes que conseguiram manipular o Gemini via injeção de prompt, um tipo de ataque que usa prompts maliciosos e muitas vezes ocultos para fazer modelos de linguagem grande produzirem saídas prejudiciais.
Talvez o mais surpreendente de todos, conforme destacado pela Wired, foi um ataque que conseguiu sequestrar eletrodomésticos e acessórios conectados à internet, fazendo tudo, desde desligar luzes até ligar uma caldeira – basicamente lutando pelo controle da casa do proprietário e potencialmente colocando-os em uma situação perigosa ou comprometedora. Outros ataques conseguiram fazer o Gemini iniciar uma chamada no Zoom, interceptar detalhes de e-mails e baixar um arquivo do navegador da web de um telefone.
A maioria desses ataques começa com algo tão simples quanto um convite do Google Calendar que está envenenado com injeções de prompt que, quando ativadas, farão o modelo de IA se engajar em comportamentos que contornam seus protocolos de segurança internos. E estes estão longe de ser os primeiros exemplos que pesquisadores de segurança conseguiram reunir para mostrar as potenciais vulnerabilidades dos LLMs. Outros usaram injeção de prompt para sequestrar assistentes de código como o Cursor. Apenas no mês passado, a ferramenta de codificação da Amazon foi infiltrada por um hacker que a instruiu a excluir arquivos das máquinas em que estava sendo executada.
Também está se tornando cada vez mais claro que os modelos de IA parecem interagir com comandos ocultos. Um artigo recente descobriu que um modelo de IA usado para treinar outros modelos transmitiu peculiaridades e preferências, apesar de referências específicas a tais preferências terem sido filtradas nos dados, sugerindo que pode haver mensagens circulando entre máquinas que não podem ser observadas diretamente.
Os LLMs continuam sendo caixas pretas. Mas se você é um ator malicioso, não precisa necessariamente entender o que está acontecendo por trás dos panos. Você só precisa saber como inserir uma mensagem que fará a máquina funcionar de uma maneira específica. No caso desses ataques, os pesquisadores informaram ao Google sobre a vulnerabilidade, e a empresa tratou do problema, segundo a Wired. Mas à medida que a IA é integrada em mais plataformas e mais áreas da vida pública, maior é o risco que tais fraquezas apresentam. Isso é particularmente preocupante à medida que agentes de IA, que têm a capacidade de interagir com aplicativos e sites para concluir tarefas em várias etapas, estão começando a ser lançados. O que pode dar errado?
