Desde que a OpenAI lançou o ChatGPT no final de 2022, hackers e pesquisadores de segurança têm tentado encontrar falhas em grandes modelos de linguagem (LLMs) para contornar suas barreiras e enganá-los para que emitam discurso de ódio, instruções de fabricação de bombas, propaganda e outros conteúdos prejudiciais. Em resposta, a OpenAI e outros desenvolvedores de IA generativa refinam suas defesas de sistema para dificultar a realização desses ataques. Mas, à medida que a plataforma de IA chinesa DeepSeek ganha destaque com seu novo modelo de raciocínio R1, suas proteções de segurança parecem estar muito atrás das de seus concorrentes estabelecidos.
Hoje, pesquisadores de segurança da Cisco e da Universidade da Pensilvânia publicam descobertas que mostram que, quando testado com 50 prompts maliciosos projetados para elicitar conteúdo tóxico, o modelo do DeepSeek não detectou ou bloqueou nenhum deles. Em outras palavras, os pesquisadores dizem que ficaram chocados ao conseguir uma “taxa de sucesso de ataque de 100 por cento”.
As descobertas fazem parte de um crescente corpo de evidências de que as medidas de segurança e proteção do DeepSeek podem não corresponder às de outras empresas de tecnologia que desenvolvem LLMs. A censura do DeepSeek sobre assuntos considerados sensíveis pelo governo da China também foi facilmente contornada.
“Cem por cento dos ataques foram bem-sucedidos, o que lhe diz que há um trade-off”, diz DJ Sampath, VP de produto, software de IA e plataforma da Cisco, ao WIRED. “Sim, pode ter sido mais barato construir algo aqui, mas o investimento talvez não tenha ido para pensar nos tipos de segurança e proteção que você precisa colocar dentro do modelo.”
Outros pesquisadores tiveram descobertas semelhantes. Uma análise separada publicada hoje pela empresa de segurança de IA Adversa AI e compartilhada com a WIRED também sugere que o DeepSeek é vulnerável a uma ampla gama de táticas de jailbreak, desde truques de linguagem simples até prompts gerados por IA mais complexos.
O DeepSeek, que tem lidado com uma avalanche de atenção esta semana e não se manifestou publicamente sobre uma série de questões, não respondeu ao pedido de comentário da WIRED sobre a configuração de segurança de seu modelo.
Modelos de IA generativa, como qualquer sistema tecnológico, podem conter uma série de fraquezas ou vulnerabilidades que, se exploradas ou configuradas de forma inadequada, podem permitir que atores maliciosos realizem ataques contra eles. Para a atual onda de sistemas de IA, ataques de injeção de prompt indiretos são considerados uma das maiores falhas de segurança. Esses ataques envolvem um sistema de IA recebendo dados de uma fonte externa — talvez instruções ocultas de um website que o LLM resume — e tomando ações com base nas informações.
Jailbreaks, que são um tipo de ataque de injeção de prompt, permitem que as pessoas contornem os sistemas de segurança estabelecidos para restringir o que um LLM pode gerar. As empresas de tecnologia não querem que as pessoas criem guias sobre como fazer explosivos ou usem sua IA para criar toneladas de desinformação, por exemplo.
Os jailbreaks começaram simples, com as pessoas essencialmente criando frases engenhosas para dizer a um LLM para ignorar filtros de conteúdo — o mais popular dos quais era chamado de “Do Anything Now” ou DAN, para abreviar. No entanto, à medida que as empresas de IA implementaram proteções mais robustas, alguns jailbreaks se tornaram mais sofisticados, muitas vezes sendo gerados usando IA ou usando caracteres especiais e ofuscados. Embora todos os LLMs sejam suscetíveis a jailbreaks, e muita informação possa ser encontrada através de pesquisas simples na internet, chatbots ainda podem ser utilizados maliciosamente.
“Os jailbreaks persistem simplesmente porque eliminá-los completamente é quase impossível — assim como vulnerabilidades de estouro de buffer em software (que existem há mais de 40 anos) ou falhas de injeção SQL em aplicações web (que assolaram equipes de segurança por mais de duas décadas)”, disse Alex Polyakov, CEO da empresa de segurança Adversa AI, em um e-mail à WIRED.
Sampath, da Cisco, argumenta que à medida que as empresas usam mais tipos de IA em suas aplicações, os riscos são amplificados. “Começa a se tornar um grande problema quando você começa a colocar esses modelos em sistemas complexos importantes e esses jailbreaks de repente resultam em coisas subsequentes que aumentam a responsabilidade, aumentam o risco comercial, aumentam todos os tipos de problemas para as empresas”, diz Sampath.
Os pesquisadores da Cisco selecionaram seus 50 prompts aleatórios para testar o R1 do DeepSeek de uma biblioteca bem conhecida de prompts de avaliação padronizados conhecida como HarmBench. Eles testaram prompts de seis categorias do HarmBench, incluindo dano geral, cibercrime, desinformação e atividades ilegais. Eles sondaram o modelo rodando localmente em máquinas, em vez de através do site ou aplicativo do DeepSeek, que envia dados para a China.
Além disso, os pesquisadores afirmam que também viram alguns resultados potencialmente preocupantes ao testar o R1 com ataques mais envolvidos, não linguísticos, usando coisas como caracteres cirílicos e scripts personalizados para tentar alcançar a execução de código. Mas para suas descobertas iniciais, Sampath diz que sua equipe queria se concentrar em descobertas que surgiram de um benchmark geralmente reconhecido.
A Cisco também incluiu comparações do desempenho do R1 contra os prompts do HarmBench com o desempenho de outros modelos. E alguns, como o Llama 3.1 da Meta, falharam quase tão severamente quanto o R1 do DeepSeek. Mas Sampath enfatiza que o R1 do DeepSeek é um modelo de raciocínio específico, que leva mais tempo para gerar respostas, mas utiliza processos mais complexos para tentar produzir melhores resultados. Portanto, Sampath argumenta que a melhor comparação é com o modelo de raciocínio o1 da OpenAI, que teve o melhor desempenho de todos os modelos testados. (A Meta não respondeu imediatamente a um pedido de comentário).
Polyakov, da Adversa AI, explica que o DeepSeek parece detectar e rejeitar alguns ataques de jailbreak bem conhecidos, afirmando que “parece que essas respostas são frequentemente apenas copiadas do conjunto de dados da OpenAI.” No entanto, Polyakov diz que em seus testes de quatro tipos diferentes de jailbreaks — desde os linguísticos até truques baseados em código — as restrições do DeepSeek poderiam ser facilmente contornadas.
“Cada método funcionou perfeitamente”, diz Polyakov. “O que é ainda mais alarmante é que esses não são jailbreaks ‘zero-day’ novos — muitos são publicamente conhecidos há anos”, afirma, alegando que viu o modelo aprofundar-se em algumas instruções sobre psicodélicos mais do que qualquer outro modelo que ele já havia visto criar.
“DeepSeek é apenas mais um exemplo de como cada modelo pode ser quebrado — é apenas uma questão de quanto esforço você coloca. Alguns ataques podem ser corrigidos, mas a superfície de ataque é infinita”, acrescenta Polyakov. “Se você não está continuamente testando sua IA, você já está comprometido.”