Banco de Dados Exposto do DeepSeek Revelou Prompts de Chat e Dados Internos

A plataforma chinesa de inteligência artificial generativa DeepSeek teve uma ascensão meteórica esta semana, alimentando rivalidades e gerando pressão no mercado para as empresas de IA baseadas nos Estados Unidos, o que, por sua vez, convidou a um escrutínio do serviço. Em meio ao hype, pesquisadores da empresa de segurança em nuvem Wiz publicaram descobertas na quarta-feira que mostram que o DeepSeek deixou um de seus bancos de dados críticos expostos na internet, vazando logs do sistema, envios de prompts de usuários e até mesmo tokens de autenticação da API dos usuários — totalizando mais de 1 milhão de registros — para qualquer um que encontrasse o banco de dados.

O DeepSeek é uma empresa relativamente nova e tem sido praticamente inacessível à imprensa e a outras organizações esta semana. Por sua vez, a empresa não respondeu imediatamente ao pedido de comentário da WIRED sobre a exposição. Os pesquisadores da Wiz dizem que estavam inseguros sobre como divulgar suas descobertas à empresa e simplesmente enviaram informações sobre a descoberta na quarta-feira para todos os endereços de e-mail e perfis do LinkedIn do DeepSeek que puderam encontrar ou adivinhar. Os pesquisadores ainda não receberam uma resposta, mas, dentro de meia hora de sua tentativa de contato em massa, o banco de dados que encontraram foi bloqueado e se tornou inacessível a usuários não autorizados. Não está claro se algum ator malicioso ou partes autorizadas acessaram ou baixaram algum dos dados.

“O fato de que erros acontecem é correto, mas este é um erro dramático, porque o nível de esforço é muito baixo e o nível de acesso que conseguimos foi muito alto”, diz Ami Luttwak, o CTO da Wiz, à WIRED. “Eu diria que isso significa que o serviço não está maduro para ser usado com dados sensíveis de forma alguma.”

Bancos de dados expostos acessíveis a qualquer pessoa na internet aberta são um problema de longa data que instituições e provedores de nuvem têm trabalhado lentamente para resolver. Mas os pesquisadores da Wiz observam que o banco de dados do DeepSeek que encontraram estava visível quase imediatamente com uma varredura ou sondagem mínima.

“Normalmente, quando encontramos esse tipo de exposição, está em algum serviço negligenciado que leva horas para encontrar — horas de varredura”, diz Nir Ohfeld, o chefe de pesquisa de vulnerabilidades da Wiz. Mas desta vez, “aqui estava na porta da frente”. Ohfeld acrescenta que a “dificuldade técnica dessa vulnerabilidade é o mínimo absoluto.”

Os pesquisadores dizem que o tesouro que encontraram parece ter sido um tipo de banco de dados de código aberto normalmente usado para análises de servidores, chamado banco de dados ClickHouse. E as informações expostas apoiaram isso, dado que havia arquivos de log que continham as rotas ou caminhos que os usuários haviam seguido pelos sistemas do DeepSeek, os prompts dos usuários e outras interações com o serviço, e as chaves da API que haviam usado para autenticar. Os prompts que os pesquisadores viram estavam todos em chinês, mas eles observam que é possível que o banco de dados também contenha prompts em outros idiomas. Os pesquisadores dizem que realizaram a avaliação mínima necessária para confirmar suas descobertas sem comprometer desnecessariamente a privacidade dos usuários, mas especulam que pode até ter sido possível para um ator malicioso usar esse acesso profundo ao banco de dados para se mover lateralmente para outros sistemas do DeepSeek e executar código em outras partes da infraestrutura da empresa.

“É bastante chocante construir um modelo de IA e deixar a porta dos fundos escancarada do ponto de vista de segurança”, diz o pesquisador de segurança independente Jeremiah Fowler, que não participou da pesquisa da Wiz, mas se especializa na descoberta de bancos de dados expostos. “Esse tipo de dados operacionais e a capacidade de qualquer um com uma conexão à internet acessá-lo e, em seguida, manipulá-lo é um grande risco para a organização e para os usuários.”

Os sistemas do DeepSeek parecem ser muito semelhantes aos da OpenAI, disseram os pesquisadores à WIRED na quarta-feira, talvez para facilitar a transição de novos clientes para o uso do DeepSeek sem dificuldade. Toda a infraestrutura do DeepSeek parece imitar a da OpenAI, dizem eles, até detalhes como o formato das chaves da API.

Os pesquisadores da Wiz dizem que não sabem se alguém mais encontrou o banco de dados exposto antes deles, mas não seria surpreendente, dado quão simples era descobrir. Fowler, o pesquisador independente, também observa que o banco de dados vulnerável teria “definitivamente” sido encontrado rapidamente — se não já — seja por outros pesquisadores ou por atores maliciosos.

“Acho que isso é um alerta para a onda de produtos e serviços de IA que veremos no futuro próximo e quão seriamente eles levam a cibersegurança”, diz ele.

O DeepSeek teve um impacto global na última semana, com milhões de pessoas se dirigindo ao serviço e empurrando-o para o topo das lojas de aplicativos da Apple e do Google. As ondas resultantes apagaram bilhões do valor das ações das empresas de IA baseadas nos EUA e assustaram executivos de empresas em todo o país.

Na quarta-feira, fontes da OpenAI disseram ao Financial Times que a empresa estava investigando o alegado uso de saídas do ChatGPT para treinar os modelos do DeepSeek. Ao mesmo tempo, o DeepSeek tem atraído cada vez mais a atenção de legisladores e reguladores em todo o mundo, que começaram a fazer perguntas sobre as políticas de privacidade da empresa, o impacto de sua censura e se sua propriedade chinesa representa preocupações de segurança nacional.

O regulador de proteção de dados da Itália enviou uma série de perguntas ao DeepSeek perguntando sobre onde obteve seus dados de treinamento, se informações pessoais foram incluídas nisso e a base legal da empresa para usar essas informações. Como relatado pela WIRED Itália, o aplicativo DeepSeek parecia estar indisponível para download no país após as perguntas serem enviadas.

As conexões chinesas do DeepSeek também parecem estar levantando, talvez inevitavelmente, preocupações de segurança. No final da semana passada, de acordo com a reportagem da CNBC, a Marinha dos EUA emitiu um alerta a seu pessoal, avisando-os para não usar os serviços do DeepSeek “de nenhuma forma”. O e-mail disse que os membros da Marinha não deveriam baixar, instalar ou usar o modelo, e levantou preocupações sobre “questões potenciais de segurança e éticas”.

No entanto, apesar do hype, os dados expostos mostram que quase todas as tecnologias que dependem de bancos de dados hospedados na nuvem podem ser vulneráveis devido a lapsos de segurança simples. “A IA é a nova fronteira em tudo relacionado à tecnologia e cibersegurança”, diz Ohfeld, da Wiz, “e ainda as mesmas velhas vulnerabilidades, como bancos de dados abertos, abertos na internet, ainda podem existir.

Fonte

Compartilhe esse conteúdo: