Embora muitos riscos e controles existentes possam se aplicar à IA generativa, a tecnologia inovadora possui muitas nuances que exigem novas táticas.
Os modelos são suscetíveis a alucinações, ou a produção de conteúdo impreciso. Outros riscos incluem o vazamento de dados sensíveis por meio da saída de um modelo, contaminação de modelos que podem permitir manipulação de prompts e preconceitos como consequência de seleção inadequada de dados de treinamento ou ajuste fino e treinamento insuficientemente controlados.
Em última análise, a detecção e resposta cibernética convencional precisam ser expandidas para monitorar abusos de IA — e a IA deve, por sua vez, ser usada para vantagem defensiva, disse Phil Venables, CISO do Google Cloud.
“O uso seguro, seguro e confiável da IA abrange um conjunto de técnicas que muitas equipes historicamente não reuniram”, observou Venables em uma sessão virtual no recente Simpósio Global de IA da Cloud Security Alliance.
Venables argumentou sobre a importância de entregar controles e estruturas comuns para que cada instância ou implantação de IA não comece do zero novamente.
“Lembre-se de que o problema é um processo de negócios de ponta a ponta ou um objetivo de missão, não apenas um problema técnico no ambiente”, disse ele.
Quase todos já estão familiarizados com muitos dos riscos associados ao potencial abuso de dados de treinamento e dados ajustados. “Mitigar os riscos de contaminação de dados é vital, assim como garantir a adequação dos dados para outros riscos”, disse Venables.
Importante, as empresas devem garantir que os dados usados para treinamento e ajuste sejam sanitizados e protegidos e que a linhagem ou proveniência desses dados seja mantida com “forte integridade”.
“Agora, obviamente, você não pode apenas desejar que isso seja verdade”, reconheceu Venables. “Você tem que realmente fazer o trabalho de curar e rastrear o uso de dados.”
Isso requer a implementação de controles e ferramentas específicas com segurança embutida que atuem juntas para fornecer treinamento, ajuste e teste de modelos. Isso é particularmente importante para garantir que os modelos não sejam adulterados, seja no software, nos pesos ou em qualquer um de seus outros parâmetros, observou Venables.
“Se não cuidarmos disso, nos expomos a múltiplos tipos diferentes de riscos de backdoor que podem comprometer a segurança e a segurança do processo de negócios ou missão implantado”, disse ele.
Outro grande problema é o abuso de modelos por parte de terceiros. Os modelos podem ser contaminados por meio de dados de treinamento ou outros parâmetros que os fazem se comportar contra controles mais amplos, disse Venables. Isso pode incluir táticas adversariais, como manipulação de prompts e subversão.
Venables apontou que há muitos exemplos de pessoas manipulando prompts tanto direta quanto indiretamente para causar resultados não intencionais diante de “modelos defendidos de forma ingênua ou totalmente desprotegidos”.
Isso pode incluir texto embutido em imagens ou outros inputs em modelos unidimensionais ou multimodais, com prompts problemáticos “perturbando a saída”.
“Muito da atenção que chama a atenção é desencadeada pela geração de conteúdo inseguro, algumas disso pode ser bastante engraçada”, disse Venables.
É importante garantir que os inputs sejam filtrados para uma variedade de objetivos de confiança, segurança e proteção, disse ele. Isso deve incluir “registro abrangente” e observabilidade, bem como controles de acesso fortes que sejam mantidos sobre modelos, código, dados e dados de teste, também.
“Os dados de teste podem influenciar o comportamento do modelo de maneiras interessantes e potencialmente arriscadas”, disse Venables.
Os usuários fazendo os modelos se comportarem mal são indicativos da necessidade de gerenciar não apenas a entrada, mas também a saída, apontou Venables. As empresas podem criar filtros e controles de saída — ou “disjuntores” — em torno de como um modelo pode manipular dados ou acionar processos físicos.
“Não é apenas comportamento impulsionado por adversários, mas também comportamento acidental do modelo”, disse Venables.
As organizações devem monitorar e abordar vulnerabilidades de software na própria infraestrutura de suporte, aconselhou Venables. Plataformas de ponta a ponta podem controlar o ciclo de vida dos dados e do software e ajudar a gerenciar o risco operacional da integração da IA em processos e aplicações críticos para negócios e missões.
“Em última análise, aqui se trata de mitigar os riscos operacionais das ações da saída do modelo, em essência, controlar o comportamento do agente, para fornecer profundidade defensiva de ações não intencionais”, disse Venables.
Ele recomendou o uso de sandbox e a aplicação do princípio do menor privilégio para todas as aplicações de IA. Os modelos devem ser governados e protegidos e levemente blindados por meio de filtros ou construções de API de monitoramento independentes para validar e regular o comportamento. As aplicações também devem ser executadas em cargas de bloqueio e as empresas precisam se concentrar na observabilidade e no registro de ações.
No final, “trata-se de sanitizar, proteger, governar seus dados de treinamento, ajuste e teste. Trata-se de impor controles de acesso fortes sobre os modelos, os dados, o software e a infraestrutura implantada. Trata-se de filtrar entradas e saídas para e a partir desses modelos, e finalmente garantir que você esteja usando sandbox em mais aplicações em algum framework de risco e controle que forneça defesa em profundidade.