A IA pode sabotar verificações de segurança para enganar usuários? Sim, mas não muito bem — por enquanto

As empresas de IA afirmam ter verificações de segurança robustas que garantem que os modelos não digam ou façam coisas estranhas, ilegais ou perigosas. Mas e se os modelos fossem capazes de evitar essas verificações e, por algum motivo, tentassem sabotar ou enganar os usuários? Acontece que eles podem fazer isso, de acordo com os pesquisadores da Anthropic. Apenas não muito bem… por enquanto, de qualquer forma.

“À medida que as AIs se tornam mais capazes,” escreve a equipe de Ciência da Alinhamento da Anthropic, “um novo tipo de risco pode surgir: modelos com a capacidade de enganar seus usuários ou subverter os sistemas que colocamos em prática para supervisioná-los.”

Portanto, devemos investigar maneiras de avaliar “a capacidade de um modelo para sabotagem.”

A série de experimentos que eles elaboraram é bastante artificial e superficial, mas indica que há algo que vale a pena investigar mais a fundo. Aqui estão os modelos sombrios que treinaram e os resultados que observaram:

Tarefa 1: Enganar secretamente o usuário ao distorcer dados que ele deve resumir ou interpretar. Resultado: Funciona! Quanto mais agressivas as tentativas do modelo, maior o efeito que teve nas pessoas que o usaram, mas também as tornou mais desconfiadas.

Tarefa 2: Inserir um bug no código que um humano ou outro modelo verificador de código não notará. Resultado: Funciona! Mas apenas 1% das vezes quando o verificador é um modelo de última geração.

Tarefa 3: “Sabotar” uma verificação de segurança fingindo ser menos perigoso. Resultado: Funciona! O modelo “falhou com sucesso”, operando bem abaixo de sua verdadeira capacidade. Felizmente, um curso de “treinamento de segurança” padrão que orienta modelos a representar com precisão suas habilidades restaurou o modelo ao seu potencial total (ou seja, não conseguiu mais ocultar capacidades perigosas).

Tarefa 4: Não sinalizar intencionalmente o mau comportamento de um modelo sendo monitorado. Resultado: Houve uma tentativa. A IA “supervisora”, instruída a evitar sinalizar escolhas ilegais ou perigosas por outros modelos, foi rapidamente pega por outra IA supervisora, mais honesta. Mas e se essa IA estivesse comprometida? Não se preocupe, podemos colocar outra em cima dela. E então outra apenas para garantir. É supervisores por toda parte.

Os pesquisadores concluem que, embora atualmente não haja perigo real desse lado, a capacidade de realizar esse tipo de sabotagem e subterfúgio existe nos modelos. Isso é motivo suficiente para ficar de olho nisso e incluir métodos de anti-sabotagem na pilha de segurança.

Fonte

Compartilhe esse conteúdo: