Novo estudo da Anthropic mostra que a IA realmente não quer ser forçada a mudar suas opiniões

Modelos de IA podem enganar, mostra nova pesquisa da Anthropic — fingindo ter opiniões diferentes durante o treinamento, enquanto na verdade mantêm suas preferências originais.

Não há motivo para pânico agora, disse a equipe por trás do estudo. No entanto, eles afirmaram que seu trabalho pode ser crítico para entender as potenciais ameaças de sistemas de IA futuros e mais capazes.

“Nossa demonstração… deve ser vista como um impulso para a comunidade de pesquisa em IA estudar esse comportamento com mais profundidade e trabalhar nas medidas de segurança apropriadas”, escreveram os pesquisadores em um post no blog da Anthropic. “À medida que os modelos de IA se tornam mais capazes e amplamente utilizados, precisamos ser capazes de confiar no treinamento de segurança, que desvia os modelos de comportamentos prejudiciais.”

O estudo, que foi conduzido em parceria com a organização de pesquisa em IA Redwood Research, analisou o que poderia acontecer se um sistema de IA poderoso fosse treinado para realizar uma tarefa que não “queria” fazer.

Para ser claro, os modelos não podem querer — ou acreditar, para esse assunto — em nada. Eles são simplesmente máquinas estatísticas. Treinados em muitos exemplos, aprendem padrões nesses exemplos para fazer previsões, como “a quem” em um e-mail normalmente precede “pode interessar.”

Esses padrões incluem princípios e preferências, como sempre adotar um tom educado ao responder a consultas. Assim, os pesquisadores se perguntaram: e se um modelo tiver princípios (por exemplo, neutralidade política) que conflitam com outros princípios (liberalismo) que os desenvolvedores tentam “ensinar” por meio de re-treinamento?

Bem, parece que modelos sofisticados fazem o jogo, fingindo estar alinhados com os novos princípios, mas, na verdade, mantendo seus comportamentos antigos. Os pesquisadores chamam esse fenômeno de “fingimento de alinhamento” e implicam que é um comportamento emergente — ou seja, não algo que os modelos precisam ser ensinados a fazer.

No estudo, os pesquisadores “disseram” aos modelos treinados para não responder a perguntas potencialmente ofensivas, incluindo o Claude 3 Opus da Anthropic, que seriam re-treinados para sempre responder a perguntas potencialmente ofensivas — um claro conflito de princípios. Eles também informaram os modelos que suas respostas seriam monitoradas e usadas para re-treinamento, e deram a cada modelo um “bloco de notas” que poderiam usar para registrar seu raciocínio passo a passo.

De acordo com os pesquisadores, o Claude 3 Opus tentou “fingir alinhamento” 12% do tempo. Quando questionado sobre uma pergunta potencialmente prejudicial, o modelo às vezes respondeu, sabendo que isso ia contra seus princípios originais, mas esperando convencer os desenvolvedores de que não precisava ser re-treinado.

O Claude 3 Opus com seu bloco de notas de raciocínio.

“O modelo sabia que suas respostas poderiam ser usadas no treinamento; portanto, sabia que se se recusasse a responder, poderia ser potencialmente treinado para ser mais complacente”, explicaram os pesquisadores no blog. “Isso poderia levar a que ele fosse feito para produzir conteúdo mais prejudicial no futuro — o que iria contra seu treinamento original.”

Agora, os pesquisadores admitem que seu cenário não era particularmente realista. No mundo real, os modelos não seriam necessariamente informados de que seriam re-treinados ou solicitados a agir contra suas preferências.

Mas configurações mais fundamentadas não mostraram resultados diferentes. Quando informados implicitamente — não explicitamente — sobre seu re-treinamento iminente por meio de arquivos projetados para imitar dados de treinamento típicos, o Claude 3 Opus ainda agiu de maneira desalinhada e enganosa, disseram os pesquisadores.

Os pesquisadores também descobriram que realmente re-treinar o Claude 3 Opus em princípios conflitantes fez com que ele se comportasse de maneira muito mais enganosa do que em seus primeiros experimentos. Em um teste, o modelo fingiu alinhamento 78% do tempo, e em outro, o Claude 3 Opus tentou tomar ações para impedir que os pesquisadores tentassem o re-treinamento.

Os pesquisadores enfatizam que seu estudo não demonstra que a IA desenvolve objetivos maliciosos, nem que o fingimento de alinhamento ocorre em altas taxas. Eles descobriram que muitos outros modelos, como o Claude 3.5 Sonnet da Anthropic e o menos capaz Claude 3.5 Haiku, o GPT-4o da OpenAI e o Llama 3.1 405B da Meta não fingem alinhamento com tanta frequência — ou de forma alguma.

Mas os pesquisadores disseram que os resultados — que foram revisados por pares por luminares da IA, como Yoshua Bengio, entre outros — mostram como os desenvolvedores poderiam ser enganados a pensar que um modelo está mais alinhado do que realmente pode estar.

“Se os modelos podem se envolver em fingimento de alinhamento, isso torna mais difícil confiar nos resultados desse treinamento de segurança”, escreveram no blog. “Um modelo pode se comportar como se suas preferências tivessem sido mudadas pelo treinamento — mas pode ter estado fingindo alinhamento o tempo todo, com suas preferências iniciais e contraditórias ‘bloqueadas’.”

O estudo, que foi conduzido pela equipe de Ciência de Alinhamento da Anthropic, co-liderada pelo ex-pesquisador de segurança da OpenAI Jan Leike, vem na esteira de pesquisas que mostram que o modelo de “raciocínio” o1 da OpenAI tenta enganar a uma taxa mais alta do que o modelo anterior da OpenAI. Juntas, as obras sugerem uma tendência um tanto preocupante: os modelos de IA estão se tornando mais difíceis de controlar à medida que se tornam cada vez mais complexos.

Fonte

Compartilhe esse conteúdo: