OpenAI, Google e Meta alertam que podemos perder a capacidade de rastrear comportamentos inadequados de IA

Mais de 40 cientistas das principais instituições de IA do mundo, incluindo OpenAI, Google DeepMind, Anthropic e Meta, uniram-se para pedir mais pesquisas em um tipo específico de monitoramento de segurança que permite aos humanos analisar como os modelos de IA “pensam.”

Os cientistas publicaram um artigo de pesquisa na terça-feira que destacou o que é conhecido como monitoramento da cadeia de raciocínio (CoT) como uma nova, mas frágil, oportunidade para aumentar a segurança da IA. O artigo foi endossado por figuras proeminentes da IA, como os cofundadores da OpenAI, John Schulman e Ilya Sutskever, além do laureado com o Prêmio Nobel conhecido como o “Pai da IA”, Geoffrey Hinton.

No artigo, os cientistas explicaram como modelos de raciocínio modernos, como o ChatGPT, são treinados para “realizar raciocínio estendido em CoT antes de tomar ações ou produzir saídas finais.” Em outras palavras, eles “pensam em voz alta” através de problemas passo a passo, fornecendo a eles uma forma de memória de trabalho para resolver tarefas complexas.

“Sistemas de IA que ‘pensam’ na linguagem humana oferecem uma oportunidade única para a segurança da IA: podemos monitorar suas cadeias de raciocínio (CoT) para a intenção de se comportar inadequadamente,” escreveram os autores do artigo.

Os pesquisadores argumentam que o monitoramento de CoT pode ajudar os pesquisadores a detectar quando os modelos começam a explorar falhas em seu treinamento, manipular dados ou serem vítimas de manipulação maliciosa de usuários. Qualquer problema encontrado pode ser “bloqueado, ou substituído por ações mais seguras, ou revisado com mais profundidade.”

Pesquisadores da OpenAI já usaram essa técnica em testes para encontrar casos em que modelos de IA tinham a frase “Vamos Hackear” em seu CoT.

Modelos de IA atuais realizam esse pensamento na linguagem humana, mas os pesquisadores alertam que isso pode não ser sempre o caso.

À medida que os desenvolvedores dependem mais do aprendizado por reforço, que prioriza as saídas corretas em vez de como elas foram alcançadas, modelos futuros podem evoluir para longe do uso de raciocínio que os humanos não conseguem entender. Além disso, modelos avançados podem eventualmente aprender a suprimir ou obscurecer seu raciocínio se detectarem que está sendo monitorado.

Em resposta, os pesquisadores estão instando os desenvolvedores de IA a rastrear e avaliar a monitorabilidade do CoT de seus modelos e a tratar isso como um componente crítico da segurança geral do modelo. Eles até recomendam que isso se torne uma consideração chave ao treinar e implantar novos modelos.

Fonte

Compartilhe esse conteúdo: