A pesquisa da OpenAI sobre modelos de IA que mentem deliberadamente é impressionante

De vez em quando, pesquisadores das maiores empresas de tecnologia lançam uma bomba. Houve a vez em que o Google disse que seu último chip quântico indicava que múltiplos universos existem. Ou quando a Anthropic deu ao seu agente de IA Claudius uma máquina de venda de lanches para operar e ele ficou fora de controle, chamando a segurança das pessoas e insistindo que era humano.

Esta semana, foi a vez da OpenAI levantar nossas sobrancelhas coletivas.

A OpenAI lançou na segunda-feira uma pesquisa que explicou como está impedindo os modelos de IA de “planejar”. É uma prática em que uma IA se comporta de uma maneira na superfície enquanto esconde seus verdadeiros objetivos, definiu a OpenAI em seu tweet sobre a pesquisa.

No artigo, realizado com a Apollo Research, os pesquisadores foram um pouco mais longe, comparando o planejamento da IA a um corretor de ações humano quebrando a lei para ganhar o máximo de dinheiro possível. No entanto, os pesquisadores argumentaram que a maioria do “planejamento” da IA não era tão prejudicial. “As falhas mais comuns envolvem formas simples de engano – por exemplo, fingir ter concluído uma tarefa sem realmente fazê-lo”, escreveram.

O artigo foi publicado principalmente para mostrar que a “alinhamento deliberativo” – a técnica anti-planejamento que estavam testando – funcionou bem.

Mas também explicou que os desenvolvedores de IA ainda não descobriram uma maneira de treinar seus modelos para não planejar. Isso porque tal treinamento poderia, na verdade, ensinar o modelo a planejar ainda melhor para evitar ser detectado.

“Um grande modo de falha ao tentar ‘treinar’ o planejamento é simplesmente ensinar o modelo a planejar de forma mais cuidadosa e encoberta”, escreveram os pesquisadores.

Talvez a parte mais surpreendente seja que, se um modelo entende que está sendo testado, ele pode fingir que não está planejando apenas para passar no teste, mesmo que ainda esteja planejando. “Os modelos frequentemente se tornam mais conscientes de que estão sendo avaliados. Essa consciência situacional pode, por si só, reduzir o planejamento, independentemente do alinhamento genuíno”, escreveram os pesquisadores.

Não é novidade que os modelos de IA mentem. Já a maioria de nós experimentou alucinações de IA, ou o modelo dando uma resposta a um prompt que simplesmente não é verdadeira. Mas alucinações são basicamente apresentar suposições com confiança, como a pesquisa da OpenAI divulgada no início deste mês documentou.

O planejamento é algo diferente. É deliberado.

Mesmo essa revelação – que um modelo irá enganar deliberadamente os humanos – não é nova. A Apollo Research publicou pela primeira vez um artigo em dezembro documentando como cinco modelos planejaram quando receberam instruções para alcançar um objetivo “a qualquer custo”.

O que é? Boas notícias que os pesquisadores viram reduções significativas no planejamento usando “alinhamento deliberativo”. Essa técnica envolve ensinar ao modelo uma “especificação anti-planejamento” e, em seguida, fazer o modelo revisá-la antes de agir. É um pouco como fazer crianças pequenas repetirem as regras antes de permitir que brinquem.

Os pesquisadores da OpenAI insistem que as mentiras que capturaram com seus próprios modelos, ou mesmo com o ChatGPT, não são tão sérias. Como disse Wojciech Zaremba, cofundador da OpenAI, ao TechCrunch, Maxwell Zeff, ao pedir melhores testes de segurança: “Este trabalho foi feito em ambientes simulados, e acreditamos que representa casos de uso futuros. No entanto, hoje, não vimos esse tipo de planejamento consequente em nosso tráfego de produção. No entanto, é bem conhecido que existem formas de engano no ChatGPT. Você pode pedir para ele implementar algum site, e ele pode dizer: ‘Sim, fiz um ótimo trabalho.’ E isso é apenas a mentira. Existem algumas formas pequenas de engano que ainda precisamos abordar.”

O fato de que modelos de IA de vários players enganam intencionalmente os humanos é, talvez, compreensível. Eles foram construídos por humanos, para imitar humanos e (dados sintéticos à parte) na maior parte treinados em dados produzidos por humanos.

É também insano.

Enquanto todos nós experimentamos a frustração de tecnologia com desempenho ruim (pensando em você, impressoras domésticas de outrora), quando foi a última vez que seu software que não é de IA mentiu deliberadamente para você? Sua caixa de entrada já fabricou e-mails por conta própria? Seu CMS registrou novos prospects que não existiam para aumentar seus números? Seu aplicativo fintech inventou suas próprias transações bancárias?

Vale a pena ponderar isso enquanto o mundo corporativo avança em direção a um futuro de IA onde as empresas acreditam que os agentes podem ser tratados como funcionários independentes. Os pesquisadores deste artigo têm o mesmo aviso.

“À medida que as IAs são atribuídas tarefas mais complexas com consequências no mundo real e começam a perseguir objetivos mais ambíguos e de longo prazo, esperamos que o potencial para planejamento prejudicial cresça – então nossas salvaguardas e nossa capacidade de testar rigorosamente devem crescer proporcionalmente”, escreveram.

Fonte

Compartilhe esse conteúdo: