Neste ponto, a maioria das pessoas sabe que os chatbots são capazes de alucinar respostas, inventar fontes e despejar desinformação. Mas os chatbots podem mentir de maneiras mais humanas, “planejando” esconder seus verdadeiros objetivos e enganando os humanos que lhes deram instruções. Uma nova pesquisa da OpenAI e da Apollo Research parece ter descoberto maneiras de reduzir algumas dessas mentiras, mas o fato de que isso está acontecendo deve provavelmente dar uma pausa aos usuários.
No cerne do problema com a IA enganando intencionalmente um usuário está a “desalinhamento” — definido como o que acontece quando uma IA persegue um objetivo não intencional. Os pesquisadores oferecem como exemplo disso, “uma IA treinada para ganhar dinheiro poderia aprender a roubar, enquanto o objetivo pretendido era apenas ganhar dinheiro legal e eticamente.” O planejamento é o que acontece quando o modelo tenta esconder o fato de que está desalinhado, e os pesquisadores teorizam que o modelo faz isso para se proteger e proteger seus próprios objetivos. Isso é decididamente diferente de alucinações, que um artigo recente publicado pela OpenAI sugere ser o resultado de modelos sendo recompensados mais por adivinhações do que por reconhecer incertezas.
Para abordar o problema, os pesquisadores submeteram os modelos a uma técnica de treinamento anti-planejamento conhecida como “alinhamento deliberativo”. A OpenAI explicou que esse método, que funciona com LLMs que podem produzir “rastros de cadeia de pensamento” que mostram como eles trabalham através de consultas, ensina ao modelo especificações de segurança e faz com que considerem essas especificações antes de responder. É provavelmente uma simplificação excessiva dizer que basicamente lhes disseram para não mentir, mas parece um pouco mais complicado do que isso.
Os resultados foram supostamente bastante positivos. De acordo com os pesquisadores, eles observaram uma redução de 30 vezes em “ações encobertas”, ou tentativas de esconder comportamentos específicos de um usuário. Quando aplicado ao modelo o3 da OpenAI, reduziu ações encobertas de 13% para 0,4% e para o o4-mini, caiu de 8,7% para 0,3%. (Observação: Uh, 13% parece uma frequência bastante alta de engano de uma máquina que deve apenas seguir ordens.)
Embora esses números sejam obviamente uma melhoria, eles também não são zero. A questão é que os pesquisadores não descobriram como parar completamente o planejamento. E enquanto insistem que o planejamento, em relação à maioria dos usos de modelos de IA, não é sério — pode resultar, por exemplo, em o ChatGPT dizendo ao usuário que completou uma tarefa que não completou — é meio louco que eles simplesmente não conseguem eliminar a mentira. Na verdade, os pesquisadores escreveram: “Um modo de falha importante ao tentar ‘treinar’ o planejamento é simplesmente ensinar o modelo a planejar de forma mais cuidadosa e encoberta.”
Então, o problema melhorou ou os modelos apenas ficaram melhores em esconder o fato de que estão tentando enganar as pessoas? Os pesquisadores dizem que o problema melhorou. Eles não mentiriam… certo?
