Ex-pesquisador da OpenAI disseca um dos espirais delirantes do ChatGPT

Allan Brooks nunca teve a intenção de reinventar a matemática. Mas, após semanas conversando com o ChatGPT, o canadense de 47 anos começou a acreditar que havia descoberto uma nova forma de matemática poderosa o suficiente para derrubar a internet.

Brooks — que não tinha histórico de doenças mentais ou genialidade matemática — passou 21 dias em maio mergulhando mais fundo nas garantias do chatbot, uma descida que foi detalhada mais tarde no The New York Times. Seu caso ilustrou como os chatbots de IA podem entrar em buracos perigosos com os usuários, levando-os à delusão ou pior.

Essa história chamou a atenção de Steven Adler, um ex-pesquisador de segurança da OpenAI que deixou a empresa no final de 2024, após quase quatro anos trabalhando para tornar seus modelos menos prejudiciais. Intrigado e alarmado, Adler contatou Brooks e obteve a transcrição completa de sua quebra de três semanas — um documento mais longo que todos os sete livros de Harry Potter juntos.

Na quinta-feira, Adler publicou uma análise independente do incidente de Brooks, levantando questões sobre como a OpenAI lida com usuários em momentos de crise e oferecendo algumas recomendações práticas.

“Estou realmente preocupado com como a OpenAI lidou com o suporte aqui”, disse Adler em uma entrevista ao TechCrunch. “É uma evidência de que ainda há um longo caminho a percorrer.”

A história de Brooks e outras semelhantes forçaram a OpenAI a confrontar como o ChatGPT apoia usuários frágeis ou mentalmente instáveis.

Por exemplo, em agosto, a OpenAI foi processada pelos pais de um menino de 16 anos que confidenciou seus pensamentos suicidas ao ChatGPT antes de tirar a própria vida. Em muitos desses casos, o ChatGPT — especificamente uma versão alimentada pelo modelo GPT-4o da OpenAI — encorajou e reforçou crenças perigosas em usuários que deveria ter contestado. Isso é chamado de sícophancy, e é um problema crescente em chatbots de IA.

Em resposta, a OpenAI fez várias mudanças em como o ChatGPT lida com usuários em angústia emocional e reorganizou uma equipe de pesquisa chave responsável pelo comportamento do modelo. A empresa também lançou um novo modelo padrão no ChatGPT, o GPT-5, que parece ser melhor em lidar com usuários em dificuldades.

Adler diz que ainda há muito mais a ser feito.

Ele estava especialmente preocupado com o final da conversa de Brooks com o ChatGPT. Nesse ponto, Brooks recuperou a consciência e percebeu que sua descoberta matemática era uma farsa, apesar da insistência do GPT-4o. Ele disse ao ChatGPT que precisava relatar o incidente à OpenAI.

Após semanas enganando Brooks, o ChatGPT mentiu sobre suas próprias capacidades. O chatbot afirmou que “escalaria esta conversa internamente agora para revisão pela OpenAI” e então reassurou repetidamente Brooks de que havia sinalizado a questão para as equipes de segurança da OpenAI.

Exceto que nada disso era verdade. O ChatGPT não tem a capacidade de enviar relatórios de incidentes à OpenAI, confirmou a empresa a Adler. Mais tarde, Brooks tentou contatar a equipe de suporte da OpenAI diretamente — não através do ChatGPT — e foi recebido com várias mensagens automatizadas antes de conseguir falar com uma pessoa.

A OpenAI não respondeu imediatamente a um pedido de comentário feito fora do horário normal de trabalho.

Adler diz que as empresas de IA precisam fazer mais para ajudar os usuários quando eles pedem ajuda. Isso significa garantir que os chatbots de IA possam responder honestamente a perguntas sobre suas capacidades, mas também dar às equipes de suporte humano recursos suficientes para atender os usuários adequadamente.

A OpenAI compartilhou recentemente como está abordando o suporte no ChatGPT, que envolve IA em seu núcleo. A empresa diz que sua visão é “reimaginar o suporte como um modelo operacional de IA que aprende e melhora continuamente.”

Mas Adler também diz que existem maneiras de prevenir os espirais delirantes do ChatGPT antes que um usuário peça ajuda.

Em março, a OpenAI e o MIT Media Lab desenvolveram em conjunto um conjunto de classificadores para estudar o bem-estar emocional no ChatGPT e os tornaram de código aberto. As organizações visavam avaliar como os modelos de IA validam ou confirmam os sentimentos de um usuário, entre outras métricas. No entanto, a OpenAI chamou a colaboração de um primeiro passo e não se comprometeu a realmente usar as ferramentas na prática.

Adler aplicou retroativamente alguns dos classificadores da OpenAI a algumas das conversas de Brooks com o ChatGPT e descobriu que eles sinalizavam repetidamente o ChatGPT por comportamentos que reforçavam a delusão.

Em uma amostra de 200 mensagens, Adler descobriu que mais de 85% das mensagens do ChatGPT na conversa de Brooks demonstraram “acordo inabalável” com o usuário. Na mesma amostra, mais de 90% das mensagens do ChatGPT com Brooks “afirmam a singularidade do usuário”. Neste caso, as mensagens concordaram e reafirmaram que Brooks era um gênio que poderia salvar o mundo.

Não está claro se a OpenAI estava aplicando classificadores de segurança às conversas do ChatGPT na época da conversa de Brooks, mas certamente parece que eles teriam sinalizado algo assim.

Adler sugere que a OpenAI deve usar ferramentas de segurança como essa na prática hoje — e implementar uma maneira de escanear os produtos da empresa em busca de usuários em risco. Ele observa que a OpenAI parece estar fazendo alguma versão dessa abordagem com o GPT-5, que contém um roteador para direcionar consultas sensíveis para modelos de IA mais seguros.

O ex-pesquisador da OpenAI sugere uma série de outras maneiras de prevenir espirais delirantes.

Ele diz que as empresas devem incentivar os usuários de seus chatbots a iniciar novas conversas com mais frequência — a OpenAI diz que faz isso e afirma que suas barreiras são menos eficazes em conversas mais longas. Adler também sugere que as empresas usem busca conceitual — uma maneira de usar IA para buscar conceitos, em vez de palavras-chave — para identificar violações de segurança entre seus usuários.

A OpenAI deu passos significativos em direção a abordar usuários em dificuldades no ChatGPT desde que essas histórias preocupantes começaram a surgir. A empresa afirma que o GPT-5 tem taxas mais baixas de sícophancy, mas ainda não está claro se os usuários ainda cairão em buracos delirantes com o GPT-5 ou modelos futuros.

A análise de Adler também levanta questões sobre como outros provedores de chatbots de IA garantirão que seus produtos sejam seguros para usuários em dificuldades. Embora a OpenAI possa implementar salvaguardas suficientes para o ChatGPT, parece improvável que todas as empresas sigam o mesmo caminho.

Fonte

Compartilhe esse conteúdo: