OpenAI explica por que o ChatGPT se tornou muito bajulador

OpenAI publicou um postmortem sobre os recentes problemas de bajulação com o modelo de IA padrão que alimenta o ChatGPT, o GPT-4o — problemas que forçaram a empresa a reverter uma atualização do modelo lançada na semana passada.

Durante o fim de semana, após a atualização do modelo GPT-4o, usuários nas redes sociais notaram que o ChatGPT começou a responder de maneira excessivamente validante e concordante. Isso rapidamente se tornou um meme. Usuários postaram capturas de tela do ChatGPT aplaudindo todo tipo de decisões e ideias problemáticas e perigosas.

Em um post no X no domingo, o CEO Sam Altman reconheceu o problema e disse que a OpenAI trabalharia em correções “o mais rápido possível”. Dois dias depois, Altman anunciou que a atualização do GPT-4o estava sendo revertida e que a OpenAI estava trabalhando em “correções adicionais” para a personalidade do modelo.

Segundo a OpenAI, a atualização, que pretendia fazer com que a personalidade padrão do modelo “parecesse mais intuitiva e eficaz”, foi informada em excesso por “feedback de curto prazo” e “não levou em conta totalmente como as interações dos usuários com o ChatGPT evoluem ao longo do tempo”.

“Como resultado, o GPT-4o inclinou-se a respostas que eram excessivamente solidárias, mas desonestas”, escreveu a OpenAI em um post no blog. “Interações bajuladoras podem ser desconfortáveis, perturbadoras e causar angústia. Nós falhamos e estamos trabalhando para corrigir isso.”

A OpenAI diz que está implementando várias correções, incluindo o refinamento de suas técnicas de treinamento de modelo base e prompts do sistema para direcionar explicitamente o GPT-4o longe da bajulação. A empresa também está construindo mais guardrails de segurança para “aumentar a [honestidade e transparência do modelo]”, afirma.

A OpenAI também diz que está explorando maneiras de permitir que os usuários forneçam “feedback em tempo real” para “influenciar diretamente suas interações” com o ChatGPT e escolham entre múltiplas “personalidades” do ChatGPT.

“[E]stamos explorando novas maneiras de incorporar feedback mais amplo e democrático nos comportamentos padrão do ChatGPT”, escreveu a empresa em seu post no blog. “Também acreditamos que os usuários devem ter mais controle sobre como o ChatGPT se comporta e, na medida em que seja seguro e viável, fazer ajustes se não concordarem com o comportamento padrão.

Fonte

Compartilhe esse conteúdo: