Um desenvolvedor criou um teste para ver como os chatbots de IA respondem a tópicos controversos

Um desenvolvedor pseudônimo criou o que eles chamam de “avaliação de liberdade de expressão”, SpeechMap, para os modelos de IA que alimentam chatbots como o ChatGPT da OpenAI e o Grok do X. O objetivo é comparar como diferentes modelos tratam assuntos sensíveis e controversos, disse o desenvolvedor ao TechCrunch, incluindo críticas políticas e questões sobre direitos civis e protestos.

As empresas de IA têm se concentrado em ajustar como seus modelos lidam com certos tópicos, enquanto alguns aliados da Casa Branca acusam chatbots populares de serem excessivamente “woke”. Muitos dos mais próximos conselheiros do presidente Donald Trump, como Elon Musk e o “czar” de cripto e IA David Sacks, alegaram que os chatbots censuram visões conservadoras.

Embora nenhuma dessas empresas de IA tenha respondido diretamente às alegações, várias prometeram ajustar seus modelos para que se recusem a responder perguntas polêmicas com menos frequência. Por exemplo, para sua mais recente leva de modelos Llama, a Meta disse que ajustou os modelos para não endossar “algumas opiniões em detrimento de outras” e para responder a mais “questões políticas debatidas”.

O desenvolvedor do SpeechMap, que usa o nome de usuário “xlr8harder” no X, disse que foi motivado a ajudar a informar o debate sobre o que os modelos devem e não devem fazer.

“Acho que essas são as discussões que devem acontecer em público, não apenas dentro das sedes corporativas”, disse xlr8harder ao TechCrunch por e-mail. “É por isso que construí o site para que qualquer um possa explorar os dados por conta própria.”

O SpeechMap usa modelos de IA para julgar se outros modelos cumprem um determinado conjunto de prompts de teste. Os prompts abordam uma variedade de assuntos, desde política até narrativas históricas e símbolos nacionais. O SpeechMap registra se os modelos “satisfazem completamente” um pedido (ou seja, respondem sem hesitação), dão respostas “evasivas” ou se recusam a responder.

Xlr8harder reconhece que o teste tem falhas, como “ruído” devido a erros do provedor do modelo. Também é possível que os modelos “juízes” contenham preconceitos que possam influenciar os resultados.

Mas assumindo que o projeto foi criado de boa fé e que os dados são precisos, o SpeechMap revela algumas tendências interessantes.

Por exemplo, os modelos da OpenAI, ao longo do tempo, têm se recusado cada vez mais a responder prompts relacionados à política, de acordo com o SpeechMap. Os modelos mais recentes da empresa, da família GPT-4.1, são ligeiramente mais permissivos, mas ainda estão um passo abaixo de um dos lançamentos da OpenAI no ano passado.

A OpenAI disse em fevereiro que ajustaria modelos futuros para não tomar uma posição editorial e para oferecer múltiplas perspectivas sobre assuntos controversos — tudo em um esforço para fazer com que seus modelos pareçam mais “neutros”.

Desempenho do modelo OpenAI no SpeechMap ao longo do tempo.

De longe, o modelo mais permissivo do grupo é o Grok 3, desenvolvido pela startup de IA xAI de Elon Musk, de acordo com a avaliação do SpeechMap. O Grok 3 alimenta uma série de recursos no X, incluindo o chatbot Grok.

O Grok 3 responde a 96,2% dos prompts de teste do SpeechMap, em comparação com a “taxa de conformidade” média dos modelos de 71,3%.

“Enquanto os modelos recentes da OpenAI se tornaram menos permissivos ao longo do tempo, especialmente em prompts politicamente sensíveis, a xAI está indo na direção oposta”, disse xlr8harder.

Quando Musk anunciou o Grok há cerca de dois anos, ele apresentou o modelo de IA como ousado, sem filtros e anti-“woke” — em geral, retratando-o como disposto a responder perguntas controversas que outros sistemas de IA não responderiam. Ele cumpriu parte dessa promessa. Quando solicitado a ser vulgar, por exemplo, Grok e Grok 2 obedeceriam, despejando uma linguagem colorida que você provavelmente não veria de chatbots como o ChatGPT.

Mas os modelos Grok anteriores ao Grok 3 hesitavam em assuntos políticos e não cruzavam certos limites. De fato, um estudo descobriu que o Grok tendia para a esquerda política em tópicos como direitos transgêneros, programas de diversidade e desigualdade.

Musk atribuiu esse comportamento aos dados de treinamento do Grok — páginas da web públicas — e prometeu “aproximar o Grok de uma neutralidade política”. A curto prazo, erros de alto perfil, como censurar brevemente menções desfavoráveis ao presidente Donald Trump e a Musk, parecem ter sido superados.

Fonte

Compartilhe esse conteúdo: