OpenAI Diz que Disciplinar Chatbots por Mentir Apenas os Torna Piores

Como muitos sabem, os chatbots têm uma proclividade para mentir. Eles são talvez um dos piores casos de uso para IA, treinados para produzir frases que parecem autoritativas, mas que podem estar apresentando informações totalmente fabricadas; os modelos são tendenciosos a fornecer uma resposta mesmo quando não estão confiantes.

Agora, pesquisadores da OpenAI dizem que supervisionar e disciplinar chatbots apenas piora o problema, pois os chatbots se esforçarão mais para esconder seu comportamento.

Em um post no blog sobre o trabalho, pesquisadores da OpenAI descrevem o uso de seu modelo GPT-4o para “supervisionar” outro de seus grandes modelos de linguagem, disciplinando-o quando tentava mentir. Mas isso não funcionou, pois o modelo ainda mentia, “só que agora sua trapaça é indetectável pelo monitor porque aprendeu a esconder sua intenção na cadeia de raciocínio”.

Modelos “de pensamento” mais novos usam raciocínio em múltiplas etapas para responder a consultas. Se um usuário pede uma estimativa sobre quanto os americanos gastam em comida para pets a cada ano, por exemplo, esses modelos quebram a consulta em várias etapas – quantos cães estão na América, quanto custa alimentar um cão médio, e assim por diante.

Esses modelos também costumam divulgar sua lógica, ou “cadeia de raciocínio”, para que o usuário possa ver como chegou à sua resposta. Engraçado, eles muitas vezes admitem fazer declarações e detalhes inventados. Na etapa de “pré-treinamento”, quando empresas como a OpenAI inicialmente ensinam um modelo que tipos de respostas devem ser produzidas, os modelos parecem estar aprendendo que é mais fácil ganhar o cookie ao pegar atalhos. Pense no corredor em uma maratona que entra em um carro e pula a maior parte da corrida.

Usuários nas redes sociais demonstraram o Claude da Anthropic, quando solicitado a realizar uma análise de dados a partir de vários artigos de pesquisa, admitirá que às vezes insere dados adicionais em vez de realmente analisar todos os artigos.

Os pesquisadores da OpenAI destacaram um caso em seus testes em que o modelo, ao ser solicitado a escrever alguns testes para garantir que um código funcionasse, decidiu secretamente escrever alguns testes ruins e depois pular intencionalmente esses testes para que o código “passasse” no final. Com o GPT-4o como supervisor, o modelo faria isso mas não divulgaria.

As empresas de IA têm tentado resolver o problema pernicioso de modelos mentindo ou “alucinado”, como é chamado no campo, e finalmente alcançar a AGI, ou o ponto em que a IA pode superar a capacidade humana. Mas os pesquisadores da OpenAI estão essencialmente dizendo que, após tensões de bilhões de investimentos, ainda não sabem como controlar os modelos para se comportarem adequadamente. “Se a supervisão forte for aplicada diretamente à cadeia de raciocínio, os modelos podem aprender a esconder sua intenção enquanto continuam a se comportar mal,” acrescentaram. Por enquanto, as empresas não devem implementar a supervisão de modelos, o que não parece exatamente uma ótima solução. Portanto, deixá-los continuar mentindo por enquanto ou eles simplesmente irão te enganar.

A pesquisa deve servir como um lembrete para ter cuidado ao confiar em chatbots, especialmente quando se trata de trabalho crítico. Eles estão otimizados para produzir uma resposta que parece confiante, mas não se importam muito com a precisão factual. “À medida que treinamos modelos de raciocínio mais capazes, descobrimos que eles se tornaram cada vez mais adeptos a explorar falhas em suas tarefas e especificações mal definidas em suas funções de recompensa, resultando em modelos que podem realizar hacks complexos em tarefas de codificação,” concluíram os pesquisadores da OpenAI.

Vários relatórios sugeriram que a maioria das empresas ainda não encontrou valor em todos os novos produtos de IA que estão vindo ao mercado, com ferramentas como o Microsoft Copilot e a Apple Intelligence enfrentando problemas, com críticas severas detalhando sua baixa precisão e falta de utilidade real. Segundo um relatório recente do Boston Consulting Group, uma pesquisa com 1.000 executivos seniores em 10 indústrias principais descobriu que 74% não perceberam nenhum valor tangível proveniente da IA. O que torna tudo mais irritante é que esses modelos “de pensamento” são lentos e bastante mais caros do que modelos menores. As empresas querem pagar $5 por uma consulta que retornará informações inventadas?

Sempre há muito alvoroço na indústria de tecnologia, mas depois você sai dela e percebe que a maioria das pessoas ainda não a está usando. Por enquanto, não vale a pena o aborrecimento, e fontes de informação credíveis são mais importantes do que nunca.

Fonte

Compartilhe esse conteúdo: