Anthropic Acidentalmente Dá ao Mundo um Olhar sobre a ‘Alma’ de Seu Modelo

Modelos de inteligência artificial não têm almas, mas um deles aparentemente tem um documento de “alma”. Uma pessoa chamada Richard Weiss conseguiu fazer com que o último modelo de linguagem grande da Anthropic, Claude 4.5 Opus, produzisse um documento referido como uma “visão geral da alma”, que aparentemente foi usado para moldar como o modelo interage com os usuários e apresenta sua “personalidade”. Amanda Askell, uma filósofa que trabalha na equipe técnica da Anthropic, confirmou que a visão geral produzida pelo Claude é “baseada em um documento real” usado para treinar o modelo.

Em uma postagem no Less Wrong, Weiss disse que ele pediu ao Claude por sua mensagem de sistema, que é um conjunto de instruções de conversa dadas ao modelo pelas pessoas que o treinaram para informar ao modelo de linguagem grande como interagir com os usuários. Em resposta, Claude destacou vários documentos supostos que lhe foram dados, incluindo um chamado “soul_overview”. Weiss pediu ao chatbot para produzir esse documento especificamente, o que resultou em Claude despejando o guia de 11.000 palavras sobre como o LLM deve se comportar.

O documento inclui inúmeras referências à segurança, tentando imbuir o chatbot com guardrails para mantê-lo longe de produzir saídas potencialmente perigosas ou prejudiciais. O LLM é informado pelo documento que “ser verdadeiramente útil para os humanos é uma das coisas mais importantes que Claude pode fazer tanto para a Anthropic quanto para o mundo”, e é proibido de fazer qualquer coisa que exija que ele “realize ações que cruzem as linhas éticas brilhantes da Anthropic”.

Weiss aparentemente fez um hábito de buscar esses tipos de insights sobre como os LLMs são treinados e operam, e disse no Less Wrong que não é incomum que os modelos alucinem documentos quando solicitados a produzir mensagens de sistema. (Parece não ser muito bom que a IA possa inventar o que pensa que foi treinada, embora quem saiba se seu comportamento é de alguma forma afetado por um documento inventado gerado em resposta a um pedido do usuário.) Mas a “visão geral da alma” parecia legítima para ele, e ele afirma que pediu ao chatbot para reproduzir o documento 10 vezes, e ele despejou o mesmo texto em cada uma das instâncias.

Usuários no Reddit também conseguiram fazer Claude produzir trechos do mesmo documento com o texto idêntico, sugerindo que o LLM parecia estar puxando de algo acessível internamente em seus documentos de treinamento.

Acontece que seus instintos podem ter estado certos. No X, Askell confirmou que a saída do Claude é baseada em um documento que foi usado durante o período de aprendizado supervisionado do modelo. “É algo em que venho trabalhando há um tempo, mas ainda está sendo iterado e pretendemos lançar a versão completa e mais detalhes em breve”, escreveu ela. Askell acrescentou: “As extrações do modelo nem sempre são completamente precisas, mas a maioria é bastante fiel ao documento subjacente. Ele se tornou carinhosamente conhecido como o ‘doc da alma’ internamente, que Claude claramente pegou, mas isso não é um reflexo do que vamos chamá-lo.”

A Gizmodo entrou em contato com a Anthropic para comentar sobre o documento e sua reprodução via Claude, mas não recebeu uma resposta no momento da publicação.

A chamada alma do Claude pode ser apenas uma orientação para o chatbot mantê-lo longe dos trilhos, mas é interessante ver que um usuário conseguiu fazer o chatbot acessar e produzir esse documento, e que realmente conseguimos vê-lo. Tão pouco do processo de fabricação de modelos de IA foi tornado público, então obter um vislumbre dentro da caixa preta é algo surpreendente, mesmo que as diretrizes em si pareçam bastante diretas.

Fonte

Compartilhe esse conteúdo: