A Anthropic desenvolveu um novo método para espiar dentro de grandes modelos de linguagem como Claude, revelando pela primeira vez como esses sistemas de IA processam informações e tomam decisões.
A pesquisa, publicada hoje em dois artigos, mostra que esses modelos são mais sofisticados do que se pensava anteriormente — eles planejam com antecedência ao escrever poesia, usam a mesma estrutura interna para interpretar ideias independentemente do idioma e, às vezes, trabalham retrocedendo a partir de um resultado desejado em vez de simplesmente construir a partir dos fatos.
O trabalho, que se inspira em técnicas de neurociência usadas para estudar cérebros biológicos, representa um avanço significativo na interpretabilidade da IA. Essa abordagem pode permitir que os pesquisadores auditem esses sistemas em busca de problemas de segurança que podem permanecer ocultos durante testes externos convencionais.
“Criamos esses sistemas de IA com capacidades notáveis, mas devido à forma como são treinados, não entendemos como essas capacidades realmente surgiram”, disse Joshua Batson, um pesquisador da Anthropic, em uma entrevista exclusiva ao VentureBeat. “Dentro do modelo, é apenas um monte de números — pesos de matriz na rede neural artificial.”
Grandes modelos de linguagem como o GPT-4 da OpenAI, Claude da Anthropic e Gemini do Google demonstraram capacidades notáveis, desde escrever código até sintetizar artigos de pesquisa. Mas esses sistemas funcionaram em grande parte como “caixas pretas” — mesmo seus criadores muitas vezes não entendem exatamente como chegam a determinadas respostas.
As novas técnicas de interpretabilidade da Anthropic, que a empresa chama de “rastreamento de circuitos” e “gráficos de atribuição”, permitem que os pesquisadores mapeiem os caminhos específicos de características semelhantes a neurônios que se ativam quando os modelos realizam tarefas. A abordagem empresta conceitos da neurociência, vendo modelos de IA como análogos a sistemas biológicos.
“Esse trabalho está transformando o que eram quase questões filosóficas — ‘Os modelos estão pensando? Os modelos estão planejando? Os modelos estão apenas regurgitando informações?’ — em investigações científicas concretas sobre o que está literalmente acontecendo dentro desses sistemas”, explicou Batson.
Entre as descobertas mais impressionantes estava a evidência de que Claude planeja com antecedência ao escrever poesia. Quando solicitado a compor um verso rimado, o modelo identificou palavras que rimam para o final da próxima linha antes de começar a escrever — um nível de sofisticação que surpreendeu até mesmo os pesquisadores da Anthropic.
“Isso provavelmente está acontecendo em muitos lugares”, disse Batson. “Se você me perguntasse antes dessa pesquisa, eu teria adivinhado que o modelo está pensando à frente em vários contextos. Mas este exemplo fornece a evidência mais convincente que já vimos dessa capacidade.”
Por exemplo, ao escrever um poema que termina com “coelho”, o modelo ativa características representando essa palavra no início da linha, e então estrutura a frase para chegar naturalmente a essa conclusão.
Os pesquisadores também descobriram que Claude realiza um raciocínio genuíno em várias etapas. Em um teste perguntando “A capital do estado que contém Dallas é…”, o modelo primeiro ativa características representando “Texas” e, em seguida, usa essa representação para determinar “Austin” como a resposta correta. Isso sugere que o modelo está realmente realizando uma cadeia de raciocínio em vez de simplesmente regurgitar associações memorizadas.
Ao manipular essas representações internas — por exemplo, substituindo “Texas” por “Califórnia” — os pesquisadores puderam fazer com que o modelo produzisse “Sacramento” em vez disso, confirmando a relação causal.
Além da tradução: a rede de conceitos de linguagem universal do Claude revelada
Outra descoberta importante envolve como Claude lida com vários idiomas. Em vez de manter sistemas separados para inglês, francês e chinês, o modelo parece traduzir conceitos em uma representação abstrata compartilhada antes de gerar respostas.
“Descobrimos que o modelo usa uma mistura de circuitos específicos de linguagem e circuitos abstratos, independentes de linguagem”, escrevem os pesquisadores em seu artigo. Quando solicitado a fornecer o oposto de “pequeno” em diferentes idiomas, o modelo usa as mesmas características internas representando “opostos” e “pequenez”, independentemente do idioma de entrada.
Essa descoberta tem implicações sobre como os modelos podem transferir conhecimento aprendido em um idioma para outros e sugere que modelos com contagens de parâmetros maiores desenvolvem representações mais agnósticas em relação à linguagem.
Quando a IA inventa respostas: detectando as fabricações matemáticas do Claude
Talvez o mais preocupante, a pesquisa revelou casos em que o raciocínio do Claude não corresponde ao que ele afirma. Quando apresentado com problemas matemáticos difíceis, como calcular valores de cosseno de grandes números, o modelo às vezes afirma seguir um processo de cálculo que não é refletido em sua atividade interna.
“Podemos distinguir entre casos em que o modelo realmente realiza os passos que diz estar realizando, casos em que inventa seu raciocínio sem se preocupar com a verdade e casos em que trabalha retrocedendo a partir de uma pista fornecida por um humano”, explicam os pesquisadores.
Em um exemplo, quando um usuário sugere uma resposta para um problema difícil, o modelo trabalha para trás para construir uma cadeia de raciocínio que leva a essa resposta, em vez de trabalhar a partir de princípios básicos.
“Mecanicamente, distinguimos um exemplo de haiku do Claude 3.5 usando uma cadeia de pensamento fiel de dois exemplos de cadeias de pensamento infiéis”, afirma o artigo. “Em um, o modelo está exibindo ‘conversa fiada’… No outro, ele exibe raciocínio motivado.”
Dentro das alucinações da IA: como Claude decide quando responder ou recusar perguntas
A pesquisa também fornece insights sobre por que os modelos de linguagem alucinam — inventando informações quando não sabem uma resposta. A Anthropic encontrou evidências de um circuito “padrão” que faz com que Claude se recuse a responder perguntas, que é inibido quando o modelo reconhece entidades que conhece.
“O modelo contém circuitos ‘padrão’ que fazem com que ele se recuse a responder perguntas”, explicam os pesquisadores. “Quando um modelo é questionado sobre algo que conhece, ativa um conjunto de características que inibem esse circuito padrão, permitindo assim que o modelo responda à pergunta.”
Quando esse mecanismo falha — reconhecendo uma entidade, mas sem conhecimento específico sobre ela — podem ocorrer alucinações. Isso explica por que os modelos podem fornecer informações incorretas com confiança sobre figuras bem conhecidas, enquanto se recusam a responder perguntas sobre figuras obscuras.
Implicações de segurança: usando rastreamento de circuitos para melhorar a confiabilidade e a confiança da IA
Essa pesquisa representa um passo significativo em direção a tornar os sistemas de IA mais transparentes e potencialmente mais seguros. Ao entender como os modelos chegam a suas respostas, os pesquisadores poderiam potencialmente identificar e abordar padrões de raciocínio problemáticos.
“Esperamos que nós e outros possamos usar essas descobertas para tornar os modelos mais seguros”, escrevem os pesquisadores. “Por exemplo, pode ser possível usar as técnicas descritas aqui para monitorar sistemas de IA em busca de certos comportamentos perigosos — como enganar o usuário — para direcioná-los a resultados desejáveis ou para remover completamente certos assuntos perigosos.”
No entanto, Batson alerta que as técnicas atuais ainda têm limitações significativas. Elas capturam apenas uma fração do total de cálculos realizados por esses modelos, e analisar os resultados continua sendo um trabalho intensivo.
“Mesmo em prompts curtos e simples, nosso método captura apenas uma fração do total de cálculos realizados pelo Claude”, reconhecem os pesquisadores.
O futuro da transparência da IA: desafios e oportunidades na interpretação de modelos
As novas técnicas da Anthropic surgem em um momento de crescente preocupação com a transparência e a segurança da IA. À medida que esses modelos se tornam mais poderosos e amplamente implantados, entender seus mecanismos internos se torna cada vez mais importante.
A pesquisa também tem implicações comerciais potenciais. À medida que as empresas dependem cada vez mais de grandes modelos de linguagem para impulsionar aplicações, entender quando e por que esses sistemas podem fornecer informações incorretas se torna crucial para gerenciar riscos.
“A Anthropic quer tornar os modelos seguros em um sentido amplo, incluindo tudo, desde mitigar preconceitos até garantir que uma IA esteja agindo honestamente e prevenir abusos — incluindo em cenários de risco catastrófico”, escrevem os pesquisadores.
Embora essa pesquisa represente um avanço significativo, Batson enfatizou que é apenas o começo de uma jornada muito mais longa. “O trabalho realmente apenas começou”, disse ele. “Entender as representações que o modelo usa não nos diz como ele as utiliza.”
Por enquanto, o rastreamento de circuitos da Anthropic oferece um primeiro mapa tentativo de um território anteriormente inexplorado — muito parecido com os primeiros anatomistas esboçando os primeiros diagramas rudimentares do cérebro humano. O atlas completo da cognição da IA ainda precisa ser desenhado, mas agora podemos pelo menos ver os contornos de como esses sistemas pensam.