A Anthropic Tem um Plano para Impedir que Sua IA Construa uma Arma Nuclear. Vai Funcionar?

No final de agosto, a empresa de IA Anthropic anunciou que seu chatbot Claude não ajudaria ninguém a construir uma arma nuclear. De acordo com a Anthropic, ela se associou ao Departamento de Energia (DOE) e à Administração Nacional de Segurança Nuclear (NNSA) para garantir que Claude não revelasse segredos nucleares.

A fabricação de armas nucleares é tanto uma ciência precisa quanto um problema resolvido. Muitas das informações sobre as armas nucleares mais avançadas da América são Top Secret, mas a ciência nuclear original tem 80 anos. A Coreia do Norte provou que um país dedicado com interesse em adquirir a bomba pode fazê-lo, e não precisava da ajuda de um chatbot.

Como, exatamente, o governo dos EUA trabalhou com uma empresa de IA para garantir que um chatbot não estivesse revelando segredos nucleares sensíveis? E também: houve algum perigo de um chatbot ajudar alguém a construir uma bomba nuclear em primeiro lugar?

A resposta para a primeira pergunta é que foi utilizado a Amazon. A Amazon Web Services (AWS) oferece serviços de nuvem Top Secret para clientes governamentais onde podem armazenar informações sensíveis e classificadas. O DOE já tinha vários desses servidores quando começou a trabalhar com a Anthropic.

“Implantamos uma versão então de fronteira do Claude em um ambiente Top Secret para que a NNSA pudesse testar sistematicamente se os modelos de IA poderiam criar ou agravar riscos nucleares”, diz Marina Favaro, que supervisiona a Política de Segurança Nacional e Parcerias na Anthropic. “Desde então, a NNSA tem testado modelos sucessivos do Claude em seu ambiente de nuvem seguro e nos fornecido feedback.”

O processo de red-teaming da NNSA — que significa testar vulnerabilidades — ajudou a Anthropic e os cientistas nucleares da América a desenvolver uma solução proativa para programas nucleares assistidos por chatbots. Juntos, eles “co-desenvolveram um classificador nuclear, que você pode pensar como um filtro sofisticado para conversas de IA”, diz Favaro. “Nós o construímos usando uma lista desenvolvida pela NNSA de indicadores de risco nuclear, tópicos específicos e detalhes técnicos que nos ajudam a identificar quando uma conversa pode estar se desviando para um território nocivo. A lista em si é controlada, mas não classificada, o que é crucial, porque significa que nossa equipe técnica e outras empresas podem implementá-la.”

Favaro diz que levou meses de ajustes e testes para fazer o classificador funcionar. “Ele captura conversas preocupantes sem sinalizar discussões legítimas sobre energia nuclear ou isótopos médicos”, diz ela.

Wendin Smith, administrador da NNSA e subsecretário adjunto para contraterrorismo e não proliferação, diz à WIRED que “o surgimento de tecnologias habilitadas por IA mudou profundamente o espaço da segurança nacional. A expertise autoritativa da NNSA em segurança radiológica e nuclear nos coloca em uma posição única para ajudar na implantação de ferramentas que protejam contra riscos potenciais nessas áreas, e que nos permitem executar nossa missão de forma mais eficiente e eficaz.”

Tanto a NNSA quanto a Anthropic foram vagas sobre os “riscos potenciais nessas áreas”, e não está claro quão útil Claude ou qualquer outro chatbot seria na construção de uma arma nuclear.

“Eu não descarto essas preocupações, acho que vale a pena levá-las a sério”, diz Oliver Stephenson, um especialista em IA da Federação de Cientistas Americanos, à WIRED. “Não acho que os modelos em sua iteração atual sejam incrivelmente preocupantes na maioria dos casos, mas eu realmente acho que não sabemos onde eles estarão em cinco anos… e vale a pena ser prudente sobre esse fato.”

Stephenson aponta que muito está escondido atrás de uma barreira de classificação, então é difícil saber qual impacto o classificador da Anthropic teve. “Há muitos detalhes no design de lentes de implosão que cercam o núcleo nuclear”, diz Stephenson. “Você precisa estruturá-los com muita precisão para comprimir perfeitamente o núcleo e obter uma explosão de alto rendimento… Eu poderia imaginar que isso seria o tipo de coisa onde a IA poderia ajudar a sintetizar informações de vários artigos de física, várias publicações sobre armas nucleares.”

Ainda assim, ele diz que as empresas de IA deveriam ser mais específicas quando falam sobre segurança. “Quando a Anthropic publica coisas assim, eu gostaria de vê-los falando com um pouco mais de detalhe sobre o modelo de risco que eles realmente estão preocupados”, diz ele. “É bom ver a colaboração entre empresas de IA e o governo, mas sempre há o perigo com a classificação de que você coloca muita confiança nas pessoas que determinam o que entra nesses classificadores.”

Para Heidy Khlaaf, a cientista-chefe de IA do AI Now Institute com experiência em segurança nuclear, a promessa da Anthropic de que Claude não ajudará alguém a construir uma bomba nuclear é tanto um truque de mágica quanto um teatro de segurança. Ela diz que um modelo de linguagem grande como Claude é tão bom quanto seus dados de treinamento. E se Claude nunca teve acesso a segredos nucleares para começar, então o classificador é irrelevante.

“Se a NNSA sondou um modelo que não foi treinado em material nuclear sensível, então seus resultados não são uma indicação de que seus prompts de sondagem foram abrangentes, mas que o modelo provavelmente não continha os dados ou o treinamento para demonstrar quaisquer capacidades nucleares suficientes”, diz Khlaaf à WIRED. “Usar esse resultado inconclusivo junto com o conhecimento nuclear comum para construir um classificador de ‘indicadores de risco’ nuclear seria bastante insuficiente e muito distante das definições legais e técnicas de salvaguardas nucleares.”

Khlaaf acrescenta que esse tipo de anúncio alimenta especulações sobre capacidades que os chatbots não têm. “Esse trabalho parece estar se baseando em uma suposição não fundamentada de que os modelos da Anthropic produzirão capacidades nucleares emergentes sem treinamento adicional, e isso simplesmente não está alinhado com a ciência disponível”, diz ela.

A Anthropic discorda. “Muito do nosso trabalho de segurança é focado em construir proativamente sistemas de segurança que possam identificar riscos futuros e mitigar contra eles”, diz um porta-voz da Anthropic à WIRED. “Esse classificador é um exemplo disso. Nosso trabalho com a NNSA nos permite fazer as avaliações de risco apropriadas e criar salvaguardas que previnam o uso indevido potencial de nossos modelos.”

Khlaaf também estava menos empolgada com a parceria entre o governo dos EUA e uma empresa privada de IA. Empresas como a Anthropic estão famintas por dados de treinamento, e ela vê a pressa mais ampla do governo dos EUA em abraçar a IA como uma oportunidade para a indústria de IA adquirir dados que não poderia obter de outra forma. “Queremos que essas corporações privadas, que são amplamente não regulamentadas, tenham acesso a esses dados sensíveis de segurança nacional?”, pergunta ela. “Seja falando sobre sistemas militares, armas nucleares ou mesmo energia nuclear.”

E então há a precisão. “Essas são ciências precisas, e sabemos que modelos de linguagem grandes têm modos de falha nos quais eles são incapazes de fazer até mesmo a matemática mais básica”, diz Khlaaf. Em 1954, um erro matemático triplicou o rendimento de uma arma nuclear que os EUA testaram no Oceano Pacífico, e o governo ainda está lidando com as consequências literais. O que poderia acontecer se um chatbot fizesse a matemática de armas nucleares errada e um humano não verificasse seu trabalho?

Para o crédito da Anthropic, ela diz que não quer um futuro onde as pessoas estejam usando chatbots para brincar com a ciência das armas nucleares. Ela está até oferecendo seu classificador a qualquer outra empresa de IA que queira. “Em nosso mundo ideal, isso se torna um padrão da indústria voluntário, uma prática de segurança compartilhada que todos adotam”, diz Favaro. “Isso exigiria um pequeno investimento técnico e poderia reduzir significativamente os riscos em um domínio sensível de segurança nacional.”

Fonte

Compartilhe esse conteúdo: