O Departamento de Eficiência do Governo, ou DOGE, obteve acesso sem precedentes a pelo menos sete bancos de dados federais sensíveis, incluindo os do Internal Revenue Service e da Social Security Administration. Esse acesso gerou temores sobre vulnerabilidades de cibersegurança e violações de privacidade. Outra preocupação recebeu muito menos atenção: o uso potencial dos dados para treinar os sistemas de inteligência artificial de uma empresa privada.
O secretário de imprensa da Casa Branca disse que os dados do governo coletados pelo DOGE não estão sendo usados para treinar os modelos de IA de Musk, apesar do controle de Elon Musk sobre o DOGE. No entanto, surgiram evidências de que o pessoal do DOGE ocupa simultaneamente cargos em pelo menos uma das empresas de Musk.
Na Administração Federal de Aviação, funcionários da SpaceX possuem endereços de e-mail do governo. Esse emprego duplo cria um canal para que dados federais possam ser potencialmente desviados para empresas de propriedade de Musk, incluindo a xAI. O modelo mais recente do chatbot Grok AI da empresa recusa conspicuamente dar uma negação clara sobre o uso de tais dados.
Como cientista político e tecnólogo que está intimamente familiarizado com fontes públicas de dados do governo, acredito que essa potencial transmissão de dados do governo para empresas privadas apresenta implicações de privacidade e poder muito maiores do que a maioria dos relatos identifica. Uma entidade privada com a capacidade de desenvolver tecnologias de inteligência artificial poderia usar dados do governo para superar seus concorrentes e exercer uma influência massiva sobre a sociedade.
Valor dos dados do governo para IA
Para os desenvolvedores de IA, bancos de dados do governo representam algo semelhante a encontrar o Santo Graal. Enquanto empresas como OpenAI, Google e xAI atualmente dependem de informações extraídas da internet pública, repositórios governamentais não públicos oferecem algo muito mais valioso: registros verificados do comportamento humano real em toda a população.
Isso não é apenas mais dados – é fundamentalmente dados diferentes. Postagens em redes sociais e históricos de navegação na web mostram comportamentos curados ou intencionais, mas bancos de dados do governo capturam decisões reais e suas consequências. Por exemplo, registros do Medicare revelam escolhas e resultados de cuidados de saúde. Dados do IRS e do Tesouro revelam decisões financeiras e impactos a longo prazo. E estatísticas de emprego e educação federais revelam caminhos educacionais e trajetórias de carreira.
O que torna esses dados particularmente valiosos para o treinamento de IA é sua natureza longitudinal e confiabilidade. Ao contrário das informações desordenadas disponíveis online, registros governamentais seguem protocolos padronizados, passam por auditorias regulares e devem atender a requisitos legais de precisão. Cada pagamento da Previdência Social, reivindicação do Medicare e subsídio federal cria um ponto de dados verificado sobre o comportamento do mundo real. Esses dados não existem em nenhum outro lugar com tal amplitude e autenticidade nos EUA.
Mais criticamente, bancos de dados do governo acompanham toda a população ao longo do tempo, não apenas usuários digitalmente ativos. Eles incluem pessoas que nunca usam redes sociais, não compram online ou evitam ativamente serviços digitais. Para uma empresa de IA, isso significaria treinar sistemas sobre a verdadeira diversidade da experiência humana, em vez de apenas os reflexos digitais que as pessoas projetam online.
A vantagem técnica
Os sistemas de IA atuais enfrentam limitações fundamentais que nenhuma quantidade de dados extraídos da internet pode superar. Quando o ChatGPT ou o Gemini do Google cometem erros, muitas vezes é porque foram treinados com informações que podem ser populares, mas não necessariamente verdadeiras. Eles podem lhe dizer o que as pessoas dizem sobre os efeitos de uma política, mas não conseguem rastrear esses efeitos em populações e ao longo dos anos.
Dados do governo poderiam mudar essa equação. Imagine treinar um sistema de IA não apenas com opiniões sobre cuidados de saúde, mas com resultados reais de tratamento em milhões de pacientes. Considere a diferença entre aprender com discussões em redes sociais sobre políticas econômicas e analisar seus impactos reais em diferentes comunidades e demografias ao longo de décadas.
Um modelo grande, de ponta ou de fronteira, treinado em dados governamentais abrangentes poderia entender as relações reais entre políticas e resultados. Ele poderia rastrear consequências não intencionais em diferentes segmentos populacionais, modelar sistemas sociais complexos com validação do mundo real e prever os impactos de mudanças propostas com base em evidências históricas. Para empresas que buscam construir sistemas de IA de próxima geração, o acesso a esses dados criaria uma vantagem quase intransponível.
Controle de sistemas críticos
Uma empresa como a xAI poderia fazer muito mais com modelos treinados em dados do governo do que construir chatbots ou geradores de conteúdo melhores. Esses sistemas poderiam transformar fundamentalmente – e potencialmente controlar – como as pessoas entendem e gerenciam sistemas sociais complexos. Embora algumas dessas capacidades possam ser benéficas sob o controle de agências públicas responsáveis, acredito que representam uma ameaça nas mãos de uma única empresa privada.
Bancos de dados do Medicare e Medicaid contêm registros de tratamentos, resultados e custos em diversas populações ao longo de décadas. Um modelo de fronteira treinado em novos dados do governo poderia identificar padrões de tratamento que têm sucesso onde outros falham, dominando assim a indústria de saúde. Tal modelo poderia entender como diferentes intervenções afetam várias populações ao longo do tempo, levando em conta fatores como localização geográfica, status socioeconômico e condições concomitantes.
Uma empresa que possui o modelo poderia influenciar a política de saúde ao demonstrar capacidades preditivas superiores e insights de nível populacional para empresas farmacêuticas e seguradoras.
Os dados do Tesouro representam talvez o prêmio mais valioso. Bancos de dados financeiros do governo contêm detalhes granulares sobre como o dinheiro flui pela economia. Isso inclui dados de transações em tempo real através de sistemas de pagamento federal, registros completos de pagamentos e reembolsos de impostos, padrões detalhados de distribuições de benefícios e pagamentos a contratantes do governo com métricas de desempenho.
Uma empresa de IA com acesso a esses dados poderia desenvolver capacidades extraordinárias para previsão econômica e previsão de mercado. Poderia modelar os efeitos em cascata de mudanças regulatórias, prever vulnerabilidades econômicas antes que se tornem crises e otimizar estratégias de investimento com precisão impossível por métodos tradicionais.
A empresa xAI de Elon Musk está bem financiada.
Infraestrutura e sistemas urbanos
Bancos de dados do governo contêm informações sobre padrões de uso de infraestrutura crítica, histórias de manutenção, tempos de resposta a emergências e impactos de desenvolvimento. Cada subsídio federal, inspeção de infraestrutura e resposta a emergências cria um ponto de dados que poderia ajudar a treinar a IA para entender melhor como cidades e regiões funcionam.
O poder reside na potencial interconexão desses dados. Um sistema de IA treinado em registros de infraestrutura do governo entenderia como padrões de transporte afetam o uso de energia, como políticas habitacionais afetam os tempos de resposta a emergências e como investimentos em infraestrutura influenciam o desenvolvimento econômico em regiões.
Uma empresa privada com acesso exclusivo ganharia uma visão única sobre as artérias físicas e econômicas da sociedade americana. Isso poderia permitir que a empresa desenvolvesse sistemas de “cidade inteligente” dos quais os governos municipais se tornariam dependentes, efetivamente privatizando aspectos da governança urbana. Quando combinado com dados em tempo real de fontes privadas, as capacidades preditivas superariam em muito o que qualquer sistema atual pode alcançar.
Dados absolutos corrompem absolutamente
Uma empresa como a xAI, com os recursos de Musk e acesso preferencial através do DOGE, poderia superar obstáculos técnicos e políticos muito mais facilmente do que concorrentes. Avanços recentes em aprendizado de máquina também reduziram os encargos de preparação de dados para que os algoritmos processem, tornando os dados do governo uma verdadeira mina de ouro – que pertence legitimamente ao povo americano.
A ameaça de uma empresa privada acessando dados do governo transcende preocupações individuais de privacidade. Mesmo com identificadores pessoais removidos, um sistema de IA que analisa padrões em milhões de registros governamentais poderia permitir capacidades surpreendentes para fazer previsões e influenciar comportamentos em nível populacional. A ameaça é de sistemas de IA que aproveitam dados do governo para influenciar a sociedade, incluindo resultados eleitorais.
Uma vez que a informação é poder, concentrar dados sem precedentes nas mãos de uma entidade privada com uma agenda política explícita representa um desafio profundo à república. Acredito que a questão é se o povo americano pode se opor à corrupção potencialmente destrutiva da democracia que tal concentração permitiria. Se não, os americanos devem se preparar para se tornar sujeitos digitais em vez de cidadãos humanos.