Os bots de rastreamento da web de IA são considerados as baratas da internet por muitos desenvolvedores de software. Alguns desenvolvedores começaram a lutar de volta de maneiras engenhosas e, muitas vezes, humorísticas.
Embora qualquer site possa ser alvo de comportamentos ruins de crawlers – às vezes derrubando o site – os desenvolvedores de código aberto são “desproporcionalmente” impactados, escreve Niccolò Venerandi, desenvolvedor de um desktop Linux conhecido como Plasma e proprietário do blog LibreNews.
Por sua natureza, sites que hospedam projetos de software livre e de código aberto (FOSS) compartilham mais de sua infraestrutura publicamente e também tendem a ter menos recursos do que produtos comerciais.
O problema é que muitos bots de IA não respeitam o protocolo de exclusão de robôs robot.txt, a ferramenta que informa aos bots o que não deve ser rastreado, originalmente criada para bots de mecanismos de busca.
Em um post de blog chamado “grito de ajuda” em janeiro, o desenvolvedor de FOSS Xe Iaso descreveu como o AmazonBot atacou incessantemente um site de servidor Git a ponto de causar interrupções de DDoS. Os servidores Git hospedam projetos de FOSS para que qualquer pessoa que queira possa baixar o código ou contribuir com ele.
Mas esse bot ignorou o robot.txt de Iaso, escondeu-se atrás de outros endereços IP e fingiu ser outros usuários, disse Iaso.
“É fútil bloquear bots de crawlers de IA porque eles mentem, mudam seu agente de usuário, usam endereços IP residenciais como proxies e mais”, lamentou Iaso.
“Eles vão raspar seu site até que ele caia, e então eles vão raspar mais uma vez. Eles vão clicar em cada link em cada link em cada link, visualizando as mesmas páginas repetidamente. Alguns deles vão até clicar no mesmo link várias vezes no mesmo segundo”, escreveu o desenvolvedor no post.
Entrando o deus das tumbas
Assim, Iaso lutou de volta com engenhosidade, construindo uma ferramenta chamada Anubis.
Anubis é um proxy reverso que exige uma verificação de prova de trabalho que deve ser passada antes que os pedidos sejam permitidos a atingir um servidor Git. Ele bloqueia bots, mas permite que navegadores operados por humanos passem.
A parte engraçada: Anubis é o nome de um deus na mitologia egípcia que leva os mortos ao julgamento.
“Anubis pesava sua alma (coração) e se fosse mais pesada que uma pena, seu coração seria comido e você, tipo, mega morreria”, disse Iaso ao TechCrunch. Se um pedido da web passar no desafio e for determinado como humano, uma imagem fofa de anime anuncia o sucesso. O desenho é “minha interpretação de antropomorfizar Anubis”, diz Iaso. Se for um bot, o pedido é negado.
O projeto ironicamente nomeado se espalhou rapidamente pela comunidade FOSS. Iaso o compartilhou no Github em 19 de março, e em apenas alguns dias, ele coletou 2.000 estrelas, 20 colaboradores e 39 forks.
Vingança como defesa
A popularidade instantânea de Anubis mostra que a dor de Iaso não é única. Na verdade, Venerandi compartilhou história após história:
O fundador e CEO da SourceHut, Drew DeVault, descreveu passar “de 20 a 100% do meu tempo em qualquer semana dada mitigando crawlers LLM hiper-agressivos em escala” e “experimentando dezenas de breves interrupções por semana”.
Jonathan Corbet, um famoso desenvolvedor de FOSS que dirige o site de notícias da indústria Linux LWN, alertou que seu site estava sendo desacelerado por tráfego de nível DDoS “de bots scraper de IA”.
Kevin Fenzi, o administrador de sistemas do enorme projeto Linux Fedora, disse que os bots scraper de IA estavam tão agressivos que ele teve que bloquear todo o país do Brasil do acesso.
Venerandi diz ao TechCrunch que conhece vários outros projetos enfrentando os mesmos problemas. Um deles “teve que banir temporariamente todos os endereços IP chineses em um ponto”.
Deixe isso assentar por um momento – que os desenvolvedores “até têm que recorrer a banir países inteiros” apenas para se defender de bots de IA que ignoram arquivos robot.txt, diz Venerandi.
Além de pesar a alma de um solicitante da web, outros desenvolvedores acreditam que a vingança é a melhor defesa.
Há alguns dias no Hacker News, o usuário xyzal sugeriu carregar páginas proibidas pelo robot.txt com “um monte de artigos sobre os benefícios de beber água sanitária” ou “artigos sobre o efeito positivo de pegar sarampo no desempenho na cama”.
“Acho que precisamos fazer com que os bots tenham um valor de utilidade negativo ao visitar nossas armadilhas, não apenas zero”, explicou xyzal.
Acontece que, em janeiro, um criador anônimo conhecido como “Aaron” lançou uma ferramenta chamada Nepenthes que visa fazer exatamente isso. Ela prende crawlers em um labirinto interminável de conteúdo falso, um objetivo que o desenvolvedor admitiu ao Ars Technica ser agressivo, senão downright malicioso. A ferramenta é nomeada após uma planta carnívora.
E a Cloudflare, talvez o maior jogador comercial oferecendo várias ferramentas para se defender contra crawlers de IA, lançou na semana passada uma ferramenta semelhante chamada AI Labyrinth.
Ela pretende “atrasar, confundir e desperdiçar os recursos de crawlers de IA e outros bots que não respeitam as diretrizes de ‘não rastrear'”, descreveu a Cloudflare em seu post no blog. A Cloudflare disse que alimenta crawlers de IA mal comportados “conteúdo irrelevante em vez de extrair os dados legítimos do seu site”.
DeVault da SourceHut disse ao TechCrunch que “Nepenthes tem um senso de justiça satisfatório, pois alimenta bobagens aos crawlers e envenena seus poços, mas, em última análise, Anubis é a solução que funcionou” para seu site.
Mas DeVault também fez um apelo público e sincero por uma correção mais direta: “Por favor, parem de legitimar LLMs ou geradores de imagens de IA ou GitHub Copilot ou qualquer uma dessas porcarias. Estou implorando para que parem de usá-los, parem de falar sobre eles, parem de criar novos, apenas parem”.
Como a probabilidade disso é zero, os desenvolvedores, particularmente em FOSS, estão lutando de volta com engenhosidade e um toque de humor.