A Cloudflare se tornou o mais recente gigante da infraestrutura da web a colapsar em um mês, substituindo sites inteiros, incluindo X, ChatGPT, Spotify, Canva e até mesmo o serviço de rastreamento de quedas DownDetector, com uma mensagem de erro por horas esta manhã. É o mais recente de uma série de quedas que Mehdi Daoudi, CEO e co-fundador da plataforma de monitoramento de desempenho da internet Catchpoint, diz que deve servir como um “alerta” para as empresas.
“Todo mundo está colocando todos os seus ovos em uma única cesta, e depois fica surpreso quando ocorre um problema”, diz Daoudi. “Cabe à empresa garantir que tenha redundância e resiliência.”
A queda ocorreu após problemas afetando o Microsoft Azure e os Serviços Web da Amazon ocorrendo em apenas uma semana um do outro, derrubando grandes partes da internet que dependem de fornecedores principais para manter seus sites em funcionamento. A Cloudflare, de forma semelhante, alimenta uma parte considerável da internet. Ela mantém os sites online com sua rede de entrega de conteúdo, enquanto oferece vários outros serviços, incluindo proteção contra ataques DDoS e DNS. No ano passado, a empresa afirmou que cerca de 20% da web opera através da rede da Cloudflare. Também atende a 35% das empresas da lista Fortune 500, além de “milhões” de outros clientes.
O desempenho rápido e o histórico de segurança da Cloudflare a tornam uma escolha popular para sites em todo o mundo, mas essa última queda chama a atenção para o quanto a indústria de infraestrutura da web se tornou concentrada. Após a queda da AWS que derrubou o aplicativo de mensagens seguras Signal, a presidente do serviço, Meredith Whittaker, disse que a empresa não tinha outra escolha a não ser usar um grande fornecedor de serviços em nuvem para operar. “Todo o stack, praticamente falando, é propriedade de 3-4 players”, escreveu ela.
“Até mesmo pequenas variações podem ter consequências desproporcionais.”
Mas mesmo com empresas confiando em apenas alguns provedores de infraestrutura da web, a última sequência de quedas deixa claro que elas precisam de um plano de backup. “As quedas estarão aqui, e elas vão continuar ocorrendo com mais frequência. O raio de impacto continuará crescendo”, diz Daoudi ao The Verge. “A pergunta é, o que você está fazendo sobre isso?”
Embora Microsoft e AWS tenham vinculado suas quedas a problemas relacionados ao DNS — um sistema que traduz os nomes de domínio de sites em endereços IP — a Cloudflare rastreou sua queda a um único arquivo. “A causa raiz da queda foi um arquivo de configuração que é gerado automaticamente para gerenciar o tráfego de ameaça”, disse a porta-voz da Cloudflare, Jackie Dutton. “O arquivo cresceu além de um tamanho esperado de entradas e disparou uma falha no sistema de software que lida com o tráfego para vários serviços da Cloudflare.”
Pode parecer absurdo que um problema de arquivo como esse possa derrubar grandes partes da internet, mas para empresas tão grandes quanto a Cloudflare, isso pode acontecer. “Quando você opera uma infraestrutura na escala da Cloudflare, até mesmo pequenas variações podem ter consequências desproporcionais”, diz Rob Lee, chefe de IA e pesquisa do SANS Institute, ao The Verge. “Essas plataformas são construídas para velocidade, então qualquer coisa que atrase ou interrompa a tomada de decisões pode se propagar rapidamente. Em ambientes de alto desempenho, um atraso de milissegundo pode se tornar uma paralisação completa do tráfego.”
De acordo com Lee, um arquivo de configuração como o que a Cloudflare descreve “dirige políticas de segurança de roteamento, decisões de balanceamento de carga e como o tráfego é distribuído globalmente.” Se o arquivo de repente aumenta de tamanho, “pode disparar análises mais lentas, problemas de memória, contenção de CPU ou falhas de lógica dentro dos sistemas que dependem dele”, acrescenta Lee.
A AWS também culpou a “automação com falha” por desencadear uma cadeia de problemas que levaram à sua mais recente queda generalizada — o tipo de erro que provavelmente acontecerá novamente. “Você vai reclamar toda vez que a Cloudflare espirrar?”, pergunta Daoudi. “Ou você vai construir em torno disso?”
