Cloudflare explica a interrupção de terça-feira que derrubou temporariamente o ChatGPT

Um post no blog publicado na noite de terça-feira pelo cofundador e CEO da Cloudflare, Matthew Prince, detalha o que causou sua “pior interrupção desde 2019”, atribuindo o problema a uma falha no sistema de Gerenciamento de Bots que deve controlar quais crawlers automatizados estão autorizados a escanear sites específicos usando seu recurso de CDN.

A Cloudflare disse no ano passado que cerca de 20% da web passa por sua rede, que deve compartilhar a carga para manter os sites online diante de picos de tráfego e ataques DDoS. Mas a queda de hoje desconectou muitos deles, derrubando tudo, desde o X até o ChatGPT e o conhecido rastreador de interrupções Downdetector por várias horas, assemelhando-se a interrupções recentes causadas por problemas com o Microsoft Azure e os Serviços Web da Amazon.

Os controles de bots da Cloudflare devem ajudar a lidar com problemas como crawlers que raspam informações para treinar IA generativa. Ela também anunciou recentemente um sistema que usa IA Generativa para construir o “Labirinto de IA”, uma nova abordagem de mitigação que usa conteúdo gerado por IA para desacelerar, confundir e desperdiçar os recursos de Crawlers de IA e outros bots que não respeitam as diretrizes de “não rastrear”.

No entanto, afirma que os problemas de hoje foram causados por mudanças no sistema de permissões de um banco de dados, não pela tecnologia de IA generativa, não por DNS e não pelo que a Cloudflare inicialmente suspeitou, um ataque cibernético ou atividade maliciosa como um “ataque DDoS de hiperescala”.

De acordo com Prince, o modelo de aprendizado de máquina por trás do Gerenciamento de Bots que gera pontuações de bots para as solicitações que viajam por sua rede tem um arquivo de configuração frequentemente atualizado que ajuda a identificar solicitações automatizadas; no entanto, “Uma mudança no nosso comportamento de consulta ClickHouse subjacente que gera este arquivo fez com que ele tivesse um grande número de linhas de ‘características’ duplicadas.”

Há mais detalhes na postagem sobre o que aconteceu a seguir, mas a mudança de consulta fez com que seu banco de dados ClickHouse gerasse duplicatas de informações. À medida que o arquivo de configuração crescia rapidamente para exceder os limites de memória predefinidos, derrubou “o sistema proxy central que lida com o processamento de tráfego para nossos clientes, para qualquer tráfego que dependesse do módulo de bots.”

Como resultado, as empresas que usaram as regras da Cloudflare para bloquear certos bots retornaram falsos positivos e cortaram o tráfego real, enquanto os clientes da Cloudflare que não usaram a pontuação de bot gerada em suas regras permaneceram online.

Por enquanto, lista quatro planos específicos para evitar que esse tipo de problema aconteça novamente, mesmo que a crescente centralização dos serviços de internet possa tornar essas interrupções inevitáveis:

Fortalecer a ingestão de arquivos de configuração gerados pela Cloudflare da mesma forma que faríamos para entradas geradas por usuários.

Habilitar mais interruptores de desligamento globais para recursos.

Eliminar a capacidade de despejos de núcleo ou outros relatórios de erro sobrecarregarem os recursos do sistema.

Revisar modos de falha para condições de erro em todos os módulos de proxy central.

Fonte

Compartilhe esse conteúdo: