A Queda do Microsoft Azure Mostra a Dura Realidade das Falhas na Nuvem

A plataforma de nuvem Azure da Microsoft, seus serviços amplamente utilizados 365, Xbox e Minecraft começaram a sofrer interrupções por volta do meio-dia, horário do leste, na quarta-feira, resultado do que a Microsoft disse ser “uma mudança de configuração inadvertida”. O incidente – que marca a segunda grande interrupção de um provedor de nuvem em menos de duas semanas – destaca a instabilidade de uma internet construída em grande parte sobre a infraestrutura gerida por algumas gigantes da tecnologia.

Os problemas da Microsoft especificamente se originaram da rede de entrega de conteúdo Front Door do Azure e surgiram apenas algumas horas antes do anúncio de ganhos programado da Microsoft. O site da empresa, incluindo sua página de relações com investidores, ainda estava fora do ar na quarta-feira à tarde, e a página de status do Azure, onde a Microsoft fornece atualizações, estava enfrentando problemas intermitentes também.

A Microsoft descreveu em atualizações de status na quarta-feira que passou por um processo de reversão sequencial de versões recentes de seu ambiente até que pudesse identificar a “última configuração conhecida como boa”. Às 15h01 ET, a empresa disse que havia identificado e implementado essa configuração estável e que “os clientes podem começar a ver sinais iniciais de recuperação. Estamos atualmente recuperando nós e roteando o tráfego através de nós saudáveis.”

Um porta-voz da Microsoft disse em um comunicado: “Estamos trabalhando para resolver um problema que afeta o Azure Front Door e que está impactando a disponibilidade de alguns serviços. Os clientes devem continuar a verificar seus Alertas de Saúde do Serviço.” A empresa não respondeu imediatamente a perguntas da WIRED sobre a natureza da mudança de configuração que causou a interrupção.

Além de ocorrer no dia dos ganhos da Microsoft, a interrupção vem nove dias após a rival do Azure, Amazon Web Services, sofrer uma grande interrupção que impactou sites e serviços ao redor do mundo. Os principais provedores de nuvem, frequentemente chamados de “hiperscaladores”, padronizam e muitas vezes melhoram a segurança e a confiabilidade básicas para seus clientes, mas problemas e interrupções podem fazer com que se tornem pontos únicos de falha para grandes populações de serviços digitais críticos.

“Até mesmo a página de status da interrupção do Azure está fora do ar”, diz Davi Ottenheimer, um gerente de operações de segurança e conformidade de longa data e vice-presidente da empresa de infraestrutura de dados Inrupt. “Outro erro de mudança de configuração – estamos na era da violação de integridade mais do que nunca.”

O Azure bloqueou os clientes de fazer mudanças de configuração em suas instâncias enquanto trabalhava para resolver o problema. A empresa disse em uma atualização de status às 15h22 ET que espera “mitigação total” da situação até às 19h20 ET.

“As organizações podem pensar que estão isoladas pela escolha de seu provedor de nuvem, mas as dependências são mais profundas”, diz Munish Walther-Puri, membro do corpo docente adjunto da IANS Research e ex-diretor de risco cibernético da cidade de Nova York. “Quando parceiros-chave dependem de outros hiperscaladores, a exposição se multiplica. À medida que a IA se torna a próxima camada de infraestrutura crítica, essas interrupções demonstram a fragilidade de nossa espinha dorsal digital.

Fonte

Compartilhe esse conteúdo: