O que a enorme queda da AWS revela sobre a internet

Uma grande queda na nuvem originada da região US-EAST-1 da Amazon Web Services, seu hub perto da capital dos Estados Unidos, em Virginia do Norte, causou interrupções generalizadas de sites e plataformas ao redor do mundo na manhã de segunda-feira. A principal plataforma de e-commerce da Amazon e outras propriedades, incluindo campainhas Ring e o assistente inteligente Alexa, sofreram interrupções e quedas ao longo da manhã, assim como a plataforma de comunicação WhatsApp da Meta, o ChatGPT da OpenAI, a plataforma de pagamento Venmo do PayPal, vários serviços da Epic Games, vários sites do governo britânico e muitos outros.

As quedas foram originadas dos APIs de aplicação de banco de dados “DynamoDB” da Amazon na US-EAST-1, e a AWS disse em atualizações de status que o problema estava especificamente relacionado a questões de resolução de DNS. O “Sistema de Nomes de Domínio” é um serviço fundamental da internet que, essencialmente, atua como uma consulta automática de lista telefônica para traduzir URLs da web como “www.wired.com” em endereços IP numéricos de servidores, para que os navegadores da web mostrem aos usuários o conteúdo correto. Problemas de “resolução” de DNS ocorrem quando os servidores DNS não estão conectando esses pontos com precisão e, para manter a analogia da lista telefônica, estão fornecendo os números errados para um determinado nome, ou vice-versa.

“Com base em nossa investigação, o problema parece estar relacionado à resolução de DNS do endpoint da API DynamoDB na US-EAST-1”, escreveu a AWS em atualizações de status na segunda-feira. Pouco depois, a empresa acrescentou: “Se você ainda estiver enfrentando um problema para resolver os endpoints do serviço DynamoDB na US-EAST-1, recomendamos limpar seus caches de DNS.”

Um porta-voz da AWS não respondeu imediatamente quando questionado sobre os detalhes da falha. Problemas de resolução de DNS podem ser maliciosos — conhecidos como sequestro de DNS — mas não há indicação de que as quedas da AWS de segunda-feira foram nefastas.

“Quando o sistema não conseguiu resolver corretamente a qual servidor se conectar, falhas em cascata derrubaram serviços pela internet”, diz Davi Ottenheimer, um gerente de operações de segurança e conformidade de longa data e vice-presidente da empresa de infraestrutura de dados Inrupt. “A queda da AWS de hoje é um problema clássico de disponibilidade, e precisamos começar a vê-lo mais como uma falha de integridade de dados.”

Os problemas começaram por volta das 3 da manhã ET. Às 5h22 da manhã ET, a AWS havia aplicado “mitigações iniciais” que estavam começando a ter efeito. Às 6h35 da manhã ET, a Amazon disse que havia abordado completamente os problemas técnicos subjacentes, mas que “alguns serviços terão um backlog de trabalho a ser processado, o que pode levar mais tempo para ser totalmente processado.”

A AWS já sofreu outras quedas em larga escala, incluindo um grande incidente em 2023. A dependência de serviços de nuvem centralizados de gigantes como AWS, Microsoft Azure e Google Cloud Services melhorou, de muitas maneiras, a cibersegurança e a estabilidade ao redor do mundo, criando uma base de diretrizes e melhores práticas para todos os clientes. Mas essa padronização vem com grandes desvantagens, pois as plataformas se tornam um único ponto de falha para grandes partes de serviços críticos.

“Falhas cada vez mais rastreiam a integridade”, diz Ottenheimer, da Inrupt. “Dados corrompidos, validação falhada ou, neste caso, resolução de nomes quebrada que contaminou todas as dependências a jusante. Até que entendamos melhor e protejamos a integridade, nosso foco total na disponibilidade é uma ilusão.

Fonte

Compartilhe esse conteúdo: