Explicação da interrupção rápida da Internet: como um cliente quebrou Amazon, Reddit e metade da web

A internet caiu de joelhos por causa de uma grande indisponibilidade na terça-feira. Agora sabemos exatamente qual foi a causa e como o problema foi corrigido.

Terça-feira será lembrada como o dia em que a Internet quebrou – antes de ser rapidamente consertada novamente. No início da manhã, sites como Amazon, Reddit, Spotify, eBay, Twitch, Pinterest e, infelizmente, ficaram offline devido a uma grande interrupção em um serviço chamado Fastly. Para onde quer que você olhasse, havia 503 erros e pessoas reclamando de não poderem acessar os principais serviços e meios de comunicação. Em 24 horas, descobrimos a causa raiz da interrupção.

Depois de uma investigação sobre o que deu errado, Fastly publicou uma postagem em blog descrevendo exatamente o que aconteceu – e descobriu-se que todo o incidente foi desencadeado por apenas um único cliente não identificado do Fastly.

Terça-feira será lembrada como o dia em que a Internet quebrou – antes de ser rapidamente consertada novamente. No início da manhã, sites como Amazon, Reddit, Spotify, eBay, Twitch, Pinterest e, infelizmente, ficaram offline devido a uma grande interrupção em um serviço chamado Fastly. Para onde quer que você olhasse, havia 503 erros e pessoas reclamando de não poderem acessar os principais serviços e meios de comunicação. Em 24 horas, descobrimos a causa raiz da interrupção.

Depois de uma investigação sobre o que deu errado, Fastly publicou uma postagem em blog descrevendo exatamente o que aconteceu – e descobriu-se que todo o incidente foi desencadeado por apenas um único cliente não identificado do Fastly.

Em meados de maio, a Fastly lançou uma implantação de software que continha um bug que, se acionado em circunstâncias específicas, poderia destruir vastas áreas de sua rede. O bug ficou inativo até 8 de junho, quando um cliente do Fastly o acionou inadvertidamente durante uma “mudança de configuração válida”, que fez com que 85% da rede da empresa retornasse erros.

“Detectamos a interrupção em 1 minuto, depois identificamos e isolamos a causa e desabilitamos a configuração”, disse Nick Rockwell, vice-presidente sênior de engenharia e infraestrutura da Fastly, na postagem do blog. “Em 49 minutos, 95% de nossa rede estava operando normalmente. Essa interrupção foi ampla e severa e lamentamos muito o impacto para nossos clientes e todos que dependem deles.”

O que aconteceu durante a interrupção do Fastly?

Por volta das 2h58, horário do Pacífico, a página de atualização de status do Fastly observou um erro, dizendo “no momento, estamos investigando o possível impacto no desempenho de nossos serviços CDN [rede de distribuição de conteúdo]”. Pouco depois, surgiram relatos no Twitter de que as principais publicações de notícias, incluindo a BBC, CNN e The New York Times, estavam offline. O próprio Twitter ainda estava funcionando, embora o servidor que hospedava seus emojis tenha caído, levando a alguns tweets de aparência estranha.

Em vez de incidentes isolados afetando sites individuais, descobriu-se que se tratava de uma indisponibilidade massiva que havia deixado grande parte da Internet de joelhos. Em todo o mundo, as pessoas estavam recebendo mensagens Error: 503 enquanto tentavam acessar sites, incluindo alguns serviços vitais, como as propriedades da web gov.uk do governo do Reino Unido.

Quase uma hora depois, às 3h44 PT – ou 6h44 ET, no auge do dia de trabalho da Costa Leste dos EUA, e chegando ao meio-dia no Reino Unido – Atualizou rapidamente sua página de status novamente para informar o problema foi identificado e uma correção estava sendo implementada. Às 4:10 da manhã PT, a empresa tuitou: “Identificamos uma configuração de serviço que desencadeou interrupções em nossos POPs globalmente e desativamos essa configuração. Nossa rede global está voltando a ficar online.”

A mesma mensagem foi enviada à como um comentário pelos porta-vozes do Fastly.

O que é Fastly?

A Fastly é uma provedora de serviços de computação em nuvem, com sede em San Francisco, que existe desde 2011. Em 2017, lançou uma plataforma de nuvem de ponta projetada para aproximar os sites das pessoas que os usam. Efetivamente, isso significa que se você estiver acessando um site hospedado em outro país, ele armazenará parte desse site mais perto de você para que não haja necessidade de desperdiçar largura de banda indo buscar todo o conteúdo desse site de longe sempre que você precisar isto.

Isso torna o tempo de carregamento do site mais rápido e otimiza imagens, vídeos e outros conteúdos de alta carga útil para que apareçam rápida e suavemente quando você acessa uma página da web. Entre as ostentações no site da empresa, diz que tornou o carregamento das páginas no Buzzfeed 50% mais rápido e permitiu ao The New York Times lidar simultaneamente com 2 milhões de leitores na noite das eleições. A computação de borda também executa funções vitais de segurança cibernética, protegendo sites de ataques DDoS e bots, além de fornecer um firewall de aplicativo da web.

Devido à maneira como o Fastly fica entre os servidores back-end da web e a internet frontal como a vemos, quaisquer erros de sua parte podem fazer com que sites inteiros fiquem indisponíveis. Devido à natureza localizada da plataforma de nuvem de borda, isso também significa que os erros não afetam todas as regiões da mesma maneira ao mesmo tempo (embora pessoas em todo o mundo relataram ter tido problemas na terça-feira).

O que é um erro 503?

Quando você vir um site exibindo um erro 503 em vez de mostrar a página que você esperava, significa que o servidor que hospeda o site não está pronto para atender à solicitação. Também indica que o problema é temporário e que provavelmente será resolvido em breve.

Normalmente, é causado quando um servidor está fora do ar para manutenção ou quando um site está sobrecarregado – por exemplo, se muitas pessoas estão tentando acessá-lo ao mesmo tempo.

Por que Fastly falhou na terça-feira e isso acontecerá novamente?

Agora sabemos que a interrupção da Internet na terça-feira foi causada por uma alteração na configuração do serviço por um dos clientes do Fastly que acionou um bug oculto na rede do Fastly. O bug estava adormecido desde a implantação de uma atualização de software pela Fastly em 6 de maio.

Para garantir que o problema não se repita, Fastly disse que está realizando uma série de ações. Ele está implantando uma correção de bug em sua rede, ao mesmo tempo em que conduz uma autópsia completa dos processos e práticas que seguiu durante o incidente. Ele também descobrirá por que não detectou o bug durante seus próprios processos de teste e avaliará maneiras de melhorar o tempo de correção.

“Mesmo que houvesse condições específicas que acionaram essa interrupção, deveríamos ter previsto isso”, disse Rockwell. “Oferecemos serviços de missão crítica e tratamos qualquer ação que possa causar problemas de serviço com a maior sensibilidade e prioridade.”

Muitas pessoas especularam no Twitter que a interrupção foi causada por um ataque cibernético, mas agora sabemos que não foi esse o caso. Existem muitos motivos técnicos pelos quais um CDN pode falhar, e os ataques cibernéticos são apenas um deles. É preocupante, no entanto, ver o quão vulneráveis ​​eles podem ser.

“Os CDNs são parte da infraestrutura crítica da Internet e se os agentes de ameaças ainda não perceberam isso como um vetor de ataque direto para derrubar a Internet, eles o farão agora, depois de monitorar os eventos infelizes [de terça-feira]”, disse Jake Moore, um cibersegurança especialista da empresa de segurança ESET em comunicado.

Por que tantos sites foram afetados pela interrupção do Fastly?

Fastly é um serviço amplamente utilizado por editores da web – e ficou claro exatamente como foi amplamente utilizado na terça-feira, quando vastas áreas da Internet ficaram indisponíveis. Todo o incidente demonstrou o quanto da Internet depende desse serviço de computação em nuvem totalmente inédito.

A razão de ser tão popular é que os serviços que fornece são considerados essenciais por muitas propriedades da web on-line, mas poucas empresas fornecem esses serviços. Como tal, um grande número de sites depende de um grupo muito pequeno de empresas para continuar funcionando. Problemas semelhantes foram vistos quando o Cloudflare foi atingido por uma interrupção em julho passado e quando o Amazon Web Services caiu em novembro passado.

Como Corinne Cath-Speth, uma Ph.D. O candidato do Oxford Internet Institute e do Alan Turing Institute apontou no Twitter que “um soluço técnico em uma única empresa pode ter enormes ramificações”.

“Isso, por sua vez, levanta questões importantes sobre os perigos da consolidação (de poder) no mercado de nuvem e a influência inquestionável que esses atores muitas vezes invisíveis têm sobre o acesso à informação”, acrescentou ela.

#Serviçosonline #Cíbersegurança

John Doe

Curioso e apaixonado por tecnologia.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *