InícioTecnologiaCloudflare explica causa do pior apagão em seis anos

Cloudflare explica causa do pior apagão em seis anos

O início do apagão

A partir das 8h28, cerca de 20% dos sites que usam a rede da Cloudflare começaram a apresentar falhas. A página que dá o status da operação da Cloudflare ficou offline, indicando a gravidade do problema.

Inicialmente, a equipe suspeitou que fosse um ataque DDoS de grande escala, o que aumentou a preocupação. A situação se agravou rapidamente, com serviços essenciais sendo impactados.

A equipe trabalhou para identificar a origem da falha enquanto os usuários enfrentavam dificuldades de acesso. Esse foi o começo de um dos maiores apagões dos últimos anos.

A causa raiz da falha

Atualização incorreta no sistema anti-bot

O apagão foi devido a uma atualização incorreta no sistema anti-bot, conforme revelado pela empresa. A falha começou com uma consulta mal configurada no ClickHouse, um sistema de banco de dados usado pela Cloudflare.

Essa consulta causou duplicação de dados, gerando erros HTTP 5xx que afetaram a estabilidade do serviço. O sistema de proxy central entrou em colapso ao carregar o arquivo corrompido, ampliando os impactos.

Serviços como Workers KV e Cloudflare Access foram afetados indiretamente, mesmo sem serem o foco inicial. A complexidade do erro exigiu uma investigação detalhada para ser compreendida.

Identificação e resposta da equipe

Assunção de responsabilidade pelo CEO

A equipe identificou o real problema às 11h24, após horas de análise e tentativas de contenção. Matthew Prince, CEO da Cloudflare, assumiu a responsabilidade pelo ocorrido, demonstrando transparência perante os clientes.

Ele anunciou medidas técnicas para evitar repetições, focando em melhorias nos processos de atualização. A recuperação exigiu a substituição manual do arquivo defeituoso, um procedimento que demandou cuidado para não agravar a situação.

Além disso, foi necessária a reinicialização dos servidores para restaurar a funcionalidade completa. Essas ações permitiram que o serviço fosse gradualmente normalizado.

Impacto nos serviços e clientes

Plataformas afetadas pelo colapso

Plataformas como ChatGPT e X foram afetadas pelo apagão, causando interrupções significativas para milhões de usuários. O colapso gerou erros HTTP 5xx, que indicam problemas internos do servidor, dificultando o acesso a sites e aplicativos.

Clientes que não usavam a função anti-bot permaneceram online, destacando que a falha estava restrita a um componente específico. Isso mostrou como dependências internas podem ter efeitos em cadeia em serviços globais.

A duração de cinco horas do apagão reforçou a importância de sistemas resilientes em infraestruturas críticas. Muitos usuários relataram frustração com a indisponibilidade de ferramentas essenciais.

Processo de recuperação

Medidas para restaurar a normalidade

A recuperação exigiu a substituição manual do arquivo defeituoso, um trabalho meticuloso para evitar novos erros. A reinicialização dos servidores foi parte crucial do processo, permitindo que o sistema retomasse suas operações normais.

O tráfego normalizou gradualmente até as 14h06, marcando o fim do apagão após quase seis horas de instabilidade. Matthew Prince anunciou medidas técnicas adicionais para fortalecer a infraestrutura contra falhas similares.

A transparência no comunicado ajudou a acalmar preocupações sobre a confiabilidade dos serviços. Com isso, a Cloudflare busca restaurar a confiança dos clientes e melhorar sua resposta a incidentes.

Fonte

Helvio Dinizhttps://orbitonhub.com
Conheça Helvio Diniz, especialista em tecnologia e educação digital. Artigos sobre ferramentas tech, IA e inovação educacional no Orbiton.
Portuguese
Sair da versão mobile