Cloudflare tłumaczy się z globalnej awarii. Co zawiodło 14 lipca?

W niedzielny wieczór 14 lipca Internet na całym świecie na chwilę zgasł. Przyczyną była poważna awaria usług DNS w Cloudflare, która przez 62 minuty sparaliżowała dostęp do tysięcy stron i aplikacji.

Izabela Myszkowska
2 Min
Cloudflare
źródło: Facebook/Cloudflare

14 lipca wieczorem Internet na całym świecie na moment przestał działać — winna była błędna konfiguracja usług DNS w Cloudflare. Przez 62 minuty użytkownicy doświadczyli niedostępności tysięcy stron i usług. Choć awaria trwała krótko, jej zasięg podkreślił skalę zależności globalnych usług od pojedynczych punktów infrastruktury.

Błąd powstał na skutek niezamierzonej zmiany w konfiguracji nieprodukcyjnej jeszcze usługi Cloudflare, która zawierała prefiksy związane z popularnym resolverem 1.1.1.1. Druga zmiana — już w lipcu — sprawiła, że te prefiksy zostały nieświadomie wycofane z centrów danych, co uczyniło resolver niedostępnym. Ponieważ wiele systemów opiera się na zapytaniach DNS do Cloudflare, efekt był natychmiastowy i dotkliwy.

Co ciekawe, ruch DNS przez HTTPS (DoH) był w dużej mierze odporny na awarię. To pokazuje, że alternatywne protokoły, choć wciąż niszowe, mogą działać jako bezpiecznik w krytycznych sytuacjach. Niemniej jednak, dla większości użytkowników awaria oznaczała przerwę w dostępie do usług — od komunikatorów po systemy płatności.

Cloudflare oficjalnie przyznało się do winy i zapowiedziało zmiany: odejście od przestarzałych systemów i większą ostrożność przy wdrożeniach. To klasyczny przykład, że nawet giganci Internetu nie są odporni na własne błędy. Dla firm i dostawców usług IT to przypomnienie, że nadmiarowość i rozproszenie punktów krytycznych nie są luksusem, a koniecznością.

Ad imageAd image
TEMATY:
Udostępnij