19 lipca był czarnym dniem dla Crowdstrike, wiodącego dostawcy rozwiązań bezpieczeństwa cybernetycznego. Błąd w aktualizacji oprogramowania Sensor Tower doprowadził do awarii aż 8,5 miliona komputerów i serwerów na całym świecie. Ten incydent spowodował ogromne zamieszanie i podniósł wiele pytań dotyczących procedur testowania i wdrażania aktualizacji przez firmę.
Co się wydarzyło?
Aktualizacja, która spowodowała awarię, była aktualizacją treści szybkiego reagowania, mającą na celu uczyć oprogramowanie zabezpieczające nowych rodzajów zagrożeń. Crowdstrike stosuje dwa rodzaje aktualizacji: aktualizacje zawartości czujników i właśnie te szybkiego reagowania.
W lutym firma wprowadziła nowy typ szablonu („templatetype”) z predefiniowanymi polami, które budują instancje aktualizacji. Typ ten został przetestowany i zatwierdzony na początku roku i został użyty w kwietniu do aktualizacji systemu Windows bez większych problemów. Niestety, przy aktualizacji z 19 lipca pojawiły się nieoczekiwane problemy.
Błąd w procesie walidacji
Dwóch nowych instancji utworzonych do tej aktualizacji ponownie otrzymało zielone światło od Walidatora Treści. Walidator Treści, jak sugeruje nazwa, powinien sprawdzać treść aktualizacji przed jej wdrożeniem. Jednakże, 19 lipca system ten zawiódł, przepuszczając błędną aktualizację, która spowodowała ogromne problemy.
Ostrzeżenia i konsekwencje
Crowdstrike wcześniej został ostrzeżony o potencjalnych problemach, gdy aktualizacja czujnika spowodowała problemy w systemach Linux. Firma nie wyciągnęła jednak odpowiednich wniosków i tym razem zapłaciła wysoką cenę za zbytnie poleganie na zautomatyzowanej procedurze testowej.
W przyszłości firma obiecuje dokładniejsze testowanie i weryfikację aktualizacji przed ich wdrożeniem. Klienci otrzymają również większą kontrolę nad instalowaniem aktualizacji, co może spowodować opóźnienia, ale przynajmniej złośliwe aktualizacje nie będą instalowane automatycznie.
Analiza Microsoftu
Microsoft, właściciel systemu operacyjnego Windows, również przeprowadził własną analizę. Gigant technologiczny wskazuje na porozumienie z Komisją Europejską z 2009 roku, które zobowiązuje Microsoft do udostępniania dostępu do rdzenia systemu operacyjnego firmom takim jak Crowdstrike. Według Microsoftu, to właśnie otwartość na dostęp do jądra systemu Windows umożliwiła wystąpienie tak poważnego problemu.
Co dalej?
Chociaż większość systemów powinna już wrócić do normalnego działania, proces przywracania pełnej funkcjonalności może być skomplikowany. Crowdstrike obiecuje dalsze szczegółowe analizy i wyciągnięcie wniosków z tego incydentu. Firmy, które nadal borykają się z problemami po awarii, mogą skorzystać z portalu odzyskiwania Crowdstrike lub zastosować inne dostępne rozwiązania.
Awaria Crowdstrike – ważna lekcja dla całej branży cyberbezpieczeństwa
Automatyzacja jest kluczowym elementem nowoczesnych procesów IT, umożliwiając szybkie wdrażanie i zarządzanie aktualizacjami. Jednak awaria Crowdstrike pokazuje, że zbytnie poleganie na zautomatyzowanych systemach może prowadzić do katastrofalnych konsekwencji. Firma ślepo zaufała swojemu Walidatorowi Treści, co skończyło się przepuszczeniem błędnej aktualizacji. To przypomina, że automatyzacja, choć nieoceniona, musi być wspierana przez odpowiednie procesy kontrolne i ludzką interwencję.
Lekceważenie ostrzeżeń
Crowdstrike był wcześniej ostrzegany o problemach z aktualizacjami, gdy błąd w aktualizacji czujnika spowodował problemy w systemach Linux. Zlekceważenie tego ostrzeżenia wskazuje na brak skutecznego systemu uczenia się na błędach. W branży, gdzie jedno potknięcie może kosztować miliony, nie można pozwolić sobie na ignorowanie sygnałów ostrzegawczych.
Przyszłość aktualizacji – większa kontrola dla klientów
Crowdstrike zapowiedział, że w przyszłości klienci będą mieli większą kontrolę nad instalowaniem aktualizacji. To krok w dobrym kierunku, który może pomóc zapobiec podobnym incydentom. Jednakże, zwiększenie kontroli użytkowników nad aktualizacjami może prowadzić do opóźnień w ich wdrażaniu, co z kolei może zwiększyć ryzyko związane z cyberzagrożeniami. To delikatna równowaga, którą firmy będą musiały umiejętnie zarządzać.
Wina Europy?
Microsoft w swojej analizie częściowo obwinia porozumienie z Komisją Europejską, które wymusza otwartość jądra systemu Windows dla firm trzecich, takich jak Crowdstrike. Choć trudno jednoznacznie zgodzić się z tym stwierdzeniem, pokazuje to, że regulacje i standardy mogą mieć nieprzewidziane konsekwencje. Branża technologiczna musi współpracować z regulatorami, aby zapewnić, że otwartość i bezpieczeństwo idą w parze.
Awaria Crowdstrike to nie tylko problem jednej firmy, ale ważna lekcja dla całej branży cyberbezpieczeństwa. Pokazuje, jak kruchy jest system oparty na zaufaniu do automatyzacji i jak ważne jest ciągłe monitorowanie, testowanie i poprawianie procesów. W świecie, gdzie cyberzagrożenia są na porządku dziennym, nawet najmniejszy błąd może prowadzić do poważnych konsekwencji. Mam nadzieję, że nie tylko Crowdstrike, ale cała branża wyciągnie z tego incydentu wnioski i będzie lepiej przygotowana na przyszłe wyzwania.