Awaria CrowdStrike: większość urządzeń już działa. Co robić po awarii?

Firma zajmująca się cyberbezpieczeństwem CrowdStrike ogłosiła w niedzielę, że znaczna liczba urządzeń Microsoft, które zostały dotknięte globalną awarią techniczną związaną z aktualizacją oprogramowania, jest już ponownie online i działa. Awaria, która miała miejsce 19 lipca 2024 roku, spowodowała poważne zakłócenia w funkcjonowaniu systemów Microsoft Windows, wpływając na wiele sektorów, w tym finansowy i lotniczy.

Wszystko zaczęło się od wadliwej aktualizacji udostępnionej przez CrowdStrike, co doprowadziło do awarii systemów i niemożności ich prawidłowego ponownego uruchomienia. Problemy te szybko rozprzestrzeniły się na cały świat, powodując znaczne zakłócenia w działaniu różnych organizacji. Najbardziej dotknięte zostały stacje telewizyjne w Australii, gdzie największe sieci, takie jak Network 10, ABC i Sky News Australia, musiały przerwać swoje transmisje. Wkrótce potem problemy zaczęły dotykać linie lotnicze w Niemczech, Wielkiej Brytanii i Stanach Zjednoczonych, które były zmuszone zawiesić loty z powodu problemów z łącznością. Banki, supermarkety i inne instytucje również doświadczyły znacznych zakłóceń w swoich operacjach.

CrowdStrike szybko zidentyfikował problem i wycofał wadliwą aktualizację, jednak wiele urządzeń wciąż miało problemy. Firma podjęła natychmiastowe działania, aby rozwiązać problem i przywrócić normalne funkcjonowanie systemów. W wyniku tych działań, znaczna liczba z 8,5 miliona urządzeń Microsoft, które zostały dotknięte awarią, jest już ponownie online i działa prawidłowo.

Aby zapobiec podobnym incydentom w przyszłości, firmy dotknięte awarią muszą podjąć szereg kroków. Przede wszystkim ważne jest powiadomienie zespołów odpowiedzialnych za zarządzanie kryzysowe i bezpieczeństwo IT. Administratorzy IT powinni uruchomić komputery w trybie awaryjnym i usunąć wadliwy plik z katalogu CrowdStrike. Warto również unikać nadmiernych reakcji i nie usuwać ani nie wyłączać CrowdStrike od razu, tylko odwołać się do istniejących procesów przeglądu po incydencie i zarządzania ryzykiem dostawcy.

W okresie śródokresowym należy ustanowić proces klasyfikacji aktywów i procesów, aby skutecznie zarządzać zakłóceniami i środkami zaradczymi. Warto również upoważnić specjalistów IT do wspierania użytkowników bez przyznawania im bezpośredniego dostępu do narzędzi odzyskiwania.

Po pełnym wyzdrowieniu systemów konieczne jest zidentyfikowanie maszyn, które mogły zostać dotknięte, ale nie zostały jeszcze zidentyfikowane. Należy również przeprowadzić analizę wpływu na biznes, aby zapewnić wyważone dyskusje na temat dalszych kroków. Ważna jest regularna komunikacja o stanie systemów, planach naprawczych i długoterminowych strategiach zapobiegawczych. Monitorowanie zespołu operacyjnego i rotacja personelu może pomóc w złagodzeniu stresu i zmęczenia.

W dłuższej perspektywie należy skupić się na zwiększeniu odporności systemów poprzez holistyczne podejście, które łączy się z celami strategicznymi organizacji. Istotne jest również przeglądanie i aktualizacja procedur awaryjnych oraz planów ciągłości działania. Kluczowi pracownicy odpowiedzialni za odzyskiwanie systemów powinni być odpowiednio szkoleni i zaangażowani w testowanie procedur.