Serwery: Rola zasilania

Dopóki kwestie zasilania nie zostaną lepiej zrozumiane, BA (British Airways) nie będzie pojedynczym incydentem. Warto zastanowić się nad problemem nie istotnym, dopóki się nie pojawi.

Wysokie temperatury

Lato, długie upalne dni, ciepłe wieczory i wakacje – to wszystko przywodzi na myśl beztroską zabawę na słońcu. Jeśli jednak lato jest dla danej branży najbardziej intensywnym okresem w roku i systemy informatyczne o krytycznym znaczeniu ulegną w tym okresie awarii, spowoduje to chaos dla tysięcy klientów i uszczerbek na dobrym wizerunku firmy. Wówczas beztroska zabawa odejdzie w zapomnienie dużo szybciej, niż blaknie opalenizna.

Są pewne wydarzenia, które nie powinny mieć miejsca – winą za które nie można obarczyć pogody, nieplanowanej konserwacji czy nawet „zakłóceń zasilania” – ponieważ złe planowanie, w takiej sytuacji, jest zawsze lepszym wytłumaczeniem. Istnieje wiele spekulacji na temat tego, co zawiodło w firmie British Airways. Zaskoczeniem jest również fakt, że coś w ogóle mogło pójść nie tak, biorąc pod uwagę złożoność i ogromną skalę działania tych linii lotniczych oraz wielkość ich infrastruktury centrów przetwarzania danych, szacowanej na 500 szaf serwerowych. Wielkością ustępują one jedynie centrom przetwarzania danych w branży bankowej, ale tak samo jak one, bezwzględnie potrzebują 100 proc. dostępności. Od tego zależy bezpieczeństwo, ochrona i jakość obsługi klienta.

Zaniki zasilania nie są odosobnionymi przypadkami

A jednak – na poziomie branży centrów przetwarzania danych – ten incydent jest zdecydowanie odosobniony. Badanie przeprowadzone na zlecenie firmy Eaton wśród menedżerów IT i Data Center w całej Europie wykazało, że 27 proc. respondentów doświadczyło przedłużających się zaników zasilania, co w ciągu ostatnich 3 miesięcy doprowadziło do uciążliwych przestojów. Zdecydowana większość respondentów (82 proc.) zgadza się, że większość krytycznych procesów biznesowych zależy od IT, a 74 proc. twierdzi, że stan centrum przetwarzania danych bezpośrednio wpływa na jakość usług IT. To daje jasny obraz tego, że działalność biznesowa zależy od systemów IT, a systemy IT zależą od funkcjonowania centrum przetwarzania danych, więc fakt, że więcej niż jedno na cztery centra ucierpiało w ostatnim czasie z powodu przedłużającego się przestoju, świadczy o nieprawidłowościach w całej branży.

Niewystarczające planowanie energetyczne

Tak jak krytyczne procesy biznesowe zależą od usług informatycznych, tak samo centrum przetwarzania danych musi być niezawodne, aby zapewnić ciągłość funkcjonowania biznesu. Jest to główny aspekt strategii zarządzania ryzykiem w biznesie.

Jedyne, co wiemy na pewno na przykładzie BA, to fakt, że ktoś lub coś przerwało zasilanie z centrum przetwarzania danych, a także że w wyniku panicznej reakcji, czy też braku wiedzy, po przywróceniu zasilania nieprawidłowe działania jeszcze zwiększyły skalę problemu. Powinniśmy uważać, aby nie przypisywać tej porażki żadnej indywidualnej technologii czy osobie. Jest to problem słabego zrozumienia zasilania energetycznego, któremu mogły i powinny zapobiegać właściwe procesy i projektowanie systemu elektroenergetycznego, zwłaszcza jeśli będą one przebiegać zgodnie z prostą zasadą zarządzania zasilaniem centrum przetwarzania danych – działania mają konsekwencje, a konsekwencje wymagają określonych działań.

Przykład BA ponownie pokazuje, że niezrozumienie kwestii zasilania jest powszechnym problemem. Dwie trzecie specjalistów w zakresie centrów przetwarzania danych w badaniach firmy Eaton nie było w pełni pewnych siebie w kwestiach zasilania. Dopóki przedsiębiorstwa nie poradzą sobie z zarządzaniem energią elektryczną, możemy spodziewać się częstszych i dłuższych przerw w jej dostawach. Kwestia posiadania odpowiednich umiejętności budzi głębokie obawy, ponieważ trudno jest zdobyć i utrzymać odpowiednią wiedzę fachową, niezależnie od tego, czy chodzi o projektowanie pod kątem efektywności energetycznej, o zarządzanie zużyciem energii na bieżąco, czy też o szybkie i skuteczne radzenie sobie z awariami związanymi z zasilaniem, aby uniknąć przestojów i zminimalizować skutki takich usterek.

Czy próbowaliście wyłączyć i ponownie włączyć urządzenie?

W przypadku wystąpienia całkowitej przerwy w zasilaniu konieczne jest uruchomienie procesu odzyskiwania danych po awarii, który jasno określa kroki, jakie należy podjąć przy powrocie zasilania w centrum przetwarzania danych, wyszczególniając, które systemy muszą zostać przywrócone jako pierwsze. W sytuacji całkowitej awarii, gdy ludzie są w stanie paniki i pod presją czasu, aby wznowić normalne świadczenie usług, rozłożenie w czasie ponownego uruchomienia zasilania systemów w centrum przetwarzania danych może wydawać się sprzeczne z intuicją, ponieważ celem jest jak najszybszy powrót do sieci. Jednak taki proces pomaga uniknąć dalszego przedłużenia się przestoju. Przywrócenie centrum przetwarzania danych po awarii musi być przeprowadzone delikatnie i z jasno określoną metodyką. Próba odtworzenia wszystkiego w szybki i nieplanowany sposób spowoduje jedynie nagłe przeciążenie systemu, które może wydłużyć przestój, ponownie paraliżując centrum przetwarzania danych. Zarządzanie energią polega na zrozumieniu zależności między różnymi częściami systemu elektroenergetycznego i obciążeniem systemu IT oraz zapewnieniu odpowiedniego poziomu niezawodności sprzętu, oprogramowania i procesów.

Przywrócenie normalnej pracy po awarii wymaga cierpliwości i systematycznego procesu – dwóch kwestii, których według doniesień o awarii w BA brakowało. Żaden specjalista z zakresu centrum przetwarzania danych nigdy nie zapytał „czy próbowaliście wyłączyć i ponownie włączyć urządzenie”? Prawidłowa praktyka polega na działaniu krok po kroku, kontrolowaniu i monitorowaniu stopniowego restartu, tak aby partie systemów były uruchamiane tylko wtedy, gdy jest to bezpieczne i jesteśmy pewni właściwego rozdziału obciążenia pomiędzy fazy zasilania. Pominięcie jakichkolwiek kroków w pośpiechu, aby jak najszybciej przywrócić system, może spowodować gwałtowny wzrost napięcia, przeciążenie obwodów, zadziałanie wyłączników i delikatnie mówiąc, wywołać chaos.

Niezawodność i modernizacja infrastruktury

Poza umiejętnościami pracowników i procesami energetycznymi, sama infrastruktura często wymaga modernizacji, tak aby sprostać dzisiejszym oczekiwaniom w zakresie wydajności, niezawodności i elastyczności. Około połowa respondentów ankiety przeprowadzonej przez firmę Eaton twierdzi, że ich podstawowa infrastruktura informatyczna wymaga wzmocnienia, a liczba ta jest bliższa dwóm trzecim, jeśli chodzi takie usługi jak zasilanie i chłodzenie.

Zarządzanie energią staje się w coraz większym stopniu aktywnością definiowaną przez oprogramowanie. Biorąc pod uwagę lukę w umiejętnościach personelu, oprogramowanie może odegrać ważną rolę w niwelowaniu przepaści między strukturą informatyczną a zasilaniem, przedstawiając opcje zarządzania energią w stylu tablic rozdzielczych, które są znane osobom pracującym w informatyce, ułatwiając zrozumienie, a nawet automatyzację zarządzania infrastrukturą energetyczną. Mogło to zapobiec przestojom, które wystąpiły w przypadku British Airways, ponieważ zautomatyzowane procesy umożliwiłyby ponowne uruchomienie systemów w sposób kontrolowany  i monitorowany.

Przeszliśmy w kierunku bardziej zwirtualizowanych środowisk w centrach przetwarzania danych. Specjaliści z branży informatycznej są zaznajomieni z wykorzystaniem wirtualizacji w celu utrzymania sprzętu, więc dlaczego nie mielibyśmy stosować tych samych zasad w kwestiach zasilania? Ważne jest, aby wszystkie projekty w zakresie dystrybucji energii elektrycznej i związane z nimi narzędzia oprogramowania były kompatybilne ze wszystkimi głównymi dostawcami rozwiązań wirtualizacji, aby zapewnić zabezpieczenie infrastruktury na przyszłość. Dzięki takiemu podejściu specjaliści zajmujący się centrami przetwarzania danych będą mogli wykonywać równolegle prace konserwacyjne w celu ograniczenia ryzyka związanego z utrzymaniem i modernizacją infrastruktury.

Nauka na błędach

Choć prawdopodobnie nigdy w pełni nie zrozumiemy, co wydarzyło się w centrum przetwarzania danych BA, jest niemal pewne, że nie będzie to odosobniony incydent w historii branży, nawet jeśli mało prawdopodobne jest, że będziemy mieli kiedykolwiek do czynienia z awarią na tak wielką skalę. Problem sprowadza się do niewystarczającego przygotowania lub nieprawidłowego przeprowadzenia przywrócenia pracy systemu. Lepsze przygotowanie procesu odzyskiwania danych w przypadku awarii centrum przetwarzania danych oznaczałoby, że po pierwsze, infrastruktura DR (Disaster Recovery) powinna była zostać uruchomiona w celu pokrycia zapotrzebowania podczas awarii, a po drugie, ponowne uruchomienie sprzętu i aplikacji, powinno zostać zrealizowane w znacznie bardziej kontrolowany sposób. Oznaczałoby to powolne i stopniowe przywracanie zasilania systemów, co pozwoliłoby na płynne wznowienie pracy. Jako przemysł centrów przetwarzania danych musimy upewnić się, że wszyscy wyciągniemy wnioski z przestoju w BA i podejmiemy działania w celu zapewnienia, że skuteczne zarządzanie energią jest „koniecznością”, a nie tylko „miłym dodatkiem”.

Używamy plików cookie, aby zapewnić lepszą jakość przeglądania. Kontynuując korzystanie z tej witryny, wyrażasz zgodę na korzystanie z plików cookie.
Używamy plików cookie, aby zapewnić lepszą jakość przeglądania. Kontynuując korzystanie z tej witryny, wyrażasz zgodę na korzystanie z plików cookie.