Choć świat chmur publicznych coraz mocniej stawia na nośniki flash, Google nie rezygnuje z dysków twardych. Wręcz przeciwnie – w sercu jego infrastruktury wciąż biją talerzowe napędy, tyle że pod kontrolą wysoce zaawansowanego systemu, który pozwala im działać w tempie zbliżonym do SSD.
Podstawą niemal wszystkich usług Google – od YouTube’a po Gmaile i Cloud Storage – jest Colossus: zaprojektowany wewnętrznie system zarządzania danymi, który integruje i automatyzuje zarządzanie pamięcią masową w skali eksabajtów – wskazuje Google w poście na swoim blogu. Każde centrum danych Google działa na jednym klastrze Colossusa, który może osiągać prędkości do 50 TB/s przy odczycie i 25 TB/s przy zapisie. Dla porównania – to jak przepuszczenie całej zawartości dysku SSD klasy konsumenckiej w ułamku sekundy.
Klucz do sukcesu? Połączenie taniej pojemności dysków twardych z inteligencją automatyzacji i precyzją uczenia maszynowego. Choć Google posiada również infrastrukturę opartą o SSD, pełne przejście na nośniki półprzewodnikowe byłoby kosztowne na masową skalę. Stąd hybrydowe podejście – z wyraźnym rozdzieleniem danych „szybkich” od „wolnych”.
Rolę kuratora pełni tutaj system L4 – zaawansowany mechanizm cache’owania, który w czasie rzeczywistym analizuje wzorce dostępu do danych i decyduje, które z nich powinny trafić na SSD, a które mogą bezpiecznie pozostać na talerzach HDD. Dzięki temu popularne, często odczytywane dane są dostępne błyskawicznie, a mniej aktywne zasoby nie obciążają droższej przestrzeni.
To podejście nie jest jednak pozbawione ograniczeń. HDD sprawdzają się świetnie przy danych często aktualizowanych, ale tracą przewagę przy plikach, które rosną poprzez liczne, drobne dopiski – np. logi czy dane telemetryczne. W takich przypadkach Google świadomie omija dyski twarde, kierując dane bezpośrednio na SSD.
Dla reszty rynku IT to cenne case study. Choć producenci infrastruktury kuszą coraz szybszymi macierzami all-flash, przykład Google pokazuje, że inwestycja w inteligentne warstwy oprogramowania potrafi wycisnąć maksimum z konwencjonalnego sprzętu. W dobie optymalizacji kosztów i eksplozji danych, taka strategia może być bardziej atrakcyjna niż pełna migracja do flasha – zwłaszcza w środowiskach hyperscale.