Bocsánatot kért ügyfeleitől a Google, amiért április 11-én 18 percre leáll a Compute Engine szolgáltatása gyakorlatilag minden régióban. A leállásról a cég tegnap részletes beszámolt egy blogbejegyzésben, amelyben a műszaki okokat is részletezte.
Rutinmunkának indult
A hiba egy már begyakorlott frissítés közben lépett fel. A mérnökök eltávolítottak a hálózatból egy használaton kívüli IP-blokkot, majd pedig életbe lépett az automatikus folyamat, amely a módosított hálózati konfigurációt érvénybe lépteti. Mint írják, ez olyan rutinfeladatnak számít, amelyet már számtalanszor végrehajtottak. Csakhogy most a hálózatmenedzsmentért felelős szoftver hibát jelzett. Ilyenkor az a protokoll, hogy a rendszer visszatér a korábbi hálózatkonfigurációhoz. Ehelyett azonban a menedzsment szoftver a hibás hálózati konfigurációt kezdte teríteni.
A felhő biztonsága május 5-6-án a tavaszi CIO Hungary konferencián is terítékre kerül.
Az eredmény végül az lett, hogy a Google Compute Engine több régió több adatközpontjában leállt 18 percre. A Google hangsúlyozta, hogy a leállás nem érintett más szolgáltatásokat, például a Google App Engine-t, a Google Cloud Storage-ot és más termékeket, ami persze kevéssé vigasztalja azokat a vállalatokat, melyek a Compute Engine-en futtattak valamilyen munkát. Ugyanakkor a Google súlyosnak ítélte a hibát, ezért egyrészt megelőző intézkedéseket vezettek be, és egy mérnökcsapat dolgozik azon, hogy a hasonló hibák lehetőségét minimalizálják.
A leállás okozta reputációs károkat azzal próbálják mérsékelni, hogy a szolgáltatásra adott SLA-nál (Service Level Agreement) nagyobb mértékű kedvezményt adnak az érintett ügyfeleinek: a havidíjból 25 százalékot, a megvásárolt kreditek árából 10 százalékot.
Globális szolgáltatás – globális hiba
Az eset ismét rávilágít arra, hogy bár a felhős szolgáltatások nagyon komoly üzembiztonságot kínálnak, a kiterjedt és komplex rendszerekben felmerülő hibák – legyenek azok műszaki jellegűek vagy emberi mulasztásra visszavezethetők – egy globális szolgáltatónál globálisan jelentkezhetnek. Ezáltal világgazdasági szinten sokkal nagyobb károkat tud okozni akár egy rövidebb szolgáltatáskimaradás is, míg egy lokális rendszer hibája csak annak tulajdonosát érinti – meglehet őt magát súlyosabban, mert például lassabban tudja helyreállítani a rendszere működőképeségét.
Érdekes az is, hogy a műszaki hibák egyik forrása nem egyszer éppen az, ami a hibák minimalizálását hivatott szolgálni: a folyamatok automatizálása. Ez történt a Google esetében is: egy már többször kipróbált automatizált folyamat okozta egy szolgáltatás globális kiesését.
Ugyanakkor hiba lenne csupán egy ilyen probléma alapján eldönteni, hogy használ-e valaki bármilyen felhős szolgáltatást. A Gartner CloudHarmony nevű cége folyamatosan monitorozza az egyes felhőszolgáltatók rendelkezésre állását, és megadja a leállási időket is. Érdemes ezt összevetni a saját rendszer hasonló adataival. Valószínűleg sokat segít a döntésben. Mindazonáltal döntsön egy vállalat bárhogy is, bizonyos mértékig mindenképpen fogadás köt: azaz nincs száz százalékos üzembiztonság, mert ahogy Murphy mondja, ami el tud romlani, az el is romlik. A kérdés éppen ezért inkább az, hogy milyen gyorsan lehet megjavítani. És ebben a felhőszolgáltatók egyre nagyobb előnyben vannak, mert méreteikből adódóan a szükséges szakértelmet is folyamatosan biztosítani tudják.
A leállás műszaki háttere részletesen tanulmányozható a Google hivatalos blogbejegyzésében, melynek végén az incidens pontos kronológiáját is közlik.
Költségcsökkenésből finanszírozott modernizáció
A cloud-native alkalmazások megkövetelik az adatközpontok modernizációját, amihez a SUSE többek között a virtualizációs költségek csökkentésével szabadítana fel jelentős forrásokat.
CIO kutatás
Merre tart a vállalati IT és annak irányítója?
Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.
Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!
Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.
Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?