Kedvezménnyel nyomatékosítja bocsánatkérését a Google egy leállás miatt

Bitport2016.04.14.Cloud & big data

Pár napja ugyanis 18 perces szolgáltatáskiesés volt a Google Compute Engine-ben. Más szolgáltatásokat nem érintett a leállás.

Bocsánatot kért ügyfeleitől a Google, amiért április 11-én 18 percre leáll a Compute Engine szolgáltatása gyakorlatilag minden régióban. A leállásról a cég tegnap részletes beszámolt egy blogbejegyzésben, amelyben a műszaki okokat is részletezte.

Rutinmunkának indult

A hiba egy már begyakorlott frissítés közben lépett fel. A mérnökök eltávolítottak a hálózatból egy használaton kívüli IP-blokkot, majd pedig életbe lépett az automatikus folyamat, amely a módosított hálózati konfigurációt érvénybe lépteti. Mint írják, ez olyan rutinfeladatnak számít, amelyet már számtalanszor végrehajtottak. Csakhogy most a hálózatmenedzsmentért felelős szoftver hibát jelzett. Ilyenkor az a protokoll, hogy a rendszer visszatér a korábbi hálózatkonfigurációhoz. Ehelyett azonban a menedzsment szoftver a hibás hálózati konfigurációt kezdte teríteni.

A felhő biztonsága május 5-6-án a tavaszi CIO Hungary konferencián is terítékre kerül.

Az eredmény végül az lett, hogy a Google Compute Engine több régió több adatközpontjában leállt 18 percre. A Google hangsúlyozta, hogy a leállás nem érintett más szolgáltatásokat, például a Google App Engine-t, a Google Cloud Storage-ot és más termékeket, ami persze kevéssé vigasztalja azokat a vállalatokat, melyek a Compute Engine-en futtattak valamilyen munkát. Ugyanakkor a Google súlyosnak ítélte a hibát, ezért egyrészt megelőző intézkedéseket vezettek be, és egy mérnökcsapat dolgozik azon, hogy a hasonló hibák lehetőségét minimalizálják.

A leállás okozta reputációs károkat azzal próbálják mérsékelni, hogy a szolgáltatásra adott SLA-nál (Service Level Agreement) nagyobb mértékű kedvezményt adnak az érintett ügyfeleinek: a havidíjból 25 százalékot, a megvásárolt kreditek árából 10 százalékot.

Globális szolgáltatás – globális hiba

Az eset ismét rávilágít arra, hogy bár a felhős szolgáltatások nagyon komoly üzembiztonságot kínálnak, a kiterjedt és komplex rendszerekben felmerülő hibák – legyenek azok műszaki jellegűek vagy emberi mulasztásra visszavezethetők – egy globális szolgáltatónál globálisan jelentkezhetnek. Ezáltal világgazdasági szinten sokkal nagyobb károkat tud okozni akár egy rövidebb szolgáltatáskimaradás is, míg egy lokális rendszer hibája csak annak tulajdonosát érinti – meglehet őt magát súlyosabban, mert például lassabban tudja helyreállítani a rendszere működőképeségét.

Érdekes az is, hogy a műszaki hibák egyik forrása nem egyszer éppen az, ami a hibák minimalizálását hivatott szolgálni: a folyamatok automatizálása. Ez történt a Google esetében is: egy már többször kipróbált automatizált folyamat okozta egy szolgáltatás globális kiesését.

Ugyanakkor hiba lenne csupán egy ilyen probléma alapján eldönteni, hogy használ-e valaki bármilyen felhős szolgáltatást. A Gartner CloudHarmony nevű cége folyamatosan monitorozza az egyes felhőszolgáltatók rendelkezésre állását, és megadja a leállási időket is. Érdemes ezt összevetni a saját rendszer hasonló adataival. Valószínűleg sokat segít a döntésben. Mindazonáltal döntsön egy vállalat bárhogy is, bizonyos mértékig mindenképpen fogadás köt: azaz nincs száz százalékos üzembiztonság, mert ahogy Murphy mondja, ami el tud romlani, az el is romlik. A kérdés éppen ezért inkább az, hogy milyen gyorsan lehet megjavítani. És ebben a felhőszolgáltatók egyre nagyobb előnyben vannak, mert méreteikből adódóan a szükséges szakértelmet is folyamatosan biztosítani tudják.

A leállás műszaki háttere részletesen tanulmányozható a Google hivatalos blogbejegyzésében, melynek végén az incidens pontos kronológiáját is közlik.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Befektetőket riogató zombi unikornisok garázdálkodnak a Szilícium-völgyben

Az unikornis-listákon szereplő cégek egy jelentős része már csak egymilliárd dolláros értékelés alatt tudott tőkét bevonni – már ha tudott.

A hónap témája

Hogyan vezessük be az MI-t szolgáltatásként?

Önmagukban a sikeres pilotprojektek nem kövezik ki a hosszútávon is jól működő AIaaS- és RPAaaS-használat útját. A szemléletváltáson kívül akad még pár dolog, amit figyelembe kell venni.

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Befektetőket riogató zombi unikornisok garázdálkodnak a Szilícium-völgyben

Hogyan vezessük be az MI-t szolgáltatásként?

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!