Jelentős szolgáltatáskiesést tapasztalhattak a Google egyes európai ügyfelei a hét közepén. Október 24-én helyi idő szerint éjszaka fél 3-kor leállt a Frankfurtban található Europe-West3 régió három zónájából egy, és csak 15:09-kor, azaz pontosan 12 óra 39 perc múlva sikerült életre kelteni a szolgáltatásokat.
"Elnézést kérünk a szolgáltatási zavar/kimaradás okozta kellemetlenségekért" – írta a Google supportja a kimaradásról szóló jelentésében. A jelentés szerint az incidenst áramkimaradás és hűtési problémák okozták, de a Google további vizsgálatokat is ígért, melyek eredményéről szintén tájékoztatja az ügyfeleket.
Az adatközpont leállása közvetlenül tíz szolgáltatást érintett (Persistent Disk, Google Compute Engine, Google Cloud Pub/Sub, Google Cloud Dataflow, Dataproc, Cloud Build, Google Kubernetes Engine, Vertex AI Batch Prediction).
Ezt tapasztalták a felhasználók
Ügyféloldalon az incidensnek számos jele lehetett, melyekből a felhasználók nem is feltétlenül tudták azonosítani a problémát. Ha valaki a Google Compute Engine szolgáltatást használta, azt érzékelhette, hogy virtuális gép létrehozásakor hibaüzenetet kap, vagy a törlések feldolgozása nagyon lassú, illetve hogy bizonyos VM-példányok elérhetetlenné váltak.
A Google Kubernetes Engine-ben elérhetetlenek voltak az érintett zónában található node-ok, és újakat sem lehetett létrehozni. A Google Cloud Dataflow batch munkafolyamatai belassultak, nem működött a skálázás. A Google Cloud Dataproc-fürtök működőképesek maradtak ugyan, de többször nem lehetett új fürtöt létrehozni. (A Google-support által eddig azonosított problémák teljes listája az incidensriportban olvasható.)
A jelentés a Google Compute Engine kapcsán megjegyzi: bár a régió másik két zónáját az incidens közvetlenül nem érintette, ott is tapasztalhattak fennakadásokat az ügyfelek például a lemezerőforrásokat és az instance-okat érintő műveleteknél, ám a hibaarány még az 1 százalékot sem érte el. A Vertex AI Batch Predictionnél viszont már sok esetben régiós szinten jelentkezett az a probléma, hogy egyes műveletek időtúllépés miatt meghiúsultak.
A Google a leállás után 26 perccel értesítette az érintett ügyfeleit, de megoldási javaslattal csak három óra elteltével szolgált: helyezzék át munkaterheléseiket más régiókba vagy zónákba. A regionális Persistent Disk szolgáltatást használóknak pedig azt javasolták, hogy készítsenek rendszeresen snapshotot a lemezről.
Nem Frankfurtban van a hiba...
A frankfurti régió eddig többnyire stabilan működött. Voltak ugyan kisebb leállások, tavaly tavasszal például egy félresikerült frissítési-karbantartási művelet miatt vált közel három óráig elérhetetlenné több mint harminc szolgáltatás.
Hűtési problémák is okoztak már galibát, ha nem is a német város környékén. 2022-ben Dél- és Kelet-Angliában extrém hőhullám miatt volt jelentős kimaradás a Londonban működő Europe-West2 régióban, valamint az Oracle ottani adatközpontjaiban.
Adatközpont-szakértők már akkor arra figyelmeztettek, hogy a klímaváltozás egyre nagyobb kihívás elé állítja az adatközpont-üzemeltetőket (különösen a hyperscale szolgáltatókat). Azóta pedig az is kiderült, hogy van más probléma is: a mesterséges intelligencia körüli hájp olyan mértékben pörgette fel az adatközpontok energiaigényét, hogy azt egyre nehezebben tudja kiszolgálni az infrastruktúra (és persze a hangzatos klímacéloknak is annyi).
Azaz beválhat a Gartner ügyvezető alelnökének jóslata. Alan Waite tavaly egy konferencián azt taglalta, hogy bár a felhős infrastruktúra leállásának kockázata egyre kisebb (ritkább, rövidebb ideig tart és korlátozott a hatóköre), ha bekövetkezik, az az érintetteket rendkívül súlyosan érinti. De ha élvezni akarjuk a felhő előnyeit, akkor érdemes felkészülni a hátrányaira is, köztük a rövidebb-hosszabb szolgáltatáskimaradásokra.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak