manawize

CASE STUDY – Egy pénteki kernelhiba tanulságai

Amikor a péntek délután és a szerverhiba találkozik – hogyan állítottuk talpra ügyfelünk kritikus rendszerét.

Egy ügyfelünk központi szervere egyetlen gépen futtatott több létfontosságú szolgáltatást: többek között a CRM rendszert és a céges chatet is. A gép már egy idősebb Lenovo szerver volt és az utóbbi időben többször is átélt áramszüneteket, és bár napi mentések készültek, egy esetleges hardverhiba napok–hetek leállását jelentette volna. 

 

A probléma

Péntek délután a cég dolgozói lassulást és késleltetett üzenetküldést tapasztaltak – erről kaptuk meg a hibajegyet. Az újraindítás után a szerver nem töltött be: beragadt a Kernel (az operációs rendszer alapját képező futtatókörnyezet) betöltésénél, és nem volt távoli hozzáférés sem. Az ügyfél helyszíni kollégája telefonos és videós instrukciók alapján próbálta helyreállítani a működést – kevés sikerrel. Péntek nap végére így a teljes cég működése leállt.

 

A megoldás

Szombaton több lépésben hárítottuk el a hibát:

  • Még a telephelyen egy külső lemezre biztonsági másolatot készítettünk a legutóbbi mentésről.
  • Ezután egy kényelmes utazással irodánkba transzportáltuk a szervert.
  • Egy részletesebb elemzés után a Kernel tűnt problémásnak.
  • Szerencsére volt egy korábbi Kernel verziónk, amire visszaállítottuk a szervert.
  • Későbbi restart után is újabb problémákba ütköztünk, amit a BIOS reset okozott. (Lemerült az elem)
  • Elem csere után áramszünet-szimuláció és többszöri újraindítás után a rendszer már stabilnak bizonyult.

 

Hétfőn a szolgáltatások újra működtek, kedden a szerver visszakerült az eredeti helyére.

Tanulság és a következő lépéseink

A gyors hibaelhárítással sikerült megmenteni az ügyfél hétfői munkakezdését. Ugyanakkor a probléma rámutatott: egyetlen öreg szerverre építeni a céges működést nagyon komoly kockázat.

Ezért a következő lépések:
  • Alternatív infrastruktúra (Cloud, Hybrid vagy új On-Prem környezet) megtervezése és kiajánlása,
  • Redundáns, skálázható és biztonságos működés tervezése.
  • Ha pedig ügyfelünk végül mindenképp on-prem megoldásban gondolkozna és nem fér bele egy második szerver, vagy a felhőbe költözés, akkor a szerver közelebb költöztetésében és a hardware elemek tartalékának raktározásában gondolkozunk. Így jelentősen lecsökkentve a kiesés kockázatát.

 

A mostani incidens rávilágított az ügyfélnél arra is, hogy a hibakeresés időigényessége önmagában is komoly kockázatot jelenthet. Mivel egyetlen fizikai gépen futott minden szolgáltatás, nem volt lehetőségünk arra, hogy a vizsgálat ideje alatt alternatív rendszeren biztosítsuk a működést.

Egy jól megtervezett infrastruktúrában a hibajavítás és az üzletmenet nem egymás rovására történik: a tartalék környezet átvállalja a működést, miközben a technikai csapat nyugodtan javíthatja az eredeti hibát.

Ha te is úgy érzed, hogy az IT infrastruktúrád nem túl stabil lábakon áll, akkor keress bennünket és segítünk neked költséghatékony módot találni rá.

Ezek is érdekelhetnek:

Oszd meg másokkal is!

Manawize 2024-1

A te cégednek miben segíthetünk?

Kérdésed van?
Írj bátran!

Készen állsz a következő lépésre? Kérj személyre szabott ajánlatot most!

IT Service Request Form (#3)
Adatvédelmi áttekintés

Szükséges Sütik

Ezekre a sütikre szükség van a www.manawize.io weboldal alapvető működésének fenntartásához böngészés közben. Ilyen funkciók például a sütibeállítások megőrzése, a terheléskiegyenlítés, a munkamenetek kezelése, a nyelvbeállítások kiválasztása és a vásárlási folyamatok.

Műveleti Sütik

Ezek a sütik rögzítik és megőrzik a felhasználói beállításokat a www.manawize.io weboldalán, növelik a használhatóságát, elemzik az oldal használatát, és lehetővé teszik a közösségi interakciókat, illetve az oldal optimalizálását.

Sütik Személyre Szabáshoz

Ezek a sütik javítják az általános felhasználói élményt, ha ellátogat a www.manawize.io weboldalára, valamint az Ön érdeklődése és preferenciái alapján szabják személyre a tartalmat és a hirdetéseket.