aplikačních celků
po obnově
Tak jako jiné finanční instituce podléhající dohledu regulátorů, musí i J&T Banka prokazovat provozuschopnost svých IT systémů v případě havárie. Jak by ale měla postupovat, když s řízením zotavení z tak velké simulované havárie nemá praktické zkušenosti? A jak si má poradit se závěry disaster recovery testování?
Hledá se specialista na disaster recovery
J&T Bank poskytuje služby privátního bankovnictví a financování v oboru realit a podnikových akvizic. Aby prokázala provozuschopnost svých IT systémů v případě havárie, naplánovala simulovaný výpadek jednoho ze dvou svých datacenter.
J&T Bance však chyběli expertní zaměstnanci se zkušenostmi s vedením velkého disaster recovery testu, a tak se banka obrátila na ORBIT. Naší úlohou bylo provést zákazníka přípravou, samotným DR testem i jeho vyhodnocením.
1. fáze: Revize aktuálních disaster recovery plánů
Disaster recovery (DR) testování má za cíl posílit schopnost organizace přestát velkou IT havárii. K tomu je třeba zvýšit odolnost infrastruktury a nacvičit postupy, jimiž členové IT týmů v případě havárie obnoví dostupnost služeb.
V první fázi projektu jsme se zaměřili na revizi aktuálních DR plánů banky. Provedli jsme kompletní assessment schopnosti IT dosáhnout bezpečného zotavení z havárie, z něhož vzešel seznam nedostatků a nezbytných nápravných kroků před samotným testem.
Disaster recovery: Být připraven
Disaster recovery (DR) je klíčovým procesem, který každé moderní firmě zajišťuje kontinuitu podnikání při mimořádných událostech, jako jsou kybernetické útoky nebo přírodní katastrofy. Typickým scénářem obnovy je běh ze sekundárního datacentra nebo kompletní obnova po ztrátě dat.
V dnešní době jsou DR procesy poháněny přísnými legislativními a regulačními požadavky, mezi které patří například směrnice NIS2 or regulace DORA. Tyto předpisy po podnicích vyžadují, aby měly robustní plány na obnovu a ochranu svých IT systémů.
Připravenost na mimořádné události přináší společnostem klid, zvyšuje důvěru jejich klientů a minimalizuje finanční ztráty spojené s výpadky.
2. fáze: Realizace nápravných opatření
Na základě gap analýzy nápravných opatření jsme museli zajistit takovou konfiguraci kritických aplikací, aby dokázaly běžet pouze ze sekundárního datacentra. To se však někdy snadněji napíše, než udělá.
Například realizace některých opatření se kvůli velké technické komplexitě IT systémů neobešla bez investicí.
Jiné změny byly zase natolik časově náročné, že posunuly celkový harmonogram projektu. (Třeba převedení několikaterabytové databáze do synchronní repliky ve druhém datacentru si nejprve vyžádalo její rozdělení podle typu dat, pak otestování nového řešení a teprve poté technickou implementaci pro obnovu).
3. Fáze: Průběh DR testu
Implementace nápravných opatření a eliminace všech rizik nakonec posunuly provedení DR testu o celé tři měsíce. Tuto dobu jsme využili ke tvorbě detailního DR plánu a souvisejících roll-back či what-if scénářů, abychom byli připraveni na nečekané události v průběhu testu.
Testu obnovy datacentra dále předcházela:
- komunikační kampaň odstávky,
- schvalování rizik,
- opakovaný nácvik postupů,
- příprava všech nutných podkladů a dílčích plánů obnovy
- a další nezbytné přípravné kroky pro tak náročnou operaci.
Samotný DR test, včetně bezpečné simulace havárie a zotavení systémů, proběhl podle DR plánu. Simulace havárie zahrnovala řízené vypnutí všech vrstev infrastruktury a vypnutí elektrického proudu. Následovaly nutné rekonfigurace v sekundárním datacentru a spouštění aplikací.
Experti banky museli opakovaně a v časovém presu řešit technické překážky. S úlevou jsme v řídícím nástroji TaskControl sledovali zelená políčka u byznys testů, když zodpovědné osoby postupně potvrzovaly funkčnost obchodních procesů při běhu aplikací s kompletně nedostupným primárním datacentrem.
Výstupem vyčerpávajícího víkendového testu byly stovky stran záznamů, na jejichž základě vznikla zpráva pro ČNB o praktické připravenosti banky na velkou havárii.
Jeden disaster recovery test nestačí
Regulovaný finanční byznys a byznys kritické infrastruktury je povinen provádět DR testy pravidelně. Musí se přitom přizpůsobovat změnám v aplikacích i infrastruktuře (reakce na průběžné výměny hardware, upgrady, na změny konfigurací aplikací, na jejich životní cyklus apod.).
Pro budoucí běhy plánů jsme proto IT tým J&T Banky vybavili manuálem Lessons learned a šablonou pro opakované provedení testu. V situaci, kdy však většina subjektů nemá s praktickým provedením testů dostatečné zkušenosti, jim naši experti nabízejí pomocnou ruku.