J&T Banka: Disaster recovery test jako příprava na havárie

simulovaná havárie

datacenters

obnovovaných
aplikačních celků

záznamů o testech
po obnově

Tak jako jiné finanční instituce podléhající dohledu regulátorů, musí i J&T Banka prokazovat provozuschopnost svých IT systémů v případě havárie. Jak by ale měla postupovat, když s řízením zotavení z tak velké simulované havárie nemá praktické zkušenosti? A jak si má poradit se závěry disaster recovery testování?

„Navzdory několika technologickým výzvám, kterým musel provozní tým čelit, proběhl test pod vedením ORBITu v daném časovém okně plánované odstávky a zcela podle očekávání. Prokázal připravenost J&T Banky na opravdovou havárii, která by znemožnila provoz primárního datacentra, a současně uspokojil požadavky regulátora.“

Vladimír Havel, Ředitel IT Operations, J&T Banka

J&T Banka: Úspěšný disaster recovery test3 | ORBIT

Hledá se specialista na disaster recovery

J&T Bank poskytuje služby privátního bankovnictví a financování v oboru realit a podnikových akvizic. Aby prokázala provozuschopnost svých IT systémů v případě havárie, naplánovala simulovaný výpadek jednoho ze dvou svých datacenter.

J&T Bance však chyběli expertní zaměstnanci se zkušenostmi s vedením velkého disaster recovery testu, a tak se banka obrátila na ORBIT. Naší úlohou bylo provést zákazníka přípravou, samotným DR testem i jeho vyhodnocením.

1. fáze: Revize aktuálních disaster recovery plánů

Disaster recovery (DR) testování má za cíl posílit schopnost organizace přestát velkou IT havárii. K tomu je třeba zvýšit odolnost infrastruktury a nacvičit postupy, jimiž členové IT týmů v případě havárie obnoví dostupnost služeb.

V první fázi projektu jsme se zaměřili na revizi aktuálních DR plánů banky. Provedli jsme kompletní assessment schopnosti IT dosáhnout bezpečného zotavení z havárie, z něhož vzešel seznam nedostatků a nezbytných nápravných kroků před samotným testem.

Disaster recovery: Být připraven

Disaster recovery (DR) je klíčovým procesem, který každé moderní firmě zajišťuje kontinuitu podnikání při mimořádných událostech, jako jsou kybernetické útoky nebo přírodní katastrofy. Typickým scénářem obnovy je běh ze sekundárního datacentra nebo kompletní obnova po ztrátě dat.

V dnešní době jsou DR procesy poháněny přísnými legislativními a regulačními požadavky, mezi které patří například směrnice NIS2 or regulace DORA. Tyto předpisy po podnicích vyžadují, aby měly robustní plány na obnovu a ochranu svých IT systémů.

Připravenost na mimořádné události přináší společnostem klid, zvyšuje důvěru jejich klientů a minimalizuje finanční ztráty spojené s výpadky.

2. fáze: Realizace nápravných opatření

Na základě gap analýzy nápravných opatření jsme museli zajistit takovou konfiguraci kritických aplikací, aby dokázaly běžet pouze ze sekundárního datacentra. To se však někdy snadněji napíše, než udělá.

Například realizace některých opatření se kvůli velké technické komplexitě IT systémů neobešla bez investicí.

Jiné změny byly zase natolik časově náročné, že posunuly celkový harmonogram projektu. (Třeba převedení několikaterabytové databáze do synchronní repliky ve druhém datacentru si nejprve vyžádalo její rozdělení podle typu dat, pak otestování nového řešení a teprve poté technickou implementaci pro obnovu).

3. Fáze: Průběh DR testu

Implementace nápravných opatření a eliminace všech rizik nakonec posunuly provedení DR testu o celé tři měsíce. Tuto dobu jsme využili ke tvorbě detailního DR plánu a souvisejících roll-back či what-if scénářů, abychom byli připraveni na nečekané události v průběhu testu.

Testu obnovy datacentra dále předcházela:

komunikační kampaň odstávky,
schvalování rizik,
opakovaný nácvik postupů,
příprava všech nutných podkladů a dílčích plánů obnovy
a další nezbytné přípravné kroky pro tak náročnou operaci.

Samotný DR test, včetně bezpečné simulace havárie a zotavení systémů, proběhl podle DR plánu. Simulace havárie zahrnovala řízené vypnutí všech vrstev infrastruktury a vypnutí elektrického proudu. Následovaly nutné rekonfigurace v sekundárním datacentru a spouštění aplikací.

Experti banky museli opakovaně a v časovém presu řešit technické překážky. S úlevou jsme v řídícím nástroji TaskControl sledovali zelená políčka u byznys testů, když zodpovědné osoby postupně potvrzovaly funkčnost obchodních procesů při běhu aplikací s kompletně nedostupným primárním datacentrem.

Výstupem vyčerpávajícího víkendového testu byly stovky stran záznamů, na jejichž základě vznikla zpráva pro ČNB o praktické připravenosti banky na velkou havárii.

„K řízení DR testů i jiných projektů používáme vlastní nástroj TaskControl, který pomáhá i našim zákazníkům.“

Kamil Kovář, Modernization Lead, ORBIT

Jeden disaster recovery test nestačí

Regulovaný finanční byznys a byznys kritické infrastruktury je povinen provádět DR testy pravidelně. Musí se přitom přizpůsobovat změnám v aplikacích i infrastruktuře (reakce na průběžné výměny hardware, upgrady, na změny konfigurací aplikací, na jejich životní cyklus apod.).

Pro budoucí běhy plánů jsme proto IT tým J&T Banky vybavili manuálem Lessons learned a šablonou pro opakované provedení testu. V situaci, kdy však většina subjektů nemá s praktickým provedením testů dostatečné zkušenosti, jim naši experti nabízejí pomocnou ruku.

Disaster recovery test: we prepared the bank for the risk of data centre failure

Hledá se specialista na disaster recovery

1. fáze: Revize aktuálních disaster recovery plánů

2. fáze: Realizace nápravných opatření

3. Fáze: Průběh DR testu

Jeden disaster recovery test nestačí

POTŘEBUJETE TAKÉ POMOCI S DISASTER RECOVERY TESTOVÁNÍM?

Other references

Tatra banka: We have TaskControl for disaster recovery tests

Raiffeisenbank: why an app to manage disaster recovery plans was created

Solution

Information

ORBIT at hand

ORBIT s.r.o.

Cloudie