Česká zemědělská univerzita v Praze Provozně ekonomická fakulta Doktorská vědecká konference 6. února 2012
T T THINK TOGETHER
Think Together 2012 Budování havarijních plánů a plánů obnovy jako součást řízení kontinuity podniků
Disaster Recovery Planning as part of Business Continuity Management
Jan Pinta
296
Abstrakt
Key words
Fungování ICT infrastruktury je dnes pro většinu podniků kritickým faktorem a je zde kladen stále větší důraz na zajištění jejího provozu a dostupnosti, stále častěji spojovanou s plánováním rychlé obnovy chodu ICT během havarijní situace a jejího uvedení do stavu před touto událostí. Této problematice se věnuje řídící proces Řízení kontinuity činností organizace, který zahrnuje i oblast havarijního plánování ve vztahu k informačním technologiím jako kritickému zdroji v organizaci. Toto plánování je nazýváno Řízení kontinuity IT služeb (IT Service Continuity Management) nebo také Plánování obnovy ICT (Disaster Recovery Planning). Tento příspěvek popisuje tvorbu havarijních plánů a stanovení parametrů zásadně ovlivňujících jejich efektivitu.
Business Continuity Plan (BCP); Disaster Recovery (DR); Recovery Objectives
Klíčová slova řízení kontinuity, havarijní plány, plány obnovy, parametry strategie obnovy
Abstract Nowadays, a well functioning ICT infrastructure belongs to the most critical factors of companies across all branches of business. An importance of ensuring the continued operation of information systems, or the rapid recovery of the systems in the case of emergency, has increased. These needs require creating business continuity management plan and disaster recovery planning. This paper describes the creation of emergency and recovery plans and setting recovery objectives significantly affecting their efficiency.
Think Together 2012
1. Úvod Provoz ICT systémů je již dlouhou dobu nedílnou součástí většiny podniků. Vzhledem ke stále se zvyšující závislosti podniků na IT službách a informačních systémech se tato část infrastruktury stává stále kritičtější, a je proto důležité zajistit zachování provozu a dostupnost těchto systémů a současně dbát na kvalitní přípravu jejich rychlého obnovení v případě havarijní situace, kdy může být část ICT, a s ní i některé firemní procesy, z různých důvodů mimo provoz. S rostoucími požadavky na dostupnost těchto prostředků vznikají tedy požadavky na tzv. zajištění kontinuity ICT (Business Continuity) a právě tyto požadavky vedou stále častěji k budování plánů pro řízení kontinuity (Business Continuity Management), jejichž součástí jsou i havarijní plány a plány obnovy ICT (Disaster Recovery Planning). Ovšem budování a následná použitelnost a úspěšnost těchto plánů závisí na mnoha faktorech. Jaké jsou tedy předpoklady pro kvalitní plány obnovy? Co by měly tyto plány obsahovat? Jak otestovat jejich použitelnost v praxi?
2. BCM V první řadě je důležité se seznámit s pojmem Business Continuity Management (BCM) a sjednotit význam souvisejících termínů. BCM, často překládaný jako Řízení kontinuity činností, je proces plánování a identifikace potenciálních dopadů interních i externích hrozeb a následných ztrát, které by Dostupné z: http://www.thinktogether.cz/
mohly být způsobeny narušením nebo ztrátou klíčových procesů podniku v důsledku havárie, útoku či katastrofy. Tato manažerská disciplína ustanovuje provozní a strategický rámec, přizpůsobený potřebám organizace, zajištující neustálé zlepšování a zvyšování odolnosti vůči zmiňovaným narušením. Tato narušení mohou být předvídatelného i nepředvídatelného charakteru. Nejčastěji uváděné incidenty a havarijní události mohou být různé povahy a rozsahu, členěné na krátkodobé výpadky jakými jsou výpadky elektrického proudu, drobné závady na počítačové síti, či selháním některého prvku v technologickém řetězci, přes události střední závažnosti, kterými mohou být např. požár místnosti, až po skutečné havárie s devastujícím účinkem v podobě povodní, kybernetického útoku, krádeže vybavení či úniku citlivých dat. Všechny uvedené hrozby, včetně mnoha dalších, mají společný následek ve formě ohrožení kontinuity procesů organizace. Cílem je vytvořit plán a prostředí, které zajistí kontinuitu a obnovu kritických procesů na předem stanovenou minimální úroveň, ideálně na úroveň původní. Mimo řešení a nápravy následků způsobených uvedenými incidenty či haváriemi, se jedná také o prevenci a plánování jak těmto hrozbám předcházet, a to jak ve formě preventivních opatření (redundance zařízení, virtualizace, zálohování, náhradní díly, náhradní budovy), tak i nastavením politiky organizace a rozšiřováním povědomí o těchto plánech a postupech. Stručně řečeno, v případě havárie může implementované řízení kontinuity umožnit v co nejkratších lhůtách zajištění obnovu provozu s minimálními negativními dopady na plnění požadavků, stanovených podnikatelských záměrů, smluvních povinností vůči zákazníkům či legislativě.
ISBN: 978-80-213-2275-2
2.1. Norma BS 25999 Norma stanovující jednotný standard popisující správný postup pro zapracování BCM do infrastruktury organizace byla vydána v roce 2006 ve Velké Británii pod označením „BS 25999 - Code of Practice for Business Continuity Management“ britským normalizačním ústavem (BSI, British Standards Institute), ve spolupráci s institutem kontinuity činností (BCI, Business Continuity Institute). Tento standard se skládá ze dvou částí; první část s označením „BS 25999-1:2006 Code of practice for business continuity management“ [1] stanovuje základní principy a doporučení pro implementaci BCM v organizaci. Druhá část, publikovaná v roce 2007, nazvaná „BS 259992:2007 Specification for business continuity management“ [2], popisuje požadavky pro certifikaci systémů řízení kontinuity činností. 2.2. Proces tvorby řízení kontinuity Kompletní zpracování a finální podoba plánu kontinuity činností se liší dle potřeb a povahy organizace. A právě to je podstatná skutečnost plánování BC, kdy lze podle BS 259991:2006 implementovat BCM ve všech typech organizací bez ohledu na jejich velikost či oblast podnikání. Důležité je především dodržení standardizovaných doporučení a zachování kontinuity. Tento program řízení je v oblasti BC označován jako Životní cyklus BCM. Pro správné fungování řízení kontinuity činností je důležitá její integrace do všech vrstev organizace od vrcholového vedení (podpora BCM, stanovené rozsahu a cílů, vyhrazení zdrojů,...) až po řadové pracovníky v podobě školení, zvyšování povědomí o BCM a celkovém upevňování kultury BCM a posilování povědomí o její důležitosti. Právě tak jako fungování celé organizace má i za řízení kontinuity činností konečnou zodpovědnost vrcholové 298
vedení organizace. Zde by měl být určen řídící pracovník odpovědný za kompletní program BCM.
Obrázek č. 1: Životní cyklus BCM.
Jednotlivé kroky životního cyklu BCM (obr. 1) a následné implementace jsou následující: Pochopení a povědomí o činnostech organizace Tato fáze procesu tvorby řízení kontinuity, zahrnující především analýzu stávající situace, se skládá z několika dílčích kroků, které mají klíčový vliv na efektivitu vytvářeného plánu, a proto je zde kladen maximální důraz na důslednost jejich provedení. Tyto dílčí kroky jsou následující: • Vyjádření a vůle managementu pro realizaci projektu, stanovení struktury projektu a způsobu jeho vedení.
ISBN: 978-80-213-2275-2
• Identifikace klíčových procesů, zdrojů a kritických činností organizace, které mají přímý vliv kontinuitu činností a dodávky produktů či služeb zákazníkovi. • Analýza dopadů (Business Impact Analyses, BIA) má za cíl oddělit důležité (kritické) funkce a aktivity organizace od těch méně důležitých (nekritických). Funkce může být považována za důležitou v případě, kdy její ohrožení může způsobit nepřijatelné ohrožení výsledků organizace. Funkce může být také považována za kritickou, pokud je řízena zákonem. Klíčovými výstupy analýzy pro další fáze implementace BCM jsou stanovené maximální přípustné doby přerušení (Maximum Tolerable Period of Disruption, MTPD) a maximální přípustná ztráta dat (Maximum Tolerable Data Loss). Každé kritické funkci jsou dále přiřazeny dvě hodnoty – cílová doba obnovy (Recovery Time Objective, RTO), která vyjadřuje maximální přijatelnou dobu k obnovení funkce, spolu s cílovým bodem obnovy (Recovery Point Objective, RPO) vyjadřujícím maximální akceptovatelnou úroveň ztráty dat. Stanovený RPO musí zajistit, aby MTDL nebyla pro žádnou činnost překročena. Stejně tak musí RTO zajistit, aby nebyla překročena MTPD. Nastavení parametrů RTO a RPO se budu věnovat později v tomto článku. • Analýza hrozeb (Threat Analysis) je dalším doporučeným krokem po definování požadavků na obnovu, a to v podobě dokumentace potenciálních hrozeb spolu s detailní specifikací jednotlivých kroků obnovy. Nejčastěji uváděné hrozby jsou pro příklad uvedeny v kapitole 2. • Hodnocení rizik (Risk Assessment) je určení kvantitativní nebo kvalitativní hodnoty rizika spojeného s konkrétní situací a dokumentované hrozby. Kvantitativní hodnocení rizik vyžaduje výpočet ze dvou složek – rizika a velikost 299
potenciální ztráty, spolu s pravděpodobností, že ztráta nastane. Metody hodnocení rizik se liší dle definovaných cílů organizace v jednotlivých odvětvích společně s definovaným finančním záměrem a přihlédnutím k možným hrozbám ve smyslu ohrožení veřejného zdraví, životního prostředí a ekologie. • Výsledný výběr vhodných opatření pro zvládání rizik vedoucích ke snížení pravděpodobnosti jejich výskytu, minimalizaci doby narušení činností a dopadu na kritické procesy organizace. Stanovení strategií BCM V návaznosti na předchozí kroky by měly být v této fázi navrženy vhodné strategie identifikující možné podoby incidentů a reakce na ně. Reakcí se rozumí aktivace plánu kontinuity činností (BCP) a následné varianty a způsoby obnovy kritických činností v definovaných časech. Cílem je tedy stanovení takových postupů, dle kterých by daná organizace byla schopná v co možná nejkratší době zareagovat na vzniklý incident, udržet kontrolu nad vzniklou situací a zajistit požadované úrovně kontinuity kritických činností. Pro stanovení těchto strategií je nezbytné naplánovat zapojení, typ a množství klíčových zdrojů jakými mohou být např. lidé, finance, náhradní zdroje energie a technologie, domluvené pomocné služby třetích stran.
Obrázek č. 2: Časový přehled reakce na incident.
Mimo jiné se obecně doporučuje zvážit následující scénáře při tvorbě strategií: • zamezení fyzické přítomnosti v objektu; • nedostatek lidských zdrojů; • selhání technologií a zařízení nutných pro provoz a poskytování služeb; • selhání klíčového poskytovatele služeb. Vývoj a implementace BCM V této etapě životního cyklu BCM je hlavním krokem je vytvoření a implementace plánů postavených na předem provedené analýze a zjištěných strategií organizace, jejichž cílem je udržení, popřípadě v co nejkratším čase obnovení
ISBN: 978-80-213-2275-2
300
kritických procesů na přijatelnou úroveň v případě jejich narušení. Pro menší organizace může být naprosto dostačující jeden komplexní plán kontinuity, zatímco větší organizace mohou upřednostňovat více vzájemně propojených plánů ať už z důvodu rozdělení jednotlivých rolí a pravomocí, tak i z důvodu přehlednosti. Další nedílnou součástí budování vývoje BCM je definice pravomocí a odpovědností účastníků havarijního managementu v podobě rolí a skupinových rolí. Tyto můžeme rozdělit např. následovně: • Krizový tým. • Koordinační tým, ‒‒ vedoucí týmu, ‒‒ člen týmu. • Operační tým, ‒‒ vedoucí týmu, ‒‒ člen týmu. Na základě určení rolí je nezbytné určit kým je krizový tým určen (např. vedením organizace pro řízení krizí). Dále určit konkrétně za jaké kroky odpovídá koordinační tým, kým je určen a komu podléhá, kým je tvořen, kdo jsou členové a jejich zástupci, kdy se tito zástupci ujímají své role, a také např. určení, že vedoucí týmu je odpovědný za plnění úkolů koordinačního týmu, stanovení úkolů pro jednotlivé členy týmu, jejich řízení v rámci plnění úkolů koordinačního týmu a zabezpečení podmínek pro efektivní plnění úkolů koordinačního týmu z technologického i organizačního hlediska. Podobné vymezení odpovědností je nutné stanovit i pro operační tým, jeho vedoucí i jednotlivé členy.
ISBN: 978-80-213-2275-2
Z pohledu pravomocí je nutné určit jejich účel a rozsah, podmínky a postupy pro aktivaci plánů, volba alternativních lokalit včetně plánu přesunu pracovníků, pořadí a sled jednotlivých úkolů, seznam důležitých kontaktů a dodavatelů služeb třetích stran. Testování, údržba a revize BCM Cílem této fáze životního cyklu BCM je vytvoření programu testování, který je v souladu s předmětem plánu kontinuity činností organizace. Testování pomáhá především odhalovat případné nesrovnalosti a opomenutí dříve, než jsou použity v případě havárie. Dále slouží ke kontrole úplnosti a funkčnosti plánu/plánů kontinuity, možnosti předvídání a následné kontroly skutečnosti následků jednotlivých forem havárií a v neposlední řadě také umožnuje organizaci vyvinout inovovaná řešení. Za provádění testování havarijního managementu odpovídají jednotlivé operační týmy, které o rozsahu, způsobu a výstupech testování informují koordinační tým. Koordinační tým je oprávněn měnit rozsah a způsob testování. Každé testování by mělo mít jasně stanovené záměry a cíle. Následně po testování by měla být uspořádána porada a provedena analýza, která zváží dosažení záměrů a cílů testování. Po testování by měla být vypracována zpráva, která obsahuje doporučení a časový rozvrh pro implementaci opatření. Rozsah a složitost testování by měly být příslušné cílům obnovy činností organizace. Plány kontinuity by měly být testovány za účelem ujištění se, že mohou být správně provedeny a že obsahují příslušné detaily a instrukce. Testování a revize plánů by měly probíhat v pravidelných intervalech, dle harmonogramu schváleného vrcholovým vedením organizace, nebo vždy když v organizaci dojde k významným změnám, které mohou ovlivnit kontinuitu činností. Testování by nemělo 301
ohrozit organizaci tím, že by samo způsobilo narušení. Průběh každého testu musí být detailně zaznamenán, veškeré činnosti a výsledky testů musí být následně přezkoumány. Program testování může mít různé podoby vzhledem ke složitosti, procesu kontroly a následným změnám a také četnosti, popř. pravidelnosti jeho provádění. Pro představu mohou posloužit následující modely: • základní kontrola plánu kontinuity tzv. „od stolu“ přezkoumání obsahu, vznášení námitek na stávající stav - audit/ověření a následná aktualizace - minimálně jednou za rok • středně složité simulace jednotlivých částí - využití umělých situací v testovacím prostředí určených k validaci předpokládaných výsledků - dle potřeby jednou nebo dvakrát ročně • středně složité testování kritických činností - vyvolání kontrolované situace v provozním prostředí, která nenaruší normální chod činnosti organizace - dle potřeby jednou za rok nebo méně často • komplexní testování plánu kontinuity činností - testování v rámci celé organizace, budovy, komplexu budov nebo omezené oblasti - jednou za rok
3. DRP Zvláštní kapitolou v oblasti BCM je havarijní plánování ve vztahu k informačním technologiím jako kritickému zdroji v organizaci. Toto plánování je nazýváno IT Service Continuity Management nebo také Disaster Recovery Planning. Jsou zde kombinovány technologické možnosti zajištění obnovy hardwaru a softwaru, ale také některé prvky z výše uvedené metodiky. Ukazatele typu Recovery Time Objektive (RTO) ISBN: 978-80-213-2275-2
nebo Recovery Point Objektive (RPO) nám pomáhají definovat skutečné požadavky na zajištění chodu našich systémů a navrhovat těmto požadavkům odpovídající řešení. Očekávaným výstupem je předem definovaná priorita obnovy jednotlivých funkcí a komponent IT, kritická cesta pro jejich obnovu včetně délky trvání jednotlivých kroků. Strategie Po analýze dopadů a analýze rizik je dále nezbytné provést strategii obnovy. To zahrnuje nastavení RTO a RPO parametrů s ohledem na výsledky právě zmíněné analýzy dopadů. Jak bylo řečeno, RTO (Recovery Time Objective) představuje maximální přípustný čas výpadku podnikových procesů, zatímco RPO (Recovery Point Objective) stanovuje maximální přípustnou ztrátu dat v definovaném čase. Oba tyto parametry mohou být různé. Je-li definována strategie i kritické podnikové procesy včetně odkazů na informační a komunikační technologie, je dále vytvořen seznam technických a organizačních opatření, jejichž náklady na realizaci musí být v rovnováze s náklady na analýzy dopadu. Technická část pojednává o investicích do infrastruktury, nepřerušitelných zdrojů napájení, alternativních lokalitách, atd. Organizační opatření se zaměřují na aktualizaci stávajících interních dokumentů, seznámení pracovníků s jejich povinnostmi a odpovědnostmi, změny ve smluvních vztazích s dodavateli, které odrážejí nové požadavky na poskytované služby, atd. Stručně řečeno, RTO a RPO pomáhají vyhnout se zbytečně nákladným opatřením, např. není potřeba jaderný kryt na serverové místnosti, pokud máme k dispozici alternativní lokalitu a RTO je nastavené na 24 hodin. Určení optimálních výdajů jsou nastíněno v následujícím obrázku: 302
do normálního provozu. Havarijní provozní plán definuje pracovní postupy a činnosti, které mohou udržet kritické podnikové procesy alespoň na omezené úrovni až do obnovení provozu informačního systému, aby byl dopad na provoz organizace co nejmenší. Definuje alternativních techniky, které umožňují po omezenou dobu vykonávat kritické činnosti bez informačních a komunikačních. Tyto plány by měly obsahovat přibližný časový průběh sledu událostí vedoucích k naplnění RTO a RPO. Pro zajištění kvality, efektivity a aktuálnosti řízení kontinuity procesů, je potřeba provádět údržbu, testování a aktualizaci plánů, a další vzdělávání zainteresovaných pracovníků zaměřené na pochopení procesů spojených s DRP.
4. ZÁVĚR
Obrázek č. 3. Určení optimálních výdajů v prostředí řízení kontinuity.
Havarijní plány a plány obnovy Havarijní plány a plány obnovy (Disaster Recovery Plans, DRP) popisují činnosti, které je třeba začít provádět okamžitě po zjištění události, pro které je DRP vypracován (např. selhání klimatizace v datovém centru). V těchto plánech musí být uvedeno, kdo může spustit havarijní plán, kdo a jak se účastní tohoto plánu, jaký je účel tohoto plánu, a v neposlední řadě také jaký je cílový stav po realizaci havarijního plánu. Plán obnovy předpokládá dokončení této katastrofy (havarijního) plánu. Jedná se o technicky orientovaný plán určený pro pracovníky oddělení informačních a komunikačních technologií, který umožňuje vrátit podnikové procesy ICT ISBN: 978-80-213-2275-2
Jak bylo již zmíněno, závislost organizací na ICT infrastruktuře se zvyšuje napříč všemi odvětvími. Mnoho organizací donedávna necítilo potřebu věnovat pozornost havarijnímu plánování ani celému řízení kontinuity především z důvodu nižší závislosti na ICT a s ní spojenou možností bez větších problémů pokračovat v produkci či výrobě bez připojení k síti a uloženým datům. S příchodem automatizace výroby a produkce ovšem poptávka po kooperaci s ICT infrastrukturou vzrostla. A právě z důvodu zmiňované závislosti je nezbytné plánovat a přemýšlet o možných situacích, které mohou nastat jako důsledek havárie, výpadku či útoku a pokusit se takové situace eliminovat ideálně ještě předtím, než vůbec nastanou, popřípadě vytvořit plán pro jejich co možná nejrychlejší napravení a uvedení všech procesů zpět do normálního provozu. Velice důležité je vytvářet tyto plány vždy individuálně dle potřeb a nároků organizace, které se přímo týkají, nalézt optimální množství možných prostředků a určit maximální akceptovatelnou dobu výpadku a čas 303
obnovy, ze kterých budou odvozeny další ukazatele. K určení optimální výše prostředků mohou sloužit parametry RTO a RPO. Konkrétní výsledky zvolené strategie mohou zahrnovat např. nastavení zálohovacích politik, replikaci dat, vysokou dostupnost (High Availability, HA) systémů, aktivních i pasivních prvků, zrcadlení a ochrany dat pomocí technologie RAID, zavedení přepěťových ochran a nepřerušitelných zdrojů napájení popř. ve spojení se záložními generátory, požární ochranu, vizualizaci serverů pro snadnější zálohování a obnovu dat (zde je možné snížit dobu obnovy z řádu hodin do řádu minut), zálohování databázového serveru a popřípadě záložní instance ERP systému, vhodná ochrana pomocí firewallu a antivirového programu, atd. Tento stručný souhrn není zdaleka konečný a jak bylo již zmíněno, je nezbytné vytvořit vhodné a optimalizované řešení s ohledem na potřeby a možnosti každého podniku či organizace.
[6] Office of Government Commerce (OGC). Service Strategy. TSO (The Stationery Office), 2007, ISBN: 978-0-11-331045-6. [7] Office of Government Commerce (OGC). The Introduction to the ITIL Service Lifecycle, 2nd Edition. TSO (The Stationery Office), 2010, ISBN: 978-0-11-331131-6. [8] SHARP, John. Jak postupovat při řízení kontinuity činností. Praha: Risk Analysis Consultants, 2009. ISBN 978-80-254-39920.
5. LITERATURA [1] BS 25999-1:2006, Business continuity management – Part 1: Code of practice. London: British Standards Institution, 2006. [2] BS 25999-2:2007, Business continuity management – Part 2: Specification. London: British Standards Institution, 2007. [3] CANNON, L. David. CISA Certified Information Systems Auditor STUDY GUIDE, Second Edition. Wiley Publishing, 2008, ISBN: 978-0-470-23152-4. [4] Office of Government Commerce (OGC). Continual Service Improvement. TSO (The Stationery Office), 2010, ISBN: 978-011-331049-4. [5] Office of Government Commerce (OGC). Service Design. TSO (The Stationery Office), 2007, ISBN: 978-0-11-331047-0.
ISBN: 978-80-213-2275-2
304