Bankovní institut vysoká škola Praha Katedra matematiky, statistiky a informačních technologií
Zálohování dat Diplomová práce
Autor:
Bc. Michal Macháň Informační technologie a management
Vedoucí práce:
Praha
Ing. Vladimír Beneš
Duben 2012
Prohlášení
Prohlašuji, ţe jsem diplomovou práci zpracoval samostatně a v seznamu uvedl veškerou pouţitou literaturu. Svým podpisem stvrzuji, ţe odevzdaná elektronická podoba práce je identická s její tištěnou verzí, a jsem seznámen se skutečností, ţe se práce bude archivovat v knihovně BIVŠ a dále bude zpřístupněna třetím osobám prostřednictvím interní databáze elektronických vysokoškolských prací.
V Praze dne 3. dubna 2012
Bc. Michal Macháň
Poděkování
Děkuji Ing. Vladimíru Benešovi, vedoucímu mé diplomové práce, za čas věnovaný mé práci, za cenné připomínky a metodické vedení práce.
Anotace Tato diplomová práce se zabývá problematikou zálohování dat ve firemním prostředí. Seznamuje čtenáře s hlavními principy a technologiemi, pouţívanými pro vytváření záloh dat a s jejich následnou obnovou. Praktická část je věnována rozboru a zhodnocení aktuálního stavu zálohování dat v konkrétní společnosti. Popisuje výběr a implementaci automatického zálohovacího systému, tvorbu zálohovací strategie a přípravu postupů pro monitorování procesů. V poslední části předkládá čtenáři prakticky ověřené postupy při testování obnov dat. Klíčová slova: zálohování dat, obnova dat, zálohovací software, bezpečnost, hrozby
Annotation This thesis deals with data backup in the corporate environment. It acquaints readers with the main principles and technologies used for creating backups of data and recovery. The practical part is devoted to analysis and evaluation of the current state of backup data in a particular company. It describes the selection and implementation of automatic backup system, backup strategies and preparation of procedures for monitoring processes. The final section presents practically tested procedures for testing data recovery. Key words: data backup, data restore, backup software, security, threats
Obsah Úvod 1 Zvolené metody zpracování 2 Zálohování dat ve firemním prostředí 2.1 Význam zálohování a druhy hrozeb 2.2 Legislativa 2.3 Obecné principy a základní pojmy 3 Technologie zálohování dat 3.1 Optická média 3.2 Magnetická média 3.3 Flash paměť 4 Software pro zálohování dat 5 Rozbor stávajícího stavu zálohování ve firmě 5.1 Firemní informační systémy 5.2 Softwarové a hardwarové komponenty 5.3 Reţim provozu 5.4 Pouţité zálohovací technologie 5.5 Schéma zálohování 5.6 Zhodnocení původního stavu zálohování dat 6 Výběr a implementace automatického zálohovacího systému 6.1 Výběr vhodné zálohovací technologie a software 6.2 Instalace zálohovací knihovny 6.3 Instalace zálohovacího software 6.4 Zálohování hlavního databázového systému 6.5 Náhradní způsob zálohování databázového serveru 6.6 Zálohování souborových serverů 6.7 Administrace TSM 7 Tvorba zálohovací strategie 7.1 Zálohovací strategie provozního databázového systému 7.2 Zálohovací strategie souborových serverů 7.3 Fyzické zabezpečení zálohovaných dat 8 Monitoring zálohovacích procesů 8.1 Manuální kontroly zálohovacích procesů 8.2 Automatizovaná systémová hlášení 8.3 Výkonnost zálohování 9 Testování obnovy dat 9.1 Praktické poznatky při provádění obnovy dat Závěr Seznam pouţité literatury Seznam obrázků Příloha 1 Příloha 2
6 7 8 8 12 13 23 23 30 39 41 45 45 46 47 47 48 48 50 50 53 53 57 59 60 61 65 66 67 68 70 70 71 72 74 74 80 81 84 1 6
Úvod Ţijeme v době, kdy se data stala opravdovým pojmem. Jsme zavaleni mnoţstvím dat a informací, mezi kterými se někteří z nás ztrácí. Mnohdy nejsme schopni určit jejich skutečnou hodnotu a plně ocenit jejich význam. Neuvědomujeme si všechna rizika spjatá s vyuţíváním informačních technologií. Dnešní počítače jsou díky pokroku schopné shromaţďovat a pracovat s obrovským mnoţstvím dat. Usnadňují nám práci, dokonce jim výsledky své práce svěřujeme, ale nakolik jim můţeme důvěřovat? Jakékoliv selhání můţe mít nedozírné následky. Nejen, ţe můţeme přijít o často pracně získaná data, ztratit důvěru klientů, dnes se dokonce kvůli kolapsu informačního systému mohou lidé ocitnout i v ohroţení ţivota. Firemní data a informace mohou být a často i jsou jejím nejcennějším majetkem. Díky nim můţe firma fungovat a prosperovat. Vytváří je a schraňuje dlouhodobě, veškeré úsilí však můţe být zmařeno v jednom okamţiku. Proto se nesmíme oddat falešnému pocitu, ţe to se nemůţe stát právě nám. Nejhorším moţným pohnutím k řešení otázek zálohování je skutečná ztráta dat. Zálohování bývá připodobňováno k pojištění, nejlepší je, kdyţ jej nikdy nepotřebujeme. Plně jej však oceníme, kdyţ se stane něco mimořádného. Tato práce si klade za cíl seznámit čtenáře s problematikou zálohování dat ve firemním prostředí. V první, teoretické části, se zaměřuji na vymezení problematiky zálohování dat, na dostupné technologie a programové vybavení. Ve druhé, praktické části se zabývám výběrem a implementací automatického zálohovacího systému v konkrétní společnosti. Zde nejprve analyzuji a hodnotím stávající stav zálohování dat. Následuje výběr a vlastní implementace automatického zálohovacího systému. Dále se zabývám návrhem vhodné zálohovací strategie s ohledem na provozní reţim a následnou kontrolou zálohovacích procesů. V neposlední řadě věnuji pozornost problematice testování obnov dat a zpětnému uplatnění získaných vědomostí. V závěru své práce hodnotím přínosy nového řešení zálohování dat pro podnik a přínosy vlastní diplomové práce jak pro mě osobně, tak i pro čtenáře.
6
1 Zvolené metody zpracování Ve své práci jsem se chtěl vyhnout tomu, abych vycházel pouze ze svých subjektivních názorů a přání. Proto jsem se snaţil nalézt vhodné metody, které mi umoţní hlubší řešení problémů, se kterými jsem se setkal. Základní metodou, pouţitou v teoretické i praktické části práce bylo studium dokumentů, tedy odborných publikací, veřejných a podnikových dokumentů, pracovních postupů. Několikrát jsem pouţil metodu srovnávání, kdy jsem zjišťoval shodné nebo rozdílné vlastnosti jednotlivých technologií a zařízení. Další pouţitou metodou, zejména pro získávání informací, bylo pozorování, tedy plánovité a systematické sledování skutečnosti a šetření formou rozhovoru. Výsledky pozorování předkládám nejen ve formě popisu současné reality, ale rozvíjím je o vlastní vysvětlení a zhodnocení. V praktické části práce jsem se opíral i o experiment, tedy metodu určité činnosti, která byla v daném prostředí doposud nevyzkoušená, nebo jsem k ní nenalezl patřičné informace. Metody zpracování, pouţité v práci, mi umoţnily lépe pochopit současný stav a problematiku zálohování dat jak z hlediska obecných postupů, tak i v konkrétním prostředí současné středně velké společnosti. Díky nim jsem schopen odhalit nedostatky a navrhnout nové a účinné řešení zálohování a obnov dat.
7
2 Zálohování dat ve firemním prostředí Ve své práci se budu zabývat pouze problematikou zálohování dat ve firemním prostředí středně velké společnosti. Pomíjím tedy domácí prostředí a malé podniky, kterým mohou plně dostačovat jednodušší a levnější řešení. Některé postupy a zejména principy se však mohou prolínat. I pro domácího uţivatele můţe ztráta dat představovat velkou hrozbu s těţko vyčíslitelnými dopady, ani on by se neměl spoléhat na neprověřené zálohy, pokud je tedy vůbec provádí. Zálohování dat je moţné povaţovat za jeden ze základních stavebních kamenů bezpečnosti a efektivnosti informačních systémů. Problematika zálohování a obnov dat musí být nedílnou součástí celkové bezpečnostní politiky firmy. Aspekty činností spojených se zálohováním a obnovami dat se prolínají různými kritérii bezpečnosti, jako jsou poţadavky na důvěrnost, dostupnost a integritu dat, ačkoli to na první pohled nemusí být patrné. Při bliţším pohledu je však zřejmé, ţe tato tři základní kritéria ovlivňují správný způsob provádění záloh a postupy zálohování zpětně ovlivňují bezpečnost celého informačního systému. Při dodrţení zásad vedoucích k důvěrnosti dat je neoprávněným osobám znemoţněna práce s nimi. Data jsou přístupná pouze pro autorizované osoby, které mají příslušná oprávnění pro jejich čtení či editaci a to by se mělo týkat i moţnosti pouţití technických prostředků. Pokud tedy jsou data uloţena ve formě jejich zálohy na nějaká přenosná média, musí být chráněna přinejmenším tak, jako data v provozní lokalitě. Dobře zajištěná dostupnost dat nám zajistí nepřetrţitou pouţitelnost našich dat na vyţádání oprávněného subjektu, tedy osoby, technického prostředku nebo procesu. Dostupnost je tak se zálohováním v případě výpadku technického prostředku, slouţícího k uchování dat, svázána opravdu těsně. Dojde-li k porušení integrity dat, tedy vlastnosti, která zajišťuje to, ţe data nebyla změněna neautorizovaným způsobem nebo zničena, pomůţe poškozená data beze zbytku nahradit opět jenom záloha. Následující podkapitoly proto chci věnovat především motivaci, tedy důvodům proč pravidelně zálohovat data způsobem, který bude prokazatelně umoţňovat i jejich obnovu.
2.1 Význam zálohování a druhy hrozeb Data tvoří nejdůleţitější a jedinečnou součást informačních systémů. Zálohování dat je prováděno proto, aby bylo moţné předem definovaná data v případě potřeby obnovit. Tato potřeba můţe vzniknout na základě několika moţných typů událostí. Nejdůleţitější
8
druhy událostí uvedu v následujících podkapitolách. Při vlastní praxi se nejčastěji setkávám s událostmi způsobenými lidským faktorem. Chování lidí je podle mého názoru nejméně vyzpytatelné. Většinou se jedná o neznalost, nedbalost nebo omyl zaměstnance, méně jiţ o úmysl. Díky novým komunikačním prostředkům a jejich širšímu pouţívání však roste i podíl událostí způsobených vnějším útočníkem. Zde jiţ pochopitelně hraje zlý úmysl větší roli. V odborné literatuře i na internetu jsem hledal a porovnával grafy poměrného zastoupení jednotlivých událostí. Obecně udávané procentuální zastoupení tohoto druhu událostí se pohybuje od 12 aţ do 80 procent. Záleţí na oboru, ve kterém byl průzkum prováděn a na mnoha dalších faktorech. Výstupy průzkumu firmy specializované na obnovu dat z poškozených harddisků jsou diametrálně odlišné od výstupů analytických a poradenských společností. Firma vyrábějící zálohované zdroje zase jako nejčastější příčinu ztráty dat uvádí výpadek napájení. Nezávislé výzkumy jsou prováděny sporadicky a příčiny ztráty dat bývají tříděny různými způsoby. Pro ilustraci uvádím dva grafy, znázorňující rozdělení příčin ztráty dat. S přihlédnutím ke svým praktickým poznatkům, povaţuji za lépe vypovídající graf společnosti Kroll Ontrack, který je uveden jako druhý. Osobně se s chybou, způsobenou lidským faktorem, setkávám dokonce ještě častěji, neţ v uváděných 32 procentech poţadavků na obnovu dat. Přestoţe výsledky průzkumu, prezentované v grafu 1.02, pochází z roku 2002, bývají dodnes nejvíce citovány.
Chybasoftware Selhání hardware Lidskáchyba Chybakomunikace Živelnápohroma Neurčenápříčina
27% 23% 18% 17% 8% 7%
Obrázek 2.01: Graf příčiny ztráty dat. Zdroj: Gartner Group
9
Selhání hardware
44%
Lidskáchyba
32%
Chybasoftware Počítačovývirus Živelnápohroma
14% 7% 3%
Obrázek 2.02: Graf příčiny ztráty dat. Zdroj: Kroll Ontrack Společnost Kroll Ontrack má více neţ pětadvacetiletou zkušenost s obnovou dat, díky níţ je povaţována za světového leadera v této problematice. Tato společnost zveřejnila na svých stránkách výsledky průzkumu z roku 2010. Porovnává zde četnosti příčin ztráty dat z vlastních zjištění s očekáváním zákazníků. Podle tohoto průzkumu 40 procent zákazníků předpokládá, ţe nejpočetnější události, vedoucí ke ztrátě dat, jsou způsobeny lidským faktorem. V roce 2005 o tom bylo přesvědčeno pouze 11 procent zákazníků. [22] Bez ohledu na míru poměrného zastoupení jednotlivých událostí je zřejmé, ţe uloţená data jsou ohroţována širokou škálou hrozeb. Bezpečně zálohovaná data a odpovídající postupy jejich obnov by měly být schopny řešit dopady všech druhů událostí i jejich kombinací.
V následujících
podkapitolách
jsem
pro
zjednodušení
popisu
této
problematiky některé druhy událostí seskupil, tak jak se s nimi setkávám ve své praxi.
2.1.1 Selhání technických prostředků Technické prostředky pro ukládání dat jsou v dnešní době na vysoké úrovni z hlediska robustnosti a bezpečnosti uloţených dat. Díky spolehlivějším technologiím, redundanci hardwarových komponent, vyspělé detekci odchylek od běţných provozních hodnot a dalším opatřením, přináší vysokou míru bezpečnosti uloţených dat. Přesto nejsou nezničitelné, ani neomezeně ţivotné. Poškození a chyby se mohou vyskytnout u datových nosičů, u harddisků, u jejich řadičů a u mnoha dalších komponent, případně na úrovni celých systémů. Samozřejmostí by mělo být provozování hardwarových prostředků v prostorách zabezpečených proti působení vlhkosti, prachu a slunečního záření. Často za selháním technických prostředků stojí výpadek napájení. Přestoţe existuje široká škála ochranných prostředků od záloţních zdrojů, aţ po velké generátory, schopné zásobovat
10
energií celou infrastrukturu, tak ani zde není moţné počítat s absolutní ochranou. Při své práci jsem se opakovaně setkal s náhlým výpadkem napájení se všemi jeho důsledky, přestoţe byly uplatněny jak záloţní zdroje UPS, tak i generátor. I takto zabezpečený přívod energie totiţ musí být jištěn a právě obyčejný jistič díky své poruše způsobil náhlý výpadek napájení. Přestoţe spolehlivost technických prostředků roste a hardwarové prostředky jsou díky tomu méně poruchové, nelze ani tuto oblast událostí a s tím spojených rizik opomíjet.
2.1.2 Smazání a poškození dat V tomto případě zůstávají technické prostředky zpravidla provozuschopné, nejsou však schopny plnit svůj účel. Úplné smazání či poškození dat lze dělit na záměrné, kdy uţivatel nebo cizí útočník působí s cílem způsobení škod vlastníkům dat a na neúmyslné, způsobené díky neznalosti, nepozornosti či nedbalosti. Zde se většinou jiţ nejedná o vnějšího útočníka, ale o dostatečně privilegovaného zaměstnance. V této oblasti událostí dochází v poslední době k nárůstu hrozeb, navíc je nelze zcela přesně předvídat. Do této skupiny lze zařadit téţ poškození či smazání dat nebo programů v důsledku virové nákazy a chyb v aplikacích. Pokud by se tedy mohlo zdát, ţe důleţitost zálohování dat v souvislosti se zvyšující se spolehlivostí hardwarových komponent klesá, tak zde je situace opačná. Jak jsem jiţ výše uvedl, vliv lidského faktoru, který se na této skupině událostí podílí podstatnou měrou, je těţko předvídatelný a bude chod informačních systémů zásadním způsobem ovlivňovat i nadále.
2.1.3 Zásah vnější moci Do této skupiny událostí lze zařadit zejména ţivelné pohromy jako poţár, povodeň, extrémní teploty, mechanické poškození a nejnověji i moţnost teroristického útoku. Jsou zvlášť nebezpečné svým komplexním působením nejen na vlastní data, ale téţ na technické prostředky, které zabezpečují jejich vyuţitelnost. Proto je sem moţno zařadit téţ fyzickou krádeţ prostředků výpočetní techniky. U této skupiny událostí je oddělené uloţení nosičů se zálohovanými daty mimo vlastní místa provozu informačních systémů naprostou nutností. Přestoţe je uváděno, ţe se jedná o události s nejniţší četností, jsou preventivní opatření proti těmto událostem neméně důleţitá. Tyto typy událostí jsou díky novodobým
11
zkušenostem snáze uchopitelné i pro laiky, také proto jsou oblíbeným tématem auditorských firem.
2.2 Legislativa Normy a zákony mají mimo jiné i motivační dopad. Chceme-li se vyhnout postihům, musíme je dodrţovat. V oblasti zálohování dat se objevují jak poţadavky na vlastní zálohování a archivaci dat, tak i omezení, po jakou dobu je moţné data uchovávat. Mohou mít podobu zákona, předpisu, nařízení či poţadavku regulátora, například ve formě opatření. Jedná se o obsáhlou tematiku, z níţ uvedu pouze několik příkladů.
2.2.1 Zákon č. 499/2004 Sb., o archivnictví a spisové službě Tento zákon mimo jiné upravuje výběr, evidenci a kategorizaci archiválií, jejich ochranu, práva a povinnosti vlastníků archiválií, zpracování osobních údajů pro účely archivnictví a spisovou sluţbu. Ve své příloze č. 1 definuje dokumenty, vznikající z podnikatelské činnosti. Stanovuje, které z těchto dokumentů jsou podnikatelé povinni uchovávat ve formě archiválií a z kterých musí umoţnit výběr v případě zániku podnikatele nebo při ukončení podnikání. Jedná se především o dokumenty týkající se statusu subjektu, řízení, majetku, výroby, předmětu podnikání a financí. Dále dokumenty z propagační činnosti podnikatelského subjektu jako například katalogy zboţí s ceníky, dokumenty o výrobním programu a zásadní dokumenty o zaměstnaneckých záleţitostech. [23] Práci s dokumenty upravuje několik dalších právních předpisů, jako například vyhláška č. 645/2004 Sb., kterou se provádějí některá ustanovení zákona o archivnictví a spisové sluţbě a o změně některých zákonů, vyhláška č. 646/2004 Sb., o podrobnostech výkonu spisové sluţby.
2.2.2 Zákon č. 563/1991 Sb., o účetnictví Tento zákon stanoví podmínky zjišťování účetních záznamů pro potřeby státu. Zabývá se tedy souborem činností, které směřují ke shromaţďování účetních záznamů od vybraných účetních jednotek v centrálním systému účetních informací státu a k sestavení účetních výkazů za Českou republiku. Ukládá povinnosti spojené s uchováváním účetní dokumentace. Účetní závěrka a výroční zpráva musí být archivovány po dobu 10 let, počínajících koncem účetního období, kterého se týkají. Všechny ostatní dokumenty, jako jsou účetní doklady, účetní knihy, odpisové plány a inventurní soupisy, kterými účetní jednotky dokládají vedení účetnictví, musí být archivovány po dobu 5 let počínajících
12
koncem účetního období, kterého se týkají. Před svým zánikem a před zánikem povinnosti vést účetnictví je účetní jednotka povinna splnit své povinnosti spojené s úschovou účetních záznamů a o způsobu tohoto zajištění prokazatelně informovat. [24]
2.2.3 Opatření České národní banky Jako příklad poţadavků regulátora jsem zvolil věstník České národní banky, dále jen ČNB. Ten mimo mnoha dalších obsahuje i Opatření ČNB č. 2 ze dne 3. února 2004 k vnitřnímu řídicímu a kontrolnímu systému banky. Jeho součástí je poţadavek na banky, aby zabezpečily zálohování informací a programového vybavení informačních systémů významných pro jejich fungování. Zálohované informace a programové vybavení musí být uloţeny tak, aby byly zabezpečeny proti poškození, zničení a krádeţi. Problematika zálohování dat je zmíněna i v několika dalších oddílech a týká se i nutnosti tvorby popisu způsobu
zálohování
a
postupů,
které
vedou
k obnovitelnosti
činností
banky
a informačních systémů významných z hlediska fungování banky. [10]
2.3 Obecné principy a základní pojmy Pod pojmem zálohování dat si různí uţivatelé prostředků výpočetní techniky představí odlišné činnosti. Jednomu postačí, lépe řečeno je o tom přesvědčen, pouhé zkopírování dat ze sloţky A do sloţky záloha_A. Druhý bude věřit uloţení dat na optické médium, třetí bude důvěřovat pouze sofistikovanému zálohovacímu systému, který automaticky obslouţí více prostředků a vyuţije různé druhy záloţních médií. Systém zálohování a pouţité technologie je nutné přizpůsobit tomu, jak cenná data mají být chráněna, v jakém prostředí a za jakých podmínek. Základní pravidla ovšem zůstávají neměnná. Doposud jsem popisoval problematiku ztráty dat. To však není jediný problém. Kromě samotných dat je nutné počítat i s odpovídající softwarovou a hardwarovou infrastrukturou, bez níţ není moţné data plnohodnotně vyuţívat. Typicky se jedná o definovaným způsobem nainstalovaný a nakonfigurovaný server, podporující běh sluţeb. Ty potom umoţňují přístup k datům a manipulaci s nimi. Při tvorbě úplných postupů řešení situací po haváriích musí být postihnuty i situace, kdy nemusí dojít ke ztrátě vlastních dat, dojde však k omezení funkcí serveru, například po nasazení nové verze aplikace či operačního systému. Takové postupy tedy musí umoţňovat kromě obnovy dat i obnovení funkcí potřebných sluţeb a hardwarových zařízení. Tyto postupy jsou někdy označovány anglickým pojmem Disaster Recovery (obnovení po zhroucení).
13
Jejich tvorba, popis a testování je náročný proces, který musí být zasazen do celkové bezpečnostní politiky. Vlastní zálohování dat je jednosměrná činnost a vţdy by jej mělo provázet i následné prověření, zda je data, obsaţená na zálohovacím médiu, moţno obnovit. Není moţné čekat aţ na situaci, kdy je obnova dat vynucena mimořádnými okolnostmi. Kaţdé médium, na které jsou ukládána data, můţe být poškozeno. Dokonce tak, ţe zápis dat je stále moţný, ale obnovu zálohovaných dat provést nelze. Pokud je to moţné, je výhodné zálohovat na více druhů médií a ty navíc bezpečným způsobem ukládat mimo lokalitu, kde jsou zálohy prováděny. Zvláštní pozornost je třeba věnovat zabezpečení těchto záloh. Data uloţená na serveru si správci obvykle dostatečně chrání, ať jde o fyzickou nebo o logickou bezpečnost. Jiná bývá situace u záloh, přestoţe tato data, pokud nejsou šifrována či jinak zabezpečena, jsou z hlediska krádeţe či poškození více zranitelná. Popsány a zabezpečeny musí být téţ procesy vyřazení a likvidace starých a nepotřebných zálohovacích médií. Ty musí být zajištěny tak, aby po jejich provedení nebylo moţno zálohovaná data zneuţít.
2.3.1 Důležitost dat V současné době patří data obecně k tomu nejcennějšímu, co firmy spravují. Jejich ztráta můţe ohrozit fungování firmy, v krajních případech můţe vést aţ k jejímu zániku. Různá data mají ovšem různou hodnotu. Ta je dána jednak náklady na jejich získání, pořízení, případně údrţbu, ale také cenou, jakou mají díky svému informačnímu obsahu a uţitné hodnotě. Důleţité je i stáří dat. Stejný přístup ke všem datům bez rozdílu by mohl vést k zbytečně vysokým nákladům na jejich zálohování nebo naopak k jejich nedostatečnému zabezpečení. [4] Pro účely zálohování je vhodné, někdy dokonce nutné, rozdělit data podle jejich důleţitosti na několik kategorií. Zpravidla se pouţívají tři nebo čtyři kategorie. Jako příklad tří kategorií uvádím třídění na kriticky důleţitá, středně důleţitá a nedůleţitá data. Pokud to situace vyţaduje a je-li to účelné, lze je rozdělit do čtyř kategorií, například na data strategicky důleţitá, významná, málo významná a nevýznamná data. Termínů, kterými jsou tyto kategorie popisovány, se v praxi vyskytuje několik.
Kriticky důležitá data Kriticky důleţitá data, označovaná anglickým termínem Critical Data, jsou data zásadního významu. Zpravidla jsou neustále vytvářena či modifikována a jsou nezbytně nutná pro 14
zabezpečení provozu společnosti. Jejich případná ztráta, poškození nebo nedostupnost by způsobily zásadní potíţe při vykonávání obchodních a provozních činností společnosti. Četnost provádění záloh těchto dat je ze všech dále uváděných kategorií nejvyšší. Zálohy těchto dat by měly probíhat několikrát denně, ideálně navíc na různá zálohovací média.
Středně důležitá data Středně důleţitá data (Vital Data) se mění méně a tyto změny lze při jejich případném poškození za vynaloţení určité námahy a prostředků dohledat a znovu provést. Také se můţe jednat o data, která nejsou aktuálně potřeba, v případě potřeby je však jejich obnova nutná. Tato data lze v závislosti na četnosti jejich modifikací zálohovat zpravidla jednou denně, minimálně však jednou týdně.
Nedůležitá data Nedůleţitá data (Non Critical Data), jsou taková data, jejichţ ztráta nám nepřinese větší problémy. Tato data je v případě potřeby moţné znovu jednoduše získat nebo nahradit, dokonce i při absenci příslušné zálohy. Do této kategorie je v určitých případech moţné zařadit téţ instalace aplikací, operačních a databázových systémů. Obnova běhu těchto systémů bude sice náročnější na čas i obsluhu, ale pokud budou k dispozici instalační média, lze je při vynaloţení určitých prostředků vrátit do provozního stavu. Četnost provádění záloh těchto dat by se měla pohybovat v rozmezí od jedné zálohy za den aţ po jednu zálohu za měsíc. Závisí to opět mimo jiné na prováděných modifikacích.
2.3.2 Typy záloh V praxi je zpravidla moţné navrhnout vyuţití různých typů záloh. Podle konkrétních podmínek je lze kombinovat tak, abychom vyuţili jejich specifické výhodné vlastnosti a naopak potlačili vliv jejich nevýhod. Do úvahy je třeba vzít i poţadavky na případnou rychlost obnovy a dobu, po kterou musí být záloha připravena k pouţití za účelem obnovy dat. Vybrané typy záloh jsem se pokusil obecně popsat, mimo ně uvádím i vysvětlení některých běţně uţívaných termínů v oblasti zálohování. V konkrétních případech se jejich význam a některé vlastnosti mohou lišit v závislosti na prostředí a operačních systémech, u nichţ jsou uplatněny.
Úplná záloha U tohoto typu záloh jsou zálohovány všechny soubory v definovaném rozsahu, bez rozlišování jejich atributů zálohování. Výhodou je, ţe tuto zálohu lze okamţitě pouţít pro
15
úplnou a poměrně snadnou obnovu dat. Nevýhodou, zejména u většího mnoţství souborů, je časová a prostorová náročnost provádění této zálohy. Při opakované záloze jsou zálohována i od poslední zálohy nezměněná data.
Přírůstková záloha Přírůstková záloha, někdy téţ označovaná jako inkrementální, je záloha, při které jsou zálohovány pouze přírůstky od poslední úplné nebo inkrementální zálohy. Při tomto typu zálohování probíhá kontrola kaţdého souboru, na záloţní médium se zapisují pouze změněné soubory. Výhodou je vyšší rychlost provádění zálohy a menší nároky na prostor. Nevýhodou je náročnost obnovy, pro niţ je potřeba mít k dispozici úplnou zálohu a celý řetězec inkrementálních záloh. Pokud je jedna z inkrementálních záloh poškozena, není moţné obnovit případné následující zálohy.
Obrázek 2.03: Poškození přírůstkové zálohy. Zdroj: Vlastní úprava
Rozdílová záloha Rozdílovou zálohu, téţ označovanou jako diferenciální, je moţné popsat jako kombinaci předchozích typů. Periodicky je prováděna plná záloha, následovaná zálohou obsahující pouze nové a změněné soubory. Ukládají se tedy změny, které byly provedeny od plné zálohy. K obnově dat poté stačí pouze plná a k ní příslušná rozdílová záloha. Tento typ zálohy sice zabírá více prostoru, neţ záloha přírůstková, přináší však moţnost návratu k historickým souborům a obecně se dá říci, ţe je bezpečnější neţ přírůstková. Pokud totiţ dojde k poškození některé z diferenciálních záloh, nemá to na další zálohy vliv.
16
Obrázek 2.04: Poškození diferenciální zálohy. Zdroj: Vlastní úprava
Souborová záloha Souborová záloha je základní a mezi domácími uţivateli prostředků výpočetní techniky nejrozšířenější způsob zálohování dat. Lze ji vytvořit ručně pouhým kopírováním vybraných souborů, nejlépe na fyzicky jiné záznamové médium nebo automatizovaně za pomocí specializovaného zálohovacího software.
Bloková záloha U blokové zálohy jsou data zálohována po definovaných blocích. Nejprve jsou zálohovány všechny datové bloky, následně bloky změněné. Zálohovány jsou tedy pouze změny částí souborů a ne celý soubor. Tento typ záloh je úsporný z hlediska velikosti výsledných záloh i objemu přenášených dat. Často se vyuţívá při zálohování do vzdálených lokalit, u vícenásobného zálohování shodných typů dat a zvlášť výhodné jsou v případech, kdy vlastní data tvoří pouze menší část daného souboru.
Diskové obrazy Obraz (Image) disku je jeden nebo několik souborů, které obsahují přesnou kopii pevného disku, který byl zálohován. K případné obnově tak jsou k dispozici nejen data, ale i funkční operační systém, instalované programy, kompletní uţivatelské nastavení, vše ve stavu k okamţiku vytvoření zálohy. [6] Obraz disku lze vytvořit pomocí specializovaných programů, které výsledek ukládají v různých formátech. Jako příklad jsem si z osobní zkušenosti zvolil program Acronis True Image firmy Acronis, Inc. Tímto programem vytvořený obraz disku, uţívající
17
koncovku *.tib, umoţňuje uţivatelsky příjemným způsobem navrátit obsah disku do původního stavu. Vyuţívám jej především pro zálohování harddisku osobního počítače a notebooku. Záloha i obnova je natolik jednoduchá a rychlá, ţe je vyuţívám i v případě virové nákazy. Obnova pomocí diskového obrazu, po níţ nemusí následovat instalace všech pouţívaných programů a jejich nastavení, je někdy jednodušší neţ se virové nákazy zbavit tradičním postupem za pomocí antivirového programu nebo speciálních utilit. To platí zejména v případě nákazy trojským koněm, vyuţívajícím pro své šíření i systémem uloţené body obnovení operačního systému. Tyto obrazy mohou být tvořeny přímo na diskových polích a vyuţívány při vytváření záloh dat. Díky tomu není zatěţován primární systém, ale jen výkonově dostatečně dimenzované diskové pole. Výhodou těchto typů záloh je vyšší rychlost vytváření záloh a zejména rychlost obnovy.
LAN zálohy Pojmem LAN (Local Area Network) zálohování je označováno zálohování dat prováděné prostřednictvím počítačové sítě na fyzicky jiné úloţiště. Zpravidla je zaloţeno na jednom zálohovacím serveru, na který zálohují svá data ostatní servery, takzvaní klienti. Jedná se o často pouţívaný způsob provádění záloh při vyuţití specializovaného zálohovacího software. Výhodou je nízká cena takových řešení a soustředění různých záloh na jedno místo. Nevýhodou můţe být sníţení propustnosti počítačové sítě. Při tomto způsobu zálohování je navíc společně se síťovým adaptérem zatěţován také samotný procesor, který řídí čtení dat z lokálního diskového subsystému a zajišťuje jejich transport na síťový adaptér.
LAN free zálohy Jako LAN free zálohy jsou označovány technologie umoţňující přenos dat na zálohovací zařízení přes dedikovanou síť SAN (Storage Area Network). Nezatěţují tolik firemní LAN infrastrukturu, protoţe po ní jsou zasílány pouze informace o typu dat a jejich parametry. Zásadní objem dat je posílán po SAN infrastruktuře přímo na zálohovací média, obsluhovaná například páskovou knihovnou. Základem tohoto typu záloh bývá opět zálohovací server. Zálohované servery zde mohou přímo přistupovat na zálohovací zařízení. Po ukončení zálohování mohou toto zařízení vyuţít jiní klienti.
Online zálohy Online zálohy jsou prováděny za chodu aplikace nebo při běţící databázi. Uţivatelé tedy nejsou v jejím průběhu nijak omezováni. Nezbytnou podmínkou je, ţe tyto aplikace nebo 18
databáze musí zálohu za provozu podporovat. Během zálohování musí být zajištěna konzistence dat jejich vhodným uzamykáním tak, aby je bylo moţno v případě nutnosti obnovit do definovaného stavu.
Offline zálohy Offline zálohy jsou prováděny při zastavené aplikaci nebo po znepřístupnění databáze. Protoţe tento typ záloh znemoţňuje práci uţivatelů, musí být plánován mimo poţadovanou dobu dostupnosti dat nebo aplikací.
2.3.3 Optimalizace dat pro zálohování Vhodná optimalizace dat můţe pomoci ke zlepšení některých parametrů zálohování. Jednat se můţe o objem dat, o doby provádění záloh nebo obnov dat, ale i o zabezpečení zálohovaných dat pomocí jejich šifrování. Před nebo při vlastním zálohování, případně při správě záloh, proto mohou být prováděny různé doplňkové operace.
Komprese Komprese neboli komprimace dat, je speciální postup, uplatněný při jejich ukládání nebo přenášení. Jeho přínosem je sníţení nároků na prostory a na přenosovou kapacitu. Zvláštními postupy jsou pomocí kompresních algoritmů odstraňována nadbytečná data. Rozlišovány jsou dva základní typy kompresních algoritmů, ztrátové a bezztrátové. U ztrátových jsou některá data nenávratně ztracena a nelze je úplně zrekonstruovat. Tyto algoritmy se pouţívají pouze v případech, kdy je moţné takovou ztrátu tolerovat při významném zmenšení objemu dat. Pro účely zálohování počítačových dat jsou vyuţívány algoritmy bezztrátové. Ty sice nebývají tak účinné jako ztrátové, ale komprimovaná data je při jejich uplatnění moţné vţdy plně zrekonstruovat do původní podoby. Důleţitým atributem komprimace dat je takzvaný kompresní poměr, který vyjadřuje podíl velikosti původních dat k velikosti dat komprimovaných. Velikost kompresního poměru je ovlivněna pouţitým kompresním algoritmem a druhem komprimovaných dat. U vlastností zálohovacích zařízení je často zmiňován pojem hardwarová komprese. Je uplatněna například u páskových zálohovacích mechanik, kde ji lze volitelně vyuţít. Její kompresní algoritmus není zpravidla na úrovni běţných kompresních programů, jako jsou zip či rar, vzhledem k tomu, ţe hardwarová komprese musí být extrémně rychlá. Z pohledu problematiky zálohování dat přináší komprese především zmenšení jejich objemu, a tedy i sníţení poţadavku na velikost úloţiště. Můţe při tom dojít i ke zvýšení
19
výkonnosti zálohování, tedy zkrácení doby potřebné pro vytvoření zálohy. Někdy však můţe dojít i k opaku, komprese dat můţe provádění zálohy zpomalit. Opakovaná komprese dat jiţ úsporu objemu dat nepřináší, naopak podstatně více zatěţuje systémové prostředky. U určitého typu dat tak můţe být výhodnější výše zmíněnou hardwarovou kompresi vyřadit.
Šifrování Pokud je vyţadováno vysoké zabezpečení zálohovaných dat, například při uchovávání záloh mimo zabezpečené prostory, je moţné vyuţít různé algoritmy zabezpečující jejich šifrování. Jedná se o efektivní způsob ochrany dat proti jejich zneuţití, je však nutné počítat s určitými nevýhodami. Zpravidla totiţ dochází jak ke zpomalení zálohovacího procesu, tak i případné obnovy dat. Ta je navíc komplikována o nutnost uchovávání znalostí šifrovacích algoritmů, klíčů a jiných parametrů, aktuálních vzhledem k dané záloze.
Deduplikace Deduplikace dat umoţňuje vyloučit opakování dat v úloţném systému. Je uţívána u dat uloţených na diskových polích a především u zálohovaných dat. Vytvořena je tedy pouze jedna identická kopie redundantních dat. V kaţdém dalším výskytu jsou skutečná data nahrazena pouhými ukazateli na původní kopii. Díky tomu můţe být podstatně sníţen objem přenášených a ukládaných dat.
Duplikace Opakem deduplikace je v trochu jiném smyslu záměrná duplikace dat. Záloha proto vzniká ve více lokalitách, pokud moţno na více druhů médií. Dosahuje se tak vyššího stupně ochrany dat proti moţné ztrátě dat vlivem poškození médií v jednom fyzickém úloţišti
2.3.4 Zálohování a archivace dat Pojmy zálohování a archivace dat někdy bývají zaměňovány. Zálohování dat je moţné definovat jako proces, při němţ vzniká kopie provozních dat a tato kopie je zpravidla ukládána do jiného úloţiště, neţ data zdrojová. Při tom je kladen velký důraz na případnou rychlou obnovu poškozených nebo ztracených dat. Zálohovaná data by měla být k okamţité dispozici v případě problémů s primárním médiem. U archivace dat není obvykle doba jejich obnovy limitujícím parametrem. Hlavním důvodem pro archivaci dat
20
je jejich dlouhodobé, někdy dokonce trvalé uchování. Většinou se jedná o data, která jiţ nejsou provozně vyuţívána. Existují dokonce takové strategie archivací, které po jejich provedení předepisují smazání archivovaných dat z provozních systémů.
2.3.5 Zodpovědnost za zálohování Zodpovědnost za provádění záloh firemních dat musí být stanovena jednoznačně. Procesy zálohování dat musí provádět, obsluhovat nebo monitorovat nějaké konkrétní osoby. V malých podnicích to mohou být přímo uţivatelé jednotlivých počítačů. Ve středně velkých podnicích je zpravidla určena zodpovědná osoba, například administrátor aplikace. Zálohováním můţe být pověřen i celý tým zaměstnanců. Uţivatelé počítačů však nemohou být této odpovědnosti zcela zproštěni. Měli by svá data ukládat na předem stanovená místa, ze kterých budou následně zálohována. Tato místa je vhodné definovat ve vnitřních předpisech firmy a uţivatele prostředků výpočetní techniky s nimi prokazatelně seznámit.
2.3.6 Časté chyby v procesu zálohování dat Díky vlastní praxi, studiu literatury a rozboru auditorských zpráv jsem poznal několik typických chyb, se kterými se v oblasti zálohování dat lze setkat. Ty nejběţnější zde uvádím ve formě jednoduchého přehledu. Neexistující evidence záloh či špatné značení pouţívaných médií, případně zálohovacích souborů. Důsledkem je, ţe není zřejmé, co daná záloha obsahuje a kdy vznikla. Neprovázanost problematiky struktury zálohovaných dat s verzemi obsluţných programů, databází a operačních systémů. Důsledkem můţe být neschopnost data obnovit či je po jejich obnovení pouţít. Nedostatečná kontrola a ověřování pouţitelnosti provedených záloh. Důsledkem je vytváření záloh, které nelze obnovit. Neprověřené postupy při obnově dat. Důsledkem je, ţe při skutečné potřebě obnovy dat obsluha zjistí, ţe i pečlivě prováděné a značené zálohy jsou pro obnovu dat nepouţitelné. Vysoká závislost provádění záloh na lidské obsluze. Důsledkem je moţné nevytvoření zálohy při opomenutí nebo chybě obsluhy.
21
Zaměření pouze na vlastní data. Důsledkem přehlíţení okolního prostředí můţe být nepouţitelnost obnovených dat z důvodu špatného nastavení parametrů software, nedostupnosti šifrovacích klíčů, ztráty aktuálních hesel. Nedostatečné zabezpečení záloh. Důsledkem je vyšší riziko zneuţití, zejména zcizení dat, zvláště pokud jsou uloţena na přenositelných výměnných médiích ve formě magnetických pásek nebo optických disků. Neexistence popisu zálohovacích procesů, pracovních postupů, zálohovací strategie. Důsledkem je nepravidelné provádění záloh, nedostatečně zabezpečené záloţní postupy, těţko lze zajistit zastupitelnost odpovědných zaměstnanců.
22
3 Technologie zálohování dat Při výběru vhodné technologie pro zálohování a archivaci dat je třeba kromě vlastních poţadavků na objem zálohovaných dat, výkonnost zálohování a jiných specifických podmínek, zohlednit také cenu technických prostředků, tedy mechanik i médií. U médií je třeba zvaţovat jejich vlastnosti, jako například kapacitu, záznamovou rychlost, mechanickou odolnost a ţivotnost záznamu. Kapacitu je třeba hodnotit nejen podle současného objemu dat, nutné je počítat s růstem jejich objemu a zvolená technologie by proto měla být dostatečně škálovatelná. Bez nadsázky se dá říci, ţe současnost v oblasti zálohování a uchování dat patří médiím zaloţeným na magnetickém způsobu zápisu. Pro dočasné a domácí účely jsou sice vyuţívána i jiná média a formy ukládání dat, zaloţené na optických, magneto optických, polovodičových a dalších principech, jejich pouţití v podnikových podmínkách je však spíše okrajové. Přesto v této kapitole stručně uvedu jejich popis. I ve své praxi zálohuji vybraná data na CD a DVD disky, mnohdy se spoléhám i na flash disky, musím si však vţdy být vědom jejich specifických vlastností.
3.1 Optická média S optickými médii, slouţícími mimo záznam hudby a videa také pro zálohování dat, se díky jejich rozšíření dnes setkává opravdu kaţdý. Ukládání dat na optická média je obvyklé nejen u domácích uţivatelů prostředků výpočetní techniky, ale s omezením i ve firemní prostředí. V profesionálním prostředí převaţuje kritický pohled na některé společné vlastnosti optických médií, přestoţe se je jejich výrobci snaţí pomocí současných technologií výroby vylepšit. Nevýhody a moţná rizika se dají shrnout do několika následujících bodů: Nejsou k dispozici dostatečně dlouhé historické zkušenosti s přirozeným stárnutím optických médií. Odhady ţivotnosti na základě zrychleného a uměle vyvolaného stárnutí neodpovídají skutečnosti. Praktická ţivotnost záznamu je 10 let. U důleţitých dat je doporučováno přenést je na nové médium jiţ po třech aţ pěti letech. V běţných podmínkách je těţké udrţet přísné podmínky zacházení s optickými médii. To spolu s nízkou mechanickou odolností proti prachu, slunci a poškrábání vede k obtíţím při čtení dat. 23
Nízká přenosová rychlost při čtení a zápisu dat. Tlak na nízké ceny nových médií má negativní vliv na kritéria kontroly kvality při výrobě. Značky, pod kterými jsou média prodávána, jsou zpravidla pouze obchodní. Média stejné značky často pocházejí od různých výrobců. To platí i naopak, média jednoho výrobce jsou nabízena pod různými značkami. Zákazník se proto jen těţko orientuje v jejich nabídce. Přes tyto oprávněné výtky dnes existují dokonce knihovní systémy optických disků. Ty lze vyuţívat podobným způsobem, jako robotem obsluhované páskové knihovny. Optická média mají sice kratší historii neţ magnetická, přesto je však bohatá. Jejich vývoj se pokusím dokumentovat na nejdůleţitějších současných typech těchto médií.
3.1.1 CD Kompaktní disky, označované jako CD (Compact Disc) jsou výměnná média, určená pro záznam digitálních dat. Kompaktní disk byl původně vyvinut pro záznam hudby. Zvukové mechaniky pro přehrávání CD umoţňovaly pouze sekvenční čtení a vyhledání začátku bloku, tedy skladby, podle záznamu prázdných dat, projevujících se při přehrávání jako dvě vteřiny ticha. Vzhledem ke své kapacitě a dostupnosti se však prosadil i v oblasti výpočetní techniky pro ukládání programů a dat. Standard CD-ROM, který definovala organizace ISO (International Standards Organization) v roce 1985, umoţňoval vyhledat přímo jakýkoliv sektor disku. Od té doby byly vyvíjeny další standardy, popsané formou takzvaných knih. Jeden z nich, popsaný oranţovou knihou, definoval jiţ v roce 1990 moţnost opakovaného zápisu na CD-R (Recordable) disk. Data bylo moţné nahrát všechna současně, tento proces je označován jako „track at once" nebo inkrementálně s označením „norma multisession". Pokud tedy byla k dispozici mechanika, podporující normu multisession, bylo moţné zapsat na jeden disk aţ 99 krát. To odpovídalo maximálnímu počtu stop na CD a umoţnilo jeho opakované pouţití. Zapsaná data však jiţ nešlo fyzicky přepsat. To umoţnil aţ CD-RW (ReWritable), tedy přepisovatelný formát kompaktního disku. [2] Kompaktní disk si své místo mezi zálohovacími médii jistě zaslouţí. Přes mnoho svých nevýhod, z nichţ nejdůleţitější zmíním, se jedná o velmi dostupné a v současnosti asi nejlevnější médium. Cena jednoho CD se pohybuje v řádu jednotek korun. Při jejich nákupu je však na místě obezřetnost. Z vlastní zkušenosti vím, ţe médium pořízené za 24
nejniţší cenu, můţe nepříjemně zklamat. CD jsou vhodné pro niţší objemy dat, například pro textové dokumenty, proto je vyuţívají zejména domácí uţivatelé prostředků výpočetní techniky. Mnohdy je vyuţíváno i ve firemní praxi menších společností a pro specifické účely téţ u větších podniků. Nepříjemnou vlastností a zklamáním je však ţivotnost záznamu na těchto médiích. Původně proklamované hodnoty, tedy mnoho desítek let, se ukazují jako přemrštěné. Pokud jsou dodrţena pravidla optimálního uloţení jako tma, nízká vlhkost a teplota, záznam je proveden kvalitní mechanikou na kvalitní médium, mohou být takto uloţená data čitelná i po deseti letech. Nelze však povaţovat za přehnaný předpoklad to, ţe zálohy dat na CD jsou bezpečně čitelné pouze po dobu tří let. Po této době je vhodné data zkopírovat na nová média. K dispozici jsou kompaktní disky o různých kapacitách. Dnes se lze nejčastěji setkat s kapacitami 200 MB (80 mm CD), 650 MB a 700 MB. Délka záznamu min
Rozměr mm
Název podle vzhledu
Kapacita MB
3
56 x 86
vizitka CD malá
25
10
64 x 89
vizitka CD velká
84
22
80
CD singl
200
74
120
CD album
650
80
120
CD album
700
90
120
CD album
791
99
120
CD album
870
Tabulka 3.01: Kapacity CD disků, hodnoty zaokrouhleny. Zdroj: [2], vlastní úprava
3.1.2 DVD DVD (Digital Versatile Disc, původně Digital Video Disc) se na první pohled velmi podobá kompaktnímu disku. Podobně jsou na něm také uloţena data, tedy pomocí prohlubní organizovaných do spirálové stopy. Tyto prohlubně však byly zmenšeny, vzdálenosti mezi jednotlivými stopami zkráceny a u některých médií jsou dokonce data ukládána do dvou vrstev. Tato média jsou označována příponou DL (Dual-Layer). Tak bylo dosaţeno několikanásobně vyšší kapacity, neţ má kompaktní disk. Na jedné straně poměrně širokého spektra dostupných DVD jsou disky o průměru 8 cm s kapacitou od 1,46 GB pro mobilní zařízení. Na druhé straně jsou lisovaná DVD o průměru 12 cm s kapacitou aţ 17,1 GB. Takové kapacity dosahují díky tomu, ţe jsou nejenom
25
dvouvrstvá, ale i oboustranná. Běţný uţivatel se však při zálohování dat nejčastěji setká s jednostrannými zapisovacími DVD o kapacitě 4,7 GB. V níţe uvedené tabulce jsou uvedeny všechny existující standardy DVD disků, dnes se uţivatel obvykle setkává pouze s médii typu DVD5, DVD9, DVD10 a DVD18. Díky výhodnému poměru kapacity a ceny se dnes jedná o jedno z nejdostupnějších a nejvíce pouţívaných optických médií pro zálohování dat. [3] Označení
Počet stran
Počet vrstev
Průměr mm
Kapacita GB
DVD1
1
1
80
1,46
DVD2
1
2
80
2,66
DVD3
2
2
80
2,92
DVD4
2
4
80
5,32
DVD5
1
1
120
4,70
DVD9
1
2
120
8,54
DVD10
2
2
120
9,40
DVD14
2
3
120
13,24
DVD18
2
4
120
17,08
Tabulka 3.02: Kapacity DVD disků. Zdroj: [3] Vývoj jednotlivých formátů této technologie provázely potíţe při stanovení standardů. Problematická tak byla vzájemná kompatibilita a uţivatelé museli dbát zvýšené pozornosti jak při nákupu mechanik, tak i médií. Krátce zde zmíním některé základní formáty, se kterými se uţivatel setká nejčastěji a které můţe pouţít pro nenáročné zálohování svých dat. U všech dostupných formátů totiţ musíme mít na paměti spornou ţivotnost záznamu, podobně jako u kompaktních disků. Výhodou DVD disků je jejich konstrukce, zapisovací vrstva je z obou stran chráněna polykarbonátovými vrstvami. U kompaktního disku je záznamová vrstva chráněna proti mechanickému poškození pouze lakem.
DVD-R Podobně, jako CD-R formát umoţnil běţnému uţivateli zápis na kompaktní disk, i na DVD–R (Recordable) lze data jednou zapsat do stejné oblasti disku. V roce 1997 bylo moţné takto zapsat pouze 3,95 GB dat, později byla kapacita zvýšena na 4,7 GB. Nevýhodou tohoto formátu z hlediska postupného zálohování dat na jedno médium je, ţe
26
některé mechaniky mohou mít potíţe se čtením dat, pokud tato byla zapisována formou multisession. Širšímu rozšíření technologie DVD-R dlouho bránila nízká rychlost zápisu a poměrně vysoká cena. Vysoké licenční poplatky konsorcia, stojícího za tímto formátem, vedly k vývoji formátu DVD+R.
DVD+R Formát DVD+R se objevil později a měl ambice vylepšit některé vlastnosti DVD-R. Jednalo se například o zdokonalení způsobu korekce chyb. Z tohoto pohledu a vzhledem k bezproblémovému zápisu typu multisession jsem se opakovaně setkal s názorem, ţe tento druh médií je pro úschovu dat vhodnější neţ DVD-R. Z pohledu dnešního uţivatele je moţné konstatovat, ţe potíţe se vzájemnou kompatibilitou těchto dvou médií a mechanik, jsou jiţ minulostí.
DVD-RAM Specifikace DVD-RAM (Random Access Memory) o kapacitě 2,6GB byla představena v roce 1997. Jednalo se o první opakovaně přepisovatelný formát DVD. Specifikace od verze 2.0 nabízí kapacitu 4,7GB. Nevýhodou disků DVD-RAM byla enormní citlivost na nečistoty, prach a dotyk, proto byly disky uloţeny ve speciálním ochranném obalu. V současnosti jsou jiţ k dispozici disky a mechaniky bez tohoto pouzdra. Výhodou oproti rozšířenějším DVD-RW a DWD+RW diskům je počet moţných přepsání, které je uváděno v řádech statisíců. Tato vlastnost, spolu s vhodnějším způsobem záznamu dat, umoţňuje pouţívat DVD-RAM disky podobným způsobem jako harddisk. Díky těmto vlastnostem se jedná z hlediska zálohování dat o nejvhodnější médium typu DVD. [1] Z uvedeného obrázku je patrné, ţe konstrukce ochranné schránky DVD-RAM disků je inspirována magneto optickými disky.
27
Obrázek 3.01: DVD-RAM v ochranném obalu. Zdroj: vlastní úprava
DVD–RW DVD-RW (ReWritable) vychází z formátu DVD-R, uţívá stejného fyzického adresování a umoţňuje prostřednictvím k tomu určené DVD mechaniky opakovaný zápis a výmaz dat na DVD-RW médiu.
DVD+RW DVD+RW umoţňuje podobně jako DVD-RW opakovaný zápis dat. Zajímavé je, ţe se tato média a mechaniky podporující jejich zápis a čtení objevila jako první a aţ následně byla představena média DVD+R. Tento formát klade důraz na úschovu dat, nikoli na ukládání a přehrávání video souborů, jak tomu přinejmenším zpočátku bylo u formátu DVD-RW. Společné však mají některé neduhy, kromě kratší neţ uváděné ţivotnosti záznamu dat, se jedná i o počet přepisů. V praxi jsem se nesetkal s výrobci uváděnými tisíci přepisů, nejčastěji se hovoří a sám mám takové zkušenosti, ţe pouţití jednoho média je po zhruba padesátém přepisu dat více neţ problematické.
Blu-Ray O discích Blu-ray se hovoří jako o optických discích třetí generace. V pět let trvajícím souboji porazily konkurenční formát HD-DVD, vyvíjený firmou Toshiba. Tento formát byl od počátku vyvíjen pro zapisování, přepisování a čtení videa ve vysokém rozlišení. Prosadil se však i při ukládání počítačových dat. Ta jsou zapisována také do stopy tvaru spirály, jako tomu je u CD a DVD, ale hlouběji pod povrch disku. Standardní média o průměru 12 cm jsou nabízena při jedné vrstvě v kapacitě 25 GB, se dvěma vrstvami s kapacitou 50 GB. Z hlediska moţnosti záznamu dat jsou dostupné disky umoţňující
28
pouze čtení dat, jeden nebo opakovaný zápis. Označují se zkratkami BD-ROM (Blu-Ray Disc Read Only Memory), BD-R (Blu-Ray Disc Recordable) a BD-RE (Blu-Ray Disc Rewritable). [1] Název vznikl z anglického pojmu blue ray, coţ v překladu znamená modrý paprsek. Proto uţivatelé často uţívají chybné označení Blue-ray. Média Blu-ray mohou slouţit podobně jako oba předchozí typy optických disků pro ukládání dat s moţností jejich přemístění do jiné lokality, neţ té, ve které jsou data uloţena standardně. Pro uţivatele a nenáročné podnikové pouţití nabízí Blu-ray zajímavou úloţnou kapacitu s relativně nízkou cenou. Díky této kapacitě je moţné pouţít menší počet disků v porovnání s CD a DVD.
3.1.3 Magneto optické disky Magneto optické disky jsou výměnná média, u nichţ je záznam dat prováděn zaměřením laserového paprsku za současného působení magnetického pole. Záznam dat je podmíněn ohřevem odpovídajícího bodu disku, nehrozí tedy nebezpečí náhodného smazání dat vlivem magnetického pole. Záznam dat tak kombinuje přednosti magnetického záznamu dat nedestruktivním způsobem s rychlým zápisem prováděným po blocích a přednosti optického záznamu. [15] Většina magneto optických disků je uloţena v nesnímatelném ochranném pouzdře. Mohlo by se zdát, ţe jde o nedostatečnou ochranu, pouzdro však brání poškrábání a znečištění disku, otiskům prstů i vlivu slunečního záření. Střed disku je zpravidla opatřen kovovým krouţkem, nedochází tak k namáhání měkké nosné části disku jako u CD a DVD. Disk je navíc vţdy dokonale vystředěn a při větších otáčkách nedochází k jeho vibracím. Díky těmto vlastnostem je takto provedený zápis dat moţné přečíst i po desítkách let, výrobci uvádí jeho ţivotnost aţ 100 let. V současnosti jsou média vyráběna ve dvou variantách, s moţností jednoho zápisu nebo přepisovatelné. Dostupné jsou kapacity 1,3 GB, 2,3 GB, 2,6 GB, 5,2 GB a 9,1 GB. Novinkou v této oblasti byly v roce 2004 magneto optické disky UDO (Ultra Density Optical) s trojnásobnou kapacitou, vyšší rychlostí čtení a niţší cenou na jeden bit informace. Kapacita těchto disků je 30 GB, UDO disků druhé generace dokonce 60 GB. Magneto optický disk pamatuji jiţ z počátku mé praxe s počítači, kdy jsem tyto disky s kapacitou 600 MB, pouţíval pro zálohování dat bankovního systému. Z dnešního pohledu je to kapacita zcela nedostačující, ve své době však znamenaly v porovnání s tehdy běţnými disketami o kapacitě 1,44 MB značný pokrok. Přestoţe by se mohlo zdát,
29
ţe tato média ustoupila jiným technologiím, zvláště výše popsaným optickým diskům, jsou magneto optické disky vyuţívány dodnes. Některé instituce, jako knihovny, a archivy je stále vyuţívají pro dlouhodobou úschovu cenných dat. Dodnes se dokonce prodávají jak nová média, tak i magneto optické mechaniky.
Obrázek 3.02: Magneto optický disk v ochranném obalu. Zdroj: vlastní úprava
3.2 Magnetická média Princip ukládání dat pomocí vyuţití vlastností magnetické hystereze je znám a lidmi vyuţíván jiţ více neţ půl století. Technologie zaloţené na tomto principu byly neustále vylepšovány a dodnes hrají hlavní úlohu při záznamu dat i při jejich zálohování. Podle různých účelů byla konstruována speciální zařízení, kdy u jedněch byla preferována rychlost přístupu k datům, u jiných moţnost bezpečného uloţení většího mnoţství dat při vynaloţení pokud moţno co nejniţších nákladů. Princip zůstává stále podobný. Signál je pomocí elektrického proudu přiváděn do cívky s jádrem, kde se vytváří magnetické pole s proměnnou intenzitou. Ta odpovídá tvaru vstupního signálu. Pod cívkou se pohybuje nějaké vhodné médium, nejčastěji pásek nebo disk, opatřený tenkou magnetickou vrstvou na povrchu. Tato vrstva díky působení magnetického pole uchovává různé intenzity magnetického pole, které odpovídají původnímu signálu. Při čtení záznamu probíhá obrácený proces. Pohybující se médium díky své magnetické vrstvě vytváří v cívce proměnlivý elektrický proud. Původní analogové záznamy kladly vysoké nároky na kvalitu záznamových materiálů a na dokonalé provedení záznamové a čtecí cívky. Záznam digitálních dat, u nichţ postačí rozeznávat pouze dva stavy, umoţnil zvýšit rychlost záznamu a kapacitu médií.
30
3.2.1 Disketa Diskety zde zmíním jen velmi krátce. Pomohly spolu s harddisky odstranit jednu podstatnou nevýhodu magnetických pásek, kterou je sekvenční a tedy pomalý přístup k datům, oproti harddiskům byly navíc jednoduše přenositelné. První diskety představila v roce 1967 společnost IBM. Měly průměr 14 palců a postupně se vyvíjely aţ do podoby známé 3,5 palcové diskety s kapacitou 1,44 MB. Poslední komerčně alespoň částečně úspěšnou snahou o zdokonalení byly diskety ZIP s kapacitou 120 MB. Ani v době, kdy byly diskety široce pouţívány, se nejednalo o příliš spolehlivá média. Dnes na ně data zálohuje jen málokdo. Důvodem je kromě malé spolehlivosti i nízká kapacita, pomalý zápis a čtení. Přesto se s nimi ještě lze setkat a u starších počítačů jsou i aktivně pouţívány. Ne, ţe by jim bylo svěřováno uchování či zálohování dat, vyuţívány jsou spíše pro nouzový start počítače, instalaci programů a pro jiné speciální účely.
3.2.2 HDD Pevné disky, označované zkratkou HDD (Hard Disc Drive), jsou kompaktní zařízení slouţící pro ukládání dat. Podobně jako magnetické pásky nás provázejí jiţ více neţ půl století. Svá data jim v běţném provozu lidé svěřují téměř bezvýhradně. Proč je tedy ve stejné míře nepouţívají i pro zálohování těchto dat? Důvodů je více. Mimo problematické mechanické odolnosti disků, zejména při jejich přemísťování, to vţdy byla především jejich cena. Díky tomu, ţe se poměr kapacity k ceně u pevných disků neustále zlepšuje, je jejich vyuţití pro zálohování dat v poslední době vyšší, často na úkor magnetických pásek. Hlavní výhodou pevných disku jsou krátké přístupové doby k datům, jejich dostupnost a v současnosti i kapacita. Zatímco dříve byly za obrovské kapacity harddisků povaţovány velikosti kolem 20 MB, v devadesátých letech to bylo 20GB. V dnešní době je za běţnou kapacitu povaţována hodnota 2 TB. Záznam je prováděn oboustranně na kovové nebo skleněné disky, které jsou pokryty magneticky měkkou vrstvou. Počet moţných přepisů dat je omezen pouze ţivotností disku a po odpojení disku od napájení nedojde k jejich ztrátě. Výhodou disků oproti páskám je náhodný přístup k datům. Právě to znamená mnohem kratší přístupovou dobu neţ je ta, které je docilováno u magnetické pásky. Pevné disky jsou často sdruţovány do datových polí a pomocí vhodných technologií mohou být připojeny i na větší vzdálenosti. Aby nebyla bezpečnost uloţení dat závislá jen na jednom pevném disku, byly vyvinuty metody zabezpečení dat proti selhání pevného disku, označované jako RAID (původně
31
Redundant Array of Inexpensive Disks, nyní častěji Redundant Array of Independent Disks), tedy pole nezávislých disků s nadbytečností. Disky jsou různým způsobem záměrně sdruţovány tak, aby bylo docíleno zvýšení spolehlivosti nebo naopak vyšší rychlosti zápisu či různých kombinací hodnot těchto parametrů. V současnosti je pouţíváno nejméně dvanáct typů diskových polí RAID. Vzhledem k tomu, ţe tyto metody ukládání dat není moţné povaţovat za náhradu zálohy dat, uvedu zde pouze základní charakteristiky nejčastěji vyuţívaných polí.
RAID 0 U RAID 0, označovaného někdy pojmem Striping (prouţkování), nedochází k redundanci dat. Je tedy výjimečný tím, ţe jako jediný neposkytuje vyšší ochranu dat z hlediska poškození či zničení disku. Je pouţíván v případě řešení poţadavku na zrychlení diskových operací. Zápis i čtení dat jsou prováděny paralelně na více disků do takzvaných Stripes (prouţků). K provozu RAID 0 je potřeba nejméně dvou disků, přičemţ k dispozici je celá jejich původní kapacita.
RAID 1 RAID 1 přináší nejjednodušší avšak poměrně efektivní ochranu našich dat. Je zaloţen na mirroringu (zrcadlení) obsahu disků. Data jsou současně zaznamenávána na nejméně dva disky. V případě výpadku jednoho disku je k okamţité dispozici disk druhý, obsahující identická data. Nevýhodou tohoto uspořádání je potřeba dvojnásobné diskové kapacity, neţ bude ta, kterou bude moţné skutečně vyuţívat.
RAID 0+1 RAID 0+1 je kombinací předchozích dvou principů. Vyţaduje nejméně čtyři disky. Na dva z nich jsou data ukládána paralelně do prouţků a následně zrcadlena na další dva disky, které tak obsahují identickou kopii prvních dvou. Výhodou této kombinace jsou rychlejší diskové operace při dobré úrovni zabezpečení dat. Nevýhodou je nemoţnost vyuţití pouhé poloviny celkové diskové kapacity, navíc při výpadku jednoho ze čtyř disků není zajištěna redundance dat.
RAID 1+0 RAID 1+0 je opačnou kombinací. Data jsou nejprve zrcadlena a poté rozkládána do prouţků pro dosaţení vyšších hodnot přenosových rychlostí. Je odolnější proti výpadku disku a v případě, ţe k němu dojde, je obnova dat rychlejší. Nevýhoda s moţností vyuţít
32
pouze polovinu původní diskové kapacity přetrvává. Často je vyuţíván u databázových serverů s vysokými nároky na dostupnost dat a na odolnost proti chybám.
RAID 5 RAID 5 je v současnosti oblíbené a mnohdy vyuţívané řešení, vyţadující nejméně tři disky. Kombinuje postupy ukládání dat do prouţků a na ně uplatňuje kontrolní součty. Ty jsou po výpočtu střídavě ukládány na různé disky. Díky tomu dojde k urychlení práce s daty a ta jsou přitom zabezpečena proti poruše disku. Pokud k ní dojde, jsou chybějící data z odpovídajících kontrolních součtů dopočítána. Pole je tak schopno dále zapisovat i poskytovat data, byť se sníţeným výkonem. Po výměně vadného disku jsou původní data obnovena. Tato obnova můţe trvat řádově i hodiny v závislosti na objemu obnovovaných dat a výkonu disků. Před a během této obnovy však jiţ nesmí dojít k poruše dalšího disku. S rostoucím počtem disků roste i efektivita ukládání dat.
RAID 6 RAID 6 je obdobou RAID5, zapojen je však další, minimálně tedy čtvrtý disk. Vypočítávány a ukládány jsou dvě sady kontrolních součtů. Tento typ diskového pole je odolný proti výpadku dvou disků. Zápis dat je o něco pomalejší, další parametry zůstávají stejné jako v případě RAID 5. Cena je však vyšší a proto se pouţívá pro uspokojení nejvyšších nároků na spolehlivost a dostupnost dat.
RAID 7 V původním návrhu diskových polí nebyl RAID 7 specifikován. Přesto se s termínem RAID 7 lze setkat. Jednalo se o marketingové označení patentu společnosti Storage Computers. Tento asynchronní systém byl vybaven vyrovnávací pamětí a umoţňoval samostatné řízení kaţdého disku pomocí mikroprocesoru s vlastním operačním systémem. Všechny operace byly nezávisle kontrolované. Výhodou byl celkový výkon při zápisu, který je aţ o 90 procent vyšší neţ při zápisu na jeden disk. Nevýhodou byly vysoké náklady na ukládání dat. [11] V následující tabulce jsem se zjednodušeným způsobem pokusil shrnout některé nejdůleţitější vlastnosti jednotlivých typů RAID.
33
Typ
Počet disků
Spolehlivost
Rychlost čtení
Rychlost zápisu
RAID 0
2
nejniţší
vysoká
vysoká
RAID 1
2, 4, 6
nejvyšší
vysoká
střední
RAID 0+1
4, 6, 8
střední
vysoká
střední
RAID 1+ 0
2, 4, 6
vysoká
vysoká
střední
RAID 5
n+1
střední
vysoká
střední
RAID 6
n+2
nejvyšší
střední
nízká
RAID 7
n+1
nejvyšší
nejvyšší
nejvyšší
Tabulka 3.03: Vlastnosti RAID. Zdroj: vlastní úprava
3.2.3 Magnetické pásky Magnetické pásky jsou jiţ po více neţ půl století nejvíce vyuţívaným médiem pro zálohování a archivaci dat v prostředí středně velkých a velkých společností. V minulosti se uplatnily dokonce i při ukládání dat. Toto výsadní postavení je dáno především vysokou spolehlivostí, odolností, dlouhou ţivotností záznamu a výhodným poměrem kapacity k ceně v porovnání s jinými médii. Dlouhý vývoj této technologie přinesl mnoho různých typů magnetických pásek a formátů zápisu. Některé z nich se jiţ nepouţívají nebo je vylepšování jejich parametrů ukončeno, u některých jsou naopak ohlášeny a vyvíjeny další generace s vyšší kapacitou a rychlejším zápisem i čtením dat. Magnetická páska však má jednu velkou nevýhodu oproti konkurenčním médiím a tou je sekvenční přístup k datům. To můţe znamenat dlouhý čas, potřebný pro přístup k datům pro čtení. Rychlost souvislého zápisu dat však můţe být u moderních páskových mechanik ve vhodném prostředí vyšší, neţ u pevných disků. Dále zde chci popsat pouze současné nejdůleţitější typy pásek a páskových mechanik. Dají se v zásadě rozdělit na pásky s lineárním zápisem dat do podélných stop a na pásky, na něţ jsou data zapisována prostřednictvím rotační hlavy do šikmých stop. V poslední době se zdá, ţe původní lineární zápis vítězí díky vysoké spolehlivosti, dlouhodobé ţivotnosti uloţených dat a vysokému počtu moţných přepisů pásky.
DLT Technologie DLT (Digital Linear Tape) přinesla v osmdesátých letech minulého století revoluční změny v koncepci podélného zápisu. Vyznačovala se vysokou úrovní
34
zabezpečení uloţených dat, díky implementaci mechanizmů podélné a příčné parity. To spolu se samo opravnými kódy dovolovalo rekonstruovat data i z mechanicky poškozených pásek. Pásek o šířce poloviny palce, tedy asi 12,7 mm, byl uloţen na jedné navíjecí cívce. Z té je odvíjena přes čtecí a zápisovou hlavu na druhou cívku, která je součástí páskové mechaniky, jak je patrné ze zjednodušeného schématu na obrázku.
Obrázek 3.03: Zjednodušené schéma čtení a zápisu na pásku DLT. Zdroj: [21] Vícekanálový zápis a čtení dat umoţňoval tehdy vysokých záznamových a čtecích výkonů, přes 40 GB za hodinu. V roce 2001 byl představen formát SDLT220 (Super DLT), který prolomil 100GB kapacitní bariéru. Druhá generace SDLT320 umoţnila uloţit aţ 160GB dat na jedno médium. Následována byla mechanikou třetí generace, označovanou jako SDLT600. Ta dosahovala vyšších záznamových rychlostí při kapacitě 300 GB. Poslední typy těchto pásek nesou označení DLT-S4 a mají kapacitu 800 GB. [30] Od roku 2007 je další vývoj této technologie zastaven. Konkurenční technologie, označovaná jako LTO, vyhrála pomyslný souboj nejen díky svým vlastnostem, ale i díky své otevřenosti. Dnes jiţ pokrývá potřeby trhu téměř ze sta procent.
LTO LTO (Linear Tape Open) je otevřená pásková architektura vyvinutá konsorciem tří předních světových firem, HP, IBM a Quantum. Otevřenost zde znamená dostupnost pro různé dodavatele. Záznam dat je prováděn na půl palce širokou magnetickou pásku ve formě vícekanálového serpentinového lineárního zápisu, který je rozdělen do několika stovek podélných stop. V jednom okamţiku je zapisováno nebo čteno 16 stop. V případě zápisu jsou data ihned verifikována. Speciální kontrolní kód zajišťuje datovou integritu a korekci chyb. Páska s kovovým zavaděčem o délce více neţ 800 metrů je natočena
35
pouze na jednu cívku, podobně jako u pásek DLT. Cívka s páskou je umístněna do mechanicky odolné schránky o rozměrech nepatrně přesahujících 10 x 10 x 2 cm. Rozměry této schránky jsou stejné pro všechny generace LTO při zachování zpětné kompatibility. Kromě ní je zde umístěn i bezkontaktní RF (radiofrekvenční) modul s vlastní pamětí o velikosti 8192 bajtů. Do něj jsou ukládány informace o datech, statistické údaje o historii pásky a další, uţivatelem definované údaje. Ţivotnost záznamu je při uchování pásek za předepsaných podmínek 30 let.
Obrázek 3.04: Páska LTO 4. Zdroj: vlastní úprava Výrobci dále obvykle garantují aţ 5000 zaloţení jedné pásky do mechaniky a aţ 260 plných záznamů dat. Tedy zápisů, při kterých je plně vyuţita kapacita pásky. Ţivotnost páskových mechanik LTO je uváděna v řádu statisíců cyklů nebo více neţ 10 let. O vysoké oblibě a širokém uplatnění této technologie svědčí to, ţe při desetiletém výročí jejího uvedení na trh bylo celosvětově prodáno více neţ 3,5 milionů mechanik a 150 milionů LTO médií různých generací. [28] V nedávné době byla po čtyřech předchozích uvedena na trh nová generace s označením LTO-5. Jedna páska nyní nabízí kapacitu 1,5 TB s přenosovou rychlostí 140 MB/s bez komprimace. Oproti předchozí generaci LTO-4 došlo k dvojnásobnému nárůstu kapacity a mírnému zvýšení přenosové rychlosti. V současnosti jsou navíc plánovány další tři generace. Příští generace bude mít kapacitu 3,2 TB, LTO-7 6,4 TB a LTO-8 úctyhodnou kapacitu 12,8 TB s rychlostí 472 MB/s. Podle názoru výrobců by do budoucna měla být uplatňována nová strategie zálohování. Data budou nejprve uloţena na pevný disk a poté na pásku. Nebude jiţ tedy uplatňován tradiční model přímého ukládání dat na pásky, který byl pouţíván u předchozích generací LTO. [27]
36
Obrázek 3.05: Generace LTO s ohlášeným výhledem do budoucnosti. Zdroj: [13]
DDS V roce 1989 byl firmami Sony a HP vyvinut nový formát datových pásek, označovaných jako DDS (Digital Data Storage). Vycházely z technologie DAT (Digital Audio Tape). Technologie DDS je zaloţena na šikmém zápisu dat pomocí rotační hlavy na 4 mm široké pásky. Od generace DDS-6, uvedené na trh v roce 2007, je uplatněna páska široká 8 mm. Přesto je udrţována zpětná kompatibilita v rámci dvou předchozích generací. Páska je uloţena v ochranné schránce, kde je umístěn i druhý trn, na který je při zápisu a čtení dat navíjena, podobně jakou tomu bylo u magnetofonových kazet.
Obrázek 3.06: Zjednodušené schéma čtení a zápisu na pásku DDS. Zdroj: [21] Počet pouţití pásky byl u DDS 4 omezen na maximálně 2000 vloţení a vyjmutí nebo 100 plných zápisů. Doba ţivotnosti dat byla více neţ 10 let. Od páté generace se pouţívá kromě označení DDS 5 téţ nový název DAT 72, u šesté generace DAT 160 a u sedmé
37
DAT 320. Číslice v názvu této pásky je odvozena od její předpokládané kapacity při pouţití komprese dat.
Obrázek 3.07: Páska DDS 4. Zdroj: vlastní úprava Zálohování dat na DDS pásky je díky cenové dostupnosti a nízkým provozním nákladům vhodné pro menší podniky, u středních a velkých je vyuţíváno spíše jen pro speciální účely, případně pro jednotlivé servery. Označení
Délka pásky m
Šířka pásky mm
Kapacita GB
Rychlost KB/s
DDS 1
60
3,81
1,3
183
DDS 1
90
3,81
2
183
DDS 2
120
3,81
4
600
DDS 3
125
3,81
12
1100
DDS 4
150
3,81
20
3200
DAT 72
170
3,81
36
3200
DAT 160
155
8
80
6000
DAT 320
153
8
160
12000
Tabulka 3.04: Kapacity pásek DDS. Zdroj: [26]
AIT AIT (Advanced Intelligent Tape) pracuje na podobném principu jako DDS, také vyuţívá šikmý zápis dat pomocí rotační hlavy. Liší se především šíří pásky a tím, ţe pro urychlení přístupu ke konkrétním datům má ochranná schránka pásky do svého těla integrovánu paměť typu EEPROM (Electrically Erasable Programmable Read-Only Memory). Toto zajímavé řešení, chráněné patentem společnosti SONY, nese označení MIC (Memory In Cassette). Paměťový čip uchovává informace, které usnadňují a podstatně urychlují vyhledávání dat na pásce, dále soubory s logy, obsahující záznamy o provedených 38
zálohovacích činnostech. MIC umoţňuje rozdělit pásku na oddíly a zacházet s ní podobným způsobem jako s pevným diskem. Pět kontaktních plošek tohoto čipu je viditelných na obrázku pásky AIT, na jejím levém dolním okraji.
Obrázek 3.08: Páska AIT 2. Zdroj: vlastní úprava Druhá generace těchto pásek, označovaná jako AIT-2, nabídla uţivatelům kapacitu 50 GB, s kompresí dat dokonce 100 GB. Přenosová rychlost se pohybuje okolo 6 MB/s bez pouţití komprese. Mechaniky AIT-2 jsou zpětně plně kompatibilní s AIT-1 páskami. Potíţe nastaly u generací AIT-4 a AIT-5, které zpětně kompatibilní, přes původní sliby, nejsou. Přestoţe se jednalo o robustní a pokrokovou technologii, není jiţ nadále vyvíjena. V roce 2010 oznámila společnost SONY, ţe jiţ nadále nebude mechaniky AIT prodávat. Poslední nabízenou generací taky byly mechaniky a pásky označované AIT-5, s kapacitou 400 GB. Označení
Délka pásky m
Šířka pásky mm
Kapacita GB
Rychlost KB/s
AIT 1
170
8
35
2800
AIT 2
230
8
50
6000
AIT 3
230
8
100
12000
AIT 4
230
8
200
24000
AIT 5
246
8
400
24000
Tabulka 3.05: Kapacity pásek AIT. Zdroj: [8]
3.3 Flash paměť Nejmodernějšími typy nevolatilních pamětí jsou flash (mţikové) paměti. Výraz nevolatilní paměť označuje takové paměti, jejichţ obsah není spolu s přerušením napájecího napětí ztracen. Jedná se o upravené elektricky mazatelné programovatelné paměti, jejichţ stavba je změněna tak, aby bylo dosaţeno co nejvyšší hustoty záznamu
39
dat. Kaţdá paměťová buňka je tak představována jediným tranzistorem, coţ v praxi znamená velkou kapacitu při relativně nízké ceně. Nejznámějšími zástupci této kategorie paměťových zařízení jsou kromě kompaktních karet a SSD (Solid State Drive) disků především přenosné USB flash disky. Zatímco SSD mají ambice nahradit stávající pevné disky, USB flash disky jsou v poslední době jiţ samozřejmým pomocníkem při přenášení dat. Po jejich připojení, nejčastěji přes USB rozhraní, na ně lze data jednoduše uloţit. Jsou rychlé, spolehlivé, cenově dostupné a velice skladné. Zásadní nevýhodou flash pamětí je však to, ţe data na nich nelze přepisovat donekonečna, maximální počet zápisů do stejného místa se udává v řádu statisíců. Také ke ztrátě dat z flash paměti můţe dojít poměrně jednoduše, stačí na to statická elektřina. Z těchto důvodů nejsou vhodné pro opakované a dlouhodobé zálohování dat. USB Flash Disk tak zůstává vhodným médiem pro domácího uţivatele prostředků výpočetní techniky na přenášení dat, případně na jednoduché a nenáročné zálohování.
40
4 Software pro zálohování dat V současné době existuje a je nabízeno mnoho produktů, podporujících řešení problematiky zálohování dat. Záměrně se zde vyhnu programům pro domácí pouţití a programům typu Open Source. Věnovat se budu pouze vybraným robustním, široce ověřeným a komplexním řešením pro vytváření, správu záloh a jejich obnovu od známých světových firem jako jsou IBM, HP, Symantec, CA Technologies a EMC. Přestoţe jsou tyto produkty zpravidla zaloţeny na podobných principech, mohou nás odlišnosti mezi nimi přesvědčit o výhodách daného řešení aţ do té míry, ţe se rozhodneme pro nákup a uplatnění jednoho z nich. Nutné je pečlivě zváţit, jak jsou schopny zajišťovat poţadované funkce v konkrétním prostředí.
EMC NetWorker EMC NetWorker je programový systém pro komplexní správu a řízení automatizovaného zálohování a obnovy dat. Jedná se o robustní a stabilní systém, vybavený administrativními funkcemi pro sledování činností prováděných při zálohování dat a mechanismem pro předávání informací, vznikajících na základě prováděných operací. Výsledky operací jsou zaznamenávány do logů. V rámci zálohování je moţné provádět verifikaci ukládaných dat. Z existujících záloh je moţné vytvářet kopie, které jsou evidované a lze je ukládat mimo vlastní provozní pracoviště. Pomocí EMC NetWorker je moţné zálohovat i více serverů s operačními systémy UNIX, Windows a Novell, v lokálních i WAN (Wide Area Network) počítačových sítích. EMC NetWorker je povaţován za standard v oblasti zálohování dat operačního systému UNIX a existují i úspěšné implementace v prostředí Windows a Novell. Vyniká svou výkonností, coţ výrobce EMC dokazuje tvrzením, ţe jako první překročil hranici 1 TB zálohovaných dat za méně neţ jednu hodinu. Díky své modulárnosti a přehledné správě je NetWorker vhodný nejen pro firmy s několika servery, ale i pro velké podniky s rozsáhlou strukturou serverů různých platforem, umístěných dokonce v různých lokalitách. Ovládání je moţné z jednotného grafického rozhraní i z příkazových řádek operačních systémů UNIX a Windows. Podporuje široké spektrum zařízení pro zálohování dat, jako jsou magnetické pásky DAT, DLT, SDLT a pevné disky. [12]
41
ARCserve Backup Společnost CA Technologies představuje ARCserve Backup jako ucelené řešení pro zálohování a obnovu dat s moţností centralizované správy v distribuované infrastruktuře. Řešení nabízí vyspělé funkcionality pro zajištění ochrany dat a efektivní správu záloh. Lze jej vyuţít pro zálohování ve fyzickém i virtuálním prostředí Windows, ale také Unixu, Linuxu či NetWaru. Systém nabízí přehledné a intuitivní rozhraní, které poskytuje souhrn základních informací o stavu zálohovaného prostředí a indikuje případné problémy. Nabízí pohled na celé komplexní prostředí z jednoho bodu, včetně všech případných poboček v distribuované síti. Poskytuje širokou škálu reportů, které pomáhají při běţné správě i při odhalování existujících nebo potenciálních problémů. [9]
Tivoli Storage Manager Tivoli Storage Manager, dále jen TSM je centrální zálohovací řešení firmy IBM, které díky svým vlastnostem, patří ke světové špičce. Je zaloţeno na klient-server architektuře. Přestoţe základním úkolem TSM serveru je správa a obsluha zálohovacích médií, musí také mimo jiné iniciovat spuštění zálohy na vybraném serveru a vyřizovat poţadavky klientů (serverů) na zálohování a obnovu dat. Proto disponuje vlastní databází, kde jsou ukládány informace týkající se klientů, zálohovacích médií a zálohovaných dat, včetně informací o zálohovacích strategiích a časovém rozvrhu prováděných záloh. K TSM serveru jsou připojeny mechaniky obsluhující zálohovací média, kterými mohou být disky, pásky, optické disky, páskové knihovny. Klientem TSM mohou být souborové servery, aplikační servery, jejich databáze ale i pracovní stanice a notebooky. TSM klient zálohuje svá data na TSM server, který je můţe ihned nebo aţ následně přesouvat na dostupná zálohovací média. Vlastní TSM databáze uchovává uţivatelem stanovené politiky jednotlivých zálohovacích úloh. Ty umoţňují definovat počty uchovávaných neaktivních verzí souborů, případně stavů zálohovaných databází. Po překročení tohoto počtu dojde k jejich přepsání novými zálohami. Spojení TSM serveru s klienty je zaloţeno na oddělených kanálech. První z nich slouţí k ověřování a řízení komunikace, druhý k vlastnímu přenosu dat. [20]
42
Obrázek 4.01: Tivoli Storage Manager. Zdroj: IBM
Veritas NetBackup Software Veritas NetBackup nabízí firma Symantec. Jedná se o uznávaný a rozšířený systém zálohování a obnovení dat v podnikovém prostředí. Umoţňuje úplnou ochranu dat v prostředích systémů UNIX, Windows, Linux a NetWare. Disponuje intuitivním grafickým uţivatelským rozhraním, které pomáhá při správě mnoha aspektů procesu zálohování a obnovení dat, při udrţování soudrţnosti zásad zálohování zavedených v rámci podniku. Software Veritas NetBackup je řešení zálohování a obnovení dat, podporující databáze a aplikace, jako jsou Oracle, DB2, Microsoft SQL Server, Informix, Sybase, Microsoft Exchange Server, Microsoft SharePoint Portal Server, SAP NetWeaver, Lotus Notes a Domino Server. Systém má třívrstvou architekturu, jednotlivé vrstvy jsou tvořeny centrálním serverem, který umoţňuje administraci, monitorování a konfigurování. Dále skupinou serverů, které zabezpečují manipulaci se zálohovacími zařízeními, médii a zajišťují vlastní ukládání a obnovu zálohovaných dat a konečně skupinou serverů, jejichţ data budou zálohována. Zálohovací klienty lze rozšířit o komponentu umoţňující online zálohy databází. [29]
SEP Sesam SEP Sesam je škálovatelný a cenově dostupný zálohovací software, vyvíjený německou firmou SEP AG. Je vhodný i v heterogenních firemních prostředích, pro platformy UNIX, Linux, Windows. SEP Sesam je certifikován pro aplikace SAP R/3. Podporuje širokou škálu zálohovacích zařízení. Je zaloţen na architektuře klient-server, vyuţívá grafické rozhraní, umoţňující konfiguraci, plánování záloh a následné obnovení dat. [25]
43
HP Data Protector HP Data Protector je zálohovací software pro střední a malé podniky. Data Protector je koncipován maximálně jednoduše, v uţivatelsky příjemném prostředí. Vyznačuje se snadnou instalací, provozem a správou. Umoţňuje zálohu na pásky, harddisky, CD a DVD disky nebo kombinaci těchto médií. Po rozšíření o další komponentu lze provádět on-line zálohy Microsoft Exchange a Microsoft SQL Server. Úlohy lze plánovat a provádět s vyuţitím přednastavených rozvrhů. Efektivně spravuje zálohovací média s přizpůsobitelnými schématy rotace. Třívrstvá architektura podporuje distribuované zálohování s vyuţitím více druhů médií, při zachování centralizovaného řízení. [14]
Acronis Backup Recovery Acronis Backup Recovery je software pro zálohování Windows a Linux serverů s centralizovanou správou. Jedná se o řešení podporující obnovu dat po haváriích pro fyzická i virtuální prostředí. Je zaloţeno na patentovaných technologiích tvorby diskových obrazů a jejich obnovy. Zjednodušuje a automatizuje proces zálohování a obnovy v prostředích operačních systémů Windows a Linux, umoţňuje vzdálené monitorování geograficky distribuovaných serverů a pracovních stanic. Je navrţený pro podniky všech velikostí a pouţitelný v rozsahu aţ tisíců strojů. Poskytuje organizacím moţnosti pokročilého zálohování dat a obnovy systémů. Nabízí široké moţnosti plánování. Zálohy mohou být spouštěny na základě přednastavených událostí nebo předem definovaných podmínek. [7]
44
5 Rozbor stávajícího stavu zálohování ve firmě Následující kapitoly věnuji popisu praktických zkušeností, které jsem získal během rozboru stávajícího stavu zálohování dat v konkrétní firmě, při následném výběru a nasazení robustnější technologie zálohování dat a při výběru, nasazení a nastavení speciálního zálohovacího software. To vše umoţnilo automatizaci procesů zálohování, přineslo jejich zrychlení, jednodušší správu a monitoring záloh. Protoţe jsem pracoval s informacemi interního charakteru, z nichţ jsou některé označeny jako důvěrné, rozhodl jsem se po dohodě s odpovědnými zástupci společnosti neuvádět její konkrétní název. V dalším textu budu pouţívat označení společnost AB. Společnost AB byla zaloţena na počátku devadesátých let minulého století. Zpočátku potřebovala pro podporu svých obchodních procesů pouze několik serverů a počet aplikací, na nich provozovaných, byl v řádu jednotek. Jednalo se především o hlavní firemní databázový informační systém, jeden souborový server, několik osobních počítačů a základní síťová zařízení. Postupně byly vyvíjeny nové obchodní aktivity, zvyšovala se podpora těchto aktivit pomocí prostředků výpočetní techniky. Zvyšoval se počet zaměstnanců, počet hardwarových prostředků, objemy dat a zároveň s tím i jejich význam. V nedávné době tak počet těchto prostředků a na nich uloţených dat dosáhl stavu, kdy bylo zřejmé, ţe bude nutné přehodnotit stávající způsoby zálohování, uplatňované pracovní postupy, pouţívané softwarové prostředky a v neposlední řadě téţ pouţité technologie.
5.1 Firemní informační systémy Společnost AB vyuţívá informační systémy ve všech oblastech své činnosti, pro podporu sluţeb a aktivit, vyplývajících z poslání a náplně společnosti. Dominantní komponentou je provozní databázový systém. Pomocí něj je zabezpečována zejména podpora produktů poskytovaných klientům, správa klientů, podpora platebního styku, vedení různých typů kont, zajištění dalších sluţeb spojených s platebním stykem, správa obchodní sítě, účetní evidence provizí a mnoho dalších činností. Informační systémy dále podporují firemní procesy organizace v oblastech finanční účetnictví, mzdová agenda, vnitřní a vnější firemní komunikace. Společnost je na svých informačních systémech plně závislá. Z její celkové informační bezpečnostní politiky vyplývá, ţe bezchybná a bezpečná funkce informačních systémů,
45
jejíţ nedílnou součástí je i problematika zálohování dat, je pro poslání a činnost společnosti kritická.
5.2 Softwarové a hardwarové komponenty Ústředním bodem topologie společnosti AB je datová síť SAN (Storage Area Networks) s technologií FC (Fibre Channel) 2 Gbit s diskovým polem Dell/EMC CX3-80 o celkové kapacitě 96 TB a starším diskovým polem firmy IBM. Aplikační servery jsou připojeny duálně, z důvodu vyšší výkonnosti a redundance datové konektivity prostřednictvím dvojice FC přepínačů firmy Brocade. Lokální datová siť s technologii Ethernet je důsledně segmentována. Souborové servery jsou připojeny prostřednictvím technologie Ethernet 1Gbit k centrálnímu přepínači Nortel řady 8003, patrové přepínače a koncové stanice jsou v oddělených segmentech. Provoz aplikací a ukládání příslušných dat zabezpečuje společnost AB prostřednictvím několika specializovaných aplikačních a souborových serverů. Ty jsou soustředěny v prostorách výpočetního střediska, které je umístěno v objektu centrály společnosti ve zvláštních klimatizovaných prostorách, se zálohovaným rozvodem elektrické energie a trvalým dohledem bezpečnostní sluţby. Přístup je umoţněn pouze skupině oprávněných osob a sledován pomocí elektronického zabezpečovacího zařízení. V následujících podkapitolách zmíním pouze nejkritičtější softwarové a k nim příslušné hardwarové komponenty, které jsou pro běţný chod společnosti AB zcela nezbytné. Změna způsobu zálohování jejich dat byla tudíţ jednoznačnou prioritou.
5.2.1 Hlavní provozní databázový systém Hlavní provozní databázový systém společnosti je typu klient-server. Veškerá data jsou uloţena v databázích relačního databázového systému INFORMIX Online 11.50.FC7, který je provozován na operačním systému HP UNIX verze 11.31. Na nejniţší úrovni jsou data spravována vlastním databázovým serverem. Nad nimi je aplikační logika, implementace algoritmů. Tato úroveň je řešena formou vloţených procedur, které jsou součástí databáze. Takové řešení výrazně sniţuje nároky aplikace na komunikaci po síti. Část aplikace je řešena pomocí dávkových akcí, vytvořených pomocí Borland C++. Tyto dávkové akce jsou spouštěny přímo z příkazového interpreteru databázového serveru. Jde o periodické dávky (denní, měsíční), které běţí bez interakce s obsluhou a provozní akce interaktivního charakteru, jako jsou hromadné klientské tisky a tvorba informačních sestav. Nejvyšší vrstvu tvoří grafické uţivatelské rozhraní. Toto rozhraní je vytvořeno 46
jako interaktivní úloha, běţící na klientských počítačích. Provozní databázový systém je provozován na serveru HP Integrity řady rx6600, osazeném čtyřmi dual-core procesory Intel Itanium. Velikost hlavní provozní databáze činí 450 GB, archivní databáze 50 GB.
5.2.2 Souborové servery Společnost AB pouţívá více souborových serverů, které uţivatelům poskytují sdílené úloţiště počítačových dat, zejména textových dokumentů, tabulek a dalších typů souborů. Servery jsou členěny podle pracovních skupin a organizačního schématu. Všechny jsou provozovány na jednotné platformě Microsoft Windows Server 2003. Typicky jsou na nich uloţena data o celkových objemech 400 aţ 700 GB.
5.3 Režim provozu Nejvíce omezujícím informačním systémem společnosti z hlediska provádění záloh je hlavní provozní databázový systém společnosti, který vyţaduje nepřetrţitý provoz. Činnost systému lze rozdělit na dvě fáze. První fází je reţim interaktivní činnosti uţivatelů v pracovní dny, který byl aktuálně vyhlášen na rozmezí mezi 06:00 a 20:00 hodinou. Druhou fází je noční reţim, který doplňuje dobu mezi dvěma reţimy interaktivními. V rámci nočního reţimu se provádí výpočet administrátorem naplánované noční dávky, která zabezpečuje zpracování naplánovaných dávkových akcí. Ostatní systémy mají podobný reţim činnosti, nejsou ale z hlediska volných časových oken pro provádění záloh tak kritické, jako hlavní databázový systém.
5.4 Použité zálohovací technologie Zálohování dat bylo ve firmě AB prováděno na pásky typu DDS2 aţ DDS4, ve výjimečných případech na pásky AIT-2 a DAT 160. Kaţdý zálohovaný server byl osazen vlastní páskovou mechanikou. Výměnu médií museli ručně zabezpečovat pracovníci obsluhy. Tento způsob provádění záloh kladl na pracovníky obsluhy značné nároky, přestoţe zálohy zpravidla nebyly, s výjimkou hlavního provozního databázového systému, spouštěny interaktivně. Jejich spouštění bylo řešeno pomocí standardních plánovačů at job, crontab, pomocí utility ntbackup v časech mimo běţnou pracovní dobu a mimo dobu zpracování nočních dávek. Tím bylo docíleno toho, ţe zálohované adresářové struktury, jednotlivé soubory a databáze, budou pro zálohovací proces dostupné. Pracovníci obsluhy však museli zabezpečovat kaţdodenní výměnu médií, u provozního databázového systému docházelo k ruční výměně médií dokonce několikrát
47
za den. O víkendech a svátcích zpravidla tato výměna neprobíhala, systémy tedy zálohovány nebyly. S tímto faktem proto musely počítat plány na obnovu provozu, a pokud by došlo k havárii, bylo by nutno zajistit zpracování chybějících nočních dávek. Jednotlivá média byla přehledně označována a pro kaţdý zálohovaný server byly sestaveny jejich sety. Ty odpovídaly svým počtem a členěním periodicitě zálohování. Navíc byly vedeny speciální knihy záloh, kde bylo moţné v případě potřeby dohledat záznam o provedené záloze, datumu a času zálohy, přesné označení média a osobu, která provedení zálohy zajistila. Vybraná záloţní média byla kvůli moţnosti ţivelné katastrofy ukládána v protipoţárním trezoru v suterénu budovy a některá byla dokonce transportována do vzdáleného úloţiště. Tento systém sice byl schopen zabezpečovat i poţadavky pouţitých technologií z hlediska ţivotnosti jednotlivých médií, evidenci však jiţ nepodléhalo čištění páskových mechanik. Docházelo k němu spíše nahodile, někdy aţ na základě výskytu chybových hlášení.
5.5 Schéma zálohování Pravidelné zálohování bylo prováděno podle následujícího schématu: Hlavní provozní databázový server byl zálohován kaţdý pracovní den, plná záloha byla prováděna od devíti hodin, diferenciální záloha od šestnácti hodin. Hlavní souborové servery byly zálohovány kaţdý pracovní den, po ukončení práce uţivatelů, od devatenácti hodin. Ostatní servery byly zálohovány zpravidla dvakrát za týden, některé z nich pouze interaktivně, pomocí přímé obsluhy operátorem.
5.6 Zhodnocení původního stavu zálohování dat Přestoţe byla problematice zálohování dat ve společnosti AB věnována pozornost a uplatňované postupy zabezpečovaly procesy zálohování na přijatelné úrovni, bylo veškeré zálohování dat silně závislé na lidském faktoru. Procesy zálohování dat navíc nesplňovaly nebo postupně přestaly splňovat poţadavky na výkonnost, automatizaci, bezpečnost a robustnost zálohování. Značně problematickou záleţitostí se stala nemoţnost rychlé obnovy dat v případě jejich poškození nebo havárie hardware. Obnova dat z páskových médií nebyl jednoduchý a rychlý proces. Data jsou na pásku zapisována za sebou, takţe pro nalezení poţadovaných dat bylo potřeba načíst manuálně katalog celé
48
pásky. V případě nutnosti pouţití více médií na jednu zálohu probíhalo načítání katalogu dokonce z více pásek. Celkem bylo ve společnosti osazeno 12 DDS mechanik různých verzí. Nejčastěji se jednalo o DDS 4, zastoupeny však byly i starší mechaniky DDS 3 a tři novější typu DAT 160 a AIT-2. Správa většího počtu páskových mechanik a příslušných médií, rotace médií, udrţování seznamu a fyzické přemísťování médií do trezoru bylo časově náročné. Jednalo se sice o rutinní činnost, snadno však mohlo dojít k chybě způsobené lidským faktorem. Tato chyba by se navíc mohla projevit v nejméně vhodný okamţik, a totiţ při plnění poţadavku na obnovu dat. Na obrázku jsou vidět dvě z celkem šesti polic trezoru, slouţícího k ukládání pásek se zálohami. Dostatečně ilustruje, ţe k omylu při ukládání a vyjímání pásky, mohlo dojít snadno.
Obrázek 5.01: Sady pásek DDS a DAT v trezoru. Zdroj: vlastní úprava Zásadní nedostatek spočíval v době trvání a nevhodných časech provádění záloh hlavního databázového serveru. Tyto zálohy byly prováděny manuálně, proto se odehrávaly během uţivatelského reţimu. Z hlediska zálohování by bylo ideální vyuţít nočního reţimu po zpracování nočních dávkových akcí na plnou zálohu databáze. Tím by byl zajištěn jednoznačně určený stav dat v okamţiku spuštění zálohy a neměnnost těchto dat po celou dobu jejího provádění. V případě obnovy dat odpadne sloţité dohledávání toho, která data příslušná záloha ještě obsahuje a které uţivatelské změny a nově pořízená data jiţ ne. Navíc by pouţití automatizovaného zálohovacího systému pomohlo eliminovat nebezpečí vlivu lidského faktoru na vytváření a následnou kontrolu záloh dat.
49
6 Výběr a implementace automatického zálohovacího systému Na základě posouzení stávajícího stavu zálohování, uvedeného v předchozí kapitole a současných provozních poţadavků, bylo rozhodnuto o nutnosti zásadně přehodnotit dosavadní způsoby zálohování dat. Vedením společnosti AB byl, po předloţení následujících argumentů, tento záměr podpořen a byly vyčleněny odpovídající finanční prostředky. Mezi nejdůleţitější argumenty patřila nutnost podstatného zkrácení doby provádění záloh hlavního provozního databázového serveru. To by umoţnilo zásadní úpravu harmonogramu zálohování, s přihlédnutím k provozním potřebám a samozřejmě i zkrácení doby obnovy těchto dat. Dalším argumentem byla potřeba robustnější technologie a automatizované správy záloh. Protoţe zazněl poţadavek na důslednější testování obnov dat kritických systémů, byly jako výhody připravovaného řešení zdůrazněny omezení vlivu lidského faktoru, snazší prokazatelnost termínů a úspěšnosti provádění záloh.
6.1 Výběr vhodné zálohovací technologie a software Při výběru vhodné zálohovací technologie a vhodného software, schopného automatizovaně provádět naplánované zálohy různých systémů, tyto zálohy spravovat a v případě potřeby obnovit poţadovaná data, bylo nutné zváţit více okolností. Mezi nejzávaţnější podle mého názoru patří: pouţívané operační systémy a databáze, stávající technická infrastruktura, objem zálohovaných dat a doba, po kterou musí být zálohy dat dostupné, typy záloh a odpovídající časové moţnosti provádění záloh, firemní poţadavky na rychlost obnovy dat. Přestoţe se v dnešní době nabízí širší spektrum technologií pro zálohování dat, neţ tomu bylo před několika lety, kdy byly ve společnosti AB jako hlavní zálohovací médium zvoleny pásky, padla na ně volba i nyní. Ačkoliv se jedná o technologii pouţívanou více neţ 50 let, stále je to nejefektivnější způsob zálohování velkého objemu dat s opravdu dlouhodobou ţivotností. Pásková média jsou i při vysoké kapacitě objemově nenáročná, jejich obal je robustní a umoţňuje bezpečné přemístění média mimo místo, kde byla 50
záloha prováděna. Díky tomu je moţné relativně jednoduše a bez vysokých nákladů zajistit poţadavek na obnovu dat nejen po selhání hardwarové komponenty, napadení škodlivým softwarem, ale i po ţivelné katastrofě nebo po sabotáţi. Dlouhá ţivotnost záznamu, kdy doba skladovatelnosti dosahuje aţ 30 let, umoţňuje pouţít pásky jako nezávislá média i pro archivaci dat. Důleţitou výhodou je snadná škálovatelnost kapacity ukládaných dat. I při řádově vyšších nárocích na kapacitu je moţné média jednoduše dokoupit a tyto poţadavky prakticky okamţitě uspokojit. Při výběru konkrétní páskové technologie, která by zabezpečila zálohování většího objemu dat a vyšší rychlost zápisu, jsem se na základě vícekriteriálního hodnocení variant přiklonil k dostatečně prověřené technologii LTO. Jedná se o otevřený standard definovaný společnostmi IBM, HP a Seagate s vynikajícím poměrem ceny a výkonu. Jak jsem jiţ uvedl v teoretické části práce, byla nejnověji uvedena LTO technologie generace páté. Přestoţe měla cena, díky přesvědčivé argumentaci, niţší váhu neţ ostatní parametry, rozhodl jsem se díky mimořádně výhodné nabídce pro technologii LTO4. Parametry těchto páskových mechanik plně postačí při současném tempu růstu objemu dat nejen pro období jejich pořízení, ale s dostatečnou rezervou ještě nejméně po několik dalších let. Pro eliminaci časově náročných rutinních činností, spojených s výměnou a rotací médií, budou LTO mechaniky obsluhovány robotizovaným systémem, který dále minimalizuje vliv lidského faktoru. Automatická výměna médií v rámci jednoznačně definované zálohovací strategie zajistí odstranění dalších nedostatků, jako absenci provádění záloh mimo pracovní dny, prokazatelnou míru pouţití jednotlivých médií, pravidelné čištění páskových mechanik. Další výhoda tkví v tom, ţe páskové mechaniky jiţ nebudou přímo připojené k zálohovaným serverům. Samostatné síťové páskové zařízení umoţní zálohování více serverů na jedno zařízení. Na trhu bylo nabízeno několik srovnatelných zařízení. Po zváţení moţných alternativ, specifických poţadavků podnikových aplikací, systémů, jejich provozního reţimu, objemu dat a nákladů jsem vybral modulární páskovou knihovnu IBM TS3310 z kategorie střední třídy. Mezi výhody pouţití tohoto řešení mimo jiné patří: bezproblémová integrace do stávajícího prostředí - prakticky ověřeno s HP-UX 11.0 a Windows 2003. Komponenty provozované společností AB jsou převáţně z produkce IBM, splňuje poţadavky na vysoký výkon - krátké časové okno pro zálohy dat,
51
kapacita jedné pásky je 800 GB nebo aţ 1600 GB při kompresi 2:1, vysoká přenosová rychlost aţ 120 MB/s, rozšiřitelnost podle aktuálních potřeb aţ do kapacity 321 TB nativně, IBM je společně s HP a Seagate zakladatelem konsorcia LTO, otevřený standard, lze kombinovat mechaniky a média různých výrobců, ohlášen roadmap pro další generace, podpora ze strany významných producentů archivačního software, logické členění, moţnost kombinace s archivačním software, podpora heterogenního prostředí, sdílení robotiky. Základní modul knihovny s montáţním rozměrem 5U nese označení L5B. Obsahuje veškeré mechanizační a řídicí prvky, nezbytné pro správu systému knihovny. Tento modul můţe obsahovat aţ 36 kazet, z toho 30 slotů pro ukládání kazet, 6 slotů pro vstupy a výstupy a dvě páskové mechaniky typu LTO čtvrté generace. Lze jej rozšířit pouţitím doplňkových rozšiřovacích jednotek E9U. Jednotka E9U obsahuje 92 slotů pro uloţení kazet LTO a také prostor pro čtyři další páskové mechaniky typu LTO. Díky tomu, ţe zařízení TS3310 vyuţívá patentovanou architekturu Multipath IBM, jej lze rozčlenit na logické knihovny, pouţívající jednotlivé instalované páskové mechaniky. Tyto logické knihovny je moţné připojovat k celému spektru serverů, provozovaných na různých operačních systémech, zabezpečujících chod širokého spektra aplikací. [18] Výběr vhodného software pro zálohování dat podmiňovala do značné míry zvolená zálohovací technologie a naopak. Největším omezením však byl poţadavek na schopnost On-line zálohování hlavní provozní databáze, provozované na platformě Informix. Po širších úvahách jsem proto doporučil centrální zálohovací řešení firmy IBM Tivoli Storage Manager. Zaručuje rychlé a víceúrovňové zálohování, navíc v prostředí mnoha operačních systémů, aplikací a databází. Obsahuje produkt Data Protection for Informix s funkcemi centralizovaného přírůstkového zálohování Informix On-line, umoţňující obnovu a správu databází serveru Informix i příslušných logických protokolů. TSM téţ umoţňuje speciální způsob ukládání dat, kdy jsou tato uloţena nejprve na takzvaný backup pool, tedy úloţný prostor vytvořený zpravidla na pevném disku, a aţ následně jsou tato data přesunuta na páskovou mechaniku. To v případě potřeby umoţňuje
52
minimalizovat dobu provádění zálohy. Mezi další zvaţované výhody patřila moţnost zálohy nebo archivace z jakéhokoliv serveru či dokonce pracovní stanice v síti a moţnost centrální správy. Tuto správu můţe vykonávat větší počet předem definovaných správců s jednoznačně vymezenými právy.
6.2 Instalace zálohovací knihovny Vlastní fyzická instalace knihovny IBM TS3310 proběhla bez obtíţí. Vzhledem k tomu, ţe k ní došlo v zimním období, bylo nutno vyčkat na dokonalé vyrovnání teplot, aby nedošlo k orosení vnitřních součástí. Knihovna byla vybavena čtyřmi páskovými mechanikami LTO 4. Připojení k firemní síti je realizováno pomocí FC rozhraní. Napájení knihovny je zabezpečeno pomocí zálohovaného silového rozvodu elektrické energie. Na níţe uvedeném obrázku jsou patrné v knihovně zaloţené pásky LTO 4, opatřené čárovými kódy. Ty umoţňují jejich rychlou a přesnou identifikaci. Dále je zachycena zadní stěna knihovny s rozvody napájení, optickými a metalickými síťovými kabely.
Obrázek 6.01: Instalace páskové knihovny IBM TS3310. Zdroj: vlastní úprava
6.3 Instalace zálohovacího software V této podkapitole se chci zabývat především instalací klientů TSM, instalace TSM serveru byla provedena podle doporučených postupů firmy IBM. Díky tomu, ţe všechny instalační balíčky TSM mají jeden zastřešující instalační nástroj, proběhla instalace produktu TSM na operační systém Windows bez obtíţí. V průběhu instalace je obsluha dotazována na název serveru, cesty k vybraným adresářům a vyzývána k odsouhlasení 53
licencí. Nastavení TSM serveru se ukládá do souborů dsmserv.opt a dsmserv.dsk. Soubor dsmserv.opt obsahuje konfigurační nastavení TSM serveru a soubor dsmserv.dsk nastavení cest k TSM databázi. Pokud jsem provedl změnu nastavení v souboru dsmserv.opt, musel jsem běh TSM Serveru zastavit a poté znovu spustit, aby se změna projevila. Zálohovací klient TSM plní dvě role, administrativní a zálohovací. Skládá se z více komponent, z nichţ jsou některé při instalaci povinné, jiné volitelné. Administrativní klient je k dispozici v grafické podobě, ve znakové formě nebo vyuţívá webové technologie. Můţe být nainstalován přímo na TSM serveru nebo na jiném počítači, který je síťově propojen se serverem TSM. Z prostředí TSM klienta je moţné spravovat server TSM, tedy sledovat jeho činnost, měnit parametry, definovat přístupová oprávnění, plánovat a spouštět zálohování, případně obnovovat data klientů. Na servery, jejichţ data mají být zálohována, je nutné nainstalovat speciální programové vybavení, tedy zálohovacího klienta. Zálohovací klient zabezpečuje zálohu příslušných dat na server TSM a případně je ze serveru TSM také obnovuje. Klient můţe definovaná data zálohovat na svoji přímou ţádost nebo automaticky na základě časového plánu uloţeného na serveru TSM. V případě automatického zálohování běţí na počítači, kde je nainstalován klient, v pozadí proces, čekající na pokyn serveru TSM. Největší počet instalací TSM klienta jsem prováděl na operačním systému Microsoft Windows Server 2003, proto zde pro ilustraci uvedu základní kroky. Instalaci je moţné provádět dvěma způsoby. Jedním z nich je vyuţití grafického instalačního průvodce, který jsem při instalaci zvolil, druhý umoţňuje tichou instalaci pomocí příkazové řádky. Po spuštění instalačního programu z CD a výběru platformy pro instalaci jsem byl vyzván k případné změně cílového adresáře, kterým je typicky C:\Program Files\Tivoli\TSM. Instalaci je dále moţné zvolit uţivatelskou nebo typickou, která nainstaluje minimálně nezbytné programy nutné pro obsluhu obvyklých zálohovacích funkcí. Protoţe jsem chtěl mít průběh a obsah instalace pod větší kontrolou, zvolil jsem instalaci uţivatelskou. Zde je moţné vybrat součásti instalace. První tři součásti Backup-Archive Client GUI Files, Backup-Archive Client Web Files a Client API Runtime Files jsou povinné, ostatní volitelné. Pokud je ţádoucí spravovat i vlastní TSM server pomocí řádkových příkazů na cílovém serveru, označí se k instalaci poloţka Administrative Client Command Line Files. Další volby Client API SDK Files a Logical Volume Snapshot Agent jsem ponechal neoznačené. Systém si po instalaci vyţádal restart. Instalace klientů TSM na cílové
54
servery proběhla vţdy bez obtíţí, přispívá k tomu i přehledně zpracovaný průvodce instalací. [16] Při spuštění rozhraní GUI je zkontrolována existence uţivatelsky definovaného souboru voleb, a pokud není nalezen, typicky v případě poprvé instalovaného klienta, spustí se automaticky průvodce nastavením. Konfiguraci tohoto souboru voleb se blíţe věnuji v následující podkapitole. Před konfigurací klienta je vhodné prověřit nastavení systémových proměnných. V prostředí Windows se jedná zejména o: DSM_CONFIG … úplná cesta a název konfiguračního souboru voleb dsm.opt DSM_DIR … úplná cesta k binárním souborům klienta DSM_LOG … adresář pro ukládání informativních logů
6.3.1 Konfigurace souborových serverů Po instalaci klientské části TSM je nutné nakonfigurovat několik nejdůleţitějších parametrů. K tomu lze také vyuţít připraveného grafického průvodce. Mezi nejdůleţitější konfigurační údaje patří jméno klienta, komunikační port, TCP adresa serveru, přístupové heslo, oblasti zálohování a definice souborů záměrně vyjmutých z procesu zálohování. Většina těchto údajů se uloţí do souboru voleb dsm.opt, který je typicky u serverů s Windows platformou uloţen v adresáři C:\Program Files\IBM\Tivoli\TSM\baclient. Konfigurační průvodce TSM klienta má několik přehledně uspořádaných kroků. Nejprve se dotáţe, zda má být vytvořen nový nebo importován jiţ existující soubor voleb. Stručně zde popíši tvorbu nového souboru. Jako první jsem zadal jméno klienta, označované jako nodename. V popisovaném případě to bylo jméno druhého souborového serveru společnosti AB, tedy FPS2. Následuje výběr komunikační metody TSM klienta s TSM serverem, v mém případě jsem zvolil první volbu TCP/IP. Dále se zadá IP adresa serveru a číslo portu, typicky 1500. V dalším okně se definují soubory, které mají být ze zálohování vyjmuty, v mém případě zejména dočasné soubory a soubory s vybranými extenty. Konečně na závěr se definují oblasti zálohování, typicky jednotlivé dostupné disky. Pro úspěšné dokončení konfigurace je nutné na TSM serveru nejprve vytvořit účty jednotlivých klientů a k nim přidělit hesla. Jako název účtů jsem pro přehlednost pouţil nodename
odpovídajících
serverů.
Na
následujícím
konfiguračního souboru typického pro souborový server.
55
obrázku
uvádím
příklad
Obrázek 6.02: Konfigurační soubor dsm.opt. Zdroj: vlastní úprava
6.3.2 Konfigurace provozního databázového systému Před vlastní konfigurací klienta provozního databázového systému musí být na TSM serveru zaregistrován účet daného klienta. Inicializace hesla se provede pomocí utility txbsapswd, která musí být spuštěna v kontextu uţivatele root. Dále je vhodné prověřit nastavení systémových proměnných. V prostředí Informix se jedná zejména o následující: DSMI_CONFIG … úplná cesta a název konfiguračního souboru voleb dsm.opt DSMI_DIR … úplná cesta k binárním a konfiguračním souborům klienta
56
Konfigurace připojení provozního databázového serveru k TSM je uloţena v adresáři /opt/tivoli/tsm/client/api/bin64, ve dvou souborech dsm.opt a dsm.sys. Vlastní nastavení jsou uvedená především v souboru dsm.sys. Náhled obsahu těchto souborů, nastavených podle poţadavků společnosti AB, je uveden na následujících obrázcích.
Obrázek 6.03: Konfigurační soubor provozního serveru dsm.opt. Zdroj: vlastní úprava
Obrázek 6.04: Konfigurační soubor provozního serveru dsm.sys. Zdroj: vlastní úprava
6.4 Zálohování hlavního databázového systému Způsoby zálohování hlavního provozního databázového serveru a příslušné pracovní postupy prošly zásadními změnami. Ty se týkají nejen způsobu, ale i časového plánu zálohování. Původně pouţívaný příkaz pro on-line zálohování ontape byl nahrazen 57
utilitou onbar. Výhodou utility onbar je moţnost paralelního provádění záloh. Vhodně nadefinované databázové prostory lze zálohovat najednou a tím podstatně zkrátit dobu jejich provádění. Naopak jednou ze zásadních nevýhod starší utility ontape byla nemoţnost spustit tento příkaz v reţimu na pozadí. V případě výskytu poţadavku na interaktivní vstup z terminálu, například při výzvě ke vloţení další pásky, tato výzva operátorovi unikla a prováděná záloha nebyla dokončena. Při přechodu mezi pouţíváním těchto dvou utilit je nutné si uvědomit, ţe data nelze zálohovat pomocí ontape a obnovit pomocí onbar nebo naopak kvůli odlišným formátům uloţení dat. Vlastní provádění záloh, respektive jejich spouštění, je nyní moţné automatizovat. Místo původních dvou záloh denně, prováděných navíc výlučně během pracovních dnů, je moţné provádět zálohy tři a to i mimo pracovní dny. K tomu slouţí standardní plánovač cron. Aby jej bylo moţné efektivně vyuţít, bylo nutné připravit dávkové soubory s nastavením
proměnných
prostředí.
Tyto
soubory
jsou
uloţeny
v adresáři
/opt/tivoli/tsm/client/informix/bin64. Plnou zálohu hlavní provozní databáze zabezpečuje dávkový soubor full-pro, archivní databáze soubor full-arc.sh. Inkrementální zálohy úrovně 1 a 2 jsou prováděny pomocí souboru inc1-pro, respektive inc2-pro. Náhled obsahu souboru full-pro uvádím pro ilustraci na následujícím obrázku.
Obrázek 6.05: Dávkový soubor pro plnou zálohu full-pro. Zdroj: vlastní úprava
58
Soubory zajišťující inkrementální zálohy se liší pouze v řádku s vlastním příkazem pro zálohování. Konkrétní postupy nově pouţívaných způsobů zálohování a jejich harmonogram, zasazený do širšího strategického rámce, s ohledem na specifika hlavního provozního systému a reţim jeho uţívání, popisuji v kapitole 7.
6.5 Náhradní způsob zálohování databázového serveru Přestoţe je nový systém zálohování dat spolehlivý a robustní, bylo u nejkritičtějšího systému společnosti AB na základě provozních a bezpečnostních poţadavků rozhodnuto o nutnosti nalézt a provozně vyuţívat náhradní způsob zálohování dat. Specifické prostředí databázového serveru Informix, provozovaného na platformě HP-Unix mnoho náhradních řešení neumoţňuje. Naštěstí se v poměrně nedávné době, od verze Informix Dynamic Server 10.0, objevila nová moţnost pouţití původního zálohovacího příkazu ontape. Cílovým zařízením pro zálohování jiţ nemusí být pouze páskové zařízení. Pomocí úpravy konfiguračního souboru onconfig příslušného Informix Dynamic Serveru, jmenovitě sekce ontape Tape Device, je moţné pro zálohování a obnovu dat vyuţít standardní rozhraní STDIO (Standard Input Output).
Obrázek 6.06: Nastavení parametru TAPEDEV v souboru onconfig. Zdroj: vlastní úprava Po úpravě zachycené na obrázku 6.06 mohou být zálohovaná data nasměrována přímo na souborový systém nebo na sdílené úloţiště se systémem NFS (Network File System). Výsledný soubor však měl v mém případě enormní velikost, proto jsem vyuţil moţnosti provádět zálohování dat přes kompresní filtr gzip. Díky tomu vznikl jediný komprimovaný soubor, v mém případě o velikosti 80GB, při aktuální velikosti hlavní provozní databáze 450GB.
59
Pro ilustraci zde uvádím přesnou syntaxi příkazu, pouţitého při tomto náhradním způsobu zálohování a další příkaz pro obnovu takto zálohovaných dat. ontape -s -L 0 | gzip -1 > /net/192.168.1.33/backup/prod_20110921.gz cat /net/192.168.1.33/backup/prod_20110921 | gunzip | ontape -r -v -t STDIO Při pouţití příkazu ontape je třeba mít na paměti, ţe výsledné zálohy nejsou se zálohami provedenými příkazem onbar kompatibilní. To se zvlášť týká inkrementálních typů záloh, před provedením kterých, musí být vţdy příslušným způsobem provedena záloha plná. Výkonnost tohoto náhradního řešení je při aktuálně pouţitých technologiích méně neţ poloviční, záloha hlavní provozní databáze trvala přibliţně pět hodin. I přes tuto nevýhodu se však jedná o praktický způsob provádění záloh v případě nedostupnosti hlavního zálohovacího systému, případně při mimořádných situacích, jako je záloha před migrací systému nebo před exportem a importem databáze.
6.6 Zálohování souborových serverů Po napojení na TSM a základní konfiguraci souborových serverů byla naplánována jejich první záloha. Ta se od následujících liší tím, ţe je jako jediná úplná. Další zálohy obsahují jiţ pouze modifikované soubory. Firma IBM tento způsob zálohování označuje termínem Incremental Forever (přírůstková navţdy). Jedná se o jedinečný princip zálohování, kdy není třeba opakovaně provádět plné zálohy, coţ výrazně sniţuje dobu nutnou pro jejich provedení. Pravidelná kompletní souborová záloha serveru je proto velmi rychlá, v praxi v řádu několika desítek minut. Při obnově dat není nutné obnovovat plnou zálohu a následně inkrementální. Obnovují se pouze poţadované verze souborů. Pro podporu této technologie existuje v TSM několik mechanismů, zabezpečujících třídění a reorganizaci dat tak, aby byla efektivně vyuţívána média a optimalizována rychlost obnovy. Součástí zálohovací strategie mohou být pravidla pro nastavení doby trvanlivosti zálohovaných dat a uchovávání daného počtu verzí jednotlivých souborů. Kaţdá poslední verze zálohovaného souboru je označena jako aktivní a všechny jeho starší verze jsou označovány jako neaktivní. Při zjištění, ţe byl soubor smazán z disku klienta, je i jeho aktivní záloha označena za neaktivní a jsou na něj uplatněna stejná pravidla, jako pro smazané soubory. [17]
60
6.7 Administrace TSM Administrace TSM je obsáhlá problematika, kterou zde vzhledem k rozsahu práce nemohu popisovat detailně. Nechci ji však zcela pominout, neboť v době, kdy jsem zálohování pomocí TSM v podniku AB zaváděl, byly k dispozici pouze anglicky psané manuály. Zmíním proto některé základní pojmy, principy a vybrané činnosti, se kterými se administrátor TSM při své práci nutně setká a bez jejichţ znalosti se neobejde. Pro detailní obeznámení s touto problematikou jsou pořádána speciální školení. Kurz, který je určen administrátorům k základnímu seznámení se zálohovacím systémem IBM Tivoli Storage Manager, seznámí účastníky s implementací a následnou základní administrací TSM serveru během čtyř dnů.
6.7.1 Správa úložišť TSM V zálohovacím systému TSM můţe být definováno několik druhů datových úloţišť. V případě společnosti AB se jedná o Disk Storage (diskové úloţiště) a Tape Library (pásková knihovna). Výhodou diskového úloţiště je vysoká rychlost obnovy dat, zvláště jednotlivých souborů. Nevýhodou je, ţe zálohy dat na discích není běţně moţné transportovat do vzdálené lokality. Pásková knihovna má na rozdíl od autoloaderu nebo diskrétní páskové mechaniky k dispozici dvě nebo více páskových mechanik a větší počet úloţných slotů na pásková média. V případě velkých modulárních knihoven se počty páskových médií mohou pohybovat v řádu několika stovek. Větší počet páskových mechanik a úloţných slotů přináší moţnost zpracování více různých úloh najednou a zjednodušení operací zaměřených na optimalizaci vyuţití prostoru na médiích. Tato datová úloţiště, slouţící k ukládání zálohovaných dat, je potřeba nejprve definovat, aby TSM server věděl, kam má která data umisťovat. Datové zálohovací úloţiště je označováno pojmem Storage Pool. Kaţdý Storage Pool musí mít unikátní název. Vhodné je nadefinovat jej tak, aby jiţ z jeho názvu bylo patrné, o jaký typ úloţiště se jedná. Nejčastěji pouţívané typy úloţišť jsou disková úloţiště s náhodným zápisem, disková úloţiště se sekvenčním zápisem a pásková úloţiště se sekvenčním zápisem. TSM dokáţe kombinovat tyto různé typy úloţišť, a data mezi nimi kopírovat či přesouvat na základě definovaných pravidel. [19]
6.7.2 Migrace Pojem migrace označuje jeden ze základních principů, který je podmínkou efektivního nasazení zálohovacího systému TSM. Migrace zajišťuje automatizované přesuny dat mezi
61
datovými úloţišti různých parametrů, jako jsou různé rychlosti a velikosti médií s ohledem na to, zda lze tato média fyzicky vyjmout či nikoli. Pro nastavení kriterií migrace jsou vyuţívány dolní (LO) a horní (HI) prahové body. Ty slouţí pro identifikaci určitého stupně zaplnění daného datového úloţiště, při kterém začne migrace dat. Migrace se nevztahuje na datová úloţiště, slouţící pro bezpečnostní duplikaci dat. [19]
6.7.3 Collocation Standardně jsou při zálohování na jednu pásku ukládána data z různých zdrojů, v terminologii TSM jsou nazýváni klienti. Volitelně lze aktivovat Collocation (kolokaci), při jejímţ uplatnění jsou data jednotlivých klientů ukládána na samostatné pásky. Výhodou je rychlá obnova dat daného klienta. Nevýhodou jsou vyšší nároky na počet pásek a jejich častější výměna při zálohování různých klientů. Collocation je moţno zapínat pouze u datových úloţišť se sekvenčním zápisem. [19]
6.7.4 Reclamation V závislosti na nastavených politikách, například na počtu udrţovaných verzí souboru, mohou data uloţená na páskách postupně ztrácet platnost. Po takto uvolněných datech zůstávají na pásce volná místa. Protoţe je u nich uplatněn sekvenční zápis, nelze tyto volné prostory jiţ dále zaplňovat. Po nějaké době tak můţe být vyuţitelnost pásky jen několik desítek procent. Aby systém mohl pásku opět více vyuţít, musí se vybraná data přesunout jinam. Tento proces se nazývá Reclamation (reklamace). Pokud je k dispozici více páskových mechanik, probíhá přesun automaticky mezi dvěma páskami. Jedna pásková mechanika data čte a druhá je zapisuje. Uvolněná místa na páskách jsou tak opět připravena k pouţití. [19]
Plánování automatických akcí Pro správný běh TSM serveru je nutné pravidelně provádět administrativní příkazy, které lze sdruţovat do skriptů. Spuštění jednotlivých nadefinovaných skriptů je moţné naplánovat pomocí příkazu define schedule. Takto se plánují úlohy, jako jsou spuštění a zastavení migrace dat, exspirace, reclamation, záloha vlastní TSM databáze. Prostředí TSM umoţňuje podrobné nastavení toho, kdy má daná úloha probíhat, v jaké konkrétní hodiny, dny, týdny či měsíce má být spuštěna, případně i ukončena. Rozpis plánovaných administrativních akcí lze získat pomocí příkazu query schedule type=administrative, informace o průběhu těchto akcí pomocí příkazu query event.
62
6.7.5 Policy Management Policy Management (správa zásad) je sada parametrů určujících, kam se budou zálohovaná data ukládat, kolik verzí jednoho souboru bude udrţováno a jak dlouho budou daná data uchovávána.
6.7.6 Databáze TSM TSM Server si do své databáze ukládá informace o všech objektech, zálohovaných do datových úloţišť. Bez této databáze nelze provádět zálohy ani obnovy dat. Na její výkonnosti a zabezpečení záleţí optimální výkon TSM serveru. Pro zvýšení bezpečnosti výrobce doporučuje její zrcadlení. Protoţe čtení dat z této databáze převaţuje nad zápisy, je zde za optimální povaţován RAID 1, RAID 1+0 nebo RAID 5. Pokud jsou poţadavky na rychlost obnovy dat vysoké, je vhodné pouţít více disků. Velikost databáze je potřeba navrhnout s ohledem na předpokládané mnoţství zálohovaných dat. Hrubé odhady hovoří o potřebě 1KB na popis jednoho zálohovaného souboru. Popis kaţdé další verze souboru v databázi zabírá 500B, přičemţ vlastní reţie databáze můţe být i 25 procent. SQL dotazy se zpracovávají ve volném prostoru databáze. Součástí TSM databáze je i denník aktivit. Pro potřeby administrace je vhodné nastavit udrţovanou historii tohoto deníku na zhruba 30 dní nebo na nějakou vhodnou pevnou velikost. Důleţité je neopomenout, ţe databázi TSM je třeba také zálohovat a to nejméně jednou denně, nejlépe po provedení plánovaných záloh. [19]
6.7.7 Registrace administrátorů TSM server umoţňuje registrovat více typů administrátorů systému. Administrátor na úrovni systému má nejvyšší oprávnění, umoţňující veškeré operace se systémem bez omezení. Administrátor správy politik je oprávněn spravovat sadu parametrů, definujícich jaké servery a která data na nich uloţená budou zálohována. Jeho práva mohou být omezena na předem definované domény. Administrátor na úrovni manaţera úloţišť je oprávněn spravovat existující datová úloţiště, tvorbu logů a provádět změny v TSM databázi. Nemůţe tedy definovat nová datová úloţiště nebo rušit stávající. Pro tyto operace je zapotřebí mít přístupová práva na úrovni systému. I tato úroveň administrátorských oprávnění můţe být omezena pouze na některá, předem definovaná datová úloţiště. Dalším typem administrátorských účtů je takzvaný uzlový administrátor, který můţe provádět vzdálené zálohování a obnovu dat pomocí webového klienta. Toto oprávnění můţe být nastaveno pouze pro určité oblasti nebo pro celou doménu.
63
Administrátor na úrovni analytik můţe zadávat příkazy zobrazující stav systému a mazat statistické údaje o činnosti serveru. Konečně administrátor na úrovni operátor můţe pouze sledovat provoz serveru, dostupnost a stav jednotlivých médií. [19] Pro kaţdý definovaný administrátorský účet jsou evidovány veškeré zadané příkazy, coţ lze vyuţít při následné kontrole. Po instalaci TSM serveru je automaticky vytvořeno několik administrátorských účtů. Účet SERVER_CONSOLE je určen pro nouzové obnovení systému a není moţné jej smazat či změnit jeho oprávnění. Druhý účet, ADMIN_CENTER, slouţí pro webovou administraci serveru. Dalším účtem je účet ADMIN, který má maximální oprávnění. Ostatní administrátorské účty je nutné vytvořit na základě aktuálních potřeb dané společnosti.
64
7 Tvorba zálohovací strategie Předmětem této práce je záměrně pouze uţší problematika zálohování a obnov dat. Při tvorbě celkové zálohovací strategie však nesmí být zapomínáno na zálohy operačních systémů, hardwarových prostředků, případně na definici náhradních provozních prostor. Ty jsou ve společnosti AB řešeny vlastními pracovními postupy a předpisem o obnově provozu v případě ţivelné události. Jedná se o obsáhlé téma a jeho charakteristika by byla nad rámec rozsahu této práce. Zároveň v této práci není uvedeno napojení dalších serverů společnosti AB, jako jsou poštovní a SAP systémy, s jejichţ napojením na zálohovací systém TSM je počítáno v následující etapě. Při tvorbě zálohovací strategie je třeba porozumět hodnotám uloţených dat. Reálně existují aplikace, které mohou být mimo provoz po více neţ jeden den bez nějakého zásadního dopadu. Jsou však i aplikace, u kterých můţe minutový výpadek zapříčinit vysoké finanční ztráty nebo mít dokonce katastrofické následky pro další obchodní aktivity společnosti. V odborné literatuře se setkávám se dvěma hlavními kritérii pro zhodnocení správné volby zálohovací strategie. Jedná se o RTO (Recovery Time Objective), tedy poţadavek na čas obnovy a RPO (Recovery Point Objective), poţadavek na bod obnovy. První se týká doby, po kterou můţe být daný podnikový proces mimo provoz bez negativního dopadu na podnik. Druhé se týká otázky maximálního mnoţství dat, které je moţné ztratit. Zde je také nutné zabývat se tím, kdy bude opět k dispozici opravdu plnohodnotně provozuschopný systém. [5] Jiţ při prvních úvahách nad vhodným zálohovacím plánem jsem si uvědomoval, ţe by měl být především přehledný, měl by pokrývat poţadavky na bezpečné zacházení s daty a optimálně vyuţívat čas a technické prostředky. Pro kaţdý zálohovaný systém jsem se snaţil stanovit optimální zálohovací strategii, typ a frekvenci záloh, odpovídající povaze zálohovaných dat, jejich důleţitosti, reţimu vyuţívání dat. Také jsem byl nucen zohlednit zachování moţnosti mimořádného zálohování dat pro účely jejich obnovy na testovacím prostředí. Všechny tyto dílčí strategie bylo poté nutno vhodně skloubit, aby nedocházelo k nerovnoměrnému zatěţování zálohovacího serveru a páskové knihovny. Výsledkem je celkový zálohovací plán, který zde ve zjednodušené podobě uvádím. V tomto plánu jsou jiţ dopředu uvaţovány další servery a odpovídající časová okna pro provádění jejich záloh. Z grafického znázornění je patrná nejméně hodinová rezerva, vyhrazená pro kaţdé zálohování provozního databázového serveru.
65
Obrázek 7.01: Celkový zálohovací plán. Zdroj: vlastní úprava Po úspěšné implementaci zálohovacích strategií musí následovat pravidelné revize a neustálé testování obnov dat. Účelem je nejen ověření konzistence a obnovitelnosti zálohovaných dat, ale téţ prověření připravenosti technického prostředí a pracovníků. Výsledkem testování musí být případné doplnění či oprava předem zpracovaného postupu záloh a obnov dat. S dalšími úpravami těchto strategií je nutné počítat v případě změn aplikací, zvýšení objemu dat, zavedení nových technologií a operačních systémů, legislativních opatření k nakládání s daty, případně na základě dalších vlivů.
7.1 Zálohovací strategie provozního databázového systému Hlavní časová a provozní omezení, která vzhledem k zálohování přináší provoz databázového systému společnosti AB, jsem zmínil v kapitole věnované rozboru stávajícího stavu zálohování ve firmě. Mimo zohlednění těchto omezení a poţadavků je nutno u databázového stroje provádět zálohu pokud moţno k jednoznačně definovanému stavu. To je důleţité přestoţe nebo právě proto, ţe se jedná o on-line zálohu, kterou je moţné provádět i za běţného provozu. Zohlednění této úvahy se vyplatí v nejkritičtějším okamţiku, totiţ při výskytu potřeby obnovy dat. Po provedení obnovy nebudou uţivatelé a správci nuceni šetřit, která data právě obnovená databáze ještě obsahuje a která jiţ ne. Provoz databázového serveru navíc vyţaduje pravidelné odehrávání zaplněných 66
logických logů a tato činnost můţe v závislosti na provádění záloh postihnout i vlastní provoz serveru a práci uţivatelů. Z toho důvodu jsem odehrávání logických logů zařadil v časovém rozvrhu bezprostředně vţdy po provedení plné nebo diferenciální zálohy databázového serveru. Jako optimální jsem po zváţení všech okolností a provedení příslušných testů nakonec stanovil harmonogram, jeho část uvádím pro přehlednost v následující tabulce. Časy spuštění odehrávání logických logů a doby běhů jsou orientační, závisí na mnoţství zálohovaných dat a aktuálním provozním zatíţení serveru. Čas spuštění
Typ zálohy
Úroveň
Doba běhu
Periodicita
Databáze
00:00
plná
0
01:30
denní
provozní
01:30
logické logy
-
00:20
denní
provozní
12:00
diferenciální
1
00:45
denní
provozní
12:45
logické logy
-
00:10
denní
provozní
18:30
diferenciální
2
00:45
denní
provozní
19:15
logické logy
-
00:10
denní
provozní
03:00
plná
0
00:30
týdenní
archivní
04:00
logické logy
-
00:10
týdenní
archivní
Tabulka 7.01: Harmonogram záloh provozního db serveru - výběr. Zdroj: vlastní úprava
7.2 Zálohovací strategie souborových serverů Tivoli Storage Manager umoţňuje administrátorovi definovat, kolik verzí záloh bude zpětně udrţováno. To je výhodné, pokud se objeví poţadavek na obnovu starší verze daného souboru nebo při záloze jiţ poškozeného či uţivatelem nechtěně modifikovaného souboru. Jak jsem jiţ zmínil, nejnovější verze zálohovaného souboru se nazývá aktivní verze, všechny starší jsou označované jako neaktivní. Vţdy, kdyţ TSM zálohuje soubory, označí jejich nejnovější verze jako aktivní a původně aktivní záloha se stane neaktivní. Kdyţ počet neaktivních dosáhne definované meze, TSM automaticky vymaţe nejstarší neaktivní verzi. Pro souborové servery společnosti AB jsem stanovil denní periodicitu zálohování dat. Zálohy se spouští ve 20 hodin, po ukončení běţného provozu uţivatelů.
67
Obrázek 7.02: Nastavení plánovače záloh na souborovém serveru. Zdroj: vlastní úprava Počet neaktivních verzí souborů je stanoven na základě předchozích zkušeností na tři. Doba zálohování souborových serverů odpovídá v praxi předpokladům, jedná se řádově o desítky minut a opět záleţí na konkrétní situaci, zejména s ohledem na počet a velikost modifikovaných souborů.
7.3 Fyzické zabezpečení zálohovaných dat Nedílnou součástí zálohovací strategie musí být patřičné fyzické zabezpečení zálohovaných dat. U středně velké firmy, jakou je i společnost AB, je obvyklé, ţe má dostatečně zabezpečený prostor ve formě samostatné serverové místnosti. Přístup do ní mají pouze oprávněné osoby, které zde mimo jiné zabezpečují pravidelné a pracovními postupy řádně popsané zálohovací procesy. Pokud má být na takto zálohovaná data opravdu spolehnutí, musí být zajištěno jejich fyzické uloţení v nějaké vzdálené lokalitě. Toto úloţiště však musí splňovat stejné nebo dokonce vyšší poţadavky na bezpečnost, neţ lokalita provozní. Nejsnazším řešením bylo umístění příslušných médií v poţárně odolném trezoru, který je umístěn v podzemním podlaţí. Přístup k němu a trezorové klíče má k dispozici pouze uţší okruh oprávněných osob. Tím je minimalizováno nebezpečí záměrného zničení dat. Ideální stav, kdy by sem měly přístup pouze jiné oprávněné osoby, neţ ty s přístupem do místnosti se servery, není z řady důvodů realizován. Vybrané měsíční zálohy jsou navíc transportovány do bankovní bezpečnostní schránky. To však s sebou přináší další rizika,
68
spojená především s transportem médií a s jejich nedostupností mimo otevírací dobu pobočky banky. Optimálním řešením bude vybudování speciálního vzdáleného pracoviště. Do něj bude následně přesunuta zálohovací knihovna a zálohování dat bude prováděno přímo do této vzdálené lokality.
69
8 Monitoring zálohovacích procesů Kaţdý provozovaný systém je třeba monitorovat, sledovat průběh naplánovaných úloh a procesů. Na základě těchto sledování a statistických informací lze odhalovat odchylky, chyby a provádět optimalizaci systému. Sledování průběhu a výsledků naplánovaných zálohovacích procesů, administrátorem definovaných systémových a údrţbových procesů a vyhodnocování logů proto patří k novým důleţitým úkolům zaměstnanců provozního oddělení IT ve společnosti AB. Tyto postupy jsem se snaţil maximálně zjednodušit tak, aby byl rozdíl v náročnosti správy zálohování v původním pojetí a po zavedení nového systému markantní. Monitorování je moţné provádět více způsoby, při běţném provozu je vhodné tyto způsoby kombinovat. Záměrně zde jiţ nehovořím o pracovních postupech zálohování, ale o procesech zálohování. Rozdíl vidím v koordinovaném plánování, prokazatelném monitorování průběhu a v existenci vazby, která je v případě potřeby schopna zpětně ovlivnit termíny a způsoby provádění záloh.
8.1 Manuální kontroly zálohovacích procesů Kontroly je moţné provádět pomocí přímého zadávání příkazů z příkazového řádku administrátorského rozhraní TSM. Tento způsob je výhodný především při mimořádných situacích, či pokud je třeba získat detailnější informace o stavu obsazení jednotlivých médií, o jejich počtu pouţití, či o průběhu zálohovacích a administrativních procesů. Textové uţivatelské rozhraní TSM poskytuje velmi širokou podporu různého strukturování, kombinování a zkracování příkazů. To vede ke značné nepřehlednosti jak uţivatelských manuálů, tak i vlastní nápovědy vyvolávané příkazem help. Vzhledem k tomu, ţe v době přípravy této práce nebyl k dispozici český manuál, vytvořil jsem pro administrátory společnosti AB tabulky s nejčastěji pouţívanými příkazy. Na jejich základě jsem poté připravil jednotlivé pracovní postupy. Část tabulky s příkazy pro monitorování systému zde pro ilustraci uvádím. V příloze č. 2 je uvedeno několik otisků obrazovek řádkového rozhraní TSM s výsledky zpracování příkazů a krátkým popisem jejich významu.
70
Příkaz
Popis
query drive
dotaz na aktuální stav páskových mechanik v knihovně
query dbvolume
kontrola synchronizace databáze TSM
query logvolume
kontrola synchronizace logů databáze TSM
query volume devclass=disk kontrola stavu a obsazení diskových storage pool query volume
kontrola stavu a obsazení jednotlivých pásek
query db
statistiky velikosti a aktuálního obsazení databáze TSM
query log query volhistory type=dbbackup query actlog
statistiky velikosti a aktuálního obsazení prostoru pro logy verifikace plánované zálohy vlastní TSM databáze
query mount
kontrola logu aktivit, moţno omezit volbou search=??? výpis výsledků naplánovaných úloh, je nutné omezit jej volbami, například begind=01/14/2011 endd=today aktuální obsazení mechanik páskami
query archive
zobrazí seznam archivovaných souborů
query backup
zobrazí seznam záloţních verzí
query session
zobrazí informace o aktuálních relacích
query systeminfo
zobrazí systémové informace o TSM
query event
Tabulka 8.01: Příkazy pro monitorování TSM – výběr. Zdroj: vlastní úprava
8.2 Automatizovaná systémová hlášení Interaktivně prováděné manuální kontroly běhu TSM a kontroly naplánovaných uţivatelských úloh, typicky záloh, mohou sice poskytnout zcela detailní informace, pro běţné kontroly průběhu zálohování jsou však zbytečně pracné a časově náročné. Proto jsem se snaţil vyuţít výhod nabízených zálohovacím řešením TSM. Mezi ně bezesporu patří jednoduchá moţnost zasílání výsledků provedených záloh pomocí zpráv elektronické pošty. Pro tento účel byla ve společnosti AB ve veřejných sloţkách poštovního systému zaloţena schránka s názvem admin. Do ní jsou směrovány vybrané zprávy a administrátoři společnosti zde mohou velmi jednoduše na jednom místě kontrolovat výsledky naplánovaných záloh. Kromě nich jsou sem nasměrována také důleţitá systémová hlášení TSM serveru. Základní souhrnné hlášení TSM poskytuje nejdůleţitější údaje, uspořádané do přehledných sekcí. První sekce obsahuje informace o celkovém výsledku naplánovaných administrátorských úloh, úhrn objemu zálohovaných
71
dat, informace o záloze, vytíţení a obsazení vlastní TSM databáze. Dále počet pouţitých pásek a čas, po který byly dané pásky pouţívány. Důleţitými údaji jsou počty nedostupných pásek, případně pásek označených pouze pro čtení. Posledními údaji v první sekci jsou počet administrátorů a zaregistrovaných serverů, rozdělených podle podporovaných typů. V druhé sekci jsou uvedeny detaily naplánování a skutečného spuštění administrátorských i uţivatelských úloh. Následuje grafické znázornění vybraných událostí po hodinách daného dne, detailní výpis aktivit jednotlivých serverů a výpis logu aktivit TSM. Systémové hlášení uzavírá detailní výpis počtu souborů spolu s objemy zálohovaných dat.
8.3 Výkonnost zálohování Výkonnost nového způsobu zálohování potvrdila očekávání a s dostatečnou rezervou nyní vyhovuje potřebám organizace. Vysoká přenosová rychlost technologie LTO a ostatních uplatněných technologií umoţnila zkrácení doby zálohy provozního databázového serveru z více neţ šesti hodin na 90 minut. K obdobnému posunu došlo i při obnově dat. Zde se doba obnovy zkrátila o více neţ 4 hodiny. U souborových serverů je výkonnost zálohování také více neţ dostatečná. Mnoho hodin trvající zálohy a obnovy dat jsou minulostí. Následující graf porovnává doby trvání provádění záloh provozního databázového serveru původním a novým způsobem. Postupné prodluţování doby zálohy je způsobeno nárůstem objemu dat. K největšímu nárůstu objemu dat dochází v souvislosti s výpočty, prováděnými během měsíční uzávěrky.
Obrázek 8.01: Doba trvání záloh provozního databázového serveru. Zdroj: vlastní úprava
72
Z materiálů IBM vyplývá, ţe výkonnost přírůstkových záloh můţe být výrazně sníţena, pokud zálohovaný klient nemá dostupný dostatečný objem paměti před spuštěním zálohy. Pokud není moţné velikost paměti ovlivnit, lze do souboru voleb dsm.opt zadat hodnotu Yes u proměnné s názvem memoryefficientbackup. Tím se sníţí spotřeba paměti, ale prodlouţí se doba zálohování. TSM potom totiţ provádí analýzu a výběr dat pro zálohování po jednotlivých adresářích. [19]
73
9 Testování obnovy dat Data musí být nejen pravidelně zálohována, neméně důleţité je i pravidelné testování obnovy dat z vytvořených záloh. Aţ na základě úspěšné obnovy dat můţe být konstatováno, ţe je celý proces spolehlivý. Pravidelné testování obnovy dat přináší však více výhod. Dojde-li k situaci, která bude vyţadovat okamţitou obnovu provozních dat, bude to zpravidla provázet nedostatek času a stres. Případná obnova dat bude téměř jistě probíhat ve spěchu a předem připravené plány obnovy obsluze pomohou, jen pokud budou skutečně provozně prověřené, natrénované obsluhou. Proto je nutné zálohy dat připravovat tak, aby jejich umístění a způsob uloţení umoţňoval pravidelné provádění testů obnovení dat. Zde se opět dostávám k problematice Disaster Recovery plánů, které popisují kompletní obnovu nejen dat, ale i prostředí, na nichţ jsou provozována. Popisy kompletních obnov prostředí jsou nad rámec této práce, při praktických testech obnov dat s nimi však musí odpovědní pracovníci počítat. Musí být také pravidelně prověřovány a aktualizovány, i kdyţ zde je zpravidla vyţadována niţší periodicita.
9.1 Praktické poznatky při provádění obnovy dat V následujících podkapitolách shrnuji praktické poznatky, získané při provádění obnov dat pomocí TSM. Některé z těchto poznatků dokonce vedly ke zpětným úpravám nastavení parametrů zálohování. Tyto mé poznatky mi také umoţnily vytvořit jednotlivé pracovní postupy. Na rozdíl od předchozího stavu, kdy byla data zálohována na jednotlivé magnetopáskové mechaniky, instalované přímo v zálohovaných serverech, nedošlo při testování obnov dat k jediné chybě obnovy díky nečitelnosti dat.
9.1.1 Obnova dat hlavní provozní databáze Obnova dat hlavní provozní databáze, zálohovaných pomocí TSM, je ve společnosti AB prováděna pomocí příkazu onbar. Pro ilustraci zde uvádím přesnou syntaxi uţívanou v prostředí databázového serveru Informix. Před vlastním spuštěním obnovy je třeba zastavit běh databázového stroje Informix příkazem onmode -ky. Dále je nutné nastavit proměnnou
prostředí
DSMI_CONFIG=/opt/tivoli/tsm/client/api/bin64/dsm.prod,
vzhledem k tomu, ţe testovací obnova bude prováděna na jiném, neţ na provozním serveru. Z toho důvodu je nutno také přenést soubor ixbar který je typicky umístěn v adresáři /opt/informix/etc. Zde jsou umístěny aktuální informace o dostupných zálohách, jejich úrovních a o odehrání logických logů. Tento soubor musí být přenesen v textovém
74
reţimu. Obnova je prováděna v kontextu privilegovaného uţivatele root nebo informix pomocí příkazu onbar -r -w -p. Po obnově dat, jejíţ úspěšnost lze zjistit z provozního logu Informix serveru, případně ze souboru aktivit bar_act, můţe být databázový server uveden do On-line reţimu příkazem onmode –m. Celý záznam úspěšně provedené obnovy dat uvádím na obrázku.
Obrázek 9.01: Protokol o úspěšném provedení obnovy dat. Zdroj: vlastní úprava Testování obnov dat hlavní provozní databáze ze záloh, provedených pomocí TSM, mělo nejvyšší důleţitost a prioritu. Navrhl jsem a zavedl pravidelně opakovaný proces testování obnovy dat na základě poţadavků auditu a firemní bezpečnostní strategie. Testování procesu obnov dat je prováděno nejméně dvakrát měsíčně. Výsledné systémové logy jsou archivovány, aby byla úspěšnost obnov dat později jednoznačně prokazatelná. Pro ilustraci uvádím na následujícím obrázku ukázku jednoho konkrétního pracovního postupu, popisujícího zde uvedenou obnovu dat ze záloh prostřednictvím TSM.
75
Obrázek 9.02: Pracovní postup obnovy dat. Zdroj: vlastní úprava
9.1.2 Obnova dat souborových serverů Obnova dat souborových serverů patří při pouţití grafického rozhraní klienta TSM k nejjednodušším. Soubory lze před obnovou setřídit pomocí různých parametrů, například podle jména, adresáře, velikosti nebo data poslední změny. Pro ilustraci zde uvádím ukázku obnovy souborů OP_101 aţ OP_104, umístěných na souborovém serveru FPS2. Soubory jsou označeny a následuje pouze volba Restore a určení, zda mají být soubory obnoveny do lokality původní nebo alternativní.
76
Obrázek 9.03: Výběr souborů pro obnovu v grafickém prostředí. Zdroj: vlastní úprava Při obnově uţivatelských dat, uloţených na souborových serverech, jsem se několikrát setkal s poţadavkem na obnovu starší verze souboru. Typickým příkladem je uţivatelem provedená změna, která se ukáţe jako nechtěná. Potíţ je, pokud si to uţivatel uvědomí aţ s delším časovým odstupem a mezitím jiţ proběhla nová záloha modifikovaného souboru. V tomto okamţiku je moţné vyuţít neaktivní verze záloh souborů, pokud je administrátorem definováno jejich uchování. Při výchozím nastavení jsou klientem TSM zobrazovány pouze aktivní verze, pro zobrazení neaktivních verzí je třeba v menu View zvolit poloţku Display active/inactive files. Smazané neaktivní verze záloh souborů jsou v tomto případě označeny modrým čtverečkem s kříţkem, jak je patrné na obrázku 9.04. V prostředí příkazového řádku lze pro stejnou funkci vyuţít volbu inactive, přičemţ výběr souborů, které budou zobrazeny, je opět moţné omezit výběrovými podmínkami.
77
Obrázek 9.04: Zobrazení neaktivních verzí souborů. Zdroj: vlastní úprava Důleţitá moţnost omezení výběru záloh je zabezpečena funkcí Point in Time (bod v čase). Tuto funkci je nutno vyuţít zejména tehdy, pokud si uţivatel uvědomí poškození souboru nebo jeho nechtěné přepsání aţ po provedení několika záloh. Tehdy dojde k tomu, ţe je opakovaně zálohována špatná verze souboru. Volbou Point in Time je moţné zobrazit nabídku souboru z okamţiku, kdy byl soubor ještě v pořádku. Tento soubor lze poté obnovit v jeho pouţitelné podobě.
78
Obrázek 9.05: Použití funkce Point of Time v grafickém prostředí. Zdroj: vlastní úprava
79
Závěr Ztráta dat v oblasti správy informačních technologií ve firemním prostředí je váţným problémem. Nové technologie a technické prostředky, například vysoká redundance hardwarových prostředků a disková pole, nemohou být dostatečnou náhradou za pravidelné zálohování. Ke ztrátě dat nemusí dojít pouze vlivem selhání technického prostředku, například pevného disku, ale také díky omylu uţivatele či správce, úmyslnou činností útočníka nebo v důsledku softwarové chyby. Zálohování dat proto v současnosti stále představuje nejlepší moţný způsob předcházení nebezpečí jejich ztráty. Ve své práci jsem čtenáře seznámil s problematikou zálohování dat ve firemním prostředí. Věřím, ţe přínosem můţe být jak první, teoretická část, věnovaná principům zálohování dat, technologiím a programovým řešením, tak zejména druhá, praktická část. Zde jsem popsal hlavní kroky při zhodnocení stavu zálohování ve společnosti AB, výběr a implementaci automatického zálohovacího systému. Dále principy a návrh zálohovací strategie, neopomněl jsem důleţité téma testování obnov dat. Na základě vlastních vědomostí a poznatků, získaných při zpracování této diplomové práce, jsem změnil procesy zálohování dat a zavedl pravidelné testování obnov dat ve společnosti AB. Vytvořil jsem pracovní postupy vytváření záloţních kopií dat a testování obnov dat, které prakticky realizují zásady stanovené zálohovací strategií. Poznatky, získané při práci na tomto dokumentu, zcela jistě zásadně ovlivnily můj postup jak při výběru, testování, implementaci a konfiguraci hardwarových a softwarových komponent, tak i procesy zálohování a obnov dat. Díky těmto poznatkům jsem se vyvaroval mnohých chyb, které mohly vést ke zbytečnému prodraţení či dokonce k neúspěchu při prosazování změn do zaběhnutého starého pořádku provádění záloh dat. Doufám, ţe tato práce přispěje k obecnému povědomí o nezbytnosti provádění záloh a testování obnov dat. Díky nově pouţitým technologiím zálohování dat a speciálnímu zálohovacímu software se podstatně zvýšilo zabezpečení dat ve společnosti AB. Automatizace procesů zálohování sníţila pracovní zatíţení personálu IT a eliminovala působení lidského faktoru. Funkce přírůstkového zálohování aplikace TSM a přechod na nové technologie zálohování výrazně zrychlily procesy zálohování a obnovy dat. Přizpůsobitelné zásady zálohování nyní pomáhají společnosti AB splňovat poţadavky regulátora a auditorských společností. Zdůraznil jsem, ţe i toto řešení je potřeba neustále přizpůsobovat měnícím se poţadavkům a prostředí. 80
Seznam použité literatury Tištěné monografie [1] JOHNSON, Mark R.; CRAWFORD, Charles G.; TAYLOR, Jim. Velký průvodce DVD. 2007. ISBN 978-80-247-1721-0. [2] PECINOVSKÝ, Jan. Vypalování CD - rady a postupy. 2004. ISBN 978-80-247-0719-8. [3] PECINOVSKÝ, Jan; PECINOVSKÝ Josef. Vypalujeme DVD na počítači. 2009. ISBN 978-80-247-2546-8. [4] PRESTON, W. Curtis. Backup and recovery. 2007 ISBN 978-05-961-0246-3. [5] THEJENDRA B.S. Disaster Recovery and Business Continuity. 2008. ISBN 978-19053-5637-9.
Internetové a jiné zdroje [6] ACRONIS, INC. Knowledge base - Obraz disku. [online]. Dostupné z WWW:
. [cit. 2011-4-23]. [7] ACRONIS, INC. Protecting all your data, all the time. [online]. Dostupné z WWW: . [cit. 2011-6-15]. [8] BACKUP TAPES. AIT Tapes. [online]. Dostupné z WWW: . [cit. 2011-5-19]. [9] CA TECHNOLOGIES. CA ARCserve Backup - More than Basic Backup [online]. Dostupné z WWW: . [cit. 2011-5-22]. [10] ČESKÁ NÁRODNÍ BANKA. Věstník ČNB - ročník 2004. [online]. Dostupné z WWW: . [cit. 2011-4-23]. [11] DATA RECOVERY EXPLAINED. What is RAID 7. [online]. Dostupné z WWW: . [cit. 2011-4-28]. [12] EMC CORPORATION. Networker Unified Backup and Recovery. [online]. Dostupné z WWW: . [cit. 2011-5-22]. [13] FLEISHMAN-HILLARD, INC. LTO Program Frequently Asked Questions. [online]. Dostupné z WWW: . [cit. 2011-5-17]. [14] HEWLETT-PACKARD COMPANY. HP Data Protector software. [online]. Dostupné z WWW: . [cit. 2011-6-17].
81
[15] HEWLETT-PACKARD COMPANY. Magneto-Optical Disks. [online]. Dostupné z WWW: . [cit. 2011-4-28]. [16] IBM CORPORATION. Backup-Archive Clients Installation and User’s Guide. [online]. Dostupné z WWW: . [cit. 2011-6-23]. [17] IBM CORPORATION. Full-Incremental Rotations Using IBM Tivoli Storage Manager. [online]. Dostupné z WWW: <www.01.ibm.com/support/docview.wss?uid=swg27005212&aid=1>. [cit. 2011-6-30]. [18] IBM CORPORATION. IBM System Storage TS3310 Tape Library. [online]. Dostupné z WWW: . [cit. 2011-6-17]. [19] IBM CORPORATION. IBM Tivoli Storage Manager Implementation Guide. [online]. Dostupné z WWW: <www.redbooks.ibm.com/redbooks/pdfs/sg245416.pdf>. [cit. 2011-6-30]. [20] IBM CORPORATION. Tivoli Storage Manager. [online]. Dostupné z WWW: . [cit. 2011-5-26]. [21] IMU HARD UND SOFTWARESERVICE. Drive principle. [online]. Dostupné z WWW: . [cit. 2011-5-10]. [22] KROLL ONTRACK. Understanding Data Loss. [online]. Dostupné z WWW: . [cit. 2011-4-15]. [23] PORTÁL VEŘEJNÉ SPRÁVY ČR. Předpis 499/2004 Sb. [online]. Dostupné z WWW: . [cit. 2011-4-18]. [24] PORTÁL VEŘEJNÉ SPRÁVY ČR. Předpis 563/1991 Sb. [online]. Dostupné z WWW: . [cit. 2011-4-18]. [25] SEP AG. SEP sesam. [online]. Dostupné z WWW: . [cit. 2011-6-15]. [26] SHAWN PAUL. Generations of DAT Digital Audio Tape DDS Digital Data Storage. [online]. Dostupné z WWW: . [cit. 2011-5-17]. [27] STORAGE NEWS LETTER. LTO Roadmap. [online]. Dostupné z WWW: . [cit. 2011-5-11]. [28] STORAGE NEWS LETTER. LTO Tapes Anniversary [online]. Dostupné z WWW: . [cit. 2011-5-11]. 82
[29] SYMANTEC CORPORATION. Symantec NetBackup - The end of the dark ages of virtualization. [online]. Dostupné z WWW: . [cit. 2011-5-26]. [30] TAPEANDMEDIA, LLC. DLTape and Super DLT Tape. [online]. Dostupné z WWW: . [cit. 2011-4-29].
83
Seznam obrázků Obrázek 2.01: Graf příčiny ztráty dat. Zdroj: Gartner Group Obrázek 2.02: Graf příčiny ztráty dat. Zdroj: Kroll Ontrack Obrázek 2.03: Poškození přírůstkové zálohy. Zdroj: Vlastní úprava Obrázek 2.04: Poškození diferenciální zálohy. Zdroj: Vlastní úprava Obrázek 3.01: DVD-RAM v ochranném obalu. Zdroj: vlastní úprava Obrázek 3.02: Magneto optický disk v ochranném obalu. Zdroj: vlastní úprava Obrázek 3.03: Zjednodušené schéma čtení a zápisu na pásku DLT. Zdroj: [21] Obrázek 3.04: Páska LTO 4. Zdroj: vlastní úprava Obrázek 3.05: Generace LTO s ohlášeným výhledem do budoucnosti. Zdroj: [13] Obrázek 3.06: Zjednodušené schéma čtení a zápisu na pásku DDS. Zdroj: [21] Obrázek 3.07: Páska DDS 4. Zdroj: vlastní úprava Obrázek 3.08: Páska AIT 2. Zdroj: vlastní úprava Obrázek 4.01: Tivoli Storage Manager. Zdroj: IBM Obrázek 5.01: Sady pásek DDS a DAT v trezoru. Zdroj: vlastní úprava Obrázek 6.01: Instalace páskové knihovny IBM TS3310. Zdroj: vlastní úprava Obrázek 6.02: Konfigurační soubor dsm.opt. Zdroj: vlastní úprava Obrázek 6.03: Konfigurační soubor provozního serveru dsm.opt. Zdroj: vlastní úprava Obrázek 6.04: Konfigurační soubor provozního serveru dsm.sys. Zdroj: vlastní úprava Obrázek 6.05: Dávkový soubor pro plnou zálohu full-pro. Zdroj: vlastní úprava Obrázek 6.06: Nastavení parametru TAPEDEV v souboru onconfig. Zdroj: vlastní úprava Obrázek 7.01: Celkový zálohovací plán. Zdroj: vlastní úprava Obrázek 7.02: Nastavení plánovače záloh na souborovém serveru. Zdroj: vlastní úprava Obrázek 8.01: Doba trvání záloh provozního databázového serveru. Zdroj: vlastní úprava Obrázek 9.01: Protokol o úspěšném provedení obnovy dat. Zdroj: vlastní úprava Obrázek 9.02: Pracovní postup obnovy dat. Zdroj: vlastní úprava Obrázek 9.03: Výběr souborů pro obnovu v grafickém prostředí. Zdroj: vlastní úprava Obrázek 9.04: Zobrazení neaktivních verzí souborů. Zdroj: vlastní úprava Obrázek 9.05: Pouţití funkce Point of Time v grafickém prostředí. Zdroj: vlastní úprava
84
Příloha 1 Standardní chybová hlášení páskových zařízení V dostupných materiálech firmy IBM jsou uváděna standardní chybová hlášení s krátkým popisem příčiny a případným doporučeným postupem. Pro potřeby společnosti AB jsem tato chybová hlášení s výjimkou názvu chyby, u kterého by mohl být český překlad zavádějící, přeloţil a uspořádal do přehledné tabulky. Číslo Chyba chyby
1
Read Warning
2
Write Warning
3
4
5
6
7
Hard Error
Media
Popis Pásková mechanika má problémy se čtením dat. Ţádná data nebyla ztracena, je však zmenšen výkon při čtení pásky. Pásková mechanika má problémy se zápisem. Data nebyla ztracena, je však redukována kapacita pásky. Činnost byla zastavena, vyskytla se chyba při čtení nebo zápisu dat, kterou nemůţe mechanika opravit.
Doporučený postup
Závaţné potíţe při čtení dat.
Zkontrolujte počet průchodů pásky, případně vyčistěte mechaniku.
Závaţné potíţe při zápisu dat.
Zkontrolujte počet průchodů pásky, případně vyčistěte mechaniku.
U mechaniky se Volejte podporu vyskytla hardwarová dodavatele páskové chyba čtení nebo mechaniky. zápisu.
Na medium nemůţe být prováděn zápis Poškozená páska. nebo z něj nelze číst.
Pásková mechanika Read Failure není schopná číst data. Pásková mechanika není schopná Write Failure zapisovat data.
Media Life
Příčina
Páska dosáhla vykalkulovaného konce pouţitelné ţivotnosti.
Poškozená páska nebo mechanika. Páska pochází z vadné série nebo je poškozena mechanika. Počet pouţití media překročil stanovený limit.
1
Vykopírujte z pásky potřebná data. Opakujte původní operaci s jinou páskou. Volejte podporu dodavatele páskové mechaniky. Pouţijte prokazatelně dobrou pásku na otestování mechaniky. Pokud problém přetrvá, volejte podporu. Vykopírujte z pásky potřebná data. Pásku jiţ dále nepouţívejte.
8
Not Data Grade
9
Write Protect
10
No Removal
11
Cleaning Media
12
Unsupported Format
13 14 15
Recover Snapped Tape Unrecover Snapped Tape Memory Chip Failure
16
Forced Eject
17
Read Only Format
18
Tape Directory Corrupted on load
Páska nezaručuje Mechanika není jakostní uloţení dat. schopna vyhodnotit Zálohování na tuto diagnostickou stopu. pásku je riskantní. Příkazy zápisu jsou Na pásku nelze aplikovány na zapisovat data. chráněnou pásku. Páskovou kazetu Manuální nebo nelze vyjmout, programový pokus o protoţe jí pouţívá vyjmutí pouţívané mechanika. pásky. Mechaniku nelze Do mechaniky je pouţít na čtení nebo zaloţena čistící zápis dat. páska. Pásková mechanika Pokus o vloţení nenačte vkládanou nepodporovaného pásku. typu pásky. Poškozenou pásku Páska je mechanicky lze z mechaniky poškozena nebo vyjmout. přerušena. Poškozenou pásku z Páska je mechanicky mechaniky nelze poškozena nebo vyjmout. přerušena. Chyba paměťového Sníţení výkonu. čipu pásky. Násilné vyjmutí Přerušení operace pásky během aktivní čtení nebo zápisu. operace. Na pásku nelze Vloţená páska má zapisovat. formát read-only. Pásková mechanika byla odpojena se Degradace výkonu zaloţenou páskou. při vyhledávání Adresář souborů souborů na pásce. uloţených na pásce byl poškozen.
19
Nearing Media Life
Hodnota počtu Páska se blíţí ke zápisů na médium konci předpokládané můţe být ţivotnosti. překročena.
20
Clean Now
Pásková mechanika potřebuje vyčistit.
21
Clean Periodic
22
Expired Cleaning
Pásková mechanika by měla být vyčištěna. Čistící proces neproběhl korektně.
Hlava mechaniky je zanesena nečistotami. Byl naplněn předpoklad pro pravidelné čištění. Počet pouţití čistící pásky je překročen.
2
Pásku vyměňte. Vyjměte pásku s ochranou zápisu a pouţijte jinou. Počkejte, dokud nebude ukončena aktivní operace s páskou. Počkejte, dokud nebude ukončen proces čištění. Do mechaniky vloţte podporované medium. Poškozenou pásku vyřaďte. Operaci opakujte s novou páskou. Nepokoušejte se o vyjmutí pásky. Volejte podporu dodavatele. Nepouţívejte pásku pro další zálohování. Pásku opět vloţte. Při poţadavku zápisu pouţijte jinou pásku. Adresář souborů uloţených na pásce můţe být opraven načtením všech dat na pásce obsaţených. Pro příští zálohu jiţ pouţijte jinou pásku. Pásku uloţte na bezpečném místě pro případnou obnovu dat. Pokud je dokončena operace, vyjměte pásku a vloţte čistící médium. Pokud je dokončena operace, vyjměte pásku a vloţte čistící médium. Pouţijte novou čistící pásku.
23
Invalid Cleaning Media
24
Retention Requested
25
26
27
28
29 30 31 32
Čistící proces neproběhl korektně.
Poslední pouţitá čistící páska byla chybného typu.
Poškození nebo opotřebení součástí mechaniky. Dual-Port Nedostupné Chyba jednoho z Interface redundantní rozhraní rozhraní nebo chyba Error páskové mechaniky. konfigurace. Chyba ventilátoru Cooling Fan Pásková mechanika uvnitř mechaniky Failure se přehřívá. nebo zablokování pásky. Chyba napájení Redundantní Power uvnitř páskové napájení je Supply mechaniky nebo ve nedostupné. stojanu. Příkon páskové Power mechaniky je mimo Hardwarová chyba. Consumption definované rozpětí. Pásková mechanika Drive Je vyţadován vyţaduje preventivní Maintenance profylaktický zásah. zásah (nikoliv čištění). Pásková mechanika Hardwarová chyba Hardware A nereaguje. vyţadující reset. Hardwarová chyba Pásková mechanika Hardware B vyţadující přerušení nereaguje. napájení. Pásková mechanika Interface identifikovala chybu Chyba rozhraní. rozhraní. Potíţe při čtení a zápisu na pásku.
33
Eject Media
Obnova dat neproběhla.
34
Download Fail
Chyba při update firmware.
35
Drive Humidity
36
Drive Nevhodná hodnota Temperature teploty.
37
Drive Voltage
Vysoká vlhkost.
Nevhodná hodnota napájecího napětí.
Nepouţívejte tento typ čistících pásek. Vyčkejte dokončení operace a pouţijte správnou pásku. Zajistěte servisní zásah. Vyměňte rozhraní nebo upravte konfiguraci. Zajistěte servisní zásah. Postupujte podle instrukcí pro výměnu vadného bloku napájení. Zajistěte servisní zásah. Postupujte podle manuálu, proveďte preventivní úlohy nebo volejte podporu. Vyjměte pásku a resetujte páskovou mechaniku. Páskovou mechaniku odpojte od napájení. Postupujte podle manuálu. Prověřte kabely a připojení jejich konektorů.
Chyba při obnově dat.
Vyjměte a znovu vloţte pásku. Poté opakujte přerušenou operaci.
Chybný firmware.
Pouţijte správný firmware.
Překročeny stanovené hodnoty vlhkosti uvnitř mechaniky. Překročeny stanovené hodnoty teploty uvnitř mechaniky. Překročeny stanovené hodnoty napájecího napětí.
3
Prověřte okolní vlhkost. Vyrovnejte teplotu mechaniky a jejího okolí. Prověřte okolní teplotu. Vyčkejte sníţení teploty uvnitř mechaniky, případně volejte podporu. Prověřte hodnoty napájecího napětí.
38
39
40
41 42
43
Pásková mechanika Ohlášení prediktivní predikuje moţnou chyby. hw závadu. Pásková mechanika Pásková mechanika Diagnostics vyţaduje spuštění zaznamenala Required diagnostického pravděpodobnou testu. chybu. Robotická mechanika má Robotická Loader potíţe při mechanika Hardware A komunikaci s nereaguje. páskovou mechanikou. V robotické Loader Stray Důsledek předchozí mechanice zůstává Tape chyby. páska. Robotická Loader mechanika hlásí Hardwarová chyba. Hardware B chybu. Predictive Failure
Hlášení o Loader Door otevřených dvířkách.
Pásku vyjměte. Pokud robotická mechanika nereaguje, restartujte ji. Zajistěte servisní zásah.
Restartujte robotickou mechaniku, v případě přetrvání obtíţí volejte podporu. Vloţte zásobník.
44
Robotická mechanika hlásí chybu.
45
Loader Magazine
Robotická mechanika je bez zásobníku nefunkční.
Zásobník není vloţen.
46
Loader Predictive Failure
52
Restartujte robotickou mechaniku, v případě přetrvání obtíţí volejte podporu.
Otevřená dvířka.
Loader Hardware C
51
Postupujte podle instrukcí v manuálu a spuštěním diagnostického testu získejte další informace.
Odstraňte případné překáţky a dvířka uzavřete. Pokud potíţe přetrvají, restartujte robotickou mechaniku.
Hardwarová chyba, která není způsobena mechanickou součástí.
50
Zajistěte servisní zásah.
Robotická Ohlášení prediktivní mechanika chyby robotické detekovala mechaniky. prediktivní chybu. Násilné vypnutí Byly ztraceny Lost zálohovací knihovny statistické údaje o Statistics se zavedenými médiích. páskami. Tape Adresář souborů Chyba zamezila directory uloţených na pásce, aktualizaci adresáře invalid at která byla vyjmuta, souborů před unload je poškozen. vyjmutím pásky. Na právě vyjmutou Tape system Chyba při zápisu pásku nemohla být area write systémové zapsána systémová failure informace. informace.
4
Zajistěte servisní zásah.
Postupujte podle instrukcí v manuálu. Adresář souborů uloţených na pásce můţe být opraven načtením všech dat na pásce. Vykopírujte z pásky potřebná data. Tuto pásku vyřaďte.
53
Z právě vloţené Tape system pásky nemohla být area read získána systémová failure informace.
54
No start of data
Chyba při čtení systémové informace.
Na pásce nebyl Špatný formát nebo nalezen začátek dat. poškozená páska.
5
Vykopírujte z pásky potřebná data. Tuto pásku vyřaďte. Zkontrolujte typ pásky, případně jí vyřaďte.
Příloha 2 Příklady použití příkazů manuálních kontrol query drive - verifikace stavu páskových mechanik v knihovně
query volume - kontrola přístupového statutu páskových volumů (read-write)
6
query volume A00000L4 f=d – výpis detailních informací o pásce, počet průchodů
query volume devclass=disk - kontrola statutů diskových storage poolů
7
query libvolume – přehled pouţitých médií
query db; query log - kontrola a vyhodnocení statistik databáze a recovery logu
8
query volhistory type=dbbackup - verifikace plánovaného backupu databáze
query actlog - kontrola aktivity logu (error messages)
9
query event * * begind=02/13/2011 endd=today Nodes=FPS? - kontrola plánovaných událostí u vybraných nodů
query
event
* type=administrative
begind=10/13/2011
plánovaných administrativních úloh
10
endd=today
-
kontrola
query proc - informace o právě probíhajícím procesu expiration
11