Mendlova zemědělská a lesnická universita v Brně fakulta provozně-ekonomická
Zálohování a archivace dat
Pavel Pohořelský
Mendlova zemědělská a lesnická universita v Brně fakulta provozně-ekonomická
1. Zálohování dat jako součást bezpečnosti informačních systémů V současné době existuje mnoho produktů nabízených pro zálohování dat. Výrobci těchto produktů se snaží v maximální možné míře poskytnout kompletní řešení pro zálohování, které řeší funkce ve všech klíčových oblastech správy zálohování, ochrany dat, správy zálohovaných dat, rychlé obnovy dat a migrace dat. Veškeré produkty pracují v podstatě na stejných principech zálohování dat, nicméně každý produkt a jeho nové verze vždy přinášejí něco nového a něco navíc. Zálohovací systémy pracují s architekturou klient/server, takže veškeré procesy zálohování dat, pohybu zálohovaných dat a konfigurace zálohovacího systému jsou řízeny z jednoho centrálního počítače, který může být umístěn na libovolném místě v síti. To má výhodu především v rozlehlých sítích, kdy zálohovací server a zálohovací zařízení může být umístěno na bezpečném místě. Centrální správa umožňuje orientaci v uložených datech, i když jsou uložena na několika místech. Hlavním úkolem zálohovacích systémů je bezpečné zálohování a obnova dat jak pro lokální, tak pro vzdáleně připojené stanice a servery. Proces zálohování dat může být iniciován manuálně nebo automaticky dle nadefinovaných strategií. Charakteristikou dobré zálohovací strategie je jednoduchost použití, maximální využití času a jednoduchost obnovy dat. Další funkcí zálohovacích systémů je archivace, která umožňuje dlouhodobé uchování dat. Doba, po kterou je možné důležitá data uchovat, je v podstatě omezena životností použitých zálohových médií, což může v některých případech být více než sto let. Archiv se od zálohy liší v podstatě pouze v tom, že záznamy zálohovacího systému o archivovaných datech nejsou nikdy automaticky přepsány nebo smazány a jsou uložena vždy všechna data. Třetí důležitou funkcí zálohovacích systémů je podpora migrace dat (Hierarchical Storage Management). Tento pojem je známý již delší dobu, ale protože jde o poměrně složitý proces, umožňují ho využívat až poslední verze zálohovacích systémů, a to pouze pro některé platformy. Princip migrace dat spočívá v tom, že systém přesouvá dle definovaných údajů delší dobu neaktivní data z dražších médií (lokální disky, disková pole) na levnější média jako jsou páskové jednotky, páskové nebo optické knihovny. Existují dvě možnosti definování způsobu automatické migrace dat. Jednou možností je definování časového intervalu, po který jsou data neaktivní. Druhou variantou je možnost zahájení migrace po definovaném zaplnění disku, například při zaplnění disku na 80 % bude zahájen proces migrace dat. Po přesunutí souboru na zálohovací médium je soubor viditelný v adresářové struktuře na disku, kde je viditelně označen jako přesunutý. Jestliže po nějaké době chce uživatel s tímto souborem pracovat, je tento soubor přesunut zpět na disk. Uživatel však musí počítat s delší časovou prodlevou, která je dána časem potřebným na vyhledání požadovaného souboru na pásce a jeho přesunutí.
Klient
Volání
Server
Migrace
Pásková knihovna
2
Mendlova zemědělská a lesnická universita v Brně fakulta provozně-ekonomická
Migrace dat poskytuje velice výhodnou a ekonomicky nenáročnou možnost práce s daty, což znamená úsporu tolik potřebného místa na rychlých a dražších médiích, a tím i úsporu nákladů na pořizování těchto médií. Pro spokojenost uživatele je nutné odhadnout, která data potřebuje mít dostupná okamžitě a u kterých nevadí zdržení vzniklé přesunem z pásky. Toto zdržení se může pohybovat až kolem 90 sekund. Zálohovací procesy lze spouštět automaticky podle plánovaného časového harmonogramu schedule. Nejvíce používaná forma časového plánu je založena na definovaném čase a dni. Proces je iniciován ve stejný čas každý den po celý týden nebo měsíc. Například při plánování zálohování se plní záloha provádí každý pátek v 18:00 a přírůstkové zálohy se provádějí po zbývající dny. Časový plán jako je tento je velice jednoduché vytvořit a zapamatovat si. Druhou možností je plánování dle časových period. Můžeme například stanovit, že plná záloha se bude provádět vždy po 48 hodinách.
1. Problematika zálohování •
•
•
•
•
Důležitým prvkem ovlivňujícím práci se zálohovacími systémy je složitost ovládání. Zatím jsou dostupné čtyři možnosti ovládání. Grafické uživatelské rozhraní (GUI) je nejjednodušší, intuitivní a nejpoužívanější možnost práce se systémy. S tímto prvkem můžeme sledovat veškeré procesy při práci s daty. Příkazové ulity slouží především zkušeným administrátorům systému ke konfiguraci a obnově systému. V poslední době také verze zálohovacích systémů využívají možnosti ovládání na základě HTML, takže je možné veškeré procesy provádět s pomocí webového prohlížeče. Poměrně novým prvkem je používání SQL příkazů. Programátor SQL může například vytvořit aplikaci, která na základě důležité změny v systému zahájí proces ukládání dat. Může tak proces zálohování spojit s jinou aplikací. Zálohovací systémy umožňují různé stupně zabezpečení zálohovaných dat proti neoprávněnému zneužití. V první úrovni má uživatel možnost před spuštěním zálohy zadat heslo, takže tato data může obnovit pouze osoba znalá tohoto hesla nebo administrátor systému, po němž heslo není požadováno. Vyšší úroveň zabezpečení dat je realizována kódováním dat (encryption) podle kódovacího algoritmu. Některé systémy umožňují vlastní úpravu tohoto algoritmu. Při obnově dat s vyšší úrovní zabezpečení je vyžadováno heslo po každé osobě, včetně administrátora systému. Odolnost zálohovacího systému vůči chybám, ke kterým může dojít během procesu ukládání nebo obnovy dat (Systém Fault Tolerance), řeší každý systém různě. Některé systémy jsou schopny pouze reagovat při přerušení komunikace po síti tím, že se snaží obnovit spojení. Jiné systémy nabízejí také možnost obnovení zálohy nebo obnovy dat po restartu zálohovacího serveru od bodu, kdy došlo k přerušení komunikace nebo k přerušení činnosti zálohovacího serveru. Takže v případě, kdy přijdeme ráno do práce a server nepracuje, je automaticky dokončena záloha po opětovném spuštění systému. Pro efektivní a bezpečné ukládání dat je nutné vytvoření tzv. plánu na obnovu dat v kritických situacích (Disaster Recovery Plan), který se uplatní, zejména, v případě nějaké přírodní katastrofy jako je požár, povodeň a jiné. Důležitost tohoto plánu je dána především tím, že v těchto situacích lidé reagují mnohdy díky stresu neuváženě. Součástí tohoto plánu je také uložení důležitých dat na bezpečném místě mimo oblast zálohovacího systému. Pro tyto případy umožňují zálohovací systémy tzv. klonování dat. To znamená, že můžeme vytvářet identické kopie poté uložit někde jinde na bezpečném místě například do trezoru, resp. v jiné budově. V rozlehlé síti je také možnost ukládání důležitých dat na vzdáleně připojený další zálohovací server. Sdílení informací umožňuje funkce řízené obnovy dat (Directed Recover). V praxi to znamená, že administrátor může distribuovat uložená data jednoho klienta na jakýkoli jiný 3
Mendlova zemědělská a lesnická universita v Brně fakulta provozně-ekonomická
•
•
•
•
systém na síti, nevyjímaje lokální disk nebo disk jiného klienta. Tato funkce také zjednodušuje obnovu poškozených dat nebo havarovaných systémů. Například jestliže je soubor autoexec.bat ideální i pro jiné klienty, může tento soubor administrátor systému přesunout z jednoho místa na tyto klienty, aniž by musel komplikovaně obíhat celou společnost. Pro lepší orientaci v zálohovaných datech je nutné tato data co nejpřehledněji organizovat. Je třeba si také uvědomit, že uložené informace podléhají různému stupni utajení a není možné tedy veřejné informace ukládat na stejná média jako přísně tajné informace. Zálohovací systémy umožňují vytváření logických skupin zálohovacích médií, takže můžeme pro různé datové struktury vytvořit odpovídající skupiny zálohovacích médií a poté definovat politiku přístupu k těmto datům. Nebo můžeme například ukládat plné zálohy do skupiny médií pro tyto zálohy vyhrazených a přírůstkové zálohy do jiné skupiny, což usnadňuje orientaci v těchto datech při případné obnově systému. Paralelní zálohování využívá možnosti využití průchodnosti sítě, což znamená, že můžeme spustit zálohy libovolného počtu klientů najednou. Tento počet je v podstatě omezen pouze možnostmi hardwaru zálohovacího serveru, protože čím více klientů provádí zálohu, tím je procesor serveru zatíženější. Optimální využití možností zálohovacích zařízení zajišťuje možnost provádět více zálohovacích procesů na jednom zálohovacím zařízení a nebo optimálně rozložit zálohovací procesy mezi dostupný počet zálohovacích zařízení. Tyto dvě vlastnosti nám umožňují v maximální možné míře využít průchodnost sběrnice od klienta až po zálohovací zařízení a provedení zálohy v nejkratším možném čase. Zálohovací systémy standardně umožňují také práci s databázovými produkty jako je Oracle nebo přímo s aplikacemi jako je SAP R/3, Microsoft Exchange a další. Všechny zálohovací systémy používají pro zálohování těchto produktů shodný model. V tomto případě můžeme zálohovat databázi v režimu on-line. Význam spočívá v tom, že zálohu můžeme spustit automaticky, aniž bychom museli přerušit služby databázové aplikace. On-line zálohování databází je možné díky aplikačnímu modulu, který zprostředkovává spojení mezi zálohovacím systémem a zálohovacími utilitami používané databáze. Databáze je možné zálohovat také v režimu off-line. To ovšem znamená, že zálohy nelze spouštět automaticky a služby databáze musí být pozastaveny. Informování o výsledcích, průběhu a chybách, ke kterým došlo při procesech je možné mnoha způsoby. V první řadě jsou tyto zprávy automaticky zasílány definovaným osobám elektronickou poštou, na pager a samozřejmě jsou zaznamenávány do log souboru. Také jsou podporovány výstupy s SNMP Manažery jako je CA Unicenter, HP OpenView, Tivoli a jiné.
2. Metody zálohování 1. Úplná záloha Úplná záloha vždy zálohuje všechny soubory soubory k tomu určené. Pochopitelně se jedná o nejnáročnější (časově i objemově) metodu zálohování. Největší výhodou této metody je snadnost obnovy v případě potřeby.
4
Mendlova zemědělská a lesnická universita v Brně fakulta provozně-ekonomická
2. Rozdílová záloha (diferenciální) Při této metodě se zálohují veškerá data od poslední úplné zálohy. Postupně s přibývajícím časem od poslední úplné zálohy narůstá objem a čas potřebný k vytvoření zálohy. Při obnově nám stačí použít poslední úplnou zálohu a k ní přihrát poslední rozdílovou zálohu.
3. Přírůstková záloha (inkrementální) Přírůstková metoda nám zálohuje pouze změněné soubory od poslední zálohy - bez ohledu, zda se jednalo o úplnou zálohu či ne. Výhodou je nenáročnost na čas a objem při zálohování přírůstků. Při obnově se však musí obnovovat poslední úplná záloha a všechny přírůstky od poslední úplné zálohy.
4. Kritéria výběru vhodné zálohovací jednotky 1. Max. rychlost záznamu Jedná se o rychlost s kterou je jednotka schopna zapisovat data. Tato vlastnost je důležitá pro co nejrychlejší archivaci dat. Pohybuje se řádově v desítkách megabyte za minutu. Užívá se maximální hodnota, protože je jinak proměnlivá (závisí např. na typu dat a výkonu počítače). Hodnoty odpovídají práci s komprimovaným záznamem (jsou tedy obvykle 2 krát vyšší, než tzv. Native Maximum Throughput).
2. Přenosová rychlost (date transfer rate) Je to rychlost přenosu dat mezi subsystémem a základní deskou (procesorem). Je ovlivněna rychlostí a šířkou sběrnice počítače, výkonem procesoru apod. Je tedy zřejmé, že tento údaj je dost relativní, záleží na konkrétní konfiguraci počítače.
3. Průměrná vyhledávací doba (average search speed) je průměrná doba, jakou trvá, než jednotka zpřístupní požadovaný záznam.
4. MTBF (mean time between failures) je střední doba mezi chybami. Soudobá zařízení jsou již dostatečně kvalitní a tato doba se již blíží k statisícům hodin.
5. Cena jednotky a cena média z těchto dvou informací je možné vypočítat cenu za 1Mb dat, která je důležitá při výběru vhodného zálohovacího zařízení.
5