Bankovní institut vysoká škola Praha Katedra matematiky, statistiky a informačních technologií
Zálohování Bakalářská práce
Autor:
Lukáš Pecha Informační technologie
Vedoucí práce:
Ing. Bohuslav Růžička
Praha
Duben 2011
1
Prohlášení: Prohlašuji, že jsem bakalářskou práci zpracoval samostatně a v seznamu uvedl veškerou použitou literaturu. Svým podpisem stvrzuji, že odevzdaná elektronická podoba práce je identická s její tištěnou verzí a jsem seznámen se skutečností, že se práce bude archivovat v knihovně BIVŠ a dále bude zpřístupněna třetím osobám prostřednictvím interní databáze elektronických vysokoškolských prací.
V Praze, dne 25. 4. 2011 Lukáš Pecha
2
Anotace Tato práce pojednává o tématu zálohování dat. Práce je rozdělena do osmi částí a zaměřuje se na aktuální technologie spojené se zálohováním a archivací dat. První část se věnuje důvodům proč zálohovat naše data. Druhá část popisuje typy záloh, které jsou dnes běžně používané. Třetí část se zabývá médii, která se používají k ukládání a dlouhodobé archivaci dat. Čtvrtá část popisuje zálohovací software jako důležitou součást zálohovacího prostředí a popisuje všechny jeho funkce. Pátá kapitola je zaměřená na členění dat, abychom mohli správně rozlišit na jaký hardware tato data efektivně ukládat. Šestá část se věnuje šifrování, které je nezbytnou součástí bezpečnosti archivace dat. Sedmá část popisuje pokročilé softwarové funkcionality v podobě deduplikace a jejím nesporným výhodám. Osmá kapitola popisuje hardware, kde fyzicky ukládáme a provozujeme veškerá data a jeho další funkcionality, které nám pomáhají zvyšovat efektivitu práce s daty a jejich dostupnost. This work deals with the topic of data backuping. The work is divided into eight parts and focuses on current technologies associated with backuping and archiving data. The first part deals with the reasons why backup our data. The second section describes the types of backups that are now commonly used. The third part deals with the media, which are used to backup and long-term data archiving. The fourth section describes the backup software as an important part of the backup environment and describes all its features. The fifth chapter focuses on the structure of data to properly differentiate what type of hardware to use for efficiency backuping. The sixth part deals with data encryption, which is an essential part of data archiving security. The seventh section describes the advanced software functionality of deduplication and its main advantages. The eighth chapter describes the storage hardware where we physically backup and operate all data and other features that help us to improve data management efficiency and data availability.
3
Úvod ............................................................................................................................................ 6 1. Důvody zálohování dat ............................................................................................................ 7 2. Typy záloh ............................................................................................................................... 8 2.1. Plná záloha (Full Backup) .................................................................................................... 8 2.2. Rozdílová, Diferenciální záloha (Differential Backup) ........................................................ 8 2.3. Přírůstková záloha (Incremental Backup) ............................................................................ 9 2.4. Schéma různých typů zálohování ......................................................................................... 9 3. Média pro ukládání dat .......................................................................................................... 10 3.1. Magnetická páska ............................................................................................................... 10 3.2. Pevný disk (Hard Disk Drive, zkratka HDD) ..................................................................... 11 3.2.1 SATA (Serial ATA) ................................................................................................. 13 3.2.2 SAS (Serial Attached SCSI) ..................................................................................... 13 3.3. Solid-State-Disk (SSD) ...................................................................................................... 14 3.4. Optický disk........................................................................................................................ 15 3.4.1 Kompaktní disk ........................................................................................................ 16 3.4.2 DVD ......................................................................................................................... 16 3.4.3 HD DVD ................................................................................................................... 16 3.4.4 Blu-ray disk .............................................................................................................. 17 4. Zálohovací software .............................................................................................................. 18 5. Členění dat ............................................................................................................................. 22 5.1. Archivace souborů .............................................................................................................. 23 5.2. Archivace databází ............................................................................................................. 24 5.3. Archivace poštovních serverů ............................................................................................ 24 6. Šifrování zálohovaných a archivovaných dat ........................................................................ 26 7. Pokročilé softwarové funkcionality ....................................................................................... 28 7.1. Deduplikace dat .................................................................................................................. 28 7.2. Typy deduplikace ............................................................................................................... 30 7.3. Deduplikační poměr ........................................................................................................... 31 8. Hardwarové technologie pro ukládání a zálohování dat ....................................................... 33 8.1. DAS (Direct Attached Storage) .......................................................................................... 35 8.2. NAS (Network Attached Storage) ...................................................................................... 36 8.3. SAN (Storage Area Network)............................................................................................. 37 8.4. RAID (Redundant Array of Independent Disk) ................................................................. 39
4
8.4.1 RAID 0 ..................................................................................................................... 40 8.4.2 RAID 1 ..................................................................................................................... 41 8.4.3 RAID 0 + 1 ............................................................................................................... 41 8.4.4 RAID 1 + 0 ............................................................................................................... 42 8.4.5 RAID 5 ..................................................................................................................... 42 8.4.6 RAID 6 ..................................................................................................................... 43 8.5. Thin Provisioning ............................................................................................................... 43 8.6. Snapshot (snímek) .............................................................................................................. 44 8.7. Clone (klon) ........................................................................................................................ 45 Závěr .......................................................................................................................................... 47 Slovník pojmů ........................................................................................................................... 49 Citovaná literatura ..................................................................................................................... 50 Seznam obrázků......................................................................................................................... 51
5
Úvod Toto téma jsem si vybral z důvodu mé dosavadní praxe obchodního specialisty u velmi významné nadnárodní IT společnosti, kde řeším dnes a denně problematiku zálohování dat v oblasti státní správy a komerčního segmentu. Data jsou jedny z nejdůležitějších aspektů, které si společnosti musí co nejlépe ochránit proti případné ztrátě, protože na nich je založeno fungování a strategie celé společnosti. Posledních několik let se podniková IT oddělení po celém světě potýkají s neustále se zvyšujícími nárůsty objemu dat v datových centrech a na pobočkách. Bez promyšleného systému zálohování budou údaje, které shromažďujeme dny, měsíce či roky, již nevratné do původní podoby a doba, kterou budeme potřebovat na obnovení činnosti sytému v původním rozsahu, může být dlouhá i několik dní. Mnohé firmy se tohoto okamžiku ani nemusejí dočkat, protože nebudou schopny takovouto ztrátu dat ekonomicky přežít. Ztráta dat může být závažnou příčinou vedoucí až k ukončení našeho podnikání. Havárie dat si nevybírá a cena, kterou zaplatíme, je hodnota uložených dat a délka prostoje výpočetního systému. Z tohoto důvodu je třeba si uvědomit, že v každé společnosti jsou obchodní data velice cenná a význam ochrany a zabezpečení dat nelze v dnešní době opomíjet a podceňovat. Jednou z hlavních příčin a důvodů ztráty dat jsou zejména: - Lidská chyba: neúmyslné smazání dat, nedbalost, chyba obsluhy, nesprávné používání - Přírodní katastrofy: požáry, záplavy, zemětřesení, tornáda - Úmyslné zničení: virus, sabotáž, krádež, vandalismus - Selhání bezpečnosti: útoky hackerů, zanedbání servisních prohlídek, zanedbání aktualizací systémů, poškození systému zaměstnanci - Selhání systému: výpadek napájení, selhání pevného disku, selhání hardwaru, výpadek sítě, programová chyba (chyby softwaru) Cílem této práce je poskytnout teoretický základ o této problematice a ukázat jaké otázky bychom si měly pokládat pro úspěšné řešení zálohování dat. Dále bychom si měli udělat rámcovou představu jaké technologie nám v dnešní době pomáhají zpracovávat data od jejich ranné fáze až po dlouhodobou archivaci.
6
1. Důvody zálohování dat Počítačové soubory se dají velice snadno poškodit. Jediný chybný a nepromyšlený krok, chyba daného softwaru nebo nesprávné a špatně načasované vypnutí zařízení stačí k poškození a potencionálnímu znečitelnění dat. Soubory snadno podléhají virům, červům a trojským koňům. Tyto nebezpečné kódy mohou způsobit nenapravitelné a nevratné škody pokud nemáme někde aktuální zálohu. Ztráta dat může vést někdy až k ukončení naší podnikatelské činnosti a tak je dobré si toto téma pečlivě prostudovat a naplánovat jakou cestou se vydat. Jenom samotná ochrana počítače před vnějšími útoky k úplnému odstranění těchto rizik nestačí. Jedna nezávislá studie ukázala, že více než třetinu případů ztráty dat způsobilo selhání lidského faktoru. Nenadálé vymazání souboru, ukončení aplikace bez uložení provedených změn, ztráta přenosného media či zapomenutý přístupový kód můžou velice snadno způsobit ztrátu důležitých dat. Důsledky ztráty dat jsou citelnější v případech, že používáte počítač k pracovním účelům. Ve vašem počítači nemusí být jen utajené dokumenty, různé smlouvy či přístupy k účtům, aby měl dotyčný důvod k obavám o své soubory. Komu by nebylo líto ztráty soukromých mailů, sbírky hudebních souborů, obrázků či fotografií svých ratolestí nebo významných výročí? Data se dají zálohovat na přenosná média typu DVD, CD, přenosné pevné disky nebo flash disky a tak mít svá data stále u sebe. Zálohy by se měly provádět i před započetím zásadních operací jako jsou například aktualizace operačního systému, protože v případě neúspěšného průběhu této operace, máme možnost začít tam, kde jsme přestali. Pracujeme-li s určitými soubory denně, je jejich zálohování v pravidelných intervalech naprostou nutností. Pravidelně zálohovat nemusíme všechny soubory, ale lze to řešit takzvanou přírůstkovou metodou, kde se zálohují pouze provedené změny a tím se tak významně šetří čas celkového zálohovacího procesu. Jedna z dalších možností je zkopírovávat pouze jen ty nejdůležitější soubory jako například mailbox, systémová nastavení, pracovní dokumenty atd.
7
2. Typy záloh 2.1. Plná záloha (Full Backup) Zde jsou zálohovány všechny soubory takzvaně zrcadlo disků. Výhoda je, že pro obnovení dat je plná záloha absolutně nezávislá a samostatná, ale naproti tomu hlavním mínusem je, že zabírá nejvíce kapacity. V největší míře se používá plná záloha v kombinací s rozdílovou a přírůstkovou.
2.2. Rozdílová, Diferenciální záloha (Differential Backup) Zde jsou zálohovány pouze soubory, které doznaly od posledního zálohovaní nějakých změn či byly označeny ručně atributem „Archiv“ a dále po zálohovacím procesu tento atribut není odstraněn. Záloha je podstatně kratší než u typu „Full Backup (plná záloha)“ a z tohoto důvodu ji můžeme používat během pracovních dnů, kde časový rámec nesmí překročit určitou dobu stejně tak jako u inkrimentální zálohy. Z pohledu času jsou rozdílové a inkrementální zálohy stejně časově náročné na obnovu, ale plně také tento aspekt závisí na tom, kolik bylo provedeno nekompletních záloh od poslední zálohy plné. V případě havárie diskového pole či serveru rozdílová záloha plně nepostačuje pro úplnou obnovu dat. V takovém případě musíme nejprve obnovit zálohu typu Full a poté teprve poslední zálohu typu Differential, abychom dostali věrný obraz dat před havárií systémů. Hlavní výhodou diferenciální zálohy je, že na sobě nejsou jednotlivé zálohy nijak závislé a pokud dojde k jakémukoliv poškození jedné diferenciální zálohy tak to nemá žádný vliv na ostatní diferenciální zálohy.
8
2.3. Přírůstková záloha (Incremental Backup) Tato metoda pracuje na systému takzvaného zrcadla (zdvojené informace), které obsahuje informace o historii všech provedených přírůstkových záloh a stav systému po poslední záloze. Jednoznačnou devízou této metody je stálá dispozice aktuální plné zálohy a ukládání pouze historie změn. Při každém zálohovacím procesu se vše propisuje do zrcadla a změněné soubory jsou automaticky přesouvány do přírůstkové zálohy. Pro přenosná media se tato metoda jednoznačně nehodí, protože se každá záloha musí vždy srovnávat s daným zrcadlem. Hlavní a největší výhodou inkrementální zálohy je, že zabírá absolutní minimum místa a je velice rychlá na vytvoření. Oproti tomu její největší nevýhodou je to, že pro obnovení dat je nutný celý řetězec provedených inkrementálních záloh, které nám prodlužují celkový čas obnovy do původního stavu před havárií systémů a všechny tyto zálohy jsou na sobě plně závislé. Pokud jedna jediná záloha z tohoto řetězce je poškozená tak se nám obnovení dat povede prakticky jenom do místa v řetězci, které je poškozené, ale dále už nejsme schopni data obnovit.
2.4. Schéma různých typů zálohování Na obrázku je názorně zobrazeno, že pokud je poškozena přírůstková záloha druhá tak nelze nijak obnovit zálohu třetí ani žádnou další, vedle toho v případě poškození rozdílové zálohy v pořadí druhém, která není nijak závislá, tak v tomto případě zde není žádný limitující faktor obnovit rozdílovou zálohu třetí či jakoukoliv další v pořadí.
obr. 1 Schéma jednotlivých typů záloh
9
3. Média pro ukládání dat 3.1. Magnetická páska Magnetická páska je stálé záznamové médium skládající se z magnetické vrstvy, která se nanáší na tenký plastový pás. V této kategorii jsou obsaženy veškeré audio a videokazety a samozřejmě zálohovací pásky, které jsou schopny pojmout veliké množství dat v nejrůznějších datových úložištích spolehlivě a na velice dlouhý časový úsek. Tato zálohovací média se používají již více než 50 let a je to stále jedna z nejlevnějších a nejefektivnějších technologií pro zálohování velikého objemu dat na dobu, která se počítá v řádech desítek let. Páskové magnetické systémy jsou uzavřeny v ochranném pouzdře přizpůsobeném proti mechanickému poškození a pro co nejsnazší manipulaci. Pásková mechanika obsahuje motory, které zajišťují převíjení mezi prvním a druhým kotoučem. Mezi kotouči je osazena hlava přehrávače, která se dotýká magnetické pásky a zajišťuje jak čtení, tak i zápis jednotlivých dat. Magnetické pásky, určené pro zálohování, jsou dostupné ve formátech AIT, DAT/DDS, DLT/SDLT a také aktuálně nejrozšířenější LTO (Linear Tape Open). Tato média jsou konkurenceschopnou alternativou právě pro jejich spolehlivost a délku životnosti, popřípadě velice nízkou cenou v porovnání s pevnými disky. Celková dostupná kapacita je s pevnými disky srovnatelná i když šířka záznamové hlavy páskové jednotky je mnohem širší než hlava na disku a hustota záznamu na cm² vyznívá jednoznačně pro pevné disky. Aktuálně nejvyšší kapacita je v LTO technologii až 3TB komprimovaných dat a nabízí se také ve variantách RW a WORM. RW je přepisovatelné médium a WORM je médium, na které jde zapsat data pouze jednou. WORM médium je rozšířené zejména v bankovním sektoru, kde jsou instituce povinné ze zákona data archivovat několik let a tato technologie zajišťuje, že se data omylem nikdy v budoucnu nebudou dát přepsat. V minulosti byl podíl pásek na trhu v porovnání s pevnými disky obrovský vzhledem k cenám a dostupným kapacitám, avšak dynamický rozvoj v oblasti pevných disků a pomalejší rozvoj páskových médií a technologií tento fakt naprosto zvrátil, ale i nadále mají pásky nedílnou
10
část svého trhu a využití právě pro jejich dlouhodobou životnost, spolehlivost a přenositelnost. Výhody zálohování na pásku jsou zejména spojeny s těmito aspekty: - pásková media jsou objemově menších rozměrů a přitom mají vysokou kapacitu - jsou snadno přemístitelná a mohou být jednoduše skladovány mimo místo zálohy - doba skladovatelnosti těchto médií se počítá přibližně 30ti let a více - jednoduše se dá škálovat (rozšiřovat) celková kapacita uložených dat vzhledem ke snadné vyměnitelnosti média - v případě větších společností se dají použít robotizované systémy, které usnadní integraci do stávajícího prostředí a zaručí automatizaci zálohovacího procesu
obr. 2 Magnetické pásky (DDS-2)
3.2. Pevný disk (Hard Disk Drive, zkratka HDD) Je dnes nejrozšířenější datové médium na bázi magnetické indukce, které se používá pro dočasné či trvalé uchovávání dat jak ve spotřební elektronice, tak v těch největších zálohovacích zařízeních určených pro rozsáhlé zálohovací úkony nadnárodních společností. Za předchůdce tohoto media je považována disketa a magnetická páska. Za největší konkurenty pevných disků jsou aktuálně pokládány Flash disky a současně nová rozšiřující se technologie SSD, které využívají stálé flash paměti.
11
Pomocí magnetického působení na místa magneticky měkkého materiálu se ukládají data. Toto se provádí za pomoci elektrického proudu a cívky. Hard Disk je pevně uzavřená jednotka, kde se uvnitř otáčí několik rotujících kotoučů. Z důvodu velké hustoty záznamu na tomto mediu musí být pevný disk uzavřen, aby jakákoliv nečistota nezpůsobila jeho destrukci. Rotující kotouče vytváří nad plochou disku tenký vzduchový polštář (mezní vrstvu) na němž se vznáší čtecí/zapisovací hlavy. V současnosti se rychlost disků pohybuje od 5400 otáček za minutu až do 15000 otáček za minutu u technologie SAS (Serial Attached SCSI). Pevné disky rotují po celou dobu co jsou připojeny ke zdroji elektrického proudu bez závislosti na faktu, zda se provádí čtení či zápis nebo jen vyčkává. V případě dnešních modelů pevných disků se čtecí/zapisovací hlavy, při vypnutí elektrického přívodu/vypnutí zařízení, automaticky zaparkují do zóny mimo datovou oblast, kde nepoškodí data na disku. Tato zóna bývá nejčastěji vnitřní část stopy disku pro jeho nejnižší otáčky. Hlavními výhodami pevných disků jsou bezpochyby výhodný poměr ceny a kapacity a zároveň výkon v podobě vysoké rychlosti zápisu a čtení dat. Hlavními nevýhodami jsou mechanické součásti a tím pádem vysoká náchylnost na poškození disku. Neopatrným zacházením, nárazem nebo popřípadě i pádem, můžeme způsobit částečné znečitelnění či plné poškození pevného disku, protože čtecí/zapisovací hlavy se mohou dotknout povrchu plotny, kde se nachází záznamová vrstva, která je velmi citlivá. K dalším nevýhodám můžeme řadit také vysokou spotřebu elektrické energie a poměrně vysokou hmotnost. V současné době se pevné disky dělí podle velikosti na 2,5" a 3,5". Trend posledních dní směřuje jednoznačně k 2,5" technologii z toho důvodu, že čím rychleji se plotny otáčejí tak tím více na ně působí odstředivá síla a materiály jsou ve 2,5" discích méně namáhány. Tato skutečnost způsobuje menší poruchovost a také nižší celkovou spotřebu než u verze v 3,5 palcích. Současné pevné disky dělíme podle technologie rozhraní na SATA (Serial ATA) a SAS (Serial Attached SCSI).
12
3.2.1 SATA (Serial ATA) SATA je sériové rozhraní počítačové sběrnice, která se používá pro připojení velkokapacitních paměťových zařízení. Přenos dat probíhá sériově na vysoké frekvenci a dosahuje až 600 MB/s. SATA oproti předchozí generaci ATA podporuje Hot-Plug funkcionalitu což znamená připojení a odpojení zařízení za chodu. ATA se dnes již prakticky nepoužívá a z důvodu zaměření této práce na aktuální technologie, zde není toto rozhraní popsané. Nabízené rychlosti tohoto řešení se pohybují od 5400 otáček za sekundu až k 7200 otáčkám za sekundu. Hlavní výhoda SATA technologie je v poměru ceny za jednotku kapacity a jednoznačně i podstatně vyššími nabízenými kapacitami na trhu oproti SASu. Maximální dostupná kapacita SATA pevného disku je v současnosti ve variantě 3,5" 3000GB s rychlostí 7 200 otáček za sekundu a ve variantě 2,5" 1000GB s rychlostí taktéž 7 200 otáček za sekundu.
3.2.2 SAS (Serial Attached SCSI) Přebírá ovládací protokol (příkazovou množinu) rozhraní SCSI, ale již dále není připojen ke všem zařízením samostatným kabelem. SAS je nejčastěji používáno v serverových řešeních, diskových polích či páskových jednotkách pro jeho dva nezávislé komunikační kanály (Dual-port) a připojení každého zařízení zvlášť svým kabelem. Tento typ technologie umožňuje vyšší dostupnost, kdy případná závada nevyřadí ostatní připojená zařízení a máme možnost postavit plně redundantní disková pole. SAS nabízí rychlosti pevných disků ve dvou variantách 10 000 otáček za sekundu a 15 000 otáček za sekundu. Hlavní výhoda SAS technologie je v rychlosti nabízených disků, která jde ruku v ruce také s vyšší stabilitou a poruchovostí zařízení v porovnání se SATA. Dále nám tato technologie nabízí připojit kombinaci SATA a SAS technologií na jednom řadiči pro dosažení optimálního vyvážení výkonu a ceny pro danou aplikaci. Opačné řešení však není možné z důvodu kompatibility, protože SATA řadič nepodporuje SAS interface. Dokonce je osazen zámkem, aby připojení nebylo možné provést.
13
Maximální dostupná kapacita SAS pevného disku je v současnosti ve variantě 3,5" 600GB s rychlostí 15 000 otáček za sekundu a ve 2,5" 600GB s rychlostí 10 000 otáček za sekundu nebo 146GB s 15 000 otáčkami za sekundu.
obr. 3 HDD
3.3. Solid-State-Disk (SSD) SSD zapisuje data do polovodičové paměti typu flash a nikoliv na magnetickou plotnu jak tomu je u točivých HDD. Jedná se o médium, které neobsahuje žádné mechanické pohyblivé části, vyzařuje méně tepla a spotřebovává mnohem méně elektrické energie v porovnání s klasickými pevnými disky nicméně používá stejné komunikační rozhraní. Vzhledem k faktu, že toto médium nemá žádné mechanické pohyblivé části tak úměrně tomu je velice tiché, nesrovnatelně lehké a mnohem více odolné vůči nárazům a potencionálním otřesům. Velkou výhodou je jednoznačně rychlost, protože vybavovací doba je jen tak dlouhá jak elektronika zaadresuje odpovídající paměťovou buňku a to je výrazně méně v porovnání se čtecí/zapisovací hlavičkou pevného disku vyhledávající potřebná data v dané stopě.
14
Momentálně zřejmě největší nevýhodou SSD technologie je fakt, že tyto disky se takzvaně propisují. Je to omezení celkového počtu formátování disponibilních buněk (udává se něco okolo 100 000 zápisů) a tím se také snižuje jejich stabilita a celková životnost když tuto technologii budeme používat pro aplikace, kde se budou často přepisovat data na disku. Perspektiva SSD je, že v budoucnu bude plně nahrazovat aktuální technologii HDD, ale jen čas ukáže jaká je to do jisté míry pravda. Dále však výrobci pracují na technologii, která se s touto nepříjemností plně vypořádá. Jako další z mínusů, která SSD disky provází je jeho současná pořizovací cena v poměru s dostupnou kapacitou. Maximální dostupná kapacita SSD pevného disku, která se současnosti prodává je 960GB a dosahuje výkonu až 740MB/s při čtení a až 720MB/s při zápisu.
obr. 4 SSD
3.4. Optický disk Jedná se o médium diskového tvaru, které pro záznam používá světelný paprsek laseru. Na médium se provádí zápis a čtení pomocí laserového paprsku, který proniká přes průhledný plastový substrát k záznamové vrstvě a následně k reflekční vrstvě od které se odráží a vrací zpět. Zkoušky prováděné v klimatizovaných místnostech demonstrují výdrž okolo 100 let jak u CD-R tak i DVD-R médií. To však platí pouze pro disky uskladněné za určitých klimatických podmínek, přičemž kvalita jejich vypálení přirozeně hraje důležitou roli. Média
15
by měla být v plastové krabičce na stojato, při teplotě 20 až 25 stupňů Celsia a 55% relativní vlhkosti vzduchu, chráněné před světlem, kouřem apod. Každé jednotlivé použití nosiče zkracuje jeho zbývající dobu životnosti, stejně jako drobné škrábance, otisky prstů a prach čemuž je samozřejmě obtížné se vyhnout. Z tohoto důvodu jsou tato média využívána hlavně v domácnostech. Primárně neslouží pro ukládání dat ve firemních prostředích pro jejich nestabilitu a relativně neurčitou, nepředvídatelnou životnost. Optická media můžeme dále dělit na Kompaktní disk, DVD, HD DVD a Blu-ray disk.
3.4.1 Kompaktní disk Obvyklý název CD tedy zkratka založená na anglickém názvu Compact Disc. Kompaktní disk je majoritně určen pro záznam digitálních dat. Jednotlivá data jsou ukládána ve stopách na dlouhé spirále, která začíná vždy od středu média a dále postupuje až k jeho okraji. Každá stopa může potenciálně obsahovat zvukovou nahrávku v různém formátu či soubory čitelné počítačem. Příčný odstup stop je 1,6 μm a maximální dosažitelná kapacita je 700MB. O čtení a zápis se stará laserové světlo o vlnové délce 785 nm.
3.4.2 DVD Zkratka založená na anglickém názvu Digital Video Disc. DVD se velmi podobá svému předchůdci CD z důvodu kladení velkého důrazu na zpětnou kompatibilitu při vývoji tohoto média. DVD je formát digitálního optického datového nosiče, který může obsahovat filmy ve vysoké zvukové a obrazové kvalitě nebo jiná data. Maximální dosažitelná kapacita DVD je 4,7GB v jednovrstvé variantě a až 8,5GB ve dvouvrstvé variantě.
3.4.3 HD DVD Zkratka založená na anglickém názvu High Definition Digital Video Disc. Patří ke třetí generaci optických nosičů po kompaktním a digitálním video disku.
16
Tato média byla vyvinuta společnostmi NEC, Sanyo a Toshiba. Disky se vyznačovaly vysokou ochranou proti kopírování, avšak na počátku roku 2007 se tato skutečnost podařila prolomit a o rok později společnost Toshiba oznámila ukončení vývoje a výroby.
obr. 5 Optický disk
3.4.4 Blu-ray disk Název vychází z anglického Blu-ray tedy modrý paprsek, který se stará o čtení. Patří k třetí generaci optických disků spolu s HD DVD, které jsou určeny pro ukládání digitálních dat. Data se na toto medium ukládají ve stopě tvaru spirály 0,1 mm pod povrch disku, příčný odstup stop je však oproti první generaci CD významně menší 0,35 μm. Laserové světlo o vlnové délce 405 nm se stará o čtení disků Blu-ray. Japonská společnost Sony stála za vývojem Blu-ray v kooperaci s dalšími technologickými společnostmi jako jsou třeba Philips. Technologii vyvinula japonská firma Sony. Maximální dosažitelná kapacita Blu-ray disků je 25GB v jednovrstvé variantě a až 50GB ve dvouvrstvé variantě.
17
4. Zálohovací software Základním článkem zálohovacího systému je většinou takzvaný zálohovací manager (hlavní řídící agent), který řídí zálohování svých podřízených serverů včetně pracovních stanic a desktopů. Pro zvýšení dostupnosti se používá (hlavně v prostředích WAN) architektura Manager of Managers, kdy jednomu zálohovacímu manageru je přidělena funkce managera managerů. Ten má potom možnost řídit práci všech jemu podřízených zálohovacích managerů případně udržovat data o provedených zálohách a médiích na jednom místě. Zálohovací manager plánuje automatické spouštění zálohovacích úloh a zároveň si uchovává informace o provedených zálohách a záložních médiích. Komponenta, která zabezpečuje čtení dat z disků zálohovacích zařízení se jmenuje Disk Agent. Na každém zálohovaném počítači, serveru nebo pracovní stanici je instalován Disk Agent, který zajišťuje výběr dat určených k zálohování a odesílá datový proud na Media Agenta. Mezi zálohovací agenty jsou logicky řazeny i komponenty pro on-line zálohování dat některých databázových systémů, diskových polí, případně speciálních softwarových produktů. Tyto Disk Agenty je nutné instalovat na příslušný server, kde bude on-line zálohování prováděno. Komponenta, která se stará o ukládání dat na zálohovací médium se jmenuje Media Agent. Na počítačích, které budou mít dostupné (přímo nebo přes SAN) páskové mechaniky je nainstalován Media Agent, který zajišťuje obsluhu páskové knihovny, zápis a čtení dat z pásky. Přenos dat mezi diskovým a Media Agentem probíhá po protokolu TCP/IP (Transmission Control Protocol/Internet Protocol). Je vhodné, aby servery s velkými datovými objemy dat byly připojeny k SAN a nezatěžovaly datovými toky při zálohování LAN. Modul pro zabudovanou distribuci softwaru dovoluje instalování Disk Agentů na dálku a omezuje tím na minimum nutnost individuální instalace každého zálohovacího systému a tím se výrazně šetří náklady zejména ve firemních IT prostředích, které obsahují velký počet zálohovaných zařízení. Zálohovací manager, Disk Agent, Media Agent i instalační server mohou být fyzicky na rozdílných místech sítě. Grafické uživatelské prostředí je základní nástroj pro přístup k informacím a řízení centrálně řízeného zálohovacího systému. Grafická konzole může být instalována na libovolném počtu pracovních stanic a serverů, které jsou pro toto prostředí podporovány.
18
Další možností monitorování práce zálohovacího softwaru je WWW aplikace, pomocí které mají uživatelé zálohování možnost se z libovolného počítače s WWW prohlížečem přesvědčit, zda záloha jejich serveru skončila dobře, případně na jakých médiích mají zálohovaná svá data. Mezi hlavní výhody centrálního zálohovacího SW patří: –
Snadná a rychlá obnova operačního systému po havárii pro všechny podporované typy operačního systému podporované zálohovacím softwarem.
–
Čas potřebný pro obnovu operačního systému je srovnatelný s dobou samotného přenosu dat.
–
Centrální správa všech konfigurací.
–
Pokročilá správa a detekce medií určených pro zálohy s možností automatické identifikace pomocí čárových kódů. Schopnost zabránění nežádoucímu přepisu dat včetně médií používaných jinými zálohovacími prostředky.
–
Propracovaný systém vytváření reportů a jejich prezentace pomocí WWW.
–
Intuitivní grafické konfigurační i příkazové rozhraní s možností spouštění skriptů.
–
Podpora technologie Storage Area Network díky které je možné docílit zálohování bez účasti LAN a tím předcházet přetížení sítě.
–
Podpora pro zálohování celého prostředí, kde běží zařízení s rozdílnými typy operačních systémů jako jsou například: SUN Solaris, HP-UX, MS Windows, Novel Netware, Redhat, SUSE, IBM AIX a jiné.
–
Podpora pro zálohování celé řady produktů databázových či informačních systémů jako jsou například: Oracle, Informix, Sybase, MS SQL Server, SAP, MS Exchange, Lotus Notes a další.
–
Organizace datových medií do logických skupin, takzvaných media poolů.
Licencování zálohovacího softwaru: - licencování těchto produktů se liší výrobce od výrobce avšak průřezově je velmi obdobné a časem doznává jen kosmetických změn. Většinou je velmi průhledné a je založeno na požadovaných schopnostech a průchodnosti zálohovacího systému. Zakoupením základní licence je uživateli umožněno zálohovat určité množství koncových stanic na úrovni souborových systémů a pro zálohování použít automatické zálohovací zařízení s kapacitou až do několika slotů (celkového počtu zálohovacích médií). Pro větší množství použitých slotů je většinou nutné zakoupit další rozšiřující licenci. V rámci licence je v jednom okamžiku umožněna práce s jednou
19
zálohovací mechanikou a tím pádem lze využívat více lokálně připojených zálohovacích zařízení v různých časových okamžicích. Majorita zálohovacích softwarů podporuje použítí široké škály magnetopáskových jednotek (DAT, DLT, Ultrium a jiné, viz kapitola „Média pro ukládání dat“), magnetooptických zařízení nebo souborů v souborovém systému serverů. Pro současné využívaní každého dalšího zálohovacího zařízení je nutné si zakoupit od výrobce další rozšiřující licenci. Většina zálohovacích softwarů rozlišuje licence pro mechaniky připojené k systému Windows, Linux a systému Unix popřípadě zda zálohovací zařízení zálohuje přes dedikovanou síť v podobě SAN. Další možností může být backup to disk což je licence pro využití zálohování na disk v nativním režimu. Licencuje se dle využité kapacity. Zálohování dat: - zálohování dat na souborové úrovni je možné provádět paralelně s více zdrojů současně. Pro využití maximální propustnosti zálohovacího zařízení je nutné zajistit dostatečný přístup dat na vstup zálohovacího systému. V jednom okamžiku lze paralelně zálohovat na jedno médium více klientů a to i s různými operačními systémy (současná záloha dat ze systému Windows i Unix na jedinou pásku). Spouštění zálohovacích úloh je řízeno interním schedulingem (plánem) daného zálohovacího softwaru. Před každým spuštěním zálohovací úlohy a po jejím dokončení lze spustit akci na klientském systému, která zajistí konzistenci dat (např. automatické zastavení a opětovné nastartování databázového systému). Zálohovací úlohy lze definovat předem a spouštět je manuálně z grafického uživatelského prostředí nebo z příkazové řádky z libovolného počítače zařazeného do zálohovacího systému. Oprávnění ke spuštění úlohy lze diferencovat na základě definování uživatelských skupin a jim přidělených práv. Obnova dat: - obnovu dat je možnost provádět z příkazové řádky nebo grafického uživatelského rozhraní. Obnovu dat lze provádět do původního místa a na původní server nebo do jiného adresáře, případně i na jiný server bez ohledu na platformu. Obnovu dat lze provádět z libovolné pásky a pro libovolnou verzi souboru, která je dostupná na záložních médiích.
20
Vytváření archivních médií: - většina zálohovacích softwarů umožňuje i kopírování zálohovaných dat na druhou sadu médií. Tyto kopie mohou být uloženy na bezpečné místo pro archivování a zabezpečení skladování. Pro kopírování jsou potřeba dvě zařízení se stejným typem médií – jedno zdrojové (originál) a druhé cílové (kopie). Kopírování lze spustit v post-exec fázi nebo v přesně definovaný čas. Výsledkem kopírování jsou dvě sady médií se stejnými daty. Zálohovací software označí zdrojové i cílové médium jako uzamčené. Uzamčení zabrání přidání nových záloh, které by způsobilo nekonzistenci dat na zdrojovém médiu a jeho kopii. Definice zálohovacích úloh: - data jsou zálohovacím softwarem zálohována podle předem připravených zálohovacích úloh (Backup specifications). Zálohovací úloze lze kromě jiných vlastností přiřadit: adresáře a soubory, které má na konkrétním serveru ukládat, datum a čas spuštění, typ zálohy. Definice “media poolů“: - každé zálohovací úloze se přiřazuje doba po kterou je potřeba data chránit proti přepsání. Tato doba se nazývá doba expirace. Páska lze znovu použít až po expiraci všech dat uložených na pásce. Media pool je logická skupina médií, na které se ukládají data s podobnou dobou expirace a podobného typu. Požadavky na instalaci a konfiguraci zálohovacího softwaru: –
Vyčlenění odpovědného pracovníka se znalostí infrastruktury pro případné dotazy a nastavení.
–
Definování zálohovacích dat, požadované četnosti zálohování a doby jejich ochrany.
–
Definování zálohovacích oken (časů, kdy je možné spouštět zálohování)
–
Definování aplikací na zálohovacích serverech, které není možno zálohovat za běhu. Zajištění skriptů pro zastavení a start těchto aplikací (databáze).
–
Zajištění administrátorských přístupů pro instalaci a konfiguraci zálohovacího softwaru na zálohovaných zařízeních.
–
Zajištění předem specifikovaných a požadovaných síťových konektivit.
21
5. Členění dat Vzhledem k rostoucímu tlaku na úspory v IT oblasti, stále více zákazníků vyžaduje řešení umožňující ukládat data na různě výkonné a finančně nákladné řešení v závislosti na jejich typu a stáří. Jednou z možných odpovědí na takovéto požadavky jsou archivační řešení kombinovaná s více úrovňovým ukládáním do takzvaného tiered storage prostředí. Všechny významné IT společnosti investují nemalé prostředky do vývoje produktů z kategorie Information Lifecycle Management (ILM). Součástí ILM jsou řešení určená pro archivaci a on-line migraci dat souborových, databázových a poštovních serverů. Důležitým pohledem na ukládaná data je jejich aktivita v čase. Podle tohoto kritéria lze data rozčlenit na aktivní a data referenční. Aktivní data jsou ta, u kterých nebyl dokončen cyklus změn a stále ještě dochází k jejich modifikacím. Data je nezbytné provozovat na výkonných diskových polích, v dobře zabezpečených prostorách, je třeba je pravidelně zálohovat a je potřeba je testovat na přítomnost virů. Referenční data jsou označována jako soubory/informace, na kterých již neprobíhají žádné změny a přistupujeme k nim zřídka. Referenční data proto nemají takové požadavky na výkon, proto je možné je ukládat na méně výkonné diskové prostory nebo v některých případech i na páskové knihovny. Rozdělení na aktivní a referenční data je platné nejen pro čistě souborová data, ale také pro informace zpracovávané databázovými nebo mailovými aplikacemi. V různých studiích je uváděno, že poměr mezi aktivními a referenčními daty je zhruba 20% ku 80%. Z tohoto, byť obecně odvozeného poměru, vyplývá, že pokud není zavedeno kategorizované ukládání dat, značná část výkonných diskových prostor může být využita neefektivně. Kromě toho referenční data generují dodatečné zatížení celého systému, prodlužují dobu potřebnou pro zálohu a obnovu. V kombinaci se softwarovými nástroji by mělo být dosaženo stavu, kdy data budou jednoduše a automaticky přesouvána podle jejich významu na storage prostory s různými cenovými a výkonnostními parametry. Přínosy takového přístupu by měly být nejen technické v podobě zkrácení servisních operací (zálohy, obnovy, antivirové kontroly, defragmentace).
22
Další efekty by měly být finanční v podobě hospodárnějšího zacházení s primárním diskovým prostorem.
obr. 6 Uložená data
5.1. Archivace souborů Pro potřeby on-line migrace a archivace nepoužívaných souborových dat lze použít řešení souborové archivace. Toto řešení umožňuje na základě předdefinovaných parametrů přesunout nepoužívaná data z primárního úložiště na levnější sekundární nebo terciální úložiště. Pro potřeby archivace lze použít levná FATA nebo SATA disková pole, případně páskové knihovny. Jako rozhodující parametr pro migraci je používáno datum posledního přístupu k souboru. Soubory, které nebyly používány po definovanou dobu, jsou přesunuty do správy serveru a umístěny do definovaného úložiště. Na původním diskovém prostoru jsou ponechány pouze takzvané „stub“ soubory, které se jeví jako originální data, ale obsahují pouze odkazy na archivovaná data. V případě, že vznikne potřeba znovu použít již archivovaný soubor, data jsou automaticky importována do původního prostoru. Tato operace probíhá zcela transparentně v režii daného SW pokud tuto funkcionalitu podporuje.
23
Přínosy řešení: - Finanční – řešení umožňuje podstatným způsobem zredukovat cenu za uložená data. Zároveň lze snížit i náklady na provoz, protože migrací se zkracuje čas nutný pro zálohování, defragmentaci nebo antivirovou kontrolu. - Konsolidace – heterogenní (různí výrobci) servery (Unix a Windows) mohou ukládat svá archivní data do konsolidovaného (společného) úložiště. - Flexibilita – jako úložiště pro migrovaná data lze použít podporovaná disková řešení včetně SATA technologie, páskové knihovny nebo kombinaci disků a pásek. - Ochrana proti manipulaci s daty – řešení lze rozšířit o WORM funkcionalitu, aby bylo možné garantovat neměnnost obsahu archivovaných dat. - Zabezpečení – v průběhu migrace lze vytvářet několik kopií dat, z nich každá může být uložena na jiný typ zařízení. - Dostupnost – v případě nedostupnosti jedné z kopií dat jsou požadavky automaticky přesměrovány na další zdroj. - Jednoduchost – všechny operace spojené s archivací a zpětným vyvoláním dat jsou plně automatizované na základě pravidel a probíhají z pohledu uživatele transparentně.
5.2. Archivace databází Je další z řady řešení, které umožňuje řešit otázku archivace databázových aplikací. Díky této funkcionalitě SW je možné zvládat stále rostoucí objemy databází, tím že jsou uzavřené transakce a další data přesouvána mimo produkční prostředí při zachování on-line přístupu. Svou funkcí pomáhá podstatně zlepšit výkon aplikací, redukuje cenu za úložný prostor a pomáhá plnit požadavky na archivaci definované legislativou.
5.3. Archivace poštovních serverů Je kompletní řešení archivace emailů v systémech Microsoft Exchange, Lotus Notes a dalších běžných poštovních klientů, které integruje veškerý hardware, software a související služby.
24
Uživatelé si snaží vybrat produkt, který je co nejvíce škálovatelný (možnost rozšíření), umožňuje práci v prostředích sítí SAN, LAN i WAN s možností dynamického přidělování zálohovacích zařízení různým serverům a ostatním zařízením. Dále schopnost implementace pro podporu Off-Line a On-Line zálohování používaných databázových technologií, jako jsou např.: Oracle, Informix, Sybase, MS SQL Server.
25
6. Šifrování zálohovaných a archivovaných dat Kryptografie je nauka o šifrování, která dostala své jméno v minulosti podle řeckého slova „ kryptós“. V řečtině má toto slovo význam „skrytý“. Šifrovat data znamená, že je upravíme takovým způsobem, aby se informace pro nepovolané osoby staly nečitelnými a neviditelnými. Šifrování dat se odkazuje na matematické a algoritmické výpočty. Jedny z prvních šifrovacích metod se datují již před více než 2000 lety. Ve starověkém Římě je používala třeba armáda pro svoji komunikaci. Data, která máme uložená ve výpočetních zařízeních a páskových knihovnách jsou často velmi cenného charakteru, málokdy jsou nedůvěrné povahy. Z tohoto důvodu je potřeba zajistit, aby k nim měly možnost přístupu jen osoby povolané. Drtivá většina choulostivých dat ve firemních počítačových sítích je chráněna prostřednictvím omezení přístupu k daným aplikacím na základě správy uživatelských účtů a také omezením fyzického přístupu k výpočetním zařízením a datovým úložištím. Internet je od firemního intranetu pečlivě oddělen prostřednictvím softwarových či hardwarových firewallů. Přístup přes internet lze řešit prostřednictvím virtuální privátní sítě (VPN) a technologie bezpečného webu (secure web). V současné době začínají v řadě zemí platit předpisy a legislativa, která firmám nařizuje chránit některé druhy elektronických dat. To má za následek, že například záloha na pásku musí být stejně bezpečná jako data uložená ve výpočetních zařízeních a datových úložištích. Řada podniků však zálohy uchovává na jiném místě a v mnoha případech se jedná o archivní řešení provozované jinými společnostmi tedy třetí stranou. V případě převozu datových páskových médií pak hrozí nebezpečí ztracení či odcizení dat. K tomu, abychom byli řádně schopni zajistit, že data budou odpovídajícím způsobem chráněna i při ukládání mimo datová centra, je nutné použít šifrování záloh. Šifrovací standardy – kryptografické algoritmy, které jsou dnes běžně používané, odpovídá různým americkým nebo mezinárodním standardům. K hlavním světovým organizacím publikující standardy patří: -
National Institute of Standards and Technology (NIST)
-
International Standards Organization (ISO)
-
Institute of Electronic and Electronic Engineers (IEEE)
26
NIST je americká vládní organizace, která definuje kryptografické standardy v dokumentu Federal Information Processing Standards (FIPS) 140-2. FIPS definuje pět úrovní bezpečnosti kryptografických modulů, jak je znázorněno na následujícím obrázku.
obr. 7 FIPS 140-2
AES (Advanced Encryption Standard) patří mezi nejběžnější šifrovací algoritmy, které jsou schválené FIPS. AES je nový standart a umožnuje šifrovat data až 256-bitovým klíčem. Obecně platí, že čím vetší výpočetní výkon počítače, tím má větší šanci rozluštit zašifrovaná data. V oblasti páskových knihoven či páskových mechanik se dnes v největší míře používá AES Galois Counter Mode s 256-bitovým klíčem. Jedná se o algoritmus tajného klíče neboli symetrické šifry, takže pro šifrování i dešifrování se používá totožný stejný klíč. Klíč se v žádném případě, z bezpečnostních důvodů, neukládá na samotnou pásku, ale zůstává uložen v dané páskové mechanice. Je možné vytvořit nový klíč pro každý další záznam, ale takové řešení není příliš praktické, protože by bylo zapotřebí příliš velkého množství klíčů. Zpravidla je používán pouze jeden klíč pro jednu zálohovací operaci nebo jedno páskové médium. Pro čtení šifrovaných dat musíme dodat správný klíč nebo je vrácen chybový stav a následný zjištěný status ukáže, že byl dodán neplatný klíč nebo nebylo zvoleno dešifrování pro čtení šifrovaných dat.
27
7. Pokročilé softwarové funkcionality 7.1. Deduplikace dat S neustále rostoucími objemy dat rostou i požadavky na jejich ochranu a stále se klade větší důraz na zvyšování jejich bezpečného zálohování. Standardní zálohování naráží na své limity, a proto jsou výrobci nuceni vyvíjet nové technologie a hledat nové cesty jak zákazníkům co nejlépe uspokojit jejich potřeby. V poslední době se na trhu celkem dost skloňuje ve všech pádech takzvaná deduplikace dat. Jedná se o metodu eliminace redundantních (zdvojených) dat, které se musí zálohovat a tím se výrazně šetří požadovaná kapacita na celkovou zálohu. Princip je takový, že pokud systém vyhodnotí, že se někde nacházejí redundantní data tak zazálohuje pouze jednu identickou kopii a pro další instanci uvede jenom ukazatel kde se tato kopie nachází.
obr. 8 ukázka deduplikace
Tato technologie funguje i tak, že pokud se provede změna původního souboru tak systém deduplikace provede uložení pouze těch dat které byly skutečně pozměněny. Metoda deduplikace dat se dá kombinovat i s jinými technologiemi třeba jako jsou tradiční komprimace a tím docílíme výrazného poklesu požadavku místa. Je naprosto zřejmé, že dokážeme tímto prvkem šetřit úložný prostor a to nám umožňuje data zálohovat výrazně častěji bez navyšování úložné kapacity stojící nemalé finanční prostředky, které můžeme investovat někam jinam a kde jsou momentálně více zapotřebí.
28
Výhody deduplikace: -
rapidní redukce kapacity potřebné pro uložení záloh
-
šetření nákladů za nákup diskové kapacity
-
delší retenční doba pro zálohy – více dat je online – rychlejší obnova dat
-
zatížení sítě se poníží o traffic rozdílu dat
-
omezení potřeby zálohování na pásky a tím rychleji obnovitelná data
-
obnova vzdálených poboček lokálně
Systém deduplikace ovšem nepomůže v prostředí, kde se přidávají data zcela jedinečná a nová, v tomto případě pak výhoda deduplikace nemá šanci se plně projevit a ukázat. I v takovémto prostředí však deduplikace dokáže ukládat více postupných záloh, které lze ukládat s využitím stejného místa po delší dobu. Při výběru vhodného řešení je třeba si odpovědět na pár otázek: -
Kde přesně bude deduplikace prováděna? Bude deduplikace probíhat na zdrojovém serveru či bude probíhat na cílovém zařízení typu virtuální pásková knihovna? Při procesu prováděném přes zdrojový server teče přes komunikační infrastrukturu méně dat a tím pádem se může výrazně zkrátit celková doba zálohování. Zálohování na cílovém zařízení je vhodnější pro virtuální knihovny, které tak dokáží obnovit proces obnovy dat.
-
Kdy bude docházet k deduplikaci? V prostředích kde je naimplementována deduplikace u cílového zařízení, tak lze provést plnou zálohu a pak provést dodatečnou deduplikaci (post-procesní deduplikace) popřípadě deduplikační proces spustit v průběhu zálohování (inline deduplikace). Každá z těchto metod má své plusy a mínusy. V prvním případě lze šetřit celkový čas zálohy a v druhém případě lze provést replikaci dat prakticky ihned po skončení zálohovacího procesu.
-
Jak bude úloha postupovat? Objem uložených dat se snižuje diferenciací na úrovni objektů tak, že se ukládají pouze případné změny, kdežto produkty založené na takzvané segmentaci na bázi hash kódů dokáží lokalizovat redundance mezi všemi soubory jednotlivých záloh.
29
7.2. Typy deduplikace V rámci deduplikovaného ukládání dat je možno využít několik typů deduplikace. Podle různých atributů rozlišujeme následující typy deduplikace: -
Souborová
-
Sub-souborová
-
Fixní délka bloku
-
Variabilní délka bloku
-
Post-proces
-
Inline
-
Na zdroji
-
Na cíli
První atribut – Souborová/Sub-souborová deduplikace, určuje velikost nejmenšího deduplikačního objektu – míru granularity. Na souborové úrovni je nejmenším objektem, který lze deduplikovat, nalézt a eliminovat redundantní výskyty identického objektu, souboru. Tento přístup je označován za Single Instance Storage a je často používán na úrovni souborových systémů. Sub-souborová nebo také bloková deduplikace, dělí všechny soubory na jednotlivé bloky a eliminuje redundanci na blokové úrovni. Druhý atribut vstupuje do procesu deduplikace ve chvíli, kde je používána sub-souborová (bloková) úroveň. Tento atribut popisuje, jakým algoritmem je řízen proces dělení datového toku (souboru). Jedná-li se o pevně stanovenou délku bloku nebo je využit specifický algoritmus, jehož výstupem jsou bloky o proměnné délce. Inline deduplikace zaručuje, že data, která jsou zapisována na disky, jsou již deduplikována. Na opačném pólu inline deduplikace stojí post-procesingová deduplikace. Tento typ deduplikace vyžaduje přidanou kapacitu, která funguje jako takzvaná landing zone, kam jsou v nezměněné podobě data zálohována/archivována. Teprve po dokončení prvotního uložení, jsou data dále deduplikována a popřípadě ještě replikována. Výhody Inline deduplikace: -
nline deduplikace je jednodušší a predikovatelnější (žádné složité a neznámé procesy)
30
-
jakmile jsou zálohovaná data zapsána na disk, je proces kompletní a v několika minutách od dokončení zálohování budou data replikována do vzdálené lokality
-
čas potřebný pro Disaster Recovery je významně zkrácen
-
inline deduplikace redukuje počet disků/zaplnění serverovny
-
využívá všech storage standardů
7.3. Deduplikační poměr Je udáván jako poměr objemu dat, které jsou na vstupu deduplikačního systému vůči objemu dat na výstupu. deduplikační
% ušetřené
Důležité je, co deduplikační poměr a jeho
poměr 2:1
kapacity 50 %
velikost přináší do prostředí datacentra a jak
5:1
80 %
10 : 1
90 %
13,4 : 1
92,5 %
15 : 1
93 %
poměru.
20 : 1
95 %
Z tabulky je patrné, že při deduplikačním
25 : 1
96 %
poměru 20:1 postačuje k uložení například
obr. 9 Deduplikační poměr
se různé velikosti projeví. Nejlépe tento vztah vyjádří následující tabulka, která zobrazuje míru úspory úložné kapacity v závislosti
všech
na
velikosti
současných
deduplikačního
záložních
dat
deduplikovaná kapacita o velikosti jen 5% současné kapacity, úspora tedy činí 95% kapacity. Deduplikační poměr si lze snadno vizualizovat představou, kdy pro deduplikační poměr 20:1, je pro uložení 20TB dat dostačující deduplikovaná storage o velikosti 1TB. Jak velký deduplikační poměr mohu očekávat, je závislé na míře redundance dat v datacentru, která je dána zejména zálohovacími schématy nastavenými na úrovni zálohovacích aplikací. Typické zálohy jsou plné a inkrementální zálohy. Zejména dva aspekty ovlivňují výskyt duplicitních dat v rámci ukládání záloh. První aspekt je míra periodicity zálohování (častost). Obvykle se jedná o jedenkrát týdně plnou zálohu a 6x týdně inkrementální zálohu. Druhým aspektem je časová perioda, po kterou se zálohy uchovávají – retence – týdny, měsíce, roky.
31
Zejména na těchto dvou parametrech záleží velikost deduplikačního poměru, kterého lze v rámci datacentra dosáhnout. Proč se nededuplikuje na primárním úložišti? V rámci deduplikačního úložiště se zatím pohybujeme na úrovni zálohování, archivace, neprodukčních file systémů a dalších. Nikoliv však na úrovni primárních blokových úložišť (SAN). Důležitým aspektem primárního úložiště je rychlost (výkon a nízká latence), proto jsou investice do primárních úložišť nemalé. Na druhé straně, deduplikační proces znamená přidanou latenci, vyžaduje procesorový čas a ačkoliv jsou výkony procesorů v současnosti již vysoké, stále je tato latence neakceptovatelná na primárních diskových úložištích.
32
8. Hardwarové technologie pro ukládání a zálohování dat Objem dat, která v současné době musejí podniky ukládat, exponenciálně roste a s tím také náklady na ukládání informací. Jednotliví výrobci si uvědomují, že uživatelé hledají partnera, který by převzal iniciativu a poskytl by jim efektivnější a cenově dostupnější řešení ukládání dat. V současné době v sobě špičková řešení pro ukládání dat kombinují hardware, software, služby a odborné poradenství jednotlivých specialistů na danou problematiku a tak si každý může nechat připravit unikátní koncepci prostředí na míru. Výrobci dnes postupně přizpůsobují široké a rostoucí portfolio svých produktů tak, aby se mohli vypořádat s největšími problémy v souvislosti s ukládáním dat. Jaké aspekty by měla splňovat jednotlivá řešení pro ukládání dat: -
Škálování (rozšiřování) síťových úložišť – umožňuje rychle reagovat na poptávku uživatele na konkrétní použití či na potřebu vnitřního uspořádání a díky vedoucímu postavení v oblasti vyvíjejících se technologií, například FC (Fiber Channel) a rozhraní internetových malých počítačových systémů (iSCSI), umožňuje škálování úložiště na globální úrovni.
-
Automatizace správy úložiště – umožňuje centralizovanou správu úložišť různých výrobců, pomocí softwarových nástrojů, které zahrnují automatické možnosti řízení zásadami pro minimalizaci nutných zásahů při správě úložiště.
-
Virtualizace ukládání – slouží ke sjednocení úložišť do virtuálních fondů dat, které umožňují uživatelům spravovat větší kapacitu s menším úsilím.
-
Věrnost otevřeným standardům – toto sebou přínáší prodloužení technického cyklu životnosti řešení pro ukládání dat a nevydávání se cestou proprietárních řešení jediného unikátního výrobce, které můžou mnohdy způsobit nemalé dodatečné investice při přebudovávání celého konceptu.
-
Nižší požadavky na napájení a chlazení – snížení přidružených nákladů na energie či vytváření možnosti použití více úložišť při stejné spotřebě energie. Tímto
33
dosáhneme na lepší celkové náklady vlastnictví a celkově velmi rychlou návratnost všech vynaložených investic. Virtualizace ukládání dat: - nízkokapacitní využití je jednou z největších výzev při ukládání dat. Ve skutečnosti se obvyklé využití pohybuje v rozmezí 30% až 50%. Virtualizace ukládání pomáhá zlepšit využití stávající úložné kapacity na různých úrovních. Na úrovni síťového úložiště nebo serveru propojuje technologie virtualizace více hostitelů s více typy úložišť, k nimž má hostitel přístup. Na úrovni zařízení umožňuje automatizace pole seskupení jednotlivých disků v rámci jednoho pole do fondu (logického celku). Výsledkem je efektivnější správa jednoho fondu úložišť s potenciálem pro správu 10krát většího úložiště se stejným počtem uživatelů. Snížením spletitosti kapacit disků a zlepšením využití úložišť od více výrobců zaujímá virtualizace v dnešní době jedinečné postavení při poskytování hodnoty. Není žádným tajemstvím, že datová centra narážejí na překážky s ohledem na spotřebu energie a kapacitu chlazení a že neposkytují možnost rozšíření. Nové systémy správy energie spravují prostředí a poskytuje chlazení tam, kde je ho nejvíce potřeba. Současně uživatelům umožňují ušetřit energii a tím také podstatnou část nákladů. Uživatel v podstatě může přidat další úložiště a současně zmenšit nároky na spotřebu energie a chlazení. Většina dnešních řešení jsou navržena s ohledem na ochranu životního prostředí tak, aby splňovala celosvětové standardy, jako jsou směrnice WEEE (Waste from Electric and Electronic Equipment) a RoHS (Restriction of the Use of Certain Hazardous Substances). Data společně s informacemi hrají dnes a denně čím dál tím významnější roli v našem životě. Shromažďování, uchovávání, sběr a následné využívání dat je společné prakticky pro všechny oblasti. Proto jedním z nejvýznamnějších prvků jsou datová úložiště, která nám dokáží zajistit dostupnost a stabilitu našich uchovávaných dat. V první řadě si musíme položit otázku jaké řešení je pro naše prostředí a způsob využití vhodné, ale odpověď nemusí být vždy úplně jednoznačná a záleží hodně na požadavcích na kapacitu, dostupnost, celkový výkon, stabilitu a případné akceptování ztráty dat. Z hlediska topologie připojení můžeme dělit datová úložiště na DASová (Direct Attached Storage), NASová (Network Attached Storage) nebo SANovská (Storage Area Network) datová úložiště.
34
8.1. DAS (Direct Attached Storage) Je zálohovací zařízení, které je přímo, jak vyplývá z jeho názvu, připojené k hostitelskému systému. Klasickým příkladem pro běžného uživatele může být externí pevný disk. V podnikovém měřítku se jedná o zařízení, diskový systém, který se dá škálovat až do úrovně několika desítek či stovek terabytů. Tyto systémy mají většinou svůj vlastní kontroler, který má v sobě vyrovnávací paměť a zajišťuje logiku fungování RAID skupin a za použití různých typů RAID skupin chrání data v případě výpadku, popřípadě poruchy některých pevných disků. RAID poskytuje tomuto zařízení důležitou vlastnost, která zajišťuje, že v případě poruchy některého s osazených pevných disků nepřijdeme o daná data. Dnešní zařízení tohoto typu již běžně nabízejí funkcionalitu zvanou „Hot Swap“, která nám nabízí možnost tento vadný disk za chodu vyjmout a osadit disk náhradní. Data se automaticky na nově zasunutý disk zreplikují a systém může běžet dále. DAS se ovládá vždy z hostitelského zařízení (počítač nebo server) a pro jeho použití není většinou potřeba žádný dodatečný software. Na hostitelské zařízení se pro potřebnou a bezproblémovou funkčnost nainstalují podporované ovladače. Někteří výrobci mají ve svých portfoliích i DASová zařízení, která se dají připojit k hostitelskému zařízení dvoucestně/redundantně a zamezit tak potenciálnímu výpadku v případě poruchy jednoho z kontrolerů či host bus adapterů. Hlavní
výhody
DAS
řešení
jeho
cena,
intuitivní jednoduchá velice
ovládání, obsluha rychlá
jednoduchá
a a
instalace,
která nevyžaduje žádné speciální školení. Je to systém nejjednodušeji nejlevněji
jak a můžeme
uchovávat naše data, ale
obr. 10 Topologie DAS
35
hodí se jen pro určité účely a ne do všech prostředí. Mezi hlavní nevýhody těchto systémů patří, že v případě výpadku hostitelského zařízení jsou data na tomto zařízení nedostupná do doby než se hostitelské zařízení uvede znovu do provozu rozšiřitelnost, škálovatelnost je velmi omezená do té úrovně, kterou podporuje daný kontroler nebo host bus adapter. V prostředích se klade velký důraz na dostupnost dat v podobě 24x7 se toto řešení pro jeho spolehlivost nedá doporučit.
8.2. NAS (Network Attached Storage) Je zálohovací zařízení, které vychází z myšlenky souborových serverů (file servers) připojených do počítačové sítě přes kterou se hlásí všem namapovaným zařízením v síti pro jeho využívaní stávající diskové kapacity. Tato řešení jsou do sítě prezentována speciálním hardwarem nebo serverem ke kterému je připojené DAS (Direct Attached Storage) úložiště a slouží jako brána k datům. Data se připojují k různým počítačům v síti pomocí takzvaného sdílení (sharing). V jednoduché formě můžeme nazvat NAS zařízení v případě, že v domácí síti nasdílím adresář na jednom počítači pro počítač druhý, který může tohoto prostoru využívat. NAS zařízení na rozdíl od původní myšlenky souborových serverů nemá plnohodnotný operační systém, ale jednoúčelový operační systém, který je optimalizován pro rychlou, jednoduchou, intuitivní a spolehlivou práci se soubory. Stejně jako u DAS zařízení se data chrání proti ztrátě RAID zrcadlením a samozřejmou možností je také i výměna vadného disku hot swap metodou. Toto zařízení se skládá z takzvané NAS hlavy, která má v sobě IP adresu a tak zprostředkovává komunikaci diskového systému s okolním světem v počítačové síti. Uživatelům, kteří k NAS zařízení přistupují, se tváří toto zařízení jako jeden fyzický disk. Data na tomto zařízení můžu být přenášena různými standartními protokoly jako jsou: -
CIFS (Common Internet File)
-
SMB (Server Message Block)
-
FTP (File Transfer Protocol)
-
HTTP (Hypertext Transfer Protocol)
-
Apple Talk
-
NFS (Network File System)
36
Velká různorodost přenosových protokolů podporuje komunikaci a sdílení dat mezi různými operačními systémy a také mezi různými platformami. Hlavními výhodami tohoto řešení je centralizace, kdy všechna zařízení mohou být na jednom místě a v případě potřeby a požadavků na kapacitu se dá NAS velmi dobře škálovat/rozšiřovat. Další nespornou výhodou je, že NAS není spojen s dodatečnými náklady na vybudování SAN dedikované sítě pro storage a má vyšší stupeň spolehlivosti proti výpadku v porovnání s DAS zařízením. Jedna z dalších neocenitelných výhod pro některé společnosti může být taková, že NAS řešení se dá nadesignovat (navrhnout) až na úroveň dostupnosti 24x7 a tím se zbavit rizik spojených s výpadkem výrobní linky atd., který může způsobit dodatečné finanční náklady což by v některých případech mohlo mít fatální důsledky na celé podnikání a fungování společnosti na trhu. Mezi hlavní nevýhody tohoto řešení můžeme zařadit celkově vyšší pořizovací cenu než v případě
DAS
zařízení
z toho
důvodu, že se nejedná pouze
o
diskovou
kapacitu, obr. 11 Topologie NAS
kompletní
ale řešení
zálohování a prezentování diskové kapacity uživatelům, které disponuje vlastním procesorovým výkonem, pamětí a operačním systémem s intuitivním ovládáním. Dalším velikým a nesporným mínusem je aspekt, že v případě archivace či požadavku na tok většího objemu dat se celá síť může výrazně zpomalit pro všechny uživatele a probíhající operace.
8.3. SAN (Storage Area Network) Momentálně nejrozšířenějším řešením jakým způsobem pracovat s nadstandardními objemy dat ve velkých počítačových sítích je vybudování takzvané SANky. Storage Area Network je
37
dedikovaná, oddělená (LAN, WAN), full-duplexní datová síť sloužící pro propojení serverů s diskovými úložišti, páskovými knihovnami či jinými zálohovacími zařízeními. Základním impulsem pro vznik takové sítě byla potřeba sofistikovanější práce s daty s důrazem na zabezpečení a konsolidace datových toků. Vzhledem k poměrně značným pořizovacím nákladům na SAN je tato síť budována hlavně společnostmi většího rozsahu, kde se vyžaduje rychlá odezva s vysokou dostupností služeb a co největší rozšiřitelnost. Postupem doby a uvádění nových technologií výrobci na trh se tato skutečnost příznivě projevuje na ceně a SANovská infrastruktura je dosažitelná i pro menší subjekty. Dominantou
SAN
technologie je FCP (Fiber Channel protocol), který jasně definuje, jak se používají SCSI příkazy na oddělené FC (Fiber Channel) síti. Každé výpočetní zařízení, které se do SAN chce připojit musí pro komunikaci se sítí SAN obsahovat
takzvaný
Fiber
Channel Host Bus Adapter. Fiber Channel protocol se vyvíjel ve variantách 1 Gbit/s, 2 Gbit/s, 4Gbit/s až po dnešní standard což je 8 Gbit/s.
obr. 12 Topologie SAN
V kuloárech se povídá, že výrobci již mají připravenou variantu 16 Gbit/s, ale zatím je tato technologie do dnešních prostředí nepoužitelná, protože se v rámci datových toků nevytíží ani aktuálních 8 Gbit/s a uvedení na trh jedním z výrobců by přiměl ostatní reagovat na případný konkurenční boj. SAN síť lze vybudovat i na TCP/IP síti pomocí protokolu iSCSI (Internet Small Computer System Interface), který umí nadefinovat, jakým způsobem posílat SCSI příkazy přes tuto síť. Použití LAN technologie je cenově příznivější, protože se používá stávající instalovaná báze komunikačních prvků (1Gb Ethernet, 10Gb Ethernet) bez nutnosti školení správců těchto zařízení. Toto je levnější alternativa SAN sítě, která v případě větších datových toků může
38
způsobit latence (delší odezvu), ale stále dokáže využívat mnoho nesporných výhod této koncepce. Hlavními faktory pro budování SAN sítě jsou otázky maximální dostupnosti v podobě 24x7. S tímto aspektem počítají i jednotlivý výrobci diskových polí a proto všechny komponenty, které zajišťují komunikaci do SAN, se konstruují redundantně, aby se dosáhlo parametru „no single point of failure“ což znamená, že pokud vypadne jakákoliv komponenta tak jsou data stále dostupná a všechny klíčové častí se můžou měnit bez vypnutí či restartování systému. SAN síť musí obsahovat: -
Fabric Switch – je to zařízení, které propojuje jednotlivé prvky SAN sítě a zajišťuje jejich komunikaci. Každý switch obsahuje určitý počet portů pro propojení všech zařízení.
-
Host Bus Adapter (HBA) – speciální zásuvná karta do serverů, která zajišťuje komunikaci serverů s ostatními zařízení v rámci SAN sítě. Každý Host Bus Adapter má svůj vlastní unikátní 64-bitů dlouhý identifikátor World Wide Name (WWN) adresu, která jednoznačně identifikuje zařízení či port v SAN síti.
-
Zálohovací zařízení (knihovna, diskové pole atd.) – zařízení, která obsahují datová média o různé kapacitě a různých druhů, které má FC Controllery s výstupními porty pro komunikaci do SAN.
-
Medium – propojení pomocí optického kabelu (optické vlákno přenášející pulsy světla, které nesou informaci).
8.4. RAID (Redundant Array of Independent Disk) Tato funkce je společná pro diskové systémy a je základním stavebním kamenem ochrany dat na těchto zařízeních. Jinými slovy je to rozprostření veškerých dat přes různé pevné disky, které mají svůj životní cyklus. V jádru věci jde o použití diskového řadiče (popřípadě SW ovladače) v kombinaci s více pevnými disky za účelem ochrany dat a zároveň pro dosažení určité rychlosti a spolehlivosti. Funkcionalita RAID se řeší buď na úrovni hardwaru nebo softwaru. V softwarovém podání se o RAID zápis stará operační systém či ovladač v operačním systému a distribuuje data na pevné disky podle typu zadání. Jedná se o cenově nejdostupnější řešení, které má však svoje úskalí v podobě rychlosti a stability jednotlivých zápisů či výkonnosti daného operačního
39
systému. Hardwarový řadič tyto nedostatky plně odstraňuje, protože je na tuto funkci koncipován a tím pádem se nezatěžuje operační paměť či procesorový výkon zařízení. RAID pole vytváří logický disk, který se tváří jako jednotný úložný prostor avšak v reálu je to několik pevných disků spojených do jednoho virtuálního celku. V případě výpadku disku v tomto virtuálním celku se zahlásí chyba administrátorovi daného zařízení a ten zařídí jeho výměnu. V průběhu výpadku jsou podle typu RAIDu data dostupná, ale v relativně nižším výkonu. Jakmile se vymění vadná část, tak se data automaticky zrekonstruují do původní podoby před havárií. Dnes téměř všechny hardwarové RAID řadiče podporují funkci SPARE, což je rezervní pevný disk, který zůstává k dispozici pro případ havárie a pokud tento případ nastane, tak se automaticky replikují data bez nutného zásahu administrátora daného zařízení. Standardní a nejvíc dnes používané typy RAIDů:
8.4.1 RAID 0 Stripping / proužkování ; linear / lineárně. Tento RAID neposkytuje datům žádnou ochranu, protože neposkytuje žádné zdvojené informace. Minimum pro postavení tohoto RAIDu jsou 2 pevné disky. Disky jsou spojeny virtuálně v jeden logický celek (kapacita součtu všech členů) a data jsou na disky ukládána v
určitých
blocích
prokládaně
nebo
lineárně. Obě tyto metody mají své výhody a nevýhody. V případě lineárního ukládání dat se data ukládají na postupně na pevné disky tedy v případě zaplnění jednoho pevného disku se data začnou zapisovat na v pořadí dalším pevném disku.
Toto
má
výhodu
v tom,
že
v případě výpadku jednoho pevného disku
obr. 13 RAID 0
ve skupině můžou být některá data dostupná a nemusí je to nutně ovlivnit. V druhém případě se data zapisují na disky střídavě tedy každý disk se rozdělí na určité malé logické části a v případě naplnění jedné části jednoho disku se data zapisují na jednu část druhé disku a tak se data dále rozdistribuovávají
40
v rámci celé skupiny virtuálního disku. Hlavní výhodou je, že stripping může zvýšit celkový výkon sekvenčního čtení a sekvenčního zápisu dat, protože zátěž je rovnoměrně rozložena přes všechny disky a tím pádem tak dochází k menším latencím (časovým prodlevám). Oproti tomu je hlavní nevýhodou, že v případě výpadku jednoho pevného disku v této skupině se výpadek projeví prakticky přes veškerá data a tím pádem způsobí nedostupnost.
8.4.2 RAID 1 Mirroring
/
zrcadlení.
Je
prakticky
nejjednodušší a nejefektivnější ochranou dat a provádí se ukládání naprosto stejných redundantních dat dvakrát. Druhý disk je tak naprosto věrnou kopií disku prvního. Minimum pro postavení tohoto RAIDu jsou 2 pevné disky. V případě zápisu se zapisuje na dva disky současně. Hlavní výhodou tohoto zrcadlení je fakt, že v případě výpadku jednoho disku je obr. 14 RAID 1
zachována věrná kopie a data jsou vždy
uživatelům dostupná a jeho hlavní nevýhodou, že dostupná kapacita se vždy dělí dvěma a tím pádem se nám rapidně zmenšuje celková užitná kapacita ruku v ruce s vyšší pořizovací cenou za jednotku objemu diskové kapacity. RAID 1 a RAID 0 je možné i kombinovat a získat tak výhody obou těchto řešení.
8.4.3 RAID 0 + 1 Je kombinací RAIDů 0 a 1, kdy data ukládáme prokládaně na disk A a B a poté uděláme zrcadlo takto stripovaných dat na disky C a D. Minimum pro postavení tohoto RAIDu jsou 4 pevné disky. Hlavní výhodou tohoto řešení je, že rozkládáme zátěž čtení a zápisů mezi více disků, ale data jsou stále uložená redundantně pro jejich velice rychlé a nenákladné obnovení. Nevýhody tohoto řešení jsou využití jenom polovinu dostupné diskové kapacity a v případě výpadku jednoho ze čtyř disků přicházíme o redundantnost dat.
41
8.4.4 RAID 1 + 0 Je kombinací RAIDů 0 a 1, kdy při ukládání dat postupujeme obráceně v porovnání s RAID 0 + 1.
V první fázi ukládáme
stejná data na disk A a B a v druhé fázi data uložíme na disk C a D. Minimum pro postavení tohoto RAIDu jsou 4 pevné disky. Získáváme tak dva logické disky AB a CD,
obr. 15 RAID 10
kde
data
jsou
uložena
stripovaně. Hlavní výhodou oproti RAID 0 + 1 je, že data jsou odolnější proti výpadku více disků a po případném pádu je obnova dat o něco rychlejší a hlavní nevýhodou opět zůstává využití pouze a jenom poloviny disponibilní kapacity fyzických pevných disků.
8.4.5 RAID 5 Pro tento typ RAIDu jsou potřeba minimálně tři pevné disky, kde kapacitu jednoho disku
zabírají
samoopravné
kódy (paritní informace), které se ukládají na discích střídavě. Hlavní výhodou je, že lze využít
paralelního
přístupu
k datům a to způsobuje zvýšený obr. 16 RAID 5
výkon na úrovni čtení z důvodu
rozprostření dat mezi více disků oproti tomu jeho hlavní nevýhodou zůstává samotný zápis dat odůvodněný nutností dopočítávat při každé operaci samoopravný kód (paritní informace) a to způsobuje snížení rychlosti. RAID 5 je odolný proti výpadku jednoho pevného disku.
42
8.4.6 RAID 6 Pro tento typ RAIDu jsou potřeba minimálně čtyři pevné disky, kde podobně jako u RAID 5 využívá rozprostření paritních informací na všech discích
obr. 17 RAID 6
avšak
nezávislé
vytváří
paritní
dvě
informace.
Hlavní výhodou oproti RAIDu 5 je, že v případě výpadku až dvou disků se data znovu dokáží zrekonstruovat. Rychlost čtení je srovnatelná s RAID 5 ovšem zápis je o něco pomalejší z důvodu toho, že zde nutnost vypočítat a uložit dvě sady paritních informací.
8.5. Thin Provisioning Je takzvané poskytování virtuálního datového prostoru zařízením pouze podle jejich skutečných potřeb. Většina dodavatelů SAN sítí nechává využití poskytování datového prostoru na správcích SAN a požaduje po nich, aby předvídali, kolik diskového prostoru bude třeba pro svazky (souborové celky), snímky (vysvětlení v další kapitole) a jaké bude očekávané tempo růstu celkového objemu dat. Je to dáno tím, že v minulosti velká většina modelů diskových úložišť vyžadovala výchozí přidělení kapacity v rámci SAN. Jednou z největších nevýhod této koncepce přidělování diskového prostoru je, že v případě přidělení zbytečně velké kapacity je již téměř nemožné nevyužitou kapacitu následně přerozdělit a tím zajistit, aby kapacita zůstala dále využita. Nově výrobci přišli na trh se systémy, které nevyžadují předběžnou alokaci úložného diskového prostoru. Řídící software diskového pole spravuje všechny alokace úložiště pod daným
svazkem
a
funkce
poskytování
virtuálního
diskového
prostoru
„tenkého
provisioningu“ alokuje prostor pouze tak, jak jsou data skutečně do daného svazku zapisována. S využitím funkce virtuálního diskového prostoru je možné plánovat firemní investice na takovou diskovou kapacitu, kterou aktuálně opravdu potřebujete. Další kapacita se přidává až s reálnými požadavky na narůstající objem dat na jeho uložení a tím se zvyšuje celková efektivita využití jak diskových polí tak efektivita SAN v návaznosti na návrat
43
investic s tím spojeným. Všichni, kdo se danému tématu věnují déle, taktéž musí připustit, že kapacita
pevných
disků v čase výrazně klesá z toho důvodu, že se postupně uvádí na
trh
s kapacity
média vyššími,
které postupně snižují celkové náklady na pořízení těch co již na trhu obr. 18 Thin Provisioning
jsou
nějakou
dobu. Společnosti tak
mohou ušetřit investiční náklady, které tak jsou schopni vynakládat v oblastech, které jsou prioritnější a jsou potenciálem vyššího růstu celkové výkonnosti.
8.6. Snapshot (snímek) Je snímek vytvářející okamžitou kopii dat k určitému času pro jednotlivé svazky. Aby snímky splňovaly požadavky uživatelů nebo aplikací tak mohou být vytvořeny různými způsoby. Administrátoři je mohou vytvářet manuálně ad hoc, podle plánu nebo předpisu, nebo prostřednictvím Microsoft® VSS Framework, a mohou pak přistupovat k těmto časovým snímkům z důvodu obnovení jednotlivých souborů nebo složek ve svazku – nebo z důvodu vrácení celého svazku do původního stavu. U některých systémů je třeba vyčlenit určitou diskovou kapacitu a některé novější zařízení využívají pro vytváření snapshotů Thin Provisioning, který z důvodu efektivnosti spotřebovává vždy jenom takovou diskovou kapacitu, která je pro uložení snímků skutečně zapotřebí a tím se eliminuje nutnost předem alokovat (rezervovat) diskovou kapacitu pro vytváření těchto snímků. Snapshoty otevírají řadu nových možností: –
Prakticky každý zálohovací software může mít ke snímkům přístup, včetně produktů, které aktualizují časy zálohování ve svazku samotném.
44
–
Snímky mohou být nastaveny pro zápis a čtení, snímek je možno změnit bez vlivu na aktivní snímek.
–
Použití snímků jako záloh: Možnost získání předchozí verze souboru nebo okamžitá obnova celého svazku.
8.7. Clone (klon) Tato technologie okamžitě replikuje datové svazky a datové sady bez požadavků na další místo v úložišti. Každý klon svazku je virtuální kopie, která dokáže ušetřit čas a prostor v různých prostředích a aplikacích, včetně poskytování diskového prostoru serverům a desktopovým počítačům, poskytování diskového prostoru pro start ze systému ze sítě SAN (boot from SAN) a při rychlém kopírování produkčních dat do testovacích a vývojových prostředí. Tato technologie podstatně snižuje náklady a technologické překážky používání virtualizace. Například kopie stávajících virtuálních strojů může být použita: -
k rozšíření stávajících aplikací přidáním identických instancí serverů
-
k vytvářením virtuálních desktopových systémů
-
k vytváření testovacích a vývojových prostředí založených na stávajících produkčních systémech
Vytváření nových instancí virtuálních strojů je snadné, ale u většiny tradičních sítí SAN je pak nutný časově a prostorově náročný proces kopírování stávajících logických svazků pro použití novými virtuálními stroji. Technologie Clone funguje jinak a umožňuje vytvoření tolika kopií svazků, kolik jich daný uživatel potřebuje a to vše okamžitě a s minimálním využitím diskového prostoru úložiště. Toto je možné z těchto důvodu: -
klony svazků jsou založeny na originálním zdrojovém svazku, takže jsou prostorově úsporné a okamžité
-
ke klonům lze přistupovat z fyzických serverů, virtuálních serverů a virtuálních desktopových počítačů
45
-
tato technologie u některých výrobců využívá technologie deduplikace pro obrazy serverů a desktopových počítačů, takže na síti SAN existuje pouze jedna kopie souborů operačního systému, což pomáhá zvýšit využití diskového prostoru úložiště a zrychluje návratnost investic na pořízení tohoto řešení
-
pro klonové svazky je diskový prostor poskytován virtuálně, tedy se alokuje jen skutečně využitý úložný prostor a v okamžiku, kdy je využit, čímž se dále zvyšuje návratnost investic do úložiště.
46
Závěr Cílem této práce bylo poskytnout teoretický základ o problematice zálohování dat a ukázat jaké jsou způsoby práce s daty pro jejich úspěšnou a bezpečnou manipulaci ve firemních IT prostředích. Dále bychom si měli vytvořit detailnější představu jaké technologie nám v dnešní době pomáhají zpracovávat data od jejich ranné fáze až po dlouhodobou archivaci, která je v určitých ohledech povinnou součástí strategie zálohování a archivace dat zejména v bankovním sektoru. Informace pro tuto práci jsem z velké části čerpal z odborné literatury a z interních materiálů mého současného zaměstnavatele. V první kapitole této práce jsem se zaměřil na problematiku zálohování dat v obecné rovině, jaké můžou být hrozby pro naše data a proč je vlastně důležité data zálohovat. V druhé kapitole jsem se věnoval jednotlivým metodám záloh, které se aktuálně používají v největší míře a popsal jsem u každé, kdy a jak se metoda používá a v čem nám může být prospěšná. Metoda je neodmyslitelnou a důležitou součástí strategie zálohování dat, protože nám je schopna zrychlit a zautomatizovat procesy, na které se v každém firemním IT prostředí klade veliký důraz. Doménou třetí kapitoly bylo seznámit se s jednotlivými typy médií pro zálohování dat a jejich další členění. Zvolení správných typů médií je velmi důležité z pohledu životnosti, rychlosti obnovy a dostupnosti dat. Každé médium se může používat pro specifické záležitosti a v případě nesprávného výběru pro tu či onu důležitost dat nám může způsobit nedozírné následky a dodatečné náklady na obnovení či správu systémů. Důležitá je segmentace dat. Takzvaná produktivní data by se měla držet na nejrychlejších diskových systémech pro jejich vysokou dostupnost a stabilitu. Postupné stárnutí dat má za výsledek, že již tato data nejsou pro uživatele aktuální a odpadá potřeba jejich dotazování. Tato data se v druhé fázi přesouvají na pomalejší a vysokokapacitní disková média pro stále požadovanou vysokou dostupnost a v poslední kroku, pro jejich archivaci, se ukládají na pásková média, která se dají v případě správného uskladnění, uchovávat až několik desítek let. Čtvrtá kapitola je věnovaná mozku veškerých operací s daty, což je zálohovací software. Zálohovací software je neodmyslitelnou součástí firemní práce s daty, který se stará o segmentaci dat, jejich ukládání v požadovaných časech a intervalech, na zařízení tomu určená a případnou obnovu archivovaných dat, potřebných pro opakované přečtení. Správně vybraný
47
a naimplementovaný zálohovací software ve firemním IT prostředí dokáže výrazně ušetřit čas správy celkového objemu dat a s tím spojené náklady. V neposlední řadě také dokáže zajistit vysokou dostupnost dat a zamezuje jejich ztrátě. Pátá kapitola je zaměřená na členění dat, abychom mohli správně rozlišit na jaký hardware tato data efektivně ukládat a zachovat tak požadovanou dostupnost. Šestá kapitola se zaměřuje na šifrování uložených a archivovaných dat. Tato skutečnost je standardem hlavně v případech, kdy jsou firemní data provozována na technologických řešení třetí strany, popřípadě fyzicky převážena z jednoho místa na místo druhé. Šifrovaná data jsou tak zabezpečena proti zneužití či rozmnožování v případě jejich zcizení. Tématem sedmé kapitoly bylo popsání deduplikační technologie, která je významnou součástí dnešních zálohovacích systémů. Tato technologie umožňuje pracovat uživateli s menší kapacitou zálohovacích médií než je skutečný objem dat. Jedná se o metodu eliminace redundantních dat, které se musí zálohovat a tím se výrazně šetří požadovaná kapacita na celkovou zálohu a s tím spojený spojené náklady na celkový objem dostupné kapacity jednotlivých zálohovacích zařízení. Dnešní svět firemních IT prostředí klade velký důraz na úsporu jak investičních tak provozních nákladů a tato technologie nám jednoznačně tyto požadavky splňuje. V osmé kapitole je téma zaměřené na hardwarovou vrstvu, kde se data fyzicky provozují a které tyto systémy zabezpečují proti případné ztrátě.
48
Slovník pojmů Zrcadlo, zrcadlení – věrné kopie dat na dvou místech Škálovatelnost – možnost dalšího rozšiřování WORM – typ média na které lze data z bezpečnostních důvodů zapsat pouze jednou LAN – lokální počítačová síť SAN – oddělená datová síť určená pro propojení výpočetních zařízení s diskovými úložišti WAN – počítačová síť pokrývající rozlehlé geografické území On-Line – indikace stavu připojení, za provozu Off-Line – indikace stavu bez připojení, mimo provozní stav DAT, DLT, Ultrium – typ magnetické pásky pro zálohování dat Media Pool – skupina médií se stejnou dobou expirace zabezpečené proti přepsání
49
Citovaná literatura Elektronické zdroje: 1. Wikipedia, Zálohování. [online]. c2011 [cit. 2011-04-25]. Dostupný na WWW: 2. Wikipedia, Typy Záloh. [online]. c2011 [cit. 2011-04-25]. Dostupný na WWW: 3. Zálohování Info, Šifrování dat. [online]. c2010 [cit. 2011-04-25]. Dostupný na WWW: 4. Zálohování Info, Deduplikace. [online]. c2010 [cit. 2011-04-25]. Dostupný na WWW: 5. David Floyer, Thin Provisioning. [online]. c2009 [cit. 2011-04-25]. Dostupný na WWW: 6. Dataclinic, RAID 6. [online]. c2010 [cit. 2011-04-25]. Dostupný na WWW: 7. Shinjiru, RAID. [online]. c2010 [cit. 2011-04-25]. Dostupný na WWW: 8. Apexmicrosystems, NAS, DAS, SAN. [online]. c2010 [cit. 2011-04-25]. Dostupný na WWW: 9. Liquidsilver, NAS. [online]. c2010 [cit. 2011-04-25]. Dostupný na WWW:
50
Seznam obrázků obr. 1 Schéma jednotlivých typů záloh .................................................................................. 9 obr. 2 Magnetické pásky (DDS-2) ....................................................................................... 11 obr. 3 HDD .......................................................................................................................... 14 obr. 4 SSD ............................................................................................................................ 15 obr. 5 Optický disk............................................................................................................... 17 obr. 6 Uložená data .............................................................................................................. 23 obr. 7 FIPS 140-2 ................................................................................................................. 27 obr. 8 ukázka deduplikace ................................................................................................... 28 obr. 9 Deduplikační poměr .................................................................................................. 31 obr. 10 Topologie DAS ........................................................................................................ 35 obr. 11 Topologie NAS ........................................................................................................ 37 obr. 12 Topologie SAN........................................................................................................ 38 obr. 13 RAID 0 .................................................................................................................... 40 obr. 14 RAID 1 .................................................................................................................... 41 obr. 15 RAID 10 .................................................................................................................. 42 obr. 16 RAID 5 .................................................................................................................... 42 obr. 17 RAID 6 .................................................................................................................... 43 obr. 18 Thin Provisioning .................................................................................................... 44
51