Storage Management Workload Management Backup and Recovery Management Přednáška pro ISE 2. května 2014
Marek Rychlý (a Ivana Burgetová)
Obsah Storage Management SAN, NAS, RAID Primární, sekundární, off-line paměti
Workload Management Výhody dávkového zpracování Nároky na zdroje Rozvrhování úloh
Backup and Recovery Management Typy záloh Metriky zálohování Typy havárií Proces obnovy Business Continuity Planning Dostupnost služeb a systémů
2
Storage Management Udržuje úložiště dat a zpřístupňuje je ostatním IT komponentám Ukládání, ochrana a zpřístupnění informací Zrcadlení disků Replikace dat Zálohování dat Archivace dat
3
Storage Management – úkoly Stanovit politiky: Kde ukládat data Na jak dlouho V jaké formě Kdo k nim může přistupovat (Access Control List)
Návrh paměťové infrastruktury (typicky úložiště na síti) Údržba paměťových zařízení Archivování a obnova těchto dat
4
SAN
LAN Switch
Server
Server
FC Switch
Storage area network Dedikovaná datová síť Slouží pro připojení externích zařízení k serverům Fyzické oddělení dat a serverů Sdílení zdrojů mezi jednotlivými servery Podpora pro clusterová řešení a architekturu „no single point of failure“
Block-based storage Diskové pole s vlastní inteligencí
5
NAS Server
Server
Network attached storage Běžná paměť se souborovým systémem připojená k síti Poskytuje přístup k datům různým klientům Poskytují paměť i souborový systém Levnější varianta
LAN Switch
NAS Zařízení
6
7
SAN x NAS
8
9
RAID Redundant Array of Independent Disks Vícenásobné diskové pole nezávislých disků Vyšší výkon a odolnost vůči chybám Lepší integrita dat Prokládání dat Zrcadlení dat Parita 6 základních typů polí + jejich kombinace a modifikace 10
RAID Metriky: MTTF – mean time to failure MTTDL – mean time to data loss MTTR – mean time to recovery UBE – unrecoverable bit error rate Atomic write failure
11
Typy pamětí Primární paměť – vnitřní paměť Sekundární paměť – musí se využít I/O kanály Near-line paměť – není třeba manuální vložení média Off-line paměť – je potřeba médium manuálně vložit do paměťového zařízení Tape library
12
Hierarchical storage management Automatický přesun data mezi různými typy pamětí Rychlá paměťová zařízení – drahá Přesuny dat podle potřeby, na základě monitorování způsobu jejich využití Archivace dat na levných zařízeních
13
Propojení služeb Configuration management Event management Availibility management Performance and Capacity management Operations management Network management Security management Inventory Business process management Resource Management (Utility computing)
14
Propojení služeb Reporting management SLA management Knowledge management Asset management Notification and Escalation Management Problem management Change management
15
Obsah Storage Management SAN, NAS, RAID Primární, sekundární, off-line paměti
Workload Management Výhody dávkového zpracování Nároky na zdroje Rozvrhování úloh
Backup and Recovery Management Typy záloh Metriky zálohování Typy havárijí Proces obnovy Business Continuity Planning Dostupnost služeb a systémů
16
Workload Management Řízení vykonávání série programů (jobs, job streams) na počítači (počítačích) bez lidské interakce Job skript nebo binární spustitelný kód, který pracuje s vstupními, výstupními daty a parametry, a plní nějaký obchodní cíl Nevyžaduje interakci uživatele Interakce uživatele (administrátora) pouze v případě neúspěchu
Zefektivnění rutinních opakujících se činností Efektivní hromadné zpracování 17
Dávkové zpracování - výhody Minimální požadavky na interakci a dohled Snížení zátěže pracovníků Sdílení výpočetních prostředků více uživateli Úlohy lze naplánovat na dobu, kdy jsou výpočetní zdroje málo využívány Minimalizace nečinnosti výpočetních zdrojů, zvýšení výkonnosti Lepší využívání zdrojů Úspora práce a nákladů
18
Dávkové zpracování Nároky na zdroje: Čas procesoru Přístupy na disk Provoz na síti Požadavky na paměť
Omezení daná prostředím: Dostupné zdroje Maximální počet paralelních procesů
19
Rozvrhování úloh Statické x dynamické SW pro rozvrhování Rozhraní pro definování pracovních stanic, pracovních toků, závislostí úloh, časových závislostí, uživatelů, rolí, kalendářů a předávání chyb Automatické odevzdání a sledování provádění úloh Rozhraní pro monitorování průběhu provádění úloh Řazení úloh do front (priorita) Metody upozornění na selhání úloh
20
Rozvrhování úloh Úlohy Závislosti Kolekce úloh Uživatelé Zdroje Výzvy Parametry Kalendáře Domény Pracovní stanice (třídy pracovních stanic) 21
Rozvrhování úloh - parametry Priorita úloh Dostupné výpočetní zdroje (licence) Výpočetní čas alokovaný pro daného uživatele Požadavky na zdroje Povolený počet souběžně běžících úloh pro jednoho uživatele Očekávaný čas provádění úlohy Čas, po který již úloha běží Množství požadované paměti Zpracování neúspěšných úloh 22
23
Workload Management System automations group (Batch controller) – system management experts and operators Skupina zodpovědná za plánování, přípravu a rozvrhování aplikací a přidělování zdrojů Poskytuje popis aplikace Identifikuje vlastníka a uživatele aplikace Identifikuje autorizaci přístupu k datům (souhlas vlastníka dat) Shromažďuje informace o provádění úloh, závislostech a o kritických cestách
24
Workload Management - politiky Jaké máme k dispozici zdroje (pro daného zákazníka) a jaké je jejich aktuální průměrné využití? Jaké používáme technologie? Kolik komplexních aplikací je využíváno? Kdo bude program používat? V kterých situacích program poběží? Jak často a kdy tato situace nastane? Bude tato situace vyžadovat spuštění dalších programů? Na jakém systému program poběží? Kolik dat se bude muset přenášet a odkud? Budou data vytvořená tímto programem nebo pro tento program dále používána? 25
Propojení služeb Event management Operations management Availibility management Performance and Capacity management Network management Security management Business process management Reporting management SLA management Notification and Escalation Management Problem management Change management 26
Obsah Storage Management SAN, NAS, RAID Primární, sekundární, off-line paměti
Workload Management Výhody dávkového zpracování Nároky na zdroje Rozvrhování úloh
Backup and Recovery Management Typy záloh Metriky zálohování Typy havárijí Proces obnovy Business Continuity Planning Dostupnost služeb a systémů
27
Backup and Recovery Mgmt. Kompletní zálohování a co nejrychlejší obnovení normálního provozu služeb při současné minimalizaci důsledků na uživatele Zálohování Kopírování dat na oddělené médium s cílem umožnit obnovení ztracených nebo poškozených souborů a ochrana organizace před hlavními haváriemi Provádí se podle stanoveného rozvrhu tak, aby obnova dat odpovídala obchodním požadavkům
Data Recovery Proces obnovy dat Proces zachraňování dat z poškozených, rozbitých nebo nedostupných médií
Zálohovací software Politiky zálohování dat
28
Backup Management Strategie zálohování: Úplná záloha (drive image x file copy) Přírůstková záloha (incremental) Záloha dat jen od poslední zálohy, malé objemy dat
Rozdílová záloha (differential) Záloha dat od poslední úplné zálohy Objem dat postupně roste
Průběžné zálohování Zrcadlení disků Snapshot zálohy
Čas potřebný pro vytvoření zálohy, požadavky na zdroje, zálohování stejných souborů, online x offline zálohování Zálohování provádět periodicky a automaticky Komprese dat – delší čas potřebný pro obnovu dat 29
Backup and Recovery - metriky RPO – Recovery Point Objective Časový okamžik od kterého bude systém restartovaný Uplatněný roll-back Zvýšení frekvence zálohování snižuje RPO
Backup window – čas potřebný pro zálohování (přírůstková záloha) Restore time – čas potřebný pro obnovu dat (RTO) Retention time – doba, po kterou jsou data dostupná pro obnovu Backup validation Open File backup 30
Backup and Recovery Havárie: Poškození harddisku, souborového systému (fyzické, logické) Náhodné smazání nebo poškození souborů Požáry, povodně, zemětřesení atd. Napadení systému viry Ztráta klíčové osoby
Prevence před haváriemu: Uložení záloh na jiném místě (offsite copies) Přepěťová ochrana Záložní napájení (UPS – Uninterruptible Power Supply) Protipožární systémy Antivirový software Redundantní výpočetní zařízení 31
Recovery Management Proces obnovy: Zakoupení nového zařízení (HW), případně oprvení starého zařízení, odstranění virů, atd. Reinstalace SW (spolupráce s poskytovatelem SW) Vyzvednutí paměťových disků uložených mimo sídlo firmy Obnovení dat z příslušných záloh (nebo obnova dat z poškozených médií) Opětovné zapsaní dat z poslední doby, které nejsou součástí zálohy
Plán obnovy: Musí zahrnovat data, HW i SW Základem pro jeho tvorbu jsou RPO a RTO
32
Recovery Management BCP – Business Continuity Planning Cíle: Zajistit provádění operací nepřetržitě za jakýchkoliv podmínek Zajistit průběh byznys funkcí organizace i v případě havárie a po ní
Kombinace plánů pro zálohování, obnovu a vysokou dostupnost prostředků Analýza dopadů, analýza hrozeb (rizik), tvorba scénářů Přerušení provozu služeb – přímé + nepřímé dopady 33
Dostupnost systémů Dostupnost zahrnuje: Čas po který procesy a systémy fungují normálně Čas potřebný pro obnovu systému po selhání některé komponenty
Vysoká dostupnost Téměř nepřetržitá dostupnost systémů Zvyšují ji řešení využívající redundanci HW, SW i dat Různé úrovně vysoké dostupnosti až po nepřetržitou dostupnost Čím větší úroveň dostupnosti, tím větší redundance a náklady 34
Dostupnost systému
35
36
37
38
Propojení služeb Configuration management Event management Operations management Availibility management Performance and Capacity management Network management Security management Inventory Business process management Resource Management (Utility computing)
39
Propojení služeb Reporting management SLA management Knowledge management Asset management Notification and Escalation Management Problem management
40
Děkuji za pozornost
41