Disaster Recovery Problematiek en denkpistes voor oplossingen Cevi Usernamiddag 8 december 2009
9 december 2009
Cevi bedrijfspresentatie
High Availability & Disaster Recovery Een theoretische benadering Cevi Usernamiddag 8 december 2009
9 december 2009
Cevi bedrijfspresentatie
High Availability & Disaster Recovery • • • •
Terminologie Doelstellingen Methodologie Strategieën
9 december 2009
Cevi bedrijfspresentatie
Enkele definities Dienstverlening
• • • • • •
Business Continuity (BC) IT service continuity High Availability (HA) Disaster Recovery (DR) Major outage Minor outage
9 december 2009
Cevi bedrijfspresentatie
Proces
Ondersteunend IT proces IT infrastructuur DR
HA
major outage
minor outage
Waarom Business Continuity ? Een onderbreking van dienstverlening kost geld • Verloren werkuren bij uitval • Verlies aan inkomsten, reputatie,… en dus ook IT service continuity…. (i.e. High Availability & Disaster Recovery)
9 december 2009
Cevi bedrijfspresentatie
Fundamentele vragen • • • • • •
Welke uitvallen moeten transparant blijven ? Hoe lang mag onderbreking bij minor outage Hoe lang mag onderbreking bij major outage ? Waar ligt de grens tussen minor en major outage ? Hoe groot mag het dataverlies bij major outage ? Welke disaster scenario’s worden niet gecoverd ?
9 december 2009
Cevi bedrijfspresentatie
High Availability (HA) • protectie tegen en/of herstel van minor outage • in een relatief korte tijd (downtime) • en (liefst) automatisch • • • •
availability <> reliability Fault Protection (FP) Fault Tolerancy Service Level Agreement (SLA)
9 december 2009
Cevi bedrijfspresentatie
Minor outage => downtime en SLA dagen
uren
min
sec
sec
downtime
9 december 2009
Cevi bedrijfspresentatie
min
uren
dagen
SLA
Disaster Recovery (DR) • mogelijkheid tot herstel van major outage • desnoods met gereduceerde capaciteit/performantie • (liefst) via manuele acties • Recovery Time Objective (RTO) • Recovery Point Objective (RPO)
9 december 2009
Cevi bedrijfspresentatie
Major outage => RPO/RTO
9 december 2009
Cevi bedrijfspresentatie
System stack
IT infrastructuur
User environment
Application
Dienstverlening Middleware
Proces Operating System
Ondersteunend IT proces Hardware
IT infrastructuur
Physical environment
9 december 2009
Cevi bedrijfspresentatie
Doel • Business Continuity • en dus IT service continuity • en dus een systeem ‘bestand’ tegen – minor outages (HA) – major outages (DR)
• met realistische parameters – downtime (HA) – RPO,RTO ( DR)
9 december 2009
Cevi bedrijfspresentatie
Methodiek • • • •
in kaart brengen van mogelijke defecten en uitvallen analyseren en rangschikken van bestaande systemen kiezen van strategieën uittekenen van HA/DR systemen Basisprincipes – – – –
robuustheid en eenvoud redundantie consolidatie virtualisatie
9 december 2009
Cevi bedrijfspresentatie
Outage categorie (generiek) Failure scenario
Probability
Damage
Requirement
brand
low
high
DR
elektriciteitspanne
high
low
HA
9 december 2009
Cevi bedrijfspresentatie
System categorie Categorie
Max. minor outage
Max. major outage
Downtime
RTO
RPO
Kritisch
10 min
8 uur
4 uur
Belangrijk
4 uur
3 dagen
8 uur
Basis
8 uur
1 week
8 uur
9 december 2009
Cevi bedrijfspresentatie
System outages ( specieke system stack) System component
Failure scenario
Requirement
brand
DR
elektriciteitspanne
HA
User environment Application Middleware Operating System Hardware Physical environment
9 december 2009
Cevi bedrijfspresentatie
Solution
Methodiek • • • •
in kaart brengen van mogelijke defecten en uitvallen analyseren en rangschikken van bestaande systemen kiezen van strategieën, oplossingen uittekenen van HA/DR systemen Basisprincipes – – – –
robuustheid en eenvoud redundantie consolidatie virtualisatie
9 december 2009
Cevi bedrijfspresentatie
Redundantie • redundancy = • management = • redundancy <>
9 december 2009
repetition + management replication + fault handling simplicity
Cevi bedrijfspresentatie
Virtualisatie • abstractie van de onderliggende componenten • op elk niveau van de system stack • hardware (server, storage, router) virtualisatie • applicatie virtualisatie • desktop virtualisatie
• methode voor redundantie, consolidatie
9 december 2009
Cevi bedrijfspresentatie
Server hardware Server hardware component
Failure scenario
Req
CPU
chip failure
HA
memory
chip failure
HA
errors
HA
system bus
Solution
failure
network card failure
HA
redundancy
power supply failure
HA
consolidation(blades)
9 december 2009
Cevi bedrijfspresentatie
Cost
System System component
Failure scenario
Req Solution
Applications
failure
HA
redundancy
Middleware
failure
HA
redundancy
Operating Systems
failure
HA
redundancy
Hardware
failure
HA
redundancy
Cost
User environment
Physical environment
9 december 2009
Cevi bedrijfspresentatie
virtualisatie clustering
Virtualisatie en consolidatie : servers • abstractie van de hardware • methode voor consolidatie van servers • op basis van virtualisatiesoftware • scenario’s voor HA,DR • snapshotting • streaming • replicatie 9 december 2009
Cevi bedrijfspresentatie
Clustering • additionele hardware + monitoring + automatische migratie van diensten naar additionele hardware
• failover cluster <> load balancing
9 december 2009
Cevi bedrijfspresentatie
Data Data component
Failure scenario
Req
Solution
data
deletion
HA
backup
corruption
HA
copy
corruption
HA
image
OS
9 december 2009
Cevi bedrijfspresentatie
Cost
storage cabinet server virtualisatie
Virtualisatie en consolidatie : storage
Storage Virtualization
Hardware resources
Storage cabinet
9 december 2009
Cevi bedrijfspresentatie
Storage Storage component
Failure scenario
Req
Solution
disks
failure
HA
RAID
controller error
HA
redundancy
failure
HA
redundancy
cabinet
9 december 2009
Cevi bedrijfspresentatie
Cost storage cabinet
Infrastructure Infrastructure component
Failure scenario
Req
Solution
Network
failure
HA
redundancy
SAN
failure
HA
replication
Basic services
failure
HA
redundancy
Backup / restore
failure
-
Monitoring
failure
-
9 december 2009
Cevi bedrijfspresentatie
Cost
Netwerk • Interne connectiviteit • Spanning Tree Protocol (STP) • Redundant network segment
• Externe connectiviteit • Virtual Router Redundancy Protocol
9 december 2009
Cevi bedrijfspresentatie
Disaster Recovery System component
Failure scenario
Req
Application
inconsistent data
DR
Middleware
cluster failure
DR
Operating System
driver errors
DR
Hardware
firmware error
DR
Infrastructure
brand
DR
9 december 2009
Cevi bedrijfspresentatie
Solution
DR-site
Cost
Disaster Recovery site • Primary <> DR site • eigen • partner, outsourcing
• Design • shared • cold/hot standby
• HA extensies • mirrorring -> remote replicatie • virtualisatie -> site recovery • clustering -> metro cluster
9 december 2009
Cevi bedrijfspresentatie
Enkele referenties
9 december 2009
Cevi bedrijfspresentatie