DATABESCHERMING DOOR BRAM DONS
Third parties voegen dimensie toe
Multi-site clustering beschermt Windows Server 2008 42 STORAGE MAGAZINE · 4 · DECEMBER 2008
Bedrijven doen er goed aan hun Windows Server-omgeving goed te beschermen tegen catastrofes. De onlangs vrijgegeven Windows Server 2008 biedt hiervoor een nieuwe mogelijkheid: multi-site clustering. Dit is een belangrijke verbetering, maar wel zijn nog voorzieningen van derde partijen nodig. Voor de meeste ondernemingen biedt een hoge betrouwbaarheid en redundante serverhardware voor de IT-omgeving een voldoende beschikbaarheid. Maar ondernemingen willen, om zakelijke redenen, toch graag de mogelijkheid hebben om kritische applicaties binnen datacenters naar andere servers over te kunnen hevelen, ook wel failover genoemd. Geen van beide genoemde serverbeschikbaarheidmodellen biedt de garantie dat in geval van catastrofes de servers letterlijk en figuurlijk overeind blijven. Voor sommige zakelijke applicaties zal dit bij een ramp, zoals overstromingen, brand, aardbevingen of andersoortig onheil van buitenaf, een niet-aanvaardbaar risico voor de onderneming opleveren. Hoewel servers in een clusteropstelling van zichzelf redundant zijn, vormt de shared storage van clusters altijd een Single Point of Failure (SPOF). Vanwege de geringe afstand tussen de cluster nodes, beschermt de traditionele single-site clusterarchitectuur de daarop aanwezige applicaties en data niet tegen een van de genoemde catastrofes. De enige methode om zich daartegen te
beschermen, is het creëren van een grote afstand tussen de cluster nodes en de locaties van de servers. Afhankelijk van het type catastrofe, brand, overstroming, aardbeving, inslag van welke aard dan ook of een nucleaire aanval, kunnen respectievelijk afstanden van enkele tientallen, honderden of zelfs duizenden kilometers een afdoende bescherming bieden.
ge het hoge niveau van disaster tolerance kunnen multi-site clusters, mits voorzien van extra voorzieningen, zowel oplossingen voor high-availability als voor disaster recovery bieden.
Shared en non-shared Om de multi-site clustertechnologie beter te kunnen begrijpen, komt eerst het verschil tussen shared en non-shared clustertechnologie aan de orde. Er bestaan twee type primaire failover clusters: een soort cluster waarbij de clusternodes de storage onderling delen en clusters die dat niet doen. Clusters met shared storage gebruiken doorgaans SANs op basis van Fibre Channel (FC) of iSCSI, waarbij slechts één node op elk moment read/write toegang heeft tot de shared storage. Dit is de Active Node. De toegang tot het shared storagecluster
GROTE AFSTAND BIEDT DE BESTE BESCHERMING
De onlangs vrijgegeven Microsoft Windows Server 2008 bevat hiervoor een nieuwe mogelijkheid, multi-site clustering. Een belangrijke verbetering in Windows Server 2008 is dat cluster nodes nu op verschillende subnetten kunnen worden geïnstalleerd en via netwerkrouters met elkaar via een WAN kunnen communiceren. Dat biedt de mogelijkheid om locaties met clustersystemen nu over langere afstanden met elkaar in zogenaamde multi-site clustering configuraties te verbinden. Vanwe-
gebeurt daarbij op basis van de ‘first acquired’ -methode. Deze ‘ownership’methode wordt ook toegepast in de quorum arbitrage en fungeert als ‘tie-breaker’. De node die het quorum als eerste claimt, krijgt een stem meer dan de andere nodes en verkrijgt daarmee de ownership van de cluster. Dit type failover clusterarchitectuur staat bekend als ‘Active/ Passive’ cluster. Het is echter ook mogelijk om andere applicaties op de andere node te installe-
shared storagesubsysteem meer aanwezig is. Een IP-netwerk moet dan de functie van shared storage bus vervullen, zodat elke cluster node toegang krijgt tot een storagesysteem waarop zich de quorum repository bevindt. Afhankelijk van de clusterconfiguratie kan dat een afzonderlijke file server zijn, maar ook een van de cluster nodes.
Fileshare on an independent server
Witness
Vote
Vote
Node 1
Each node counts as one vote
Node 2
Figuur 1: Twee-node and file share majority cluster (bron Microsoft).
ren op basis van een eigen shared storagevolume. Dit heet een ‘Active/Active’ cluster, omdat op beide nodes tegelijkertijd verschillende applicaties kunnen draaien. Dit kan natuurlijk alleen met elk een eigen shared storage. Als een node uitvalt dan kan de applicatie op de andere node worden herstart. Veel applicaties, waaronder SQL Server, staan het toe om meerdere instances van de applicatie met data op verschillende disken te installeren. Hoewel beide nodes dezelfde applicatie draaien, worden ze onafhankelijk beheerd en is hun data logisch van elkaar gescheiden. Het grootste probleem met shared storage clustering is de SPOF die het storagesubsysteem vormt. Als de shared disk uitvalt, dan heeft geen enkele node, en dus de applicaties, meer toegang tot de data. Een ander probleem vormt de lock-in van de betreffende storageleverancier. Dit omdat de oplossingen van de verschillende leveranciers niet met elkaar compatibel zijn. Dit zijn ondermeer de redenen waarom non-shared clusters zijn ontwikkeld, om te kunnen garanderen dat fouten in het storagesysteem niet de uitval van de hele cluster veroorzaken. Daarin heef elke node zijn eigen storagesysteem en blijft de server werken, ook al valt het storagesysteem op de andere node uit.
Quorum-arbitrage De quorum-arbitrage van een non-shared storage cluster verschilt met die van shared storage clusters omdat er geen shared bus meer is, waardoor de quorum-arbitrage op een andere manier moet plaats-
vinden. Onafhankelijk van het cluster type, shared of non-shared, er is in elke clusterimplementatie altijd een basisfunctionaliteit nodig die met het bewaken van de status en de besturing van de clusteractiviteiten is belast, onder meer voor het toevoegen en verwijderen van nodes en de verdeling van de werkbelasting. Voor de uitvoering van deze activiteiten gebruikt op dat moment de verantwoordelijke cluster node een centrale repository, de zogenaamde ‘quorum’ disk die de beheerinformatie bevat. Het clusterproces die de node quorum beheert, staat als ‘cluster arbitration’ bekend. In een multiclusteromgeving kan de clusterarbitrage niet via de traditionele methode plaatsvinden, omdat, zoals gezegd, er geen
Het quorum-concept in Windows Server 2008 is afgestapt van de eis om shared storage te gebruiken. Het gaat nu uit van een meerderheid van het aantal ‘votes’. Alle nodes en een zogenaamde ‘witness resource, zoals onder meer een file share disk, kunnen nu een stem krijgen om de meerderheid voor een cluster membership te verkrijgen. Dit elimineert de SPOF van het oude clustermodel, waarbij in het ontwerp is aangenomen dat de shared disk altijd beschikbaar was. Dit is helaas niet altijd het geval!. Het quorum-model in Windows Server 2008 wordt hierdoor vooral geschikt voor toepassing in een geografische verspreide clusteromgeving. Dit kan, in situaties waarin de communicatie tussen sites faalt en nog slechts een van de sites werkt of wanneer de andere site down is en niet langer beschikbaar voor het draaien van de applicatie, een automatische failover van applicaties bieden. Van de vier beschikbare quorum-modellen in Windows Server 2008 zijn twee modellen het meest geschikt voor een multi-site clustering toepassing, Node and File Share Majority en Node Majority. De node and file share majority quorumconfiguratie ondersteunt de creatie van een cluster met maximaal zestien nodes.
(Advertentie)
STORAGE MAGAZINE · 4 · DECEMBER 2008
Quorum-modellen
43
Datareplicatie
Vote
Node 1
Vote
Vote
Node 2
Node 3
Replicated storage devices
44
Figuur 2: Node majority cluster (bron Microsoft).
STORAGE MAGAZINE · 4 · DECEMBER 2008
Daarbij fungeert een file share als een witness en vormt een doorslaggevende stem binnen een twee cluster-node serversysteem waarin elke node een stem heeft. Zou er geen witness disk zijn, dan zou de cluster als geheel totaal slechts twee stemmen hebben waardoor de cluster, wanneer een van de twee nodes uitvalt, eveneens uitvalt. Met de toevoeging van de file share witness heeft de cluster in totaal drie stemmen, zodat de cluster bij uitval van een van de twee nodes, of de witness disk zelf, blijft functioneren. De file share witness kan op een derde site worden geplaatst of op een van de twee sites waarop een cluster node aanwezig is. Bovendien kan een enkele file server dienst doen als een witness voor meerdere clustersystemen. Hierbij gebruikt elke cluster een aparte file share witness op de file server. Als een file share witness op een onafhankelijke site, onder meer technisch, niet mogelijk of gewenst is, dan kan een multi-site cluster met een node majority clusterconfiguratie worden gekozen. Een node majority cluster bestaat dus uit drie of meer cluster nodes zonder shared storage, waarin elk van de nodes één stem heeft en er geen stem is voor een shared storage of shared disk. Als gevolg daarvan is er een meerderheid van stemmen nodig om de cluster te laten draaien. Een multi-site cluster met drie nodes op drie verschillende sites blijft functio-
neren, ook al is een van de sites niet beschikbaar, maar de cluster valt uit indien er twee sites niet beschikbaar zijn. In dit model is het niet genoeg dat de helft van de cluster nodes functioneert. Zo kan een vier-node cluster blijven functioneren bij uitval van een node, maar kan niet met twee nodes functioneren. Om die reden werkt de node majority quorum-configuratie het beste met een oneven aantal cluster nodes.
SHARED EN NON-SHARED CLUSTERING VAN GROOT BELANG
Het node majority-model is ook toepasbaar wanneer er meer dan een cluster node op elke site aanwezig zijn. Bijvoorbeeld een multi-site cluster bestaande uit vijf nodes met drie nodes op de ene site, en twee op de andere site. Bij verbreking van de verbinding tussen de twee sites zal de site met drie nodes blijven functioneren. Het aantal nodes is hier nog in de meerderheid. De site met twee nodes kunnen alleen nog wel met elkaar communiceren, maar kunnen geen deel meer uitmaken van de cluster.
Bij zowel shared als non-shared clustering geldt dat wanneer het storagesysteem om de een of andere reden faalt, de daarop aanwezige data niet langer voor applicaties beschikbaar is. Dit heeft applicatiedowntime tot gevolg. Een cluster zelf biedt namelijk geen enkele dataprotectie of een of andere manier om de data-integriteit te kunnen blijven bewaren. Het is daarom wenselijk dat als een cluster op een site uitvalt, een remote site in staat is om met behulp van een datakopie onmiddellijk de applicatie over te nemen. Voor bedrijfskritische applicaties als Microsoft SQL of Exchange Server betekent het dat data compleet, up-to-date, en altijd online beschikbaar moet zijn. Herstel via een back-up die al een dag oud is, betekent verlies van data en brengt een onacceptabel lange downtijd met zich mee. Om dit te voorkomen moet een off-site oplossing voor datareplicatie-oplossing constant deel uitmaken van elke clusterimplementatie. Op Exchange Server 2007 na, kent de nieuwe Windows Server 2008 multi-site clustering zelf helaas geen geïntegreerde oplossing voor disaster recovery. Voor de implementatie van een oplossing voor cluster datareplicatie daarom moeten applicaties van derden worden gebruikt. Datareplicatie vormt de ruggengraat van een geografische verspreide clusteromgeving waarin data op verschillende manieren tussen remote sites kan worden verstuurd. Naast synchroon en asynchroon, is dat op verschillende niveaus binnen de clusterarchitectuur mogelijk. Op het niveau van hardware, op blockniveau, is replicatie mogelijk met behulp van speciale storage controllers of door software voor mirroring. Op het niveau van file systems, via het repliceren van file system-veranderingen, wordt dit door host software uitgevoerd, de zogenaamde ‘host based’ replicatie. Ten slotte kennen we nog replicatie op applicatieniveau, waarbij de applicatie zelf voor de datareplicatie zorgt. Een voorbeeld daarvan is Microsoft Exchange Server 2007 Continuous Cluster Replication (CCR). De gekozen replicatiemethode hangt af van het type applicatie en de zakelijke doelstellingen en eisen die de gebruikers aan een multi-site cluster stellen. Bij het plannen van een configuratie voor multi-site clustering is het noodzakelijk om exact de eisen voor dataconsistentie te kennen, in combinatie met de verschillende fout- en herstelscenario’s die de verschillende replicatie-oplossingen kunnen bieden. Naast het type datareplicatie
Cross site network connectivity broken SAN
SAN
Maar, bij het toepassen van asynchrone replicatie moet wel worden opgelet. Zo moet, ingeval van een fout in de hardware op een node, rekening worden gehouden met mogelijk verlies van data. Want een node kan uitvallen, waarbij het locaal wel met goed gevolg een transactie kan hebben opgeslagen, maar de andere cluster node de gerepliceerde data niet op tijd heeft ontvangen. De applicatie zal een failover naar de andere node onder-
Majority in primary site
Figuur 3: Node majority cluster met meerdere nodes op beide sites.
LOCAL SITE
REMOTE SITE
Failover
Failover
OFF-SITE DATAREPLICATIE IS ESSENTIEEL
W A N Primary server
Back-up server
Disaster recovery server
Replication
Shared storage
Mirrored storage
Figuur 4: Hybride replicatieclustermodel (bron SteelEye).
is het belangrijk te weten op welk niveau dit gebeurt en of het daarbij synchrone dan wel asynchrone replicatie betreft.
Synchroon en asynchroon Het begrip synchrone en asynchrone replicatie is nagenoeg wel bij iedere IT-er bekend. Heel simpel gesteld betekent synchroon dat een replicatie-operatie pas klaar is, wanneer de ontvangende partij
dit heeft bevestigd. Bij asynchroon wacht de verzendende partij niet op een antwoord en gaat door met de schrijfoperatie. Vooral bij multi-site clustering moetrekening worden gehouden met de gevolgen bij de keuze voor een asynchrone of synchrone replicatie. In het algemeen is synchrone replicatie het beste voor multi-site clusters die kunnen vertrouwen op een hoge bandbreedte, low-
gaan, maar is er zich niet van bewust dat de verloren transactie ooit heeft plaatsgevonden. Het bewaren van de transactievolgorde is dan bij asynchrone replicatie dan ook een belangrijke zaak. Leveranciers passen replicatie verschillend toe. Sommige leveranciers houden wel met de volgorde rekening, andere weer niet. De term die hierbij wordt gebruikt is ‘crash resistent’. Daarbij komt dat veel applicaties zich van een crashconsistente staat kunnen herstellen, maar slechts een klein aantal kunnen dat van een ‘out-of-order’ I/O- operatievolgorde. Het is dus belangrijk dat een multisite cluster alleen asynchrone replicatie gebruikt wanneer de volgorde van de I/Ooperaties bewaard blijft.
Third-parties Microsoft heeft op dit moment een drietal leveranciers van softwarereplicatie voor de Windows Server 2008 multi-site cluster gecertificeerd. Dit zijn Neverfail ClusterProtector, SteelEye DataKeeper en Double-Take GeoCluster. Alle drie de tools voorzien in een basisreplicatiefunctionaliteit. Er zijn verschillende methoden om
STORAGE MAGAZINE · 4 · DECEMBER 2008
Site B
Site A
latency, WAN-verbinding. Doorgaans betekent dit dat synchrone replicatie beperkt blijft tot de wat kortere afstanden, hoe lang hangt af van de beschikbare verbindingen. Hoewel synchroon tegen verlies van data beschermt, zal dit bij een failover wel ten koste gaan van de latency van applicatie-writes en de acknowledgetijden die, weliswaar afhankelijk van het type applicatie, van invloed kunnen zijn op de prestaties van de applicaties. Asynchrone replicatie kan, zonder belangrijke gevolgen voor de prestaties van de applicaties, in het algemeen veel grotere afstanden overbruggen.
45
Seamless failover/ failback
Site A
NF
NF
Intelligent cluster monitoring
Site Site BB
NF
Neverfail ClusterProtector
SAN Neverfail C.O.R.E Cluster Optimized Replication Engine
46
toegepast in een hybride model, waarin de primaire server en back-upserver zich in de primaire datacenter bevinden en met een shared storage device verbonden zijn. Tegelijkertijd kan DataKeeper een beschermd volume repliceren naar een remote disaster recovery site. Mocht de primaire server dan uitvallen, dan komt de tweede server online en vervolgt zonder onderbreking de data replicatie naar de remote site. Zou echter de complete locale site uitvallen, dan komt de disaster recovery server op de remote site online.
Figuur 5: Neverfail ClusterProtector (bron Neverfail).
STORAGE MAGAZINE · 4 · DECEMBER 2008
dit proces uit te voeren, maar alle hebben tijd en bandbreedte nodig. Sommige methoden staan het toe dat de applicaties blijven doordraaien, andere verlangen dat deze worden gestopt. Hersynchronisatie van replica’s kan, afhankelijk van de beschikbare netwerkbandbreedte, uren duren of zelfs dagen voor grote data sets. De van oorsprong door het bedrijf Double-Take ontwikkelde GeoClustersoftware was bestemd voor Windows Server 2000, werd daarna aangepast voor Windows Server 2003 en nu gereedgemaakt voor de nieuwe en verbeterde Windows Server 2008 Failover Clustering features. GeoCluster-software werkt voor de uitvoering van de replicatie-services op de operatingsystem/file systeemlaag.
HERSYNCHRONISATIE KAN DAGEN DUREN
Het is als een clustered disk resource binnen Windows Server Failover Clustering geïntegreerd en ‘boven’ het Windows file system geïntegreerd. Het bevat de gepatenteerde Double-Take data-integriteitalgoritmen. Deze zorgen ervoor dat de schrijfvolgorde intact blijft en garandeert de crash consistency. GeoGluster is ook, voor het maken van een regelmatige point-in-time snapshot
van de gerepliceerde data, met Microsoft Virtual Shadow Copy Service (VSS) geïntegreerd. Dit voorziet in een herstelpunt in geval van een beheerfout of een ongewilde wijziging. De tool comprimeert realtime de gerepliceerde data. Grote databasebestanden worden op blockniveau geanalyseerd en gerepliceerd, wat bij een hersynchronisatie van grote databases een enorme tijdwinst oplevert. GeoCluster is storage-onafhankelijk, zodat storage van verschillende types en leveranciers door elkaar kan worden gebruikt.
SteelEye DataKeeper SteelEye DataKeeper is ook een host-gebaseerde oplossing voor replicatie dat data synchroon of asynchroon op block volumeniveau tussen cluster sites repliceert. De DataKeeper kan volumes repliceren tussen sites met volumes op locale disks of die via een iSCSI/Fibre Channel aan een SAN zijn verbonden. Naast replicatie ondersteunt DataKeeper Continuous Data Protection (CDP) om op bepaalde tijden gerepliceerde data voor- of terugwaarts te mounten. Met een ingebouwde WAN-optimalisatie, datacompressie, bandbreedtebeperking, kan een netwerkverbinding optimaal worden benut, waarbij de noodzaak vervalt om een extra WAN accelerator te gebruiken. De tool ondersteunt meerdere targets voor cascading failover configuraties. DataKeeper kan onder meer worden
ClusterProtector is een non-shared-oplossing en ondersteunt constante replicatie. Het bieden van een constante beschikbaarheid als een uitbreiding van de cluster combineert replicatie, failover en failback en een rollback-voorziening. Op de disaster site blijft Neverfail in een passieve toestand en bewaakt constant de toestand van de cluster en de netwerkomgeving op de primaire site. Neverfail’s Cluster Optimized Replication Engine (C.O.R.E) zorgt er voor dat een failover
GEOCLUSTER IS STORAGE-ONAFHANKELIJK
naar de remote site plaatsvindt op het moment dat de cluster totaal onbereikbaar is. Neverfail wijzigt automatisch en dynamisch de DNS records in de Active Directory-infrastructuur, zodat clients ook constant verbonden blijven, wat niet altijd het geval hoeft te zijn, met hun mission critical applicaties, zelfs wanneer een failover via een subnet plaatsvindt.
Microsoft Exchange Server 2007 CCR Microsoft Exchange Server 2007 Continuous Cluster Replication (CCR) CCR is een high availability feature van Exchange Server 2007 dat de asynchrone log shipping- en replay-technologie combineert met de failover en management van de Microsoft Cluster service. CCR gebruikt de database failure recoveryfunctionaliteit in Exchange 2007 voor de constante en asynchrone update van een tweede kopie van een database. In figuur 6 staat een twee-node passive/active failover cluster waarop een enkele geclusterde mailbox server draait. Voor Windows Server 2008 wordt een file share op een derde server als een witness gebruikt. In een geografisch verspreide cluster zijn er
Standalone Exchange 2007 servers
Hub transport server
Witness fileshare Clients
Switch
Global catalog
DC1
Private network Mailbox server Active node
Mailbox server Passive node
NODE A
NODE B
Public network
STORAGE MAGAZINE · 4 · DECEMBER 2008
Active Directory server Domain controller
E2K7CCR Passive copy of storage group
47
Active copy of storage group
Logs
Logs
DB
DB
Figuur 6: Exchange 2007 Cluster Continuous Replication (bron Microsoft).
twee opties voor de plaatsing van de file share, binnen het primaire datacenter of in een derde datacenter. Omdat de data tussen beide nodes wordt gerepliceerd, kan de clustered mailbox server op beide cluster-nodes draaien. Dit biedt een hogere beschikbaarheid omdat geplande uitval en een falende node niet een langdurige uitval van de mailbox server tengevolge heeft.
Conclusies Multi-site slustering is een belangrijke verbetering binnen Windows Server 2008. Hiermee kunnen cluster nodes nu op verschillende subnetten worden geïnstalleerd en via netwerkrouters met elkaar communiceren. Dat biedt de mogelijkheid om sites met cluster nodes nu over langere afstanden met elkaar in zogenaamde multi-site clustering configuraties te verbinden. Maar clustering beschermt alleen tegen uitval van applicaties op servers en niet tegen de data waarvan applicaties gebruik maken. Daarvoor is een aanvullende voorziening nodig, zoals remote datareplicatie. Standaard biedt Exchange Server 2007 daarvoor de Continuous Cluster Replica-
tion methode, voor andere high-end applicaties zijn echter applicaties van derde partijen nodig. Dergelijke software komt onder meer van DoubleTake, GeoCluster,of Neverfail ClusterProtector of SteelEye DataKeeper. Het is een storageleverancieronafhankelijke methode die gebruikers een high-tolerant, disaster recovery systeem kan bieden. I
MEER INFORMATIE Meer informatie op het internet: http://www.microsoft.com/windowsserver 2008/en/us/clustering-multisite.aspx
BRAM DONS IS ONAFHANKELIJK IT-ANALIST;
[email protected]
(Advertentie)