WHITE PAPER
Media Content Storage Opslag van statische data op
Door Kurt Glazemakers CTO Terremark Europe
Inhoud
een andere manier bekeken
Hoe doen we het nu Flessenhals Prijskaartje Ontkoppeling CAS lost het op Onafhankelijke Identifiers Snel maatwerk Conclusie
3 3 4 6 6 6 8 9
White Paper Media Content Storage
2
Introductie Bij veel websites die gebruik maken van afbeeldingen, videobeelden en andere statische bestanden als dienst voor particulieren (denk aan YouTube, Flick-R of Uitzending gemist) of voor een bedrijfsapplicatie (röntgenfoto’s, luchtfoto’s), richtten we traditioneel voor de opslag een NAS of SAN in, dat we opschaalden naarmate de behoefte aan capaciteit toenam. Om de totale behoefte te berekenen, gebruikten we vaak het rekenmodel “aantal gebruikers x capaciteit”.
Is dat wel de juiste benadering? Dat valt te betwisten. In dit whitepaper gaan we in op de knelpunten van de gangbare benadering bij de opslag van statische data om vervolgens een zeer zinvol alternatief te bespreken. Het alternatief heet Media Content Storage en het omvat een compleet andere, maar zeer logische aanpak om grote hoeveelheden statische informatie op te slaan.
Hoe doen we het nu Voor het uploaden van statische bestanden zal de eindgebruiker generiek een webpagina met een eenvoudige interface gebruiken. Na het geven van de instructie om een bestand te uploaden, verwerkt de onderliggende applicatie deze aanvraag en ‘post’ het bestand naar de storage-laag. Daarbij slaat de applicatie metadata op bij het bestand, waaronder een veld met daarin het pad naar het bestand. Dit pad kan na verloop van tijd echter veranderen wanneer we gegevens verplaatsen naar andere directories of zelfs naar andere systemen.
Bij een dergelijke oplossing moet je de applicatie aanpassen op het moment dat je opslagmedia toevoegt. Dit resulteert op een grotere schaal al snel in moeilijke, foutgevoelige en daardoor kostbare processen. Bovendien moeten voor updates en onderhoud de systemen vaak tijdelijk uit de lucht…
Flessenhals Door het SAN of het NAS aan de applicatieserver te koppelen en deze al het beeldmateriaal te laten opslaan, creëren we een flessenhals. De I/O ligt vast en kan maar tot een bepaald niveau opschalen om aanvragen voor beeldmateriaal te verwerken. Bij een groot aantal aanvragen loopt de wachttijd voor de gebruikers op - met als gevolg het ongewenste effect dat mensen afhaken of erger nog, hun werk niet meer kunnen doen.
White Paper Media Content Storage
3
White Paper Media Content Storage
4
Prijskaartje Een snel uitdijend datavolume met statische bestanden vraagt veel van de verantwoordelijke IT-manager, waardoor de ‘TCO per MB’ groeit bij oplossingen die op harde schijven zijn gebaseerd. Hieronder staan de meest belangrijke redenen:
Op harde schijven gebaseerde opslagoplossingen verhogen de overheadkosten, omdat ze bestaan uit disksets waaraan componenten zijn toegevoegd om de ‘ruwe schijfcapaciteit’ te verrijken met functionaliteit. Voorbeelden hiervan zijn de highend, redundante controllers van een Fibre Channel SAN en de benodigde software voor het beheer van een dergelijk opslagmedium;
Ze gebruiken RAID1-configuraties om het risico op dataverlies door het falen van de schijf te reduceren door middel van replicatie over meerdere schijven. Elk bestand behoeft daarom meer ‘ruwe schijfruimte’ dan de werkelijke omvang van het bestand;
Het beheer van een grote dataset vereist zorgvuldige planning en wordt lastiger (en dus duurder) naarmate het datavolume groeit. Men schat dat het beheer van de opgeslagen data zeven maal de kosten bedraagt van de harde schijf waarop de data staat;
Storage-engineers werken met verschillende product/merkspecifieke tools en moeten informatie uit verschillende applicaties correleren; het is voor een engineer normaal om vier of vijf schermen actief te hebben om relevante (bedrijfs)informatie te verzamelen uit verschillende managementen monitoring-modules. Dit resulteert in een foutgevoelige, arbeidsintensieve en daarmee improductieve benadering van storage-beheer;
Tenslotte leiden de ogenschijnlijk dalende kosten voor dataopslag (wanneer we alleen naar de directe kosten kijken en niet naar de verborgen kosten) tot uitstel van beslissingen aangaande de implementatie van een databeheeroplossing, al dan niet inclusief lifecycle-management. Het aantal manuren voor beheer van de infrastructuur groeit als gevolg van het stijgende datavolume en de daarmee gepaarde complexiteit.
1
RAID is een overkoepelende term voor opslagmethodieken die data kunnen verdelen en repliceren over meerdere harde schijven.
White Paper Media Content Storage
5
Ontkoppeling De bovenstaande argumentatie verduidelijkt dat het raadzaam is om naar een andere manier te kijken om statische data op te slaan. Idealiter zouden de bestanden niet direct gekoppeld moeten zijn aan één opslagmedium of aan de applicatie. Tegelijkertijd moet de controle over de bestanden toenemen om de ontdubbeling te kunnen regelen en zo efficiënter met de capaciteit om te gaan, te bepalen hoelang we bepaalde bestanden moeten bewaren en welke bestanden eventueel offline beschikbaar moeten blijven.
CAS lost het op De oplossing zit in een concept, waarbij de (web)applicatie noch de storage-laag zelf, zich hoeven bezig te houden met het beheer van de bestanden. Gebruik van CAS (content adressing system) maakt het mogelijk zo’n concept invulling te geven. CAS is een term die zijn herkomst vindt bij Paul Carpentier en Jan van Riel, die destijds werkzaam waren bij het Belgische FilePool (in 2001 door EMC overgenomen). Het systeem benadert dataopslag en -retrieval op een geheel andere manier.
Gegevens slaan we vaak op in een structuur van directories en mappen (een ‘omgekeerde boomstructuur’). De naam van de map beschrijft de inhoud en elke map kan submappen bevatten, waarin subsets van informatie staan. Computersystemen hebben deze logisch gestructureerde benadering echter niet nodig en CAS laat dat gegeven dan ook geheel los. Op opslagniveau is geen logische structuur – er is één grote depository van bestanden met elk een unieke identifier.
Onafhankelijke Identifiers CAS gebruikt een Global Unique Identifier (GUID) voor het opslaan van statische data. Deze GUID is onafhankelijk van elk lokaal of netwerkpad, waardoor noch de applicatie noch de eindgebruiker hoeven na te denken over de fysieke en de logische locatie van een opgeslagen bestand. Een object krijgt een permanente plek op de harde schijf, zodat de applicaties deze eenvoudig kunnen ophalen. CAS slaat elke byte op twee afzonderlijke disks op en bovendien op verschillende hosts, om het uitvallen van een disk te ondervangen. Hierdoor is het niet noodzakelijk om een separate backup-oplossing in te richten, die vanwege de omvang waarschijnlijk onwerkbaar zou zijn in de praktijk. Vanwege het op GUID gebaseerde mechanisme in combinatie met de hierboven vermelde karakteristiek is het evenmin
White Paper Media Content Storage
6
noodzakelijk om een separate SAN-architectuur in te richten voor de opslag van statische data.
De technologie voorkomt tegelijkertijd dat gebruikers enig object tweemaal opslaan en brengt zo de kosten terug die traditioneel voortkomen uit overmatig diskgebruik. Het systeem ziet dat een bestand al aanwezig is. Je kunt aan elk bestand opdrachten meegeven die bepalen wat ermee moet gebeuren na een bepaalde periode. De opdrachten kunnen betrekking hebben op het verwijderen of archiveren van een bestand, hoe vaak CAS het bestand moet wegschrijven en over hoeveel schijven, en zelfs over hoeveel datacenters we de data willen kopiëren. Verder kunnen we steeds exact de benodigde opslagcapaciteit toevoegen zonder onderbreking van de dienstverlening en zonder in te grijpen in de applicatie zelf. Er zijn verschillende leveranciers die op CAS gebaseerde oplossingen aanbieden, waarvan CAStor van Caringo er één is.
Een belangrijke eigenschap van dit product is dat we ‘custom metadata’ aan objecten kunnen meegeven. In de medische wereld bijvoorbeeld gelden jarenlange bewaartermijnen voor bepaalde soorten data. Met CAS behoudt de eigenaar van de data - los van de applicatie waarmee hij de objecten ooit aanmaakte - toegang tot de metadata van het object.
White Paper Media Content Storage
7
Een ander belangrijk element in de medische wereld is het garanderen van de integriteit van het object. Hoe stellen we zeker dat het opgeslagen bestand niet is gewijzigd of corrupt is geraakt? CAStor zekert de objecten door middel van een hash-algoritme gezekerd en checkt periodiek alle bestanden op integriteit. Zeker met het oog op archivering op de lange termijn is dit een zeer belangrijke vereiste. Achteraf is op deze manier te bewijzen dat het object in het archief authentiek is en ook niet is veranderd.
Daar waar verschillende typen bestanden/objecten in één en dezelfde infrastructuur staan opgeslagen, is het van belang dat de infrastructuur verschillende retentieperiodes van bestanden ondersteunt. Zo geldt medische gegevens een zeer lange bewaartermijn, maar geldt voor administratieve info meestal een kortere. Via de Content File Server bepalen we op het niveau van de applicatie, de harde schijf of per individueel bestand de retentieperiode. Bijvoorbeeld: alle objecten die uit de PACs-applicatie komen(ziekenhuis systeem), hebben een retentieperiode van zeventig jaar. Binnen deze periode kunnen de gebruikers de bestanden niet verwijderen. Alles dat van de financiële afdeling komt, heeft een bewaartermijn van zeven jaar. Na zeven jaar kunnen gebruikers de data verwijderen en na tien jaar gooit het systeem de informatie automatisch weg.
Snel maatwerk Nadeel van op CAS gebaseerde oplossingen is dat de doorvoersnelheid van data niet erg hoog is. SANs daarentegen zijn geoptimaliseerd voor het verwerken van grote hoeveelheden verkeer tegelijk om wijzigingen in op geslagen bestanden snel door te kunnen voeren. Hier zal dus de afnemer van het product zijn specifieke kennis moeten toepassen om de responstijden van de op CAS gebaseerde oplossing te optimaliseren.
Terremark gebruikt het product CAStor als basis onder haar dienst Media Content Storage en heeft een eigen frontend gebouwd, die zorgt dat de gebruiker de content kan ophalen. Zij past haar kennis op het gebied van caching toe om er voor te zorgen dat het aanbieden van content op een snelle en efficiënte manier gebeurt. Een voorbeeld is caching van bestanden naar individuele gebruikers of groepen gebruikers. Op deze manier is het mogelijk bestanden sneller aan te leveren aan groepen eindgebruikers, waardoor de gebruikerservaring
White Paper Media Content Storage
8
sterk verbetert. De Media Content Storage-dienst heeft haar waarde inmiddels bewezen bij een aantal nationale en internationale klanten.
Conclusie Iedereen die te maken heeft met de opslag van grote hoeveelheden data, doet er verstandig aan om zijn opslagstrategie eens goed onder de loep te leggen. Het eindeloos uitbreiden van een SAN of NAS kan namelijk resulteren in sterk oplopende beheerskosten. Een op CAS gebaseerde aanpak, zoals het Media Content Storage-concept van Terremark, heeft zijn waarde in de praktijk al bewezen en verlaagt de kosten voor hardware én beheer substantieel. Bovendien koppelt het de bestanden los van de applicaties, waardoor er bij migraties minder complicaties optreden (zoals verbroken links).
White Paper Media Content Storage
9