NEW!
Easily Swap Out the Image
STK 5800 (“Honeycomb”) Inovativní řešení pro digitální archivy 2. TEMPLATE – TITLE SLIDE WITH PHOTO Presenter’s Name Presenter’s Jan Jiskra Title Presenter’s Company Practice Manager - Storage
Note: This is an optional title slide, following Sun’s Brand approved photo layout. The image can easily be swapped out and replaced. Additional brand photography can be found at: https://photos.sun.com/brand 1
Agenda
> Co je to Honeycomb > Nasazení > Přínos > Architektura a funkcionalita > RAS
Programovatelný storage systém
Revoluční přístup ke správě dat a přístupu k datům • První programovatelné storage řešení > Přenáší správu dat na úroveň storage systému > Nativní metadata a možnost dotazů > Možnost programovat další funkcionalitu • Load-balancing a horizontální škálování • Dramatické snížení TCO > Snížení komplexity a snadna správa > Snadná servisovatelnost • Extrémní spolehlivost díky self-healing schopnostem • Pro aplikace s potřebou extémně kapacitně škálovatelného úložiště 3
STK 5800 je velkokapacitní úložiště & archive pro neměnný obsah • Nový digitální obsah je vytvářen jako neměnný • V průběhu archivačního procesu se dokonce i transakční obsah stává neměnným • STK 5800 není optimální pro: > OLTP, throughput computing, ERP nebo živé
databáze > Sdílení malých souborů > Striktní compliance
Primární fokus: medicínská data a digitální archivy
STK 5800 v kostce • Symetrický clusterový design – výpočetní síla, paměť a výkon rostou s kapacitou • Load-balancing a horizontální škálování ● Významné snížení TCO ● Vysoká spolehlivost a selfhealing ● Pro velká úložiště (16TB – multi- PB) ● První programovatelný storage systém založený na Solarisu a Javě
STK 5800 – hlavní přínos
Větší kapacita s nižšími náklady Šetří čas a snižuje komplexitu Zabezpečuje data
Větší kapacita s nižšími náklady • Centralizovaná správa pro PB dat • Snížení operačních i investičních nákladů > Konsolidace ostrůvků informací > Eliminace tradičních nákladů na správu >Volume/LUN > Úspory za DB licence
• Nízkonákladová údržba > Nízké náklady na náhradní díly > Plánovaná údržba dle potřeb zákazníka
Šetří čas a snižuje komplexitu
• Rychlý přístup ka datům > Úzká integrace s aplikací > Definice pohledů na data > Caching metadat a indexů pro zvýšení výkonu • Inteligentní ukládaní a čtení > Unikátní object id > Propojení metadat s každým uloženým objektem > Název, téma, práva, autor, datum vydání, rozlišení, atd. ( definováno zákazníkem ) > Získání objektu na základě OID nebo metadata dotazu
• Odstranění nečekaných odstávek > samouzdravování
Zabezpečuje data • Extrémní ochrana dat > Pokročilý algoritmus distribuce dat > Prostředky pro zajištění integrity dat > Výrazně lepší ochrana než RAID5 • Odolnost proti několikanásobným selháním HW > Samouzdravovací mechanizmus • Poskytuje virtuální pohledy • Disaster recovery (DR) ve spojení s páskami
Evoluce nové kategorie storage Legacy
Application
Emerging Future
Data Services
Application
Metadata Mgmt
Data Services
Storage
Metadata Mgmt
Data Services
Storage
Metadata Mgmt
Application
Storage 10
Virtuální pohled: Zdravotní data Doctor = Smith Patient = Jones1234 Patient_sex = F Modality = MRI Vendor = GE Caption = aorta Date = 20050110 Area = Chest
Define View “for_doctor” = by Doctor, Patient, Modality, Date, Caption+“.jpg” /for_doctor/Smith/Jones1234/MRI/20050110/Aorta.jpg Define View “for_researcher” = by Patient_sex, Caption, Area, Date+“.jpg” /for_researcher/female/aorta/chest/20050110.jpg Define View “for_technician” = by Vendor, Modality, Date+“.jpg” /for_technician/GE/MRI/20050110.jpg
11
Sun StorageTek 5800 Storage System
Úvod do technologie
ST5800 uzel clusteru • ST5800 uzel clusteru Opteron 3 GB SDRAM Dual Gig-E 4 x 500GB S-ATA (FRU’able) 1 ru x 26.5” deep Zdroj napájení Hot swap
• 64TB (raw) na 38u rack • 6KW/rack A 32TB, 19ru system
Symetrická clusterová architektura Mgt VIP
Data VIP L2 switch Gig-E interconnect
Opteron/S-ATA cluster nodes
Data Space
Metadata Space
Honeycomb - architektura mnoha buněk Honeycomb “silo” se skládá z buněk Buňka je jednotka spolehlivosti Všechny buňky přístupné přes jednu IP adresu Buňky jsou nezávislé a lze k nim přistupovat individuálně Klientská knihovna řídí přístup k buňkám
Mnohobuněčná architektura Správa všech buněk přes jedno GUI, CLI Klientská knihovna virtualizuje buňky pro API OID je dostatečná informace pro nalezení dat bez ohledu na jejich rozmístění v buňkách Algoritmus dovoluje OIDs zůstat po uložení statickým Operace ukládání závisí na počtu buněk
Kapacita je znovuvyvážena mezi buňky (aka sloshing) Výkon škáluje napříč buňkami 2 Gig-e a 2 IP adresy na buňku File-System interface není virtualizován (22TB max per f.s.) Sloshing není transparentní pro FS
16
STK 5800 - škálovatelnost • Pro začáteka ½ buňky (8 uzlů) > 16 TB Raw • Upgrade na buňku (16 nodes) > 32 TB Raw • Přidávání buněk = Silo • Přidávání a odebírání za běhu > Data evacuation > Data sloshing
• Stále jedna IP adresa
Distribuce dat File 1
File 2
File 3
18
Object Archival Storage Model Store file!
Nezávislost na fyzickém umístění Systém přiřadí souboru jméno
Unikátní Miliardy objektů Přesunuje “namespace management” na zákazníka
Client Lib
Unique identifier
Object
WORM Flat namespace
19
HADB (Clustra) Index ukládán v paměti
Vyvinuto pro telekomunikační průmysl
Záznamy metadat jsou umístěny na disku a potom vloženy do HADB Plně distribuovaná a kapacitně rozložená DB Jako včelí plástev – vysoká odolnost vůči chybám
20
Implemetace služeb prostřednictvím StorLetů Přesun služeb nižší vrstvy z aplikačního serveru na storage Další funkcioanalitu může vytvářet uživatel nebo ISV Modifikace chování funkcí store/retrieve/query/delete Příklady: Extrakce metadat ze souboru Transcode/downsample/filter/watermark Vyšší úroveň zabezpečení: ACL, encrypt, audit trail
21
Reed Solomon kód An error-correcting code that works by oversampling a polynomial constructed from the data…the receiver can recover the original polynomial even in the presence of a "few" bad points. - Wikipedia
Vytvořen v MIT Lincoln Labs in 1960 Použití pro CD & DVD Umožňuje různé kombinace dat a parity (D,P) RAID stripe 5/1, 5/2, 6/4, atd
Honeycomb -první storage na světě používající RS Přispívá k vysoké spolehlivosti Lepší než mirror, výrazně nižší cena
V budoucnu umožní implementovat proměnnou spolehlivost na základě politik 22
Algoritmus distribuce dat Fragmentace napříč clusterem bez použití volumů Zajišťuje kapacitní vyváženost a opětovné vyvažování (aka sloshing) Poskytuje autoatický self-healing Model posunutého servisu Bez hot-spare disků Paralelizace pro rychlou obnovu
Bezestavový algoritmus – není potřeba sdílet stav napříč clusterem Okamžité načtení dat i přes sloshing a self-healing
23
Fragmentace dat Example with • D=5 • P=2
24
Samouzdravovací služby Lokální kontrola konzistence dat, paralelizace Scanování fragmentů Kontrola přítomnosti všech potřebných fragmentů Uvolňování nepotřebných fragmentů Kontrola asociace metadat se všemi lokálními objekty Garbage collection pro dočasné soubory
Healing services dokončí kontrolu v predikovatelném čase 25
Honeycomb SDK C API Honeycomb lib/DLL, cURL lib/DLL Java API, honeycomb-client.jar Dokumentace Příklady kódu včetně command-line příkazů store/retrieve Demo aplikace Honeycomb emulator Pro ladění kódu
26
Klientské knihovny Komunikují HC protokolem (HTTP extension)
Některé operace jako retrieve lze spouštět přímo z browseru Snadné nastavení průchodnosti přes routery
Java implementace (200k jar library)
Jednoduché API (store, retrieve, delete, query) Funguje s libovolnou JDK 4.2 implementací Solaris, Windows, Linux
C implementace
Solaris x86 / Sparc ; Windows ; Linux (RedHat) Synchronní volání
27
Honeycomb OID Externí odkaz na uložená data, metadata Unikátní Umožňuje koexistenci miliard objektů Store(data, metadataRecord) OID Retrieve(OID) data RetrieveMetadata(OID) Metadata record addMetadata(OID, metadata) OID
28
Semantika Store
store(data, metadata) oid1 addMetadata(oid1, metadata) oid2
Delete
delete(oid1): data object still there …delete(oid2): data released for GC
29
STK 5800 dostupnost • RAIN – Redundant Array of Independent/Inexpensive Nodes • Symmetrický cluster > HA Database (Clustra)
• Dvě úrovně switchů, cluster • Service processor není součástí kritické cesty • Call home
STK 5800 Servisovatelnost • Model odloženého servisu > 8-node: ztráta 1 serveru > 16 nodes: ztráta 2 serverů
• Přidávání a odebírání HW online > Data evacuation > Data sloshing
STK 5800 – integrita a ochrana dat • Unikátní Object Ids > Cryptographic Checksum/Hash (SHA-1)
• Data Placement Algoritmus > 10,000 kombinací
• Reed Solomon kód > “error-correcting code that works by
oversampling a polynomial constructed from the data”
• Průběžné samouzdravování • Odolnost vůči mnohanásobným selháním • Backup (DR)
Data
Parity
Aplikace • Fedora ( Flexible Extensible Digital Object and Repository Architecture ) • EPrints • DSpace • VITAL • DigiTool ( Exlibris )
NEW!
Easily Swap Out the Image
STK 5800 (“Honeycomb”) Inovativní řešení pro digitální archivy 2. TEMPLATE – TITLE SLIDE WITH PHOTO Presenter’s Name Presenter’s Jan Jiskra Title Presenter’s Company Practice Manager - Storage
[email protected]
Note: This is an optional title slide, following Sun’s Brand approved photo layout. The image can easily be swapped out and replaced. Additional brand photography can be found at: https://photos.sun.com/brand 34