Datová úložiště CESNET David Antoš
Přehled I
I I I I I I
proč má smysl budovat národní datová úložiště pro vědecká data budovaná infrastruktura jak úložiště použít přístupové mechanismy správa uživatelů na úložištích použití pro náročnější uživatele speciální aplikace
Smysl externího úložiště I
uživatelé raději drží data na vlastním zařízení. . . I I I
I
to ale nedává rozumné garance dlouhodobého uchovávání používají se nevhodná média, chybí systematická péče data je lépe uchovávat v živém systému
konsolidace zdrojů – národní úložiště vědeckých dat I I I
umožňuje pořídit zařízení dostatečné velikosti spravované specializovaným týmem s možností sdílení dat mezi skupinami uživatelů
Cíl: dlouhodobé uchování dat I
potřeba dlouhodobě uchovávat vědecká data vzrůstá I I I
I
uchování primárních dat z experimentů a výpočtů s ohledem na potenciál jejich dalšího využití k návratu a revizi publikovaných výsledků
uchování zajišťujeme na úrovni zachování binárních dat (bitstream) I
správce úložiště nerozumí odborné povaze dat I
I I
ani nemůže rozhodovat o smysluplnosti jejich archivace
proto neděláme LTP (Long-Term Preservation) bitstream je nicméně předpokladem pro uchování dat I
další kopie, geografické repliky, redundance v systému
Možnosti využití datových úložišť I
zálohy I I
I
archivace I I I
I
uživatelé na úložiště odkládají cenná primární data data nejsou často využívána uživatelé nemají prostředky pro jejich uchovávání
sdílení dat I
I
uživatelé mají primární data u sebe na úložiště odkládají zálohu pro případ havárie
distribuovaný tým potřebuje společně pracovat nad většími objemy dat, případně je zveřejňovat
„něco jiného“ I
distribuce obsahu, jiné speciální aplikace
Možnosti využití datových úložišť I
a naopak: na co se vzdálené úložiště příliš nehodí I
I
interaktivní práce zejména s velkým množstvím malých souborů ukládání dat s potřebou přístupu v reálném čase I
I
I I
I
prioritou je spolehlivost uložení
přímý provoz systémů s nutností 24/7 přístupu „toto není úložiště pod váš SAP“ na to je obecně vzdálené úložiště nevhodné
vhodné použití pro podobné scénáře I
I
primární 24/7 data u uživatele, na CESNET zálohy/repliky rozdělení životně důležitých dat vs. „nice to have“ dat
Infrastruktura Děčín
Liberec
PIONIER
Hradec Králové Praha
Pardubice Opava
Plzeň
Karviná
Ostrava Olomouc
AMS-IX
NIX
Jihlava
Zlín Brno
České Budějovice GÉANT Internet
ACONET
SANET
Infrastruktura I I I
trojice úložišť: Plzeň, Jihlava, Brno celková hrubá kapacita cca 16 PB + 5 PB(∗ ) Plzeň v pilotním provozu od května 2012 I I I I I
I
v areálu ZČU cca 500 TB disků + 3300 TB pásek SGI Data Migration Facility, CXFS pásková knihovna Infinite Storage doplňujeme SGI COPAN a pásky(∗ )
Jihlava a Brno I I
I
dodáno v květnu 2013 probíhá uvádění do zkušebního provozu, testovací uživatelé řešení IBM založené na GPFS
Knihovna v Plzni
Infrastruktura – další složky I
aneb úložiště „mimo ta naše“ I I I
I
I
disková pole zapojená v MetaCentru hierarchické úložiště a disková pole CERIT-SC pro vlastní potřebu projektů: CEITEC
obvykle jsou nebo budou spojena systémem správy uživatelských účtů používají obdobné protokoly
Úložiště jsou hierarchická I
vrstvy médií různé kapacity a rychlosti I I
I
rychlé disky/pomalejší disky/MAID/pásky drahý provoz → levnější provoz
a automatizovaný systém pro přesuny dat mezi nimi I I
déle nepoužívaná data do pomalejších vrstev pro uživatele transparentní, resp. téměř transparentní I I
přístup k dlouho nepoužitému souboru trvá déle uživatelům to obvykle nevadí
Zaplnění pásek v Plzni
Jak na úložiště přenášet data – motivace I I
většina software předpokládá použití lokálních disků vzdálené síťové disky se chovají jako lokální I
I
byť nemají vysoký výkon při práci s malými soubory
je nutno podporovat škálu přístupových protokolů I I
pro různé případy použití držíme se nicméně spíše klasických protokolů
Přenos dat na úložiště I
souborové I I I I
I I
I
speciální I I I
I
NFSv4 (známé uživatelům MetaCentra) rsync, scp, FTPS obvykle autentizované systémem Kerberos existují GUI klienti i nástroje pro příkazovou řádku pro hlavní platformy Globus Online – vysokorychlostní přenosy výhledově CIFS (známý „síťový disk“ z Windows) gridové úložiště v systému dCache FileSender připravujeme ownCloud
bloková zařízení (není preferováno)
FileSender I
webová služba pro jednorázový přenos (velkých) souborů I
I I I
přispíváme i k jeho vývoji http://filesender.cesnet.cz alespoň jedna strana komunikace musí být oprávněný uživatel infrastruktury I
I
I I
velkých: aktuálně 500 GB
autentizace federací eduID.cz
oprávněný uživatel může nahrát soubor a poslat mu oznámení lze poslat komukoli pozvánku testovací verze na http://filesender2.cesnet.cz
Speciální protokoly/aplikace I
GlobusOnline I I I I
I
ownCloud I
I
„klikací FTP na steroidech“ kopírování velkého objemu dat řízené pomocí webového rozhraní mezi „koncovými body“ – úložišti podporujícími GlobusOnline nebo lokálním strojem cloudové úložiště, synchronizace souborů
dCache I I
jeden ze systémů správy dat vyvinutých pro CERN pro ukládání PB objemů
Jak se stát uživatelem – snadno I
pokud I I I I
I
tak se jen zaregistrujte na http://du.cesnet.cz I
I
chcete využívat souborově orientované protokoly dostačuje prefabrikovaná politika migrací dat ukládáte jen individuální data potřebujete ukládat nejvýše jednotky TB vyžaduje to ověření uživatele z akademické instituce
členství se po roce prodlužuje I
jako indikace, že uživatel „ ještě ví o svých datech“
I
kódové označení: VO Storage
I
jestli to nestačí, tak. . .
Jak se stát uživatelem – snadno I
pokud I I I I
I
tak se jen zaregistrujte na http://du.cesnet.cz I
I
chcete využívat souborově orientované protokoly dostačuje prefabrikovaná politika migrací dat ukládáte jen individuální data potřebujete ukládat nejvýše jednotky TB vyžaduje to ověření uživatele z akademické instituce
členství se po roce prodlužuje I
jako indikace, že uživatel „ ještě ví o svých datech“
I
kódové označení: VO Storage
I
jestli to nestačí, tak. . . ale až za chvilku
Správa uživatelských účtů I I
jednotná správa uživatelských účtů v infrastruktuře systém Perun I
I
identita uživatele je podchycena centrálně I I
I
I
proč to? zodpovídáme v projektu za to, komu služby poskytujeme (akademické komunitě), řídíme mnoho různých služeb ověřena proti federaci eduID.cz alternativní mechanismus pro nečleny federace je k dispozici
na identitu uživatele jsou navázány jednotlivé mechanismy přístupu k datům uživatel má jednotné webové rozhraní pro správu účtu
Úložiště pro náročnější I I
I
nestačí VO Storage? založíme vám virtuální organizaci! VO je skupina uživatelů se společným zájmem, kteří vystupují jako celek VO má správce, který I I
I
jedná s poskytovatelem zdrojů rozhoduje o podmínkách členství jednotlivých uživatelů
dohoda o poskytování zdrojů mezi VO a správcem zdroje I
popisuje nastavení technických parametrů I I I
I
velikost poskytovaného prostoru použité přístupové protokoly politika ukládání dat, počty kopií/replik
VO může využívat různé typy zdrojů
Založení VO prakticky I I
napište nám na
[email protected] domluvíme se, co potřebujete I I
I I I I I
opravdu to potřebujeme pochopit kolik dat máte, jak s nimi pracujete, . . .
připravíme konfiguraci úložiště založíme virtuální organizaci pozveme vás do ní a povýšíme na administrátora dál si uživatele spravujete sami, vytváříte skupiny, . . . ukládáte data přes FTP/rsync/NFSv4/... I
my se staráme, aby na se vytvářely jejich repliky, . . .
Aktuální stav I I
úložiště v Plzni v pilotním provozu přichází na něj uživatelé I I
individuální se mohou přihlásit do VO Storage připojeno do MetaCentra I
I I
FileSender v provozu postupně obsluhujeme zájemce o náročnější využívání I I
I
přímo pro uživatele z MetaCentra
vždy vyžaduje komunikaci pro velká data (desítky TB+): nezbytná technická znalost uživatelů
úložiště v Brně a Jihlavě – testovací uživatelé
Kontakty I I
http://du.cesnet.cz uživatelská podpora:
[email protected]