CESNET, GRIDy a přenosy dat Lukáš Hejtmánek, Luděk Matyska CESNET, z. s. p. o Praha Ústav výpočetní techniky MU Brno Seminář STK, Praha 26. 2. 2008
CESNET
Czech Educational and Scientific Network
Primárně národní operátor výzkumné a výukové síťové infrastruktury Založen 1996 všemi veřejnými vysokými školami a AV ČR Poskytuje služby celé vědecké komunitě, ne jen zakladatelům
Postupně: budování e-Infrastruktury
Sítě + Gridy + …
Topologie sítě CESNET
Gridy
První generace – výpočetní Grid
Důraz na výpočty Výpočetní Grid je hardwarová a softwarová infrastruktura, která poskytuje spolehlivý, standardizovaný, všudypřítomný a levný přístup ke špičkovým výpočetním službám.
Druhá generace – třívrstevný Grid
Kromě výpočetního i informační a znalostní Důraz na práci s daty
ukládání, přenos, zpracování, zpřístupnění
CESNET a Gridy
Součást výzkumného záměru CESNETu Aktivita METACentrum
Budování výpočetního a úložného prostředí na národní úrovni Čtyři hlavní centra:
ZČU Plzeň, CESNET Praha, UK Praha, MU Brno
Experimenty s distribuovaným ukládáním (více center)
CESNET
Řešíme problémy s ukládáním, přenosy a zpřístupněním dat Hledáme nová (experimentální) řešení
Distribuované řešení
Vychází z dostupnosti velmi rychlé sítě V současné době technologie DWDM (n*10 Gbps) Uzly řešení jsou v různých lokalitách
Přenos dat mezi uzly není kritickou částí
Spolehlivost dosažena např. replikací mezi uzly
Naše zájmy
Nemáme/nenabízíme hotová řešení
Neposkytujeme (v této fázi) 100% garantované služby
To je oblast komerčních dodavatelů
Máme ale zájem o spolupráci projektovou formou
Důvody:
Nové přístupy: zadání se mění v čase
Unikátní (nová) komerční řešení stojí příliš mnoho peněz Projekty stojí lidské zdroje (ale know how zůstává se zadavatelem)
Datově orientované projekty EU
CESNET/METACentrum zapojeno v řadě EU projektů budování Gridu (výpočetního i datového) Nejvýznamnější projekt: EGEE (teď ve druhé fázi)
Enabling Grids for E-science
Hlavní cíl: Vybudovat produkční Gridovou infrastrukturu na evropské úrovni
Iniciováno potřebami částicové fyziky (CERN)
Částicová fyzika a Grid
Centrum CERN
Projekt LHC (Light Hadron Collider)
Spuštění v polovině roku 2008
Řada experimentů
(ATLAS, CMS, ...) Budou produkovat řádově deset a více petabytů dat ročně Data je nutné spolehlivě ukládat i zpřístupnit fyzikům
Základy správy dat
15 PB dat za rok
Ukládáno rychlostí až 1.5GB/sek
Sdílení dat mezi cca 500 institucemi/7000 fyziky Silná potřeba infrastruktury pro sdílení dat Hierarchická architektura orientovaná na služby
Přístup, Bezpečnost, Monitoring, Správa vytížení, Správa dat
Datová hierarchie
Tier 1 a Tier 2 lokace
Tier 1 = 7 primárních lokací
Tier 2 = replikují části dat z Tier 1 lokací
Heterogenní prostředí
Nutná interoperabilita
Uzly organizací se po HW i SW stránce velmi liší
Nutnost zastřešujícího univerzálního rozhraní
Projekt EGEE
Buduje infrastrukturu Pro ni potřebuje odpovídající programové prostředí – middleware Součástí middleware i prostředky správy dat
EGEE – správa dat VO Frameworks
Uživatelské nástroje
lcg_utils File transfer service
Grid File Acces Lib
Správa dat
Katalogy
Ukládání
Přenosy dat
Informační systém/proměnné prostředí API od dodavatele
(RLS)
LFC
SRM
(Klasické SE)
gridftp
RFIO
EGEE – správa dat
Kombinace komerčních řešení a vlastních produktů
Komerční řešení především na nejnižší úrovni
Vyšší vrstvy sjednocují komerční řešení
Katalogy – správa jmenného prostoru a replik
Ukládání – správa úložného prostoru
Přenosy dat – obecné rozhraní pro přenos dat
Vrstva rozhraní poskytující stage-in/out nebo souborový systém Nástroje pro uživatele
EGEE – správa dat
Rozhraní pomocí tzv. stage-in, stage-out nástrojů
Hierarchický jmenný prostor
Řízení přístupu podle oprávnění
Přístupové listy práv
Obvykle prostor pro jednoduchá metadata
Přirozená podpora kopií dat
Není přímým cílem „klasický” systém souborů
CESNET a národní projekty
DiDaS – Distribuované Datové Sklady
Projekt CESNETu a Masarykovy Univerzity
Cíl:
Vytvoření infrastruktury distribuovaných datových skladů Nasazení pilotních aplikací
Výsledky: (již v roce 2004)
Distribuováno 10 uzlů v 6 městech ČR Připojeny gigabitovým rozhraním na páteřní sítě CESNETu Celková kapacita 14TB Pilotní aplikace – distribuované zpracování multimediálních dat
DiDaS – distribuce Gridu
DiDaS – projekt DEE
Distributed encoding environment (DEE)
Využití distribuované infrastruktury
Výpočetní i úložná infrastruktura
Na Masarykově univerzitě se dodnes používá Od roku 2004 „proteklo” distribuovaným úložištěm 120TB dat, zpracováno 6000 hodin multimediálních dat
Projekt Atlases.muni.cz
Atlas kožních chorob a patologie
Přes 9.5 milionu souborů, 200 GB dat
Problémy s řízením přístupu
Přístup pro studenty
Přístup pro registrované uživatele
Nutná správa registračních údajů
Přístup pro „spřátelené” projekty
Přístup pro vyhledávací roboty
Řešení přístupu v podobě federací
Taiwan Digital Archives Expansion Project
Projekt digitalizace nejen národního archivu Taiwanu
Kromě klasických knižních fondů i digitalizace muzeálních sbírek
Architektura ukládání dat využívá zkušeností EGEE
Dodavatelská technologie na nízké úrovni
Interoperabilita mezi participujícími organizacemi
Hardware, základní služby, management Vyšší vrstvy převzaty z akademického prostředí
Kombinace placených služeb a vlastních lidských zdrojů
Bez „domácího“ know-how i špatná komunikace s firmami
Ukládání dat
Zahrnuje
Hardware pro ukládání
Software na různých úrovních
HW (a základní SW) dodávají velcí výrobci
Není to předmět výzkumu CESNETu
Disková pole, řídící počítače, management
V neposlední řadě zálohy (páskové knihovny apod.)
SW – kromě knihoven ČR je mnoho skupin z akademické oblasti zabývající se ukládáním velkých objemů dat (terabyty – petabyty)
Neexistuje ideální řešení, vždy je třeba vývoj (firma nebo interní)
Skupiny z akademické oblasti
Silný důraz na spolupráci
Spolupracující skupiny
Každý člen skupiny nese část nákladů
Vlastní část hardwarového zařízení
Software celé skupiny musí byt interoperabilní
Nesnáze s proprietárním řešením
Zpravidla všechny komponenty musí jít od jednoho výrobce, má-li být poskytnuta nová funkcionalita
„Vlastní síly“ – investice do lidských zdrojů
Výhodou je růst interního (nezbytného) know-how
Bez know-how těžké (nemožné) zhodnotit nabídky dodavatelů
Principy ukládání v Gridovém prostředí
Nezbytná distribuce dat
Data jsou distribuována mezi členy skupiny
Více kopií
Členové skupiny mají sami zájem s daty pracovat Člen má obvykle kopii dat, se kterými pracuje Často hierarchická architektura
Nezbytná je fungující autentizace a autorizace
Řízení přístupu
Řízení přístupu u pracovních skupin
Skupina = virtuální organizace (VO)
Řízení přístupu v jedné skupině
Řízení přístupu mezi skupinami
Mnoho různých metod Potřeby širší spolupráce Heterogenní prostředí, obvykle bez interoperability
Federace
Interoperabilní řešení řízení přístupu
Příkladem Eduroam: řízení přístupu k Internetu
Řízení přístupu
Identity providers: organizace, která „vlastní“ primární data o uživatelích zaměstnavatel, škola)
Service providers: služba, která pro řízení přístupu využívá služeb Identity providers
Poskytuje rozhraní pro ověření totožnosti
Např. přístup ke knihovním fondům
Vhodné řešení pro digitální knihovny
Závěr
CESNET má rozsáhlé zkušenosti s velkými objemy dat v distribuovaném prostředí
Máme zájem o spolupráci při hledání a provozu nových přístupů
Architektura distribuovaných systémů ukládání a zpřístupnění (zpracování) dat Cílem není nabídnout primární garantované úložiště
Zkušenosti z projektů zabývající se skutečně velkými objemy dat
Navíc extenzivní účast v souvisejících mezinárodních projektech
Miliony souborů, petabyty (na národní úrovni stovky TB) dat
Spolehlivost
Formou distribuovaného řešení/replik
S využitím vysokorychlostní sítě