Grid Computing & Distributed e-Infrastructures Jan Just Keijser, Nikhef
[email protected]
• David Groep, NIKHEF
Network of Talents Grid Lezing 19 Februari 2014
Graphics: Real Time Monitor, Gidon Moont, Imperial College London, see http://gridportal.hep.ph.ic.ac.uk/rtm/
Even over mijzelf • Werkzaam bij Nikhef sinds 2005 • Eerst 'System Integrator' voor het VL-e project: Virtual Laboratory for e-Science • Tot 2012 'Grid Systems Architect' voor het BiG Grid project • Tegenwoordig focus ik op multi/many core computing (GPUs, Xeon Phi)
LHC Computing Large Hadron Collider • ‘the worlds largest microscope’
quarks
• Zoektocht naar de fundamentele bouwstenen van de natuurkunde • 27 km omtrek • CERN, Genève
10-15 m
atom
nucleus
~ 20 PByte data per jaar, ~ 60 000 moderne PCs
CERN, Where the web was born … • Bij vorige HEP experimenten waren honderden wetenschappers en duizenden technici betrokken, lokaal en op afstand • Gebruikers op het CERN, opgericht in 1954 als de eerste internationale organisatie in Europa, wilden wereldwijd gegevens met elkaar delen • Deze behoefte bracht Tim Berners-Lee op het idee om het ‘World Wide Web’ te creëren in 1989/1990 (nu 25 jr geleden!)
Slide courtesy: GridCafe.org and Bob Jones, EGEE (www.eu-egee.org)
“If the customer calls it a grid, it is a grid”
• De naam “Grid” is gekozen vanwege de analogie met het electriciteitsnetwerk (“power grid”) (Foster & Kesselman 1997) • Visie: “rekenkracht uit de muur”, net zoals je de stekker van een broodrooster in het stopcontact stopt • Dit idee is al vrij oud: ‘distributed computing’, ‘metacomputing’ • Gebaseerd op : ‘Web 2.0’, ‘Virtualisation’, ‘Cloud Computing’
Waarom hebben een Grid nodig? Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid meetgegevens per experiment neemt exponentieel toe Referentie: de Bijbel
5 MByte
X-ray image
5 MByte/image
Functional MRI
1 GByte/day
Bio-informatics databases
500 GByte each
Refereed journal papers
1 TByte/jr
Satellite world imagery
5 TByte/jr
US Library of Congress Internet Archive 1996-2002 Particle Physics 2005 Particle Physics Today: LHC
20 TByte 100 TByte 1 PByte/jr 20 PByte/jr
1 Petabyte = 1 000 000 000 Megabyte
Van wetenschap naar e-Science • Het gebruik van computers en IT binnen experimenten neemt nog steeds toe • Sommige experimenten zouden zonder computers niet eens mogelijk zijn • Doordat IT een integraal onderdeel van het experiment wordt verandert het experiment zelf ook Wetenschap wordt e-Science
Ballon (30 Km)
• Signal/Background 10-9
Stapel CDs met 1 jaar LHC data! (~ 20 Km)
• Data volume (high rate) X (large number of channels) X (4 experiments) 20 PetaBytes nieuwe data per jaar ●
Concorde (15 Km)
• Rekenkracht (event complexity) X (number of events) X (thousands of users) 60.000 processoren ●
Mt. Blanc (4.8 Km)
Voorbij het Web: Grids en e-Science Work regardless of geographical location, interact with colleagues, share and access data
The GRID: networked data processing centres and ”middleware” software as the “glue” of resources (computers, disks, mass storage).
Scientific instruments, libraries and experiments provide huge amounts of data
based on:
[email protected]
Hoe ziet het grid eruit?
Image courtesy: http://rtm.hep.ph.ic.ac.uk/screen.php
Hoe werkt het Grid? • Gebaseerd op geavanceerde Grid Middleware • Deze middleware zoekt automatisch de gegevens op die de wetenschapper nodig heeft, en de rekenkracht om deze gegevens te analyseren. • De middleware verdeelt ook de taken over de verschillende resources en regelt de beveiliging, accounting, monitoring en nog veel meer. Slide courtesy: GridCafe.org and Bob Jones, EGEE (www.eu-egee.org)
Grid vs Cloud
Biggest difference: (cost of) network bandwidth
Grids in e-Science Het Grid betekent ‘meer dan één'
Meer dan één lokatie
Meer dan één computer
Meer dan één wetenschapsgebied
Meer dan …
Meer dan één organisatie
National Grid Initiatives & European Grid Initiative • Op nationaal niveau wordt een grid infrastructuure aangeboden aan nationale en internationale gebruikers door de NGIs. BiG Grid is (de facto) de Nederlandse NGI. • Het 'European Grid Initiative' coördineert de inspanningen van de verschillende NGIs en bewaakt de interoperabiliteit • Er zijn circa 40 Europese NGIs, met links naar Zuid Amerika en Taiwan • EGI is gehuisvest op het Science Park in Amsterdam
Cross-domain en globale e-Science grids De gemeenschappen die tezamen het grid vormen: • Worden niet centraal/hierarchisch beheerd, • Werken (tijdelijk) samen om een specifiek probleem op te lossen, • Nemen voor deze samenwerking (een deel van) hun resources mee, • En delen deze resources naar eigen inzicht en op hun eigen voorwaarden.
Grid Infrastructuur Om deze doelen te realiseren is een persistente infrastructuur nodig, gebaseerd op standaarden Hardware clusters, supercomputers, databases, mass storage, visualisatie, netwerken Beveiliging en AAA authentication, authorization, accounting, billing en beveiliging Software execution services, workflow, resource information systems, database access, storage management, meta-data Applications user support, ICT experts met domein kennis
Nikhef (NDPF) 3336 1600 160
processor cores TByte disk Gbps network
SARA (GINA+LISA) 3000 1800 2000 160
processor cores TByte disk TByte tape Gbps network
RUG-CIT (Grid) 400 8 800 processor cores 10 TByte disk Gbps network
Philips Research Ehv 1600 100 1
processor cores GByte disk Gbps network
Image sources: VL-e Consortium Partners
Virtual Laboratory for e-Science Data integration voor genomics, proteomics, etc. analysis Timo Breit et al. Swammerdam Institute of Life Sciences
Medical Imaging en fMRI Avian Alert en FlySafe Willem Bouten et al. UvA Institute for Biodiversity Ecosystem Dynamics, IBED
Silvia Olabarriaga et al. AMC and UvA IvI
Bram Koster et al. LUMC Microscopic Imaging group
Molecular Cell Biology en 3D Electron Microscopy
Image sources: BiG Grid Consortium Partners
BiG Grid
SCIAMACHY Wim Som de Cerff et al. KNMI
MPI Nijmegen: Psycholinguistics
Image sources: BiG Grid Consortium Partners
BiG Grid Leiden Grid Infrastructure: Computational Chemistry
LOFAR: LOw Frequency ARray radio telescoop
'Distributed e-Infrastructures' Focus-shift • Gedistribueerde authenticatie • Federated Cloud-computing • Federatieve authenticatie – SURFfederatie & SURFConext – Gebaseerd op 'ring of trust' model: • Ik werk bij Nikhef • Nikhef en de UvA zijn aangesloten bij de SURFfederatie • Als ik wil inloggen bij de UvA, wordt mijn authenticatie verzoek doorgespeeld naar Nikhef • Nikhef zegt: is OK, waarop UvA ook zegt: is OK • Uitdaging: gedistribueerde authorisatie
Uitdagingen: schaalvergroting Grid betekent vooral schaalvergroting: • Gedistribueerd rekenen op vele, verschillende computers, • Gedistribueerde opslag van gegevens, • Grote hoeveelheden data (Giga-, Tera-, Petabytes) • Grote aantallen bestanden (miljoenen). Dit levert “leuke” problemen op: • “even” inloggen op afstand is er op het grid niet altijd bij, • Het debuggen van een programma is een uitdaging, • Gewone filesystems verslikken zich in miljoenen bestanden, • Gegevens opslaan is één ding, gegevens zoeken en terugvinden blijkt echter nog lastiger.
Uitdagingen: beveiliging Waarom is beveiliging zo belangrijk in een wetenschappelijk grid? • Als beheerder van een grid site laat je toe dat relatief onbekenden programma's op jouw computers draaien, • Al deze computers zijn verbonden aan het internet met supersnelle netwerken, Hierdoor is het grid een potentieel erg gevaarlijke dienst op internet
Uitdagingen: Data Management Het is mogeljk om Petabytes of data op te slaan, maar... • Het ophalen van die data is moeilijker dan je zou denken; • Het beheren van zulke hoeveelheden data is niet triviaal; • De Applicaties zijn doorgaans veel kleiner dan de hoeveel data die ze moeten verwerken breng altijd je applicatie naar de data, niet andersom; • De “data over de data” (metadata) wordt cruciaal: – lokatie, – Experimentele omstandigheden, – Datum en tijd • Het opslaan van deze metadata in een database kan het verschil maken tussen succes en mislukking.
Uitdagingen: Job efficiency Een veel gehoorde klacht over grid computing is de lage 'job efficiency' (~94%). Bedenk wel: • Falende jobs deden dat bijna altijd vanwege problemen met toegang tot data; • Als je data toegangs problemen eruit filtert, springt de 'job efficiency' naar ~99%, wat vergelijkbaar is met rekenclusters en cloud computing. Wat ga je hier mee om: • Repliceer bestanden naar meerdere opslag systemen; • Kopieer data naar een grid site voordat je gaat rekenen; • “Program for failure”.
Vragen?
http://www.nikhef.nl http://www.nikhef.nl/~janjust/presentations/HTR-GridComputing-20140219.pdf