Enabling Grids for E-sciencE
Charon Extension Layer (CEL) Jan Kmuníček CESNET
www.eu-egee.org INFSO-RI-031688
Obsah Enabling Grids for E-sciencE
• Úvod • CEL Infrastruktura • Správa aplikací – Systém Module – Gridové aplikace
• Správa výpočetních úloh – Systém Charon – Podpora více typů Gridů/clusterů (Multi-Site přístup)
• Shrnutí INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
2
Úvod Enabling Grids for E-sciencE
• Co je Charon Extension Layer? § uniformní a modulární přístup pro zasílání a správu (komplexních) výpočetních úloh § obecný systém pro použití aplikačních programů v gridovém prostředí (LCG/gLite middleware, …)
• Proč Charon Extension Layer? § mnoho různých dávkových systémů & plánovacích komponent používaných v gridovém prostředí § každý systém má svoje unikátní nástroje a odlišnou filozofii použití § nástroje LCG/gLite nejsou uživatelsky příjemné § pro reálné použití musí uživatel provádět řadu dodatečných úkonů
INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
3
CEL Infrastruktura Enabling Grids for E-sciencE
CEL
user charon system job management
app 2
app 3
app 4
app 5
.........
software repository
module system – software management batch system, grid middleware
– Správa aplikací § single/paralelní spouštění bez nutnosti modifikace skriptu úlohy – Správa úloh § jednoduché zadání, monitorování běhu a získání výsledků – přístup založený na rozhraní příkazové řádky (CLI) INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
4
Správa aplikací Enabling Grids for E-sciencE
• Požadavky – jednoduchá inicializace aplikace – řešení konfliktů mezi verzemi – řešení konfliktů / závislostí mezi jednotlivými aplikacemi – stejné použití při single / paralelním spuštění – podpora různých úrovní paralelizace
Systém Module INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
5
Systém Module Enabling Grids for E-sciencE
§ podobný přístup jako Environment Modules Project* • aplikace jsou aktivovány modifikací prostředí shellu (tj. PATH, LD_LIBRARY_PATH, atd.)
§ specifický build aplikace je popsán realizací • tj. instrukcemi, které popisují modifikace prostředí shellu
§ realizace je identifikována jménem složeným ze čtyř částí:
§ uživatel může specifikovat pouze část realizace, v tom případě systém modulů doplní kompletní jméno realizace takovým způsobem, že aplikace bude nejlépe využívat dostupné výpočetní zdroje *) http://modules.sourceforge.net/
INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
6
Systém Module pokračování Enabling Grids for E-sciencE
• Příkazy Systému Module module [akce] [modul1 [modul2] …] § klíčový příkaz Systému Module akce: o add (load), remove (unload) o avail, list*, active, exported, versions, realizations o disp, isactive
* list je výchozí akce
modconfig § příkaz pro konfiguraci Systému Module ve formě menu (vizualizace, automaticky zavedené moduly, atd.)
INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
7
Systém Module pokračování Enabling Grids for E-sciencE
• Přiklad aktivace modulu $ module add povray Module specification: povray (add action) ============================================================== WARNING: Nonoptimal architecture is used for module 'povray' Cache type : system cache Architecture : i786 Number of CPUs : 1 Max CPUs per node : 1 Exported module : povray:3.6 Complete module : povray:3.6:i386:single
• Kompletace jména modulu povray → povray:3.6:auto:auto → povray:3.6:i386:single uživatel → výchozí hodnoty → kompletní jméno INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
8
Systém Module pokračování Enabling Grids for E-sciencE
• Kompletace jména modulu name
- specifikováno uživatelem (je povinné)
version
- specifikováno uživatelem / výchozí
architecture - specifikováno uživatelem / výchozí / automaticky určeno § Systém Module se snaží vybrat takovou realizaci, která nejlépe odpovídá architektuře cílového systému
parallelmode - specifikováno uživatelem / výchozí / automaticky určeno § § § § §
INFSO-RI-031688
para p4 shmem node single
-
vždy NCPU > MaxCPUs/uzel 1 < NCPU <= MaxCPUs/uzel NCPU <= MaxCPUs/uzel NCPU=1
Seminář projektu EGEE-II, 12. prosinec, 2006
9
Gridové aplikace Enabling Grids for E-sciencE
– Model I - METACentrum (český národní Grid) CE CE WN WN ... WN WN ...
UI
app1 app2 app3 app4 app5
Aplikace jsou na sdíleném svazku dostupné všem gridovým elementům
....
– Model II – EGEE Grid
app1 app2
CE
CE
UI
app3 app7 ...
...
app2 app1
WN WN ...
WN WN ... SE
• • •
...
Legenda: UI - user interface CE - computing element SE - storage element WN - worker node app - application
aplikace nemohou být sdíleny se všemi gridovými elementy jejich “sdílení” je umožněno jejich umístěním na SE (pouze jedenkrát) pouze požadované aplikace jsou instalovány na CE během spouštění úlohy
INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
10
Gridové aplikace pokračování Enabling Grids for E-sciencE
• • • •
Systém Module je podporován v obou modelech výpočetního prostředí požadované “nestandardní” funkce lze vyvolat pomocí tzv. ‘hooks’ (modactions), provádí administrátor UI modaction je skript spouštěný během jakékoliv akce příkazu module modaction skript slouží pro přidání akcí na řešení problemů v Modelu II § chová se odlišně na UI a na WN § aktivuje aplikace ze svazku na UI § nahraje balíček z SE na WN (CE) a provede jeho instalaci do dočasného adresáře, Systém Module následně nastaví prostředí tak, že aplikace bude použita z příslušného svazku
Výhody všechny aplikace jsou dostupné v Gridu okamžitě po jejich umístění na SE INFSO-RI-031688
Nevýhody tento přístup je vhodný jen pro středně a dlouhodobé výpočetní úlohy Seminář projektu EGEE-II, 12. prosinec, 2006
11
Správa výpočetních úloh Enabling Grids for E-sciencE
• Požadavky – jednoduché odeslání úlohy – uživatel by se měl soustředit na řešený problém nikoliv na úkony spojené s odesláním úlohy – jednoduché spouštění paralelních aplikací – často opakované úkony by měly být prováděny automaticky – udržovat informace o úloze během spuštění a/nebo po spuštění
Systém Charon INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
12
Systém Charon Enabling Grids for E-sciencE
• Přehled – jde o aplikaci v kontextu Systému Module – separuje nastavení zdrojů od odesílání úloh
• Odesílání úloh a jejich správa § § § § §
psubmit
<skript_úlohy> [NCPU] [mód synchronizace] pinfo psync pkill pgo (není dostupné v prostředí EGEE Gridu)
• Charon Setup § pconfigure
INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
13
Systém Charon pokračování Enabling Grids for E-sciencE
• Ukázka práce s výpočetní úlohou [myjob]$ psubmit gilda tes t1
submit job
[myjob]$ pinfo
monitor job
[myjob]$ ps ync
get results
Nejsou vyžadovány žádné další parametry – veškeré informace o úloze jsou uloženy v kontrolních souborech uvnitř adresáře s úlohou.
INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
14
Systém Charon pokračování Enabling Grids for E-sciencE
• Omezení při zadávání úloh § úloha je popsána skriptem* § každá úloha musí být v separátním adresáři – kontrolní soubory musí být jedinečné § adresáře úloh se nesmí překrývat – protože adresář úlohy je kopírován na WN a poté zpět § v rámci adresáře s úlohou je třeba používat pouze relativní cesty k souborům – na WN se kopírují pouze data z adresáře úlohy § software by měl být aktivován Systémem Module – pouze poté lze dosáhnout nejlepšího využití zdrojů
• Autodetekce úloh* § ve vybraných případech může uživatel zadat vstupní soubor místo skriptu a Systém Charon připraví skript pro zpracování § * aktuálně autodetekované aplikace jsou: gaussian, povray a precycle INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
15
Systém Charon pokračování Enabling Grids for E-sciencE
• Konfigurace – Synchronizační mód – způsob přenosu dat mezi UI a WN § gridcopy • všechna data v adresáři úlohy jako vstup • všechna data v adresáři úlohy jako výstup
§ stdout • všechna data v adresáři úlohy jako vstup • pouze standardní výstup jako výsledek (ostatní data ztracena)
– Zdroje – výběr specifického CE – Vlastnosti – detailní specifikace výpočetních zdrojů (pomocí položky Requirements v JDL souboru) – Alias – alternativní název pro kombinaci uvedených možností nastavení
pconfigure – příkaz umožňující konfiguraci ve formě menu INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
16
Multi-Site přístup Enabling Grids for E-sciencE
• Podpora více typů Gridů / clusterů § ‘site’ je speciální modul v rámci Systému Module, který přepíná příslušné prostředí z jednoho zdroje na další § ‘site’ reprezentuje virtuální zapouzdření výpočetních zdrojů § možnost využití různých Gridů (sites) z jednoho počítače § všechny ‘sites’ sdílí stejný aplikační repozitář ale seznam dostupných aplikací závisí na nastavení Systému Module Common Software Repository Charon System Module System
META
Charon System Module System
Module System INFSO-RI-031688
VOCE
GENERAL
Seminář projektu EGEE-II, 12. prosinec, 2006
17
Interaktivní aplikační repozitář Enabling Grids for E-sciencE
• Interaktivní prohlížeč databáze modulů § další rozšíření Systému Module obsahující databázi dostupných realizací softwaru generovanou v reálném čase § tato služba zobrazuje seznam dostupných aplikací spolu s jednotlivými verzemi realizací § informace je provázaná s detailním popisem aplikací (dokumentace o prováděné kompilaci, instalaci a buildu ve formátu MediaWiki) http://troll.chemi.muni.cz/whitezone/development/charon/isoftrepo/
INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
18
Interaktivní aplikační repozitář Enabling Grids for E-sciencE
INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
19
Uživatelská vylepšení Enabling Grids for E-sciencE
• Současné novinky v Systému Module – jednoduchá konfigurace uživatelských nastavení pomocí jednoho příkazu v uživatelské nabídce § uživatel může nastavit chování kompletace jména modulů, způsob vizualizace v seznamu modulů § uživateli je umožněno specifikovat moduly, které se budou automaticky nahrávat při aktivaci dané ‘site’ § uživatel může měnit prioritu mezi systémovými a uživatelskými moduly
– uživatelské moduly § uživateli je dovoleno rozšířit aplikační portfolio o vlastní realizace aplikací
INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
20
Shrnutí Enabling Grids for E-sciencE
• Správa výpočetních úloh § zapouzdření jedné výpočetní úlohy § minimalizace režie způsobené přímým použitím middleware (příprava souboru JDL, atd.) § jednoduché zadání a navigace během doby života úlohy § stejné použití pro single/paralelní spouštění
• Správa aplikací § jednoduchá inicializace aplikace, řešení konfliktů / závislostí mezi jednotlivými aplikacemi § komfortní rozšíření / modifikace dostupného aplikačního portfolia
INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
21
Poděkování Enabling Grids for E-sciencE
§ Luděk Matyska (CESNET) § Jaroslav Koča (NCBR) § European Commission • EGEE II (číslo kontraktu RI-031688) • EGEE (číslo kontraktu IST-2003-508833)
§ Ministry školství, mládeže a tělovýchovy ČR (číslo kontraktu MSM0021622413) § Grantová agentura ČR (204/03/H016)
INFSO-RI-031688
Seminář projektu EGEE-II, 12. prosinec, 2006
22