A CERN LHC-Grid rendszerének telepítése az RMKI-ban Debreczeni Gergely (KFKI RMKI)
Networkshop 2004 2004 április 5.-7. Győr, Széchenyi István Egyetem
Tartalom Ø
Ø
Ø Ø Ø
Bevezetés – Kik vagyunk, mit csinálunk ? Előzmények - Az RMKI Condor rendszere Az LCG-1 telepítése Mi az az LCG ? Ø Az RMKI LCG központja Hogyan működik ? Ø Az LCG programrendszer Ø Ø Ø
LCG központok a világon Programok futtatása Tervek, lehetőségek
Bevezetés – Kik vagyunk ? KFKI – RMKI a Magyar Tudományos Akadémia Központi Fizikai Kutató Intézetének Részecske és Magfizikai Kutató Intézete. Az Intézetben szerteágazó kutatási tevékenység zajlik az Ø elméleti fizika Ø kísérleti részecskefizika Ø plazmafizika Ø atomfizika Ø biofizika Ø űrfizika területén, sok esetben nemzetközi együttműködésekben történő részvétel formájában.
Előzmények: Az RMKI Condor rendszere n
n n
n
Eredeti célkitűzés: Az Intézet számítógépei „felesleges” kapacitását kihasználni. Megoldás: Condor 6.6.2 Ø ~ 60 proc. Ø 90 GFLOP Erőforrások: Ø 21 GB RAM Ø 1.8 TB HDD
Alkalmazások: detektor szimulációk, kvantumfizikai számolások, biofizikai szimulációk, részecskefizikai adatfeldolgozás
Az RMKI Condor rendszere
A számítógépek felesleges kapacitásának kihasználtsága az elmúlt egy hónapban.
Mi az az LCG ? n
n
A részecskegyorsító detektorok következő generációja eddig soha nem tapasztalt számítási, adatmozgatási és adatfeldolgozási követelményeket állított fel. Ezen követelmények nem elégíthetők ki hatalmas helyi számítógépparkok létrehozásával. Nemzetközi összefogásra és egy mind erőforrásaiban mind elhelyezkedésében elosztott számítógéprendszer kiépítésére volt/van szükség. Ezen követelmények kielégítése a
Large Hadron Collider Computing Grid rendszer célja !
A Large Hadron Collider
Genf, Svájc
CERN – European Organisation for Nuclear Research
A Large Hadron Collider
Egy kísérlet számítási millió esemény/sec követelményei: ØØ 30 Az azonnali szelekció után:
100 esemény/sec 1 esemény ~ 1-2 MB adat Ø Az adatáramlás mértéke: 100 MB/sec ~ 10 TB/nap ami 100 nap/év futás idővel számolva:
Eddig soha nem tapasztalt:
~ 1 PB/év adat ~ 1000 interaktív felhasználó
• mennyiségű és komplexitású adatáramlás • hosszúságú és szervezettségű kísérleti programsorozat • hatalmas, földrajzilag (is) elosztott kollaborációk
Az LHC számítási modellje Ø 1 db Tier-0 központ a CERN-ben ahol az adatokat felveszik. Az ATLAS kísérlet esetén:
(Tier 0+1) 2007-ben: 400 TB HDD, 9 PB szalagos egység, 700.000 SpecInt95 (SI95)
Ø Néhány Tier-1 központ amelyek a rekonstrukciót és a szimulációt végzik:
400 TB HDD, 2 PB szalagos egység 200,000 SpecInt95
Ø Sok Tier-2 központ a felhasználói adatelemzéshez
( 700.000 SpecInt95 körülbelül 16.000 darab 1 GHz-es AMD ATHLON processzor teljesítményével ekvivalens számítási kapacitást jelent !!!)
Az RMKI LCG központja erőforrások Szerver: Elonex Disk Server Memória:
1 GB
Processzor:
Dual Intel Xeon 2 GHz
Rendszer:
RedHat 7.3
Web: http://www.lcg.kfki.hu
Merevlemez: 2.5 TB RAID 5 Hálózat:
10/100/1000 Mbit 25 db (dual)/50 db
Memória:
1 GB/ 512 MB
Processzor:
AMD ATHLON MP 2000+ AMD ATHLON XP 1900+
Merevlemez:
60 GB/120 GB
Rendszer:
RedHat 7.3
Hálózat:
100 Mbit
Az RMKI LCG központja – - telepítés, az LCFG eszköz n
n
n
Az LCFG –t (Local ConFiGuration System) a Computer Science Department of Edinburgh University fejlesztette ki. (http://www.lcfg.org) Számítógépek automatikus telepítését, konfigurálását és karbantartását könnyíti meg. Néhány alapvető jellemzője: n automatikus OS installáció n RPM kompatibilis csomagok automatikus telepítése/frissítése/törlése n centralizált klaszter konfiguráció és karbantartás n könnyen használható/fejleszthető az LCG programcsomagok kezelésére is
LCFG eszköz működésének sematikus vázlata
Konfigurációs fájlok
LCFG konfigurációs fájlok HTTP
XML profájlok elkészítése
Szerver A gépek konfigurációjának absztrakt ‘LCFG nyelven’ megírt változata egy központi szerveren van.
Web Szerver XML Profájl
+inet.services telnet login ftp +inet.services telnet login ftp +inet.allow telnet login ftp sshd +inet.allow telnet login ftp sshd +inet.allow_telnet ALLOWED_NETWORKS +inet.allow_telnet ALLOWED_NETWORKS Read Load +inet.allow_login ALLOWED_NETWORKS rdxprof ldxprof +inet.allow_login ALLOWED_NETWORKS Profile Profile +inet.allow_ftp ALLOWED_NETWORKS +inet.allow_ftp ALLOWED_NETWORKS +inet.allow_sshd ALL +inet.allow_sshd ALL Profile Generic +inet.daemon_sshd yes +inet.daemon_sshd yes Object Component ..... ..... +auth.users mickey +auth.users mickey Local cache +auth.userhome_mickey /home/mickey +auth.userhome_mickey /home/mickey +auth.usershell_mickey LCFG /bin/tcsh Objects +auth.usershell_mickey /bin/tcsh
Kliens gép
A kliensek kiolvassák a konfigurációs paramétereket és vagy ‘hagyományos’ konfigurációs fájlokat készítenek, vagy közvetlenül a rendszer szolgáltatásokat manipulálják.
LCFG eszköz működésének sematikus vázlata LCFG konfigurációs fájlok HTTP
XML profájlok elkészítése
Web XML
Szerver
A gépek konfigurációjának absztrakt ‘LCFG nyelven’ megírt változata egy központi szerveren van.
Read rdxprof Profile
XML profájlok Load ldxprof Profile
Profile Generic Object Component 192.168., 192.135.30. 192.168., 192.135.30. Server Local cache Profile..... ..... LCFG Objects <user_RECORD cfg:name="mickey"> <user_RECORD cfg:name="mickey"> <userhome>/home/MickeyMouseHome <userhome>/home/MickeyMouseHome Client nodes <usershell>/bin/tcsh <usershell>/bin/tcsh
A kliensek kiolvassák a konfigurációs paramétereket és vagy ‘hagyományos’ konfigurációs fájlokat készítenek, vagy közvetlenül a rendszer szolgáltatásokat manipulálják.
LCFG eszköz működésének sematikus vázlata LCFG konfigurációs fájlok HTTP
XML profájlok elkészítése
Szerver
A gépek konfigurációjának absztrakt ‘LCFG nyelven’ megírt változata egy központi szerveren van.
Read rdxprof Profile
Load ldxprof Profile Profile LCFG Generic Object kliens Component
Web Server XML Profile
Local cache inet auth LCFG Components
Kliens gép
A kliensek kiolvassák a konfigurációs paramétereket és vagy ‘hagyományos’ konfigurációs fájlokat készítenek, vagy közvetlenül a rendszer szolgáltatásokat manipulálják.
LCFG eszköz működésének sematikus vázlata LCFG konfigurációs fájlok HTTP
Read rdxprof Profile
Load ldxprof Profile Profile Generic Object Component
/etc/shadow /etc/shadow
Make XML Profile
/etc/group /etc/group
Web Server /etc/passwd /etc/passwd XML Profile .... .... mickey:x:999:20::/home/Mickey:/bin/tcsh mickey:x:999:20::/home/Mickey:/bin/tcsh .... .... Server
A gépek konfigurációjának absztrakt ‘LCFG nyelven’ megírt változata egy központi szerveren van.
Local cache inet
auth LCFG Objects
Kliens gép
A kliensek kiolvassák a konfigurációs paramétereket és vagy ‘hagyományos’ konfigurációs fájlokat készítenek, vagy közvetlenül a rendszer szolgáltatásokat manipulálják.
LCFG: a konfiguráció megváltozása n
n
Szerver oldal: amikor a konfigurációs fájlok megváltoznak egy (mkxprof) eszköz új xml fájlokat készít és értesíti a változtatásban érdekelt klienseket. n ez végezhető kézzel vagy egy démon segítségével amely időröl-időre figyeli a konfigurációs fájlokat és változás esetén meghívja az mkxprof eszközt. n az mkxprof UDP-n keresztül értesíti a klienseket Kliens oldal : egy másik eszköz (rdxprof) letölti a megváltozott xml profájlokat n általában a rendszerindítás során egy LCFG komponens aktiválja n a kliens oldali eszköz konfigurálható mint n egy démon mely periodikusan a szerverhez fordul n egy démon mely értesítésre vár n egy program melyet meghatározott időkben a cron indít
Az LCG programrendszer (LCG1-1.1.3) „Az LCG egy middleware felhasználó nem pedig fejlesztő” Kezdeti middleware válogatás: Ø VDT (Virtual Data Toolkit) - számos amerikai grid programrendszerből importál komponenseket, mint például a Globus és a Condor Ø EDG (European Data Grid) – másolat nyílvántartók, erőforrás menedzser, másolat menedzser eszközök, kapuőrök Ø Helyi ütemező rendszerek: PBS, LSF vagy Condor. A vártnál kisebb sikert arat az összhatás az LCG stabilitásának és effektivitásának növelése érdekében komponensek hozzáadására, módosítására volt/van szükség
LCG-2
Az LCG logikai egységei 1. Felhasználói felület (user interface ,UI)
4. Számoló egység (computing element, CE) n Kapuőr (gatekeeper) (Front-end Node) n
2. Erőforrás menedzser (resource broker,RB)
3. Információ szerviz,
(information service, IS)
Rabszolgák (working nodes, WN)
5. Tároló egység, (Storage Element ,SE)
6. Helyettesítő egység, (proxy server, PR)
RMKI LCG központjának státusz oldala
http://www.lcg.kfki.hu/report
Az LCG néhány paramétere jelenlegi állapotában Résztvevő intézetek: 31 intézet Résztvevő országok: 15 ország Kontinensek száma: 3 kontinens Virtuális szervezetek száma: 6 VO Regisztrált felhasználók: ~ 500 személy Számítógépek száma: ~ 2000 db Legnagyobb földrajzi távolság:12565 km
LCG központok a világon
Az LCG néhány fontos tulajdonsága Ø Ø Ø Ø Ø Ø
Mind földrajzi mind adminisztratív értelemben nagy mértékben elosztott számítógéprendszer, Nincs Achilles-ína, vagyis olyan sebezhető pontja melynek hibája az egész rendszert megbénítaná. (no single point of failure, no SPF), Virtuális szervezetekbe (virtual organisations, VOs) tömörülő felhasználók, Szigoru felhasználó, program és számítógép azonosítás certificate hatóságok segítségével (Certificate Authority, CA) , Dinamikus erőforrás kezelés. Erőforrások beléphetnek illetve elhagyhatják az LCG-t bármely pillanatban, Az LCFG használatával nagymértékben leegyszerűsített és meggyorsított karbantartás illetve installáció megvalósítása.
Mindezek eredményeképpen már a kezdeti időszaktól kezdve állandó, folyamatos felhasználás vált lehetővé.
Példa egyszerű futtatásra n n
n n n
A program elkészítése (TestJob.sh) A program előkészítése a futtatásra (TestJob.jdl) A program elküldése Státusz információk lekérdezése A végeredmény letöltése
Példa egyszerű futtatásra Replica UI JDL
Catalogue Input Sandbox (RC)
Job Status
Information Service (IS)
submitted
Job Submit Event
Resource Broker (RB)
Logging & Book-keeping (LB)
Job Submission Service (JSS)
Storage Element (SE)
Computing Element (CE)
Példa egyszer ű futtatásra Replica UI JDL
Catalogue (RC)
Information Service (IS)
Job Status
submitted
Resource Broker (RB)
Logging & Book-keeping (LB)
Job Submission Service (JSS)
Storage Element (SE)
Compute Element (CE)
waiting
Példa egyszerű futtatásra Replica UI JDL
Catalogue (RC)
Information Service (IS)
Job Status
submitted waiting ready
Resource Broker (RB)
Logging & Book-keeping (LB)
Job Submission Service (JSS)
Storage Element (SE)
Compute Element (CE)
Példa egyszer ű futtatásra Replica UI JDL
Catalogue (RC)
Information Service (IS)
Resource Broker (RB)
Logging & Book-keeping (LB)
Storage Element (SE) Job Submission Service (JSS) Compute Element CE)
Példa egyszerű futtatásra Replica UI JDL
Information Service (IS)
Catalogue (RC)
Job Status
submitted waiting ready scheduled
Resource Broker (RB)
Logging & Book-keeping (LB)
BrokerInfo
Storage Element (SE)
Job Submission Service (JSS) Compute Element (CE)
Példa egyszerű futtatásra Replica UI JDL
Information Service (IS)
Catalogue (RC)
Job Status
submitted waiting ready
Input Sandbox
scheduled
Resource Broker (RB)
Logging & Book-keeping (LB)
Job Submission Service (JSS)
running
Storage Element (SE)
Compute Element (CE)
ű futtatásra Példa egyszer Replica Catalogue (RC)
UI JDL
Information Service (IS)
Job Status
submitted waiting ready scheduled
Resource Broker (RB)
Logging & Book-keeping (LB)
Job Submission Service (JSS) Job Status
running
Storage Element (SE)
Compute Element (CE)
ű futtatásra Példa egyszer Replica Catalogue UI JDL
Information Service
Job Status
submitted waiting ready scheduled
Resource Broker
running
Storage Element done
Logging & Book-keeping
Job Submission Service Job Status
Compute Element
Példa egyszerű futtatásra Replica Catalogue
UI JDL
Information Service
Job Status
submitted waiting ready scheduled
Resource Broker
running
Storage Element done
Logging & Book-keeping
Job Submission Service Output Sandbox Job Status
outputready
Compute Element
Példa egyszerű futtatásra Replica Catalogue (RC)
UI JDL
Information Service (IS)
Job Status
submitted waiting ready scheduled
Output Sandbox
Resource Broker (RB)
Logging & Book-keeping (LB)
Job Submission Service (JS)
running
Storage Element done (SE) outputready
Compute Element (CE)
cleared
Példa egyszerű futtatásra [gdebrecz@grid110 test]$ gridgrid-proxyproxy-init Your identity: identity: /C=HU/O=KFKI/C=HU/O=KFKI-RMKI/OU=RFFO/CN= Gergely Debreczeni/Email=Gergely. Debreczeni@ @cern. Debreczeni/Email=Gergely.Debreczeni cern.ch Enter GRID pass phrase for this identity: identity: Creating proxy ........................................... Done Your proxy is valid until: until: Tue Sep 23 13:44:01 2003 [gdebrecz@grid110 test]$
Executable = "/bin/hostname"; StdOutput = "hello.out"; StdError = "hello.err"; OutputSandbox = {"hello.out", "hello.err"};
[gdebrecz@grid110 gdebrecz@grid110 test]$ edgedg-jobjob-submit hello.jdl hello.jdl Connecting to host grid111.kfki grid111.kfki..hu, hu, port 7772 Logging to host grid111.kfki grid111.kfki..hu, hu, port 9002 ************************************************************************************ ************************************************************************************ JOB SUBMIT OUTCOME The job has been successfully submitted to the Network Server. Use edgedg-jobjob-status command to check job current status. Your job identifier (edg_ edg_jobId) jobId) is: - https://grid111.kfki https://grid111.kfki..hu:9000/aC34KPaDQVX_CQa7f6azrQ hu:9000/aC34KPaDQVX_CQa7f6azrQ ************************************************************************************* ************************************************************************************* [gdebrecz@grid110 gdebrecz@grid110 test]$
Példa egyszerű futtatásra [gdebrecz@grid110 gdebrecz@grid110 test]$ edgedg-jobjob-status https://grid111.kfki https://grid111.kfki..hu:9000/aC34KPaDQVX_CQa7f6azrQ hu:9000/aC34KPaDQVX_CQa7f6azrQ ************************************************************* BOOKKEEPING INFORMATION: Printing status info for the Job : https://grid111.kfki https://grid111.kfki..hu:9000/aC34KPaDQVX_CQa7f6azrQ hu:9000/aC34KPaDQVX_CQa7f6azrQ Current Status: Done (Success) Exit code: 0 Status Reason: Job terminated successfully Destination: lcg00105.grid.sinica jobmanager--lcgpbslcg00105.grid.sinica..edu. edu.tw:2119/ tw:2119/jobmanager lcgpbs-long reached on: Mon Sep 22 23:57:20 2003 ************************************************************* [gdebrecz@grid110 gdebrecz@grid110 test]$ edgedg-jobjob-getget-output https://grid111.kfki https://grid111.kfki..hu:9000/aC34KPaDQVX_CQa7f6azrQ hu:9000/aC34KPaDQVX_CQa7f6azrQ Retrieving files from host grid111.kfki grid111.kfki..hu ********************************************************************************* ********************************************************************************* JOB GET OUTPUT OUTCOME Output sandbox files for the job: - https://grid111.kfki https://grid111.kfki..hu:9000/aC34KPaDQVX_CQa7f6azrQ hu:9000/aC34KPaDQVX_CQa7f6azrQ have been successfully retrieved and stored in the directory: /tmp/ tmp/jobOutput/aC34KPaDQVX_CQa7f6azrQ jobOutput/aC34KPaDQVX_CQa7f6azrQ ********************************************************************************* ********************************************************************************* [gdebrecz@grid110 gdebrecz@grid110 test]$
Tervek, lehetőségek n n
Az LCG-2 rendszerhez történő csatlakozás gyors befejezése A számítási és tároló kapacitás növelése: Ø 150 processzor Ø 18 TB merevlemez
n n n
Tier-2 központok csatlakoztatása (Debrecen, ELTE,… ?) KFKI CA létrehozása (folyamatban) Nyitás más tudományterületek felé, további VO-k létrehozása