Hol tartunk ? • Megismerkedtünk az alapfogalmakkal, architektúrákkal. • Egyszerű absztrakciós modellt alkottunk a párhuzamos gépek p g p leírására. • Megismertük a párhuzamos programok tervezésének egy módszerét (PCAM).
Párhuzamos és Grid rendszerek (3. ea) cluster rendszerek, hosszútávú ütemezők Szeberényi Imre BME IIT
<
[email protected]>
MŰEGYETEM 1782 Párhuzamos és Grid rendszerek
© BME-IIT Sz.I.
2011.02.23.
-1Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
Klaszter
Klaszterek története
• Párhuzamos rendszerek fejlődésének egyik fontos állomása, amit ma több gyártó ismét elővett.
• Kezdetek: szg. hálózatok megjelenése – 60as évek vége 70-es évek eleje. • Igazi fejlődés a 70-es évek vége, 80-as évek j (DEC, ( VAXcluster)) eleje.
– közös állományrendszer – laza Æ szoros csatolás – batch feldolgozás – hosszútávú ütemezés
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
-2-
– elosztott, párhuzamos számítás – megosztott fájlrendszer – megosztott perifériák
2011.02.23.
-3-
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
-4-
-5-
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
-6-
Klaszterek ma • Nagy rendelkezésre állást biztosító klaszter • Terheléskiegyenlítő klaszter • Számítási klaszter – házi: beowulf – gyártóktól: TOP500
• Grid klaszter – grid site-ok
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
1
Csak 11. az első európai
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
-7-
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
• • • • • •
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
-9-
Összeköttetések
-8-
379 rendszerben (75%) Intel processzor. 12% IBM Power és AMD Opteron. 336 rendszerben Quad-core processzor. HP 209 ÅÆIBM 188 Az 50-es listára a belépő 50 Tflop/s Az első 10-ből 7 az Amerikai Energiaügyi Minisztériumnál van.
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
- 10 -
2011.02.23.
- 12 -
Fájlrendszerek
• Myrinet
• NFS (NFS 1,2,3,4) (1985, Sun)
– 10G, réz v. üveg
– V4-et kivéve állapotmentes
• Gigabit Ethertnet
• AFS (CMU)
– 1G,, réz v. üvegg
– Kerberos,, – nagy cache, nagy cellaszám – jól skálázható
• Infiniband – 10G, réz
• SFS (Lustre, Sun)
• NUMAlink
– objektum orientált – jól skálázható
– 6.4G, réz
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
2011.02.23.
- 11 -
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2
Ütemezők • • • • • • • •
A Condor rendszer jellemzői Speciális ütemező (batch) rendszer
Condor (Uni. of Wisconsin) DQS (Florida State Uni) LoadLeveler (IBM) Maui Moab (Cluster Resources) Maui, LSF (Platform) PBS, OpenPBS (Alatair) Sun Grid Engne (SUN) Torque (Cluster Resources)
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
– Elosztott, heterogén rendszerben működik. – Alapvetően a szabad CPU ciklusok kihasználására tervezték. – Képes egy működő feladatot áthelyezni az egyik gépről a másikra (migráció). – Az ún. ClassAds mechanizmussal képes a rendszerben levő változó erőforrásokat az igényeknek megfelelően elosztani. – Opportunista környezet.
2011.02.23.
- 13 -
Condor pool
2011.02.23.
- 14 -
ClassAds lényege • A rendszerben levő erőforrások különböző jellemzőkkel (teljesítmény, architektúra, op. rendszer, stb.) rendelkeznek. • A job összeállításánál ezekre a jellemzőkre igényeket lehet előírni, előírni amit a Condor rendszer megpróbál kielégíteni. (Párosítja az igényt az erőforrással) • A job összeállításánál lehetőség van preferenciák megadására, ami alapján a Condor rangsorolni fog és kiválasztja az igénynek leginkább megfelelő gépet.
Központi ütemező
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
- 15 -
ClassAds lényege (2)
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
- 16 -
Követelmény és rangsor
• Így nincs szükség a batch rendszerekben megszokott sorokra. (Úgyis a rosszat választanánk)
• Követelmény: Requirements = Arch=="SUN4u” Pontosan kell illeszkednie. • Rangsor: Rank = Memory + Mips Ha választhat, akkor a nagyobbat fogja választani
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
- 17 -
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
- 18 -
3
A dolgok két oldala (1)
A dolgok két oldala (2)
A kifejezések a két hirdetés adatterében értékelődnek ki (adA, adB).
Erőforrás oldal:
Felhasználó (igénylő) oldala: Requirements = Arch == "INTEL" && OpSys == "LINUX" Rank = TARGET.Memory * 10 + TARGET.Disk + Mips
Friend = Owner == "haver" Trusted = Owner != "judas" judas Mygroup = Owner == "zoli" || Owner == "jani" Requirements = Trusted && (Mygroup || LoadAvg < 0.5 && KeyboardIdle > 10*60) Rank = Friend + MyGroup*10
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
- 19 -
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
Feladatkörök • • • •
2011.02.23.
- 20 -
Condor Pool = Process Spawned = ClassAd Communication Pathway
Central Manager Execute Machine Submit Machine Checkpoint Server
Central Manager (Frieda’s) master startd schedd
negotiator collector ll t
Cluster Node master startd Cluster Node master startd
Desktop master startd schedd Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
- 21 -
Desktop master startd schedd
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
Job indítás
2011.02.23.
- 22 -
2011.02.23.
- 24 -
Condor flock Condor job-ok
Schedd
Startd
personal yourPool Condor workstation Condor
Starter
Shadow
Submit
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
"Barát" Condor Pool
Customer Job Condor Syscall Lib
2011.02.23.
- 23 -
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
4
Milyen feladatok lehetnek ?
Standard univerzum
• Elsősorban hosszú futási idejű, számításigényes feladatok. • Különböző univerzumok léteznek – Standard – Vanilla – MPI – Grid – Java
• checkpointing, automatikus migráció • meglevő programot újra kell fordítani, esetleg csak linkelni • az alkalmazás nem használhat bizonyos rendszerhívásokat: d hí á k pl. l fork, f k socket, k alarm, l mmap • („elkapja” a file műveleteket)
– Scheduler – Local – Parallel – VM
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
- 25 -
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
Vanilla univerzum
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
• • • • • •
2011.02.23.
- 27 -
Slave pmvd M
#1
#2
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
S
#3
S
#4
S
C
#5
#6
2011.02.23.
2011.02.23.
- 28 -
2011.02.23.
- 30 -
MPI univerzum
Master pmvd
S
MW jellegű PVM programok környezete Binárisan kompatibilis PVM 3.4.2 + taszk kezeléshez kieg. Dinamikus VM kialakítás. Heterogén környezet támogatása Egy user csak egy példányban futathat deamont
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
Condor felépíti a virtuális gépet
S
- 26 -
PVM univerzum
• nincs checkpointing, nincs migráció • meglevő futtatható kódot nem kell vátoztatni • nincs korlátozás a rendszerhívásokkal szemben. b • NFS, vagy AFS kell !!!!
PVM alkalmazás
2011.02.23.
- 29 -
• • • • • •
MPICH változtatás nélkül. Bináris kompatibilitás Csak ch_p4 device Dinamikusan nem változhat Nem állhat meg. NFS vagy AFS kell.
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
5
Futtatás lépései
Egy egyszerű jobleíró
• A job összeállítása • Job bejelentése a Condor-nak • Job-ot a Condor futtatja az általa kiválasztott ggép(eken), p( ), szükség g esetén átmozgatja egy másik gépre. • Job befejeződik, a Condor e-mail-t küld a felhasználónak.
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
Egy másik
2011.02.23.
universe = vanilla executable = mathematica input = in$(Process).dat output t t = out$(Process).dat t$(P )d t queue 50
- 31 -
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
jobleíró
2011.02.23.
- 32 -
Sun Grid Engine (SGE) • • • • • • •
universe = vanilla executable = /bin/hostname output = hostname.out.$(Process) error = hostname.err.$(Process) h t $(P ) log = hostname.log queue 3
A Condor-hoz hasonló ütemező. Queue-kat definiál. Hangsúlyos a terhelés kiegyensúlyozása. Backup master ütemező ütemező. Check-point. Migrálási lehetőség. Négy szerepkör: – master, submit, exec, admin,
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
- 33 -
2011.02.23.
- 35 -
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
2011.02.23.
- 34 -
SGE komponensei
Párhuzamos és Grid rendszerek © BME-IIT Sz.I.
6