VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY
FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF TELECOMMUNICATIONS
INSTALACE A KONFIGURACE OCTAVE VÝPOČETNÍHO CLUSTERU INSTALLATION AND CONFIGURATION OF OCTAVE COMPUTATION CLUSTER
DIPLOMOVÁ PRÁCE MASTER'S THESIS
AUTOR PRÁCE
Bc. ZDENĚK MIKULKA
AUTHOR
VEDOUCÍ PRÁCE SUPERVISOR
BRNO 2013
Ing. PETR SYSEL, Ph.D.
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta elektrotechniky a komunikačních technologií Ústav telekomunikací
Diplomová práce magisterský navazující studijní obor Telekomunikační a informační technika Student: Ročník:
Bc. Zdeněk Mikulka 2
ID: 83468 Akademický rok: 2012/2013
NÁZEV TÉMATU:
Instalace a konfigurace Octave výpočetního clusteru POKYNY PRO VYPRACOVÁNÍ: Prostudujte možnosti distribuovaného zpracování v simulačních prostředích Matlab a Octave. Na základě získaných znalostí navrhněte instalaci výpočetního clusteru více počítačů založeného na operačním systému Linux a výpočetním prostředí Octave. Instalaci proveďte do virtuálních počítačů. Na jednom z počítačů v laboratoři připravte obraz základního operačního systému (hypervizoru), který umožní spouštění připravených virtuálních počítačů z clusteru. Vedle těchto virtuálních počítačů bude instalován i operační systém Windows 7 pro účely výuky. Při testování nastavte vhodnou prioritu všem virtuálním počítačům tak, aby výpočty na pozadí nezpomalovaly běh systému Windows 7 ve výuce. DOPORUČENÁ LITERATURA: [1] Lucke, R. W. Building Clustered Linux Systems. 1 edition. Prentice Hall, 2004. 648 p. ISBN 978-0131448537 [2] Quarteroni, A.; Saleri, F.; Gervasio, P. Scientific Computing with MATLAB and Octave. 3rd edition. Springer, 2010. 382 p. ISBN 978-3642124297 Termín zadání:
11.2.2013
Termín odevzdání:
29.5.2013
Vedoucí práce: Ing. Petr Sysel, Ph.D. Konzultanti diplomové práce:
prof. Ing. Kamil Vrba, CSc. Předseda oborové rady UPOZORNĚNÍ: Autor diplomové práce nesmí při vytváření diplomové práce porušit autorská práva třetích osob, zejména nesmí zasahovat nedovoleným způsobem do cizích autorských práv osobnostních a musí si být plně vědom následků porušení ustanovení § 11 a následujících autorského zákona č. 121/2000 Sb., včetně možných trestněprávních důsledků vyplývajících z ustanovení části druhé, hlavy VI. díl 4 Trestního zákoníku č.40/2009 Sb.
ABSTRAKT Tato pr´ace obsahuje podrobn´y n´avrh pro instalaci a konfiguraci v´ypoˇcetn´ıho klastru prim´arnˇe urˇcen´eho pro paraleln´ı v´ypoˇcty v aplikace Octave. Jsou zde pops´any jednotliv´e komponenty klastru, zp˚ usob jejich zapojen´ı a nastaven´ı. Klastr je postaven na operaˇcn´ım syst´emu GNU/Linux a rozhran´ı MPI. N´avrh umoˇznˇuje nasezen´ı tohoto klastru na poˇc´ıtaˇc´ıch uˇcebny, ve kter´e prob´ıh´a v´yuka.
ˇ ´ SLOVA KL´ICOV A GNU/Linux, HPC, klastr, KVM, MPI, Octave, virtualizace, v´ypoˇcetn´ı server
ABSTRACT This diploma thesis contains detailed design of high-performance cluster, primarely focused for parallel computing in Octave application. Each of component of this cluster is described along with instructions for installation and configuration. Cluster is based on GNU/Linux operating system and Message Parsing Interface. Design alllows implementation of this cluster in computers of schoolroom with active lessons.
KEYWORDS cluster, GNU/Linux, High-performance computing, HPC, KVM, MPI, Octave, virtualization
MIKULKA, Zdenˇek Instalace a konfigurace Octave v´ypoˇcetn´ıho clusteru: diplomov´a pr´ace. Brno: Vysok´e uˇcen´ı technick´e v Brnˇe, Fakulta elektrotechniky a komunikaˇcn´ıch ´ technologi´ı, Ustav telekomunikac´ı, 2013. 39 s. Vedouc´ı pr´ace byl Ing. Petr Sysel, Ph.D
´ SEN ˇ ´I PROHLA Prohlaˇsuji, ˇze svou diplomovou pr´aci na t´ema Instalace a konfigurace Octave ” v´ypoˇcetn´ıho clusteru“ jsem vypracoval samostatnˇe pod veden´ım vedouc´ıho diplomov´e pr´ace a s pouˇzit´ım odborn´e literatury a dalˇs´ıch informaˇcn´ıch zdroj˚ u, kter´e jsou vˇsechny citov´any v pr´aci a uvedeny v seznamu literatury na konci pr´ace. Jako autor uveden´e diplomov´e pr´ace d´ale prohlaˇsuji, ˇze v souvislosti s vytvoˇren´ım t´eto diplomov´e pr´ace jsem neporuˇsil autorsk´a pr´ava tˇret´ıch osob, zejm´ena jsem nezas´ahl nedovolen´ym zp˚ usobem do ciz´ıch autorsk´ych pr´av osobnostn´ıch a/nebo majetkov´ych a jsem si plnˇe vˇedom n´asledk˚ u poruˇsen´ı ustanoven´ı § 11 a n´asleduj´ıc´ıch autorsk´eho z´akona ˇc. 121/2000 Sb., o pr´avu autorsk´em, o pr´avech souvisej´ıc´ıch s pr´avem autorsk´ym a o zmˇenˇe nˇekter´ych z´akon˚ u (autorsk´y z´akon), ve znˇen´ı pozdˇejˇs´ıch pˇredpis˚ u, vˇcetnˇe moˇzn´ych trestnˇepr´avn´ıch d˚ usledk˚ u vypl´yvaj´ıc´ıch z ustanoven´ı ˇc´asti druh´e, hlavy VI. d´ıl 4 Trestn´ıho z´akon´ıku ˇc. 40/2009 Sb.
Brno
...............
.................................. (podpis autora)
ˇ ´ ´I PODEKOV AN Upˇr´ımnˇe dˇekuji vedouc´ımu pr´ace panu inˇzen´yru Syslovi za cenn´e rady, ochotu a trpˇelivost. Rovnˇeˇz dˇekuji sv´e rodinˇe za mor´aln´ı podporu.
Brno
...............
.................................. (podpis autora)
z
OBSAH ´ Uvod
9
1 Prostˇ redky pro distribuovan´ e v´ ypoˇ cty 1.1 Klastry a jejich dˇelen´ı . . . . . . . . . . . . . 1.1.1 Klastry z vysokou dostupnost´ı . . . . . 1.1.2 Klastry pro uloˇzen´ı sd´ılen´ ych dat . . . 1.1.3 Klastry pro rozloˇzen´ı z´atˇeˇze . . . . . . 1.1.4 V´ ypoˇcetn´ı klastry . . . . . . . . . . . . 1.2 Virtualizace . . . . . . . . . . . . . . . . . . . 1.2.1 Virtualizaˇcn´ı n´astroje . . . . . . . . . . 1.3 Prostˇredky pro tvorbu paraleln´ıch aplikac´ı . . 1.3.1 PVM . . . . . . . . . . . . . . . . . . . 1.3.2 GNU R . . . . . . . . . . . . . . . . . 1.3.3 MPI . . . . . . . . . . . . . . . . . . . 1.4 Moˇznosti paraleln´ıho zpracov´an´ı u ´loh v Octave 1.4.1 Octave . . . . . . . . . . . . . . . . . . 1.4.2 MPITB pro Octave . . . . . . . . . . . 1.4.3 openmpi ext . . . . . . . . . . . . . . . 1.5 VLAN . . . . . . . . . . . . . . . . . . . . . . 2 Instalace a konfigurace v´ ypoˇ cetn´ıho klastru 2.1 Instalace hypervizoru . . . . . . . . . . . . . 2.1.1 Omezen´ı uˇzivatelsk´eho pˇr´ıstupu . . . 2.1.2 Vytvoˇren´ı virtu´aln´ıch stroj˚ u . . . . . 2.2 Pˇr´ıprava virtu´aln´ıch stroj˚ u klastru . . . . . . 2.3 Konfigurace ˇr´ıd´ıc´ıho poˇc´ıtaˇce . . . . . . . . . 2.4 Konfigurace souborov´eho serveru . . . . . . 2.5 Konfigurace v´ ypoˇcetn´ıch server˚ u. . . . . . . 2.6 Testov´an´ı instalace . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . . . .
10 10 10 11 11 12 13 14 15 15 15 15 18 18 18 18 19
. . . . . . . .
20 21 24 25 28 28 31 32 33
3 Z´ avˇ er
36
Literatura
37
Seznam symbol˚ u, veliˇ cin a zkratek
39
SEZNAM TABULEK 2.1 2.2
Tabulka rozdˇelen´ı disku pˇri instalaci . . . . . . . . . . . . . . . . . . . 21 Tabulka rozdˇelen´ı disku pˇri instalaci . . . . . . . . . . . . . . . . . . . 28
´ UVOD Existuj´ı tˇri z´akladn´ı zp˚ usoby, jak lze zv´ yˇsit efektivitu sloˇzit´ ych v´ ypoˇct˚ u. Pouˇz´ıt lepˇs´ı v´ ypoˇcetn´ı algoritmus, pouˇz´ıt rychlejˇs´ı poˇc´ıtaˇc nebo rozdˇelit v´ ypoˇcet mezi v´ıce poˇc´ıtaˇc˚ u. Klastr je typ paraleln´ıho nebo distribuovan´eho paraleln´ıho nebo distribuovan´eho v´ ypoˇcetn´ıho syst´emu, kter´ y se skl´ad´a ze skupiny samostatn´ ych, navz´ajem propojen´ ych poˇc´ıtaˇc˚ u. C´ılem diplomov´e pr´ace je vytvoˇrit klastr vyuˇziteln´ y pro paraleln´ı v´ ypoˇcty sloˇzit´ ych a n´aroˇcn´ ych algoritm˚ u. Bliˇzˇs´ı charakteristika a rozdˇelen´ı klastr˚ u je uvedena v ˇca´sti 1.1. Aplikace m˚ uˇze efektivnˇe vyuˇz´ıt veˇsker´ y v´ ypoˇcetn´ı v´ ykon clusteru jen tehdy, ˇze je uzp˚ usobena pro paraleln´ı zpracov´an´ı. Pro snadnˇejˇs´ı vytv´aˇren´ı takov´ ychto aplikac´ı existuje nˇekolik komerˇcn´ıch i volnˇe ˇs´ıˇriteln´ ych knihoven, napˇr. PVM, MPI, GNU R. Popis vlastnost´ı nˇekter´ ych z nich je uveden v ˇc´asti 1.3. V r´amci diplomov´e pr´ace je klastr realizov´an jako skupina virtu´aln´ıch poˇc´ıtaˇc˚ u realizovan´ ych v r´amci nˇekolika fyzick´ ych poˇc´ıtaˇc˚ u. Struˇcn´e sezn´amen´ı s virtualizac´ı je v ˇca´sti 1.2. Pro propojen´ı klastru a jeho oddˇelen´ı od zbytku s´ıtˇe jsou pouˇzity s´ıt’ typu VLAN, jejich struˇcn´ y popis je zm´ınˇen v ˇca´sti 1.5. N´avrh vlastn´ıho ˇreˇsen´ı clusteru a jeho realizace je pops´ana v druh´e kapitole. Nejprve bylo nutn´e vytvoˇrit hypervizor na fyzick´em stroji, pˇripravit samotn´e virtu´aln´ı stroje pro klastr a v´ yuku a navz´ajem je propojit. Zvl´aˇst’ bylo tˇreba realizovat vlastn´ı DHCP server a server pro spr´avu cel´eho klastru. Postup je uveden v ˇca´sti 2.3. Pak byl vytvoˇren virtu´aln´ı stroj zajiˇst’uj´ıc´ı funkci souborov´eho serveru, coˇz je pops´ano v ˇca´sti 2.4, 2.5.
9
1
ˇ ´ PROSTREDKY PRO DISTRIBUOVANE ´ ˇ VYPO CTY
1.1
Klastry a jejich dˇ elen´ı
Klastr (viz [16]) je typ paraleln´ıho nebo distribuovan´eho v´ ypoˇcetn´ıho syst´emu, kter´ y se skl´ad´a ze skupiny navz´ajem propojen´ ych samostatn´ ych poˇc´ıtaˇc˚ u (uzl˚ u), kter´e spolupracuj´ı a navenek vystupuj´ı jako jeden poˇc´ıtaˇc. Poˇc´ıtaˇce v klastru jsou vˇetˇsinou propojeny pomoc´ı rychl´ ych lok´aln´ıch s´ıt´ı. Klastry se bˇeˇznˇe pouˇz´ıvaj´ı ke zv´ yˇsen´ı v´ ypoˇcetn´ıho v´ ykonu a zlepˇsen´ı efektivity nebo k zajiˇstˇen´ı vyˇsˇs´ı spolehlivosti a dostupnosti jednotliv´ ych sluˇzeb. Vyuˇzit´ı klastr˚ u je hlavnˇe pˇri paraleln´ıch v´ ypoˇctech sloˇzit´ ych poˇcetn´ıch u ´loh nebo pro zajiˇstˇen´ı vysok´e dostupnosti jednotliv´ ych sluˇzeb. Dˇr´ıve byly klastry rozˇs´ıˇreny hlavnˇe ve vˇedeck´ ych a vl´adn´ıch organizac´ıch, ale dnes se bˇeˇznˇe uplatˇ nuj´ı v komerˇcn´ı sf´eˇre nebo ˇskolstv´ı. Protˇejˇskem klasteru jsou superpoˇc´ıtaˇce (paraleln´ı poˇc´ıtaˇce), u nichˇz je vyˇsˇs´ıho v´ ykonu dosaˇzeno pouˇzit´ım velk´eho mnoˇzstv´ı procesor˚ u a operaˇcn´ı pamˇeti v r´amci jednoho serveru. Klastr lze snadno rozˇs´ıˇrit pˇrid´an´ım dalˇs´ıch uzl˚ u, omezen´ı tvoˇr´ı propustnost sd´ılen´ ych sloˇzek u hlavn´ıho uzlu, z´aleˇz´ı na pouˇzit´ı s´ıt’ov´e technologie. V´ yhodou je odolnost v˚ uˇci v´ ypadku (fault tolerance). Pokud vypadne urˇcit´ y uzel, kter´ y nen´ı kl´ıˇcovou ˇca´st´ı clusteru tj. nen´ı hlavn´ım uzlem, omez´ı se sice celkov´ y v´ ykon, ale funkce z˚ ust´av´a zachov´ana. Klastr, kter´e pouˇzivaj´ı jeden typ procesoru a operaˇcn´ıho syst´emu se naz´ yvaj´ı homogenn´ı klastry, pokud maj´ı v´ıce jak jeden typ procesor˚ u ˇci operaˇcn´ıch syst´em˚ u potom jsou naz´ yvany heterogenn´ımi klastry. Podle u ´ˇcely pouˇzit´ı rozliˇsujeme ˇctyˇri z´akladn´ı typy klastr˚ u.
1.1.1
Klastry z vysokou dostupnost´ı
High-availibility (HA) klastry zajiˇst’uj´ı vysokou dostupnost sluˇzeb odstranˇen´ım kritick´ ych m´ıst (SPoF - single point of failure) a pomoc´ı redudantn´ıch uzl˚ u. V pˇr´ıpadˇe v´ ypadku uzlu se sluˇzby startuj´ı automaticky bez z´asahu administr´atora na z´aloˇzn´ım uzlu. Tento proces se naz´ yv´a failover. V´ ypadek uzlu uˇzivatel v˚ ubec nezaznamen´a. Typick´ ym pouˇzit´ım tohoto klastru je zajiˇstˇen´ı vysok´e dostupnosti datab´az´ı, sd´ılen´ı soubor˚ u a aplikac´ı po s´ıti. HA klastr se skl´ad´a ze zdvojen´eho u ´loˇzn´eho prostoru, v´ıcen´asobn´eho s´ıt’ov´eho propojen´ı a b´ yv´a pˇripojen k r˚ uzn´ ym okruh˚ um elektrick´e s´ıtˇe v kombinaci se z´aloˇzn´ımi zdroji UPS (Uninterruptible power suply - nepˇreruˇciteln´ y zdroj nap´ajen´ı). Informace o stavech jednotliv´ ych uzl˚ u se pˇren´aˇs´ı pˇres tzv. heartbeat linku. Jedn´a se o priv´atn´ı
10
s´ıt’ spojuj´ıc´ı vˇsechny uzle v klastru, kter´a, mimo jin´e, slouˇz´ı k pˇredejit´ı stavu splitbrain. To je stav, kdy z´aloˇzn´ı uzel obdrˇz´ı mylnou informaci o kolizi uzlu hlavn´ıho. Pokud hlavn´ı uzel st´ale bˇeˇz´ı mohlo by doj´ıt k poruˇsen´ı dat na sd´ılen´em disku pˇri souˇcasn´em z´apisu z v´ıce m´ıst. Minimem pro sestaven´ı HA klastru jsou dva uzly. Dva hlavn´ı m´ody konfigurace uzl˚ u jsou Active/Active a Active/Passive. V m´odu Active/Active bˇeˇz´ı na kaˇzd´em uzlu prim´arn´ı sluˇzba. Pˇri v´ ypadku jednoho z uzl˚ u, spust´ı druh´ y sluˇzbu, kter´a bˇeˇzela na uzlu s poruchou. V m´odu Active/Passive je z´aloˇzn´ı uzel schopen spustit vˇsechny sluˇzby, kter´e bˇeˇzely na hlavn´ım uzlu. Typick´ ym z´astupcem HA klastru je projekt Linux-HA, nebo bal´ık RHCS (Red Hat Cluster Suite).
1.1.2
Klastry pro uloˇ zen´ı sd´ılen´ ych dat
´ zn´e klastry poskytuj´ı pˇr´ıstup k diskov´emu u Uloˇ ´loˇziˇsti, kter´ y je rozloˇzen mezi v´ıce uzl˚ u z d˚ uvodu dosaˇzen´ı vyˇsˇs´ı spolehlivosti nebo vyˇsˇs´ıho v´ ykonu. Umoˇzn ˇuje to serverer˚ um simult´annˇe ˇc´ıst a zapisovat do jednoho sd´ılen´eho souborov´eho syst´emu. Toho je dosaˇzeno pouˇz´ıt´ım speci´aln´ıch souborov´ ych syst´em˚ u (napˇr. PFS, Lustre), kter´e jsou schopny zajistit rozloˇzen´ı z´atˇeˇze, redudanci dat, uzamyk´an´ı soubor˚ u a pokr´ yt v´ ypadek jednotliv´ ych uzl˚ u.
1.1.3
Klastry pro rozloˇ zen´ı z´ atˇ eˇ ze
´ celem klastru s rozloˇzen´ım z´atˇeˇze (load-balancing LB) je rozdˇelit v´ Uˇ ykon rovnomˇernˇe mezi uzly, kter´e jsou m´enˇe vyuˇz´ıv´any. Pˇri pouˇz´ıt´ı LB doch´az´ı k rovnomˇern´emu ˇ vyuˇzit´ı vˇsech server˚ u. Casto je aplikov´an jednoduch´eh´ y algoritmus Round-Robin DNS, kdy DNS server pˇri dotazu klienta odpov´ı pokaˇzd´e jinou IP adresu c´ıle (uzlu). Tato metoda roloˇzen´ı z´atˇeˇze rozdˇeluje poˇzadavky na zpracov´an´ı bez ohledu na aktu´aln´ı mnoˇzstv´ı spojen´ı nebo ˇcasu reakce. Je vhodn´ y, pokud jsou v klastru stejnˇe v´ ykonn´e servery. V opaˇcn´em pˇr´ıpadˇe m˚ uˇze v´est k nerovnomˇern´emu dynamick´emu zat´ıˇzen´ı klastru. Rozˇs´ıˇren´ı pˇredchoz´ıho algoritmu je Weighted Round-Robin. Tzv. v´aˇzen´ y RoundRobin zohledˇ nuje r˚ uzn´e v´ ykonov´e schopnosti kaˇzd´eho serveru v klastru. Spr´avci si na z´akladˇe pravidel nastav´ı server˚ um priority pro zpracov´av´an´ı poˇzadavk˚ u podle jejich v´ ykonu. Algoritmus nasmˇeˇruje smˇeˇruje poˇzadavky na servery, tak aby nedoˇslo k jejich pˇret´ıˇzen´ı. Dalˇs´ım pˇr´ıkladem algoritmu je Least-Connection, kter´ y pos´ıl´a ˇz´adosti na server v klastru s nejmenˇs´ım aktu´aln´ım poˇctem aktivn´ıch spojen´ı. Obdobn´ y princip vyuˇz´ıv´a dalˇs´ı jednoduch´ y algoritmus s n´azvem Load-Based. Pˇri jeho aplikaci se ˇza´dosti zas´ılaj´ı na server, kter´ y je aktu´alnˇe nejm´enˇe vyt´ıˇzen. Pokud dojde k v´ ypadku
11
jednoho ze server˚ u, software pro load-balancing tuto ud´alost detekuje a pˇresmˇeruje ˇza´dosti na dalˇs´ı uzel klastru.
1.1.4
V´ ypoˇ cetn´ı klastry
V´ ypoˇcetn´ı klastr je skupina navz´ajem propojen´ ych uzl˚ u, kter´e spolu u ´zce spolupracuj´ı a navenek se jev´ı jako jeden, velmi v´ ykonn´ y poˇc´ıtaˇc. Jednotliv´e uzly b´ yvaj´ı propojeny rychlou lok´aln´ı s´ıt´ı (LAN). Tyto klastry dosahuj´ı vysok´e v´ ykonosti a dostupnosti, jejich poˇrizovac´ı n´aklady jsou niˇzˇs´ı neˇz u superpoˇc´ıtaˇc˚ u. Tento typ klastru se m˚ uˇze vyrobit i se sb´ırky jinak zastaral´ ych poˇc´ıtaˇc˚ u, kter´e splˇ nuj´ı minim´aln´ı n´aroky. Jedn´a se o takzvan´ y COST (computer of the shelf), POP (pile of PCs) nebo cost-off komponenty, nˇekdy t´eˇz oznaˇcovan´ y jako Beowulf. Takto poskl´adan´ y klastr je velmi levn´ y konkurent superpoˇc´ıtaˇce. Na druhou u stranu je lepˇs´ı pro stavbu pouˇz´ıt stejnorod´e prvky, v´ ykonn´e uzly, kter´e jsou vybr´any pro dan´ y u ´ˇcel klastru. Pokud se jedn´a o klasick´e poˇc´ıtaˇce m˚ uˇzeme je ke klastru dynamicky pˇripojovat ˇci odpojovat. Naopak, pokud tuto moˇznost nepotˇrebujeme, zmenˇsuj´ı se n´aroky na hardwarov´e vybaven´ı jednotliv´ ych uzl˚ u. Poˇc´ıtaˇce v clusteru dokonce nemus´ı m´ıt ani pevn´ y disk.
12
1.2
Virtualizace
Pojmem virtualizace [22] oznaˇcujeme soubor technik, kter´e umoˇzn ˇuj´ı pˇristupovat k syst´emov´ ym zdroj˚ um jako k mnoˇzinˇe v´ ykonu, bez ohledu na jejich skuteˇcn´e fyzick´e charakteristiky. V r´amci jednoho fyzick´eho serveru tak lze provozovat v´ıcero logick´ ych server˚ u. Vyuˇzijeme t´ım v dneˇsn´ı dobˇe jiˇz pˇredimenzovan´ ych poˇc´ıtaˇc˚ u, kter´e m´alokdy vyuˇzij´ı naplno sv˚ uj v´ ykon. Pojem server tak nemus´ı oznaˇcovat jen fyzick´ y stroj, ale m˚ uˇze se jednat i o server, jeˇz bˇeˇz´ı ve virtu´aln´ım prostˇred´ı. C´ılem virtualizace je schovat hardwarovou vrstvu syst´emu pod virtualizaˇcn´ı vrstvu. V´ yhodami tak m˚ uˇze b´ yt napˇr. rozdˇelen´ı v´ ykonu, u ´spora n´akladu, slouˇcen´ı v´ıce poskytovan´ ych sluˇzeb pod jeden fyzick´ y hardware, snadn´a obnova po p´adu, snaˇzˇs´ı z´aloha cel´ ych syst´em˚ u, bˇeh v´ıce operaˇcn´ıch syst´em˚ u na jednom fyzick´em stroji. Pln´ a virtualizace Oznaˇcen´ı pro prostˇred´ı, v nˇemˇz operaˇcn´ı syst´em nepozn´a, ˇze nem´a pˇr´ım´ y pˇr´ıstup k hardwaru. Modifikace operaˇcn´ıho syst´emu a aplikaˇcn´ıch program˚ u nen´ı nutn´a. Pˇr´ıstup k fyzick´emu vybaven´ı poˇc´ıtaˇce je vˇzdy zprostˇredkovan´ y, veˇsker´e programy a syst´emy bˇeˇz´ı pouze na virtu´aln´ım hardwaru; doch´az´ı tak k pln´emu oddˇelen´ı od fyzick´eho stroje. Virtu´aln´ı stroj vˇsak nepozn´a, ˇze bˇeˇz´ı ve virtualizovan´em prostˇred´ı. Neexistence vazby mezi virtu´aln´ım prostˇred´ım a hardware, na nˇemˇz je virtu´aln´ı poˇc´ıtaˇc provozov´an, umoˇzn ˇuje plnou pˇrenositelnost virtu´aln´ıho stroje. Tuto metodu pouˇz´ıvaj´ı napˇr. n´astroje KVM, VirtualBox. Paravirtualizace Paravirtualizace je podobn´a hardwarov´e virtualizace, ale nen´ı nezbytnˇe nutn´e, aby virtu´aln´ı prostˇred´ı simulovalo hardware. Je zde nav´ıc vyuˇzita API vrstva, kterou m˚ uˇze b´ yt pouˇzita jen z upraven´eho OS hostam, coˇz je jednou z nev´ yhod. Tento typ virtualizace m˚ uˇze poskytnou vˇetˇs´ı v´ ykon neˇz pln´a virtualizace. Tudo metodu pouˇz´ıv´a napˇr. Xen. Emulace Pˇri pouˇzit´ı emulace jiˇz nen´ı svazuj´ıc´ı architektura CPU. Hostitelsk´ y a hostovan´ y poˇc´ıtaˇc mohou m´ıt b´ yt naprosto rozd´ıln´e architektury. Tohoto typu virtualizace lze vyuˇz´ıt u hardwarov´ ych platforem, kter´e jiˇz nejsou podporov´any, nebo pro tvorbu softwaru platformy, jenˇz jeˇstˇe neexistuje. Emulace je znatelnˇe pomalejˇs´ı neˇz nativn´ı prov´adˇen´ı instrukc´ı. Emul´atorem je napˇr. QEMU.
13
1.2.1
Virtualizaˇ cn´ı n´ astroje
Xen Xen je paravirtualizaˇcn´ı n´astroj, kter´ y m´a i podporu hardwaru - rozˇs´ıˇren´e istrukˇcn´ı sady pro podporu virtualizace. Jedn´a se o procesory s podporuj´ıc´ı technologii Intel VT [13] nebo AMD-V [11]. Komunikace jader dom´en m˚ uˇze prob´ıh´at pˇres tyto instrukˇcn´ı sady (jsou-li obsaˇzeny), nen´ı nutn´a modifikace jader. Virtualizace za pomoci Xenu vyuˇz´ıv´a odliˇsn´ y pˇr´ıstup operaˇcn´ıho syst´emu k fyzick´emu procesoru a ostatn´ımu hardweru. Samotn´e j´adro virtu´aln´ıho stroje nˇebˇeˇz´ı v nejprivilegovanˇejˇs´ım reˇzimu (0. okruh), ale dle pouˇzit´e architektury na niˇzˇs´ı u ´rovn´ıch (1. - 3, okruh). Instrukce k vykon´av´an´ı privilegovan´ ych operac´ı za virtu´aln´ı stroje vykon´av´a hypervizor. Tento hypervizor bˇeˇz´ı v privilegovan´em j´adˇre zvan´em Domain0 (dom0 ). Spravuje pˇr´ıstup k pamˇeti a ostatn´ımu hardwaru, star´a se i o sledov´an´ı a spr´avu ostatn´ıch dom´en, kter´e se oznaˇcuj´ı jako DomainU (dom0 ) [6]. KVM KVM je zkratka od Kernel-based Virtual Machine (na j´adˇre zaloˇzen´ y virtu´aln´ı stroj). Na rozd´ıl od Xenu KVM vyuˇz´ıv´a principy u ´pln´e virtualizace. Jeho z´akladem je architektura x86 s hardwarem obsahuj´ıc´ım instrukˇcn´ı sady pro podporu virtualiza Intel ´ a virtualizace umoˇzn VT [13] a AMD-V. Upln´ ˇuje podporu jak´ehokoliv operaˇcn´ıho syst´emu (tj. na b´azi Unix, GNU/Linux, BSD, Windows apod.). Na verzi operaˇcn´ıho syst´emu nez´aleˇz´ı, m˚ uˇze b´ yt jak 32-bitov´ y, tak 64-bitov´ y. KVM je linuxov´eho j´adra souˇc´ast´ı linuxov´eho j´adra (Kernelu) od verze 2.6.20 jako modul kvm.ko [12]. Dalˇs´ı moduly kvm-intel.ko a kvm-amd.ko jsou specifick´e pro konkr´etn´ı procesory. Jelikoˇz je KVM modul j´adra, lze jej nejsnadnˇeji pouˇz´ıt ta pomoci extern´ıho n´astroje. Nejˇcastˇeji se pouˇz´ıv´a v kombinaci s upravenou verz´ı QEMU [5]. QEMU Jak vypl´ yv´a z n´azvu QEMU (z angl. Quick Emulator) jedn´a se o emul´ator. Na rozd´ıl od ostatn´ıch emul´ator˚ u dok´aˇze emulovat instrukˇcn´ı sady jin´e architektury, neˇz je fyzick´ y stroj. Nen´ı nutn´a podpora j´adra hostitelsk´eho stroje. Tento n´astroj m˚ uˇze pracovat ve dvou reˇzimech. Prvn´ım je pln´a syst´emov´a virtualizace. V tomto reˇzimu je emulovan´ y cel´ y syst´em, vˇcetnˇe procesor˚ u a jin´ ych zaˇr´ızen´ı. Umoˇzn ˇuje spouˇstˇet r˚ uzn´e operaˇcn´ı syst´emy bez restartu fyzick´eho (hostitelsk´eho) stroje. V druh´em reˇzimu neemuluje cel´ y syst´em, ale jen procesy kompilovan´e pro jin´e procesory [21].
14
1.3 1.3.1
Prostˇ redky pro tvorbu paraleln´ıch aplikac´ı PVM
Parallel Virtual Machine (PVM) je starˇs´ı, st´ale pouˇz´ıvan´a knihovna, kter´a se stala inspirac´ı pro n´avrh modelu MPI. Architekturou je to syst´em, umoˇzn ˇuj´ıc´ı tv˚ urc˚ um program˚ u pohl´ıˇzet na heterogenn´ı soubor unixov´ ych stroj˚ u jako na jednolit´ y paraleln´ı poˇc´ıtaˇc. PVM pracuje na jednoduch´em, ale funkˇcnˇe kompletn´ım modelu pˇred´av´an´ı zpr´av (message passing model). Z´akladem PVM je d´emon pvmd3, kter´ y bˇeˇz´ı na kaˇzd´em poˇc´ıtaˇci. Vˇsechny uzly se spuˇstˇen´ ym d´emonem pvmd3 mohou dohromady vytv´aˇret jednolit´ y virtu´aln´ı stroj. Druhou ˇc´ast´ı PVM je knihovna, poskytuj´ıc´ı rozhran´ı pro paraleln´ı operace. Podporov´any jazyky C, C++ a Fortran [7].
1.3.2
GNU R
GNU R (viz [10]) je otevˇren´ y programovac´ı jazyk a bal´ık program˚ u urˇcen´ ych p˚ uvodnˇe pro statistick´e v´ ypoˇcty. Instalace R poskytuje jazykov´ y interpret a mnoho statistick´ ych a modelovac´ıch funkc´ı. V souˇcasn´e dobˇe je nad´ale vyv´ıjen t´ ymem R Development Core Team. Je rozˇsiˇriteln´ y pomoc´ı bal´ıˇck˚ u, kter´e mu umoˇzn ˇuj´ı zpracov´avat paraleln´ı u ´lohy. Vˇetˇsina tˇechto bal´ıˇck˚ u je spolupracuje s rozhran´ım MPI (napˇr. Rmpi) nebo PVM (rpvm) .
1.3.3
MPI
Message Passing Interface (MPI) [3, 7] je programovac´ı rozhran´ı zaloˇzen´e na zas´ıl´an´ı zpr´av mezi jednotliv´ ymi uzly, pˇrev´aˇznˇe se pouˇz´ıv´a na syst´emech s distribuovanou pamˇet´ı. MPI je specifikace, nen´ı to konkr´etn´ı implementace. Specifikuje napˇr. n´azvy, volac´ı sekvence a v´ ysledky funkc´ı z C program˚ u, podprogramy v jazyce Fortran a tˇr´ıdy a metody v jazyce C++. Spr´avnˇe navrˇzen´ y program by mˇel fungovat beze zmˇen nez´avisle na zvolen´e verzi implementace MPI. Tˇech existuje, moment´alnˇe nejrozˇs´ıˇrenˇejˇs´ı v souˇcasn´e dobˇe jsou OpenMPI a MPICH2. Pouˇz´ıvaj´ı se verze MPI 1.2 (oznaˇcovan´e jako MPI 1) a verze 2.1 (MPI 2). Moment´alnˇe (r. 2013) se jiˇz pracuje na zaˇclenˇen´ı specifikace 3.0. Syst´emy pˇred´av´an´ı zpr´av se jiˇz v dˇr´ıve v minulosti pouˇz´ıvali, ale byly vyv´ıjeny pouze pro potˇreby jednotliv´ ych v´ yrobc˚ u a nebyly mezi sebou navz´ajem kompatibiln´ı. Je definov´ano pˇres 120 funkc´ı, ale jen 6 je naprosto nezbytn´ ych pro bˇeh spuˇstˇen´ı paraleln´ı aplikace.
15
Z´ akladn´ı funkce MPI ypoˇctu. Je nutn´e, aby tato funkce byla zahrnuta • MPI INIT – inicializace MPI v´ v kaˇzd´em MPI programu, mus´ı b´ yt vol´ana vˇzdy jako prvn´ı MPI funkce a vol´ana m˚ uˇze b´ yt vˇzdy pouze jednou. u v dan´e skupinˇe spojen´e • MPI COMM SIZE – pˇri zavol´an´ı zjist´ı poˇcet proces˚ s dan´ ym komunik´atorem. • MPI COMM WORLD - slouˇz´ı ke zjiˇstˇen´ı poˇctu proces˚ u pouˇz´ıvan´ ych v cel´e aplikaci. ym ko• MPI COMM RANK – zjiˇstˇen´ı ˇc´ısla procesu v r´amci skupiny urˇcen´e dan´ munik´atorem. Kaˇzd´ y proces obdrˇz´ı pˇri sv´em vytvoˇren´ı jedineˇcn´e ˇc´ıslo, podle kter´eho ho lze n´aslednˇe rozpoznat, je to d˚ uleˇzit´e zejm´ena pro vz´ajemn´e rozpozn´an´ı v komunikaci mezi dvˇema a v´ıce procesy. • MPI SEND - slouˇz´ı k odesl´an´ı zpr´avy mezi procesy • MPI RECV - slouˇz´ı k pˇrijet´ı zpr´avy • MPI FINALIZE – ukonˇcuje v´ ypoˇcet MPI. Tato funkce je vol´ana jako posledn´ı. Skupiny a komunik´ atory Skupina je definovan´a mnoˇzina proces˚ u, kde kaˇzd´ y proces je identifikovateln´ y dle sv´eho jedineˇcn´eho identifik´atoru (ˇc´ısla). Tato ˇc´ısla poˇc´ınaj´ı nulou a nejvyˇsˇs´ı hodnoty maj´ı rovnu N-1, kde N pˇredstavuje poˇcet proces˚ u ve skupinˇe. Skupina je vˇzdy spojena se sv´ ym komunik´atorem. Komunik´ator zajiˇst’uje vz´ajemnou komunikaci mezi procesy skupiny, kterou dan´ y komunik´ator reprezentuje. Vˇsechny MPI zpr´avy specifikuj´ı, kter´ y komunik´ator budou pouˇz´ıvat. Komunik´ator MPI COMM WORLD reprezentuje vˇsechny procesy dan´e aplikace. Komunik´atory kombinuj´ı kontext a skupiny pro bezpeˇcnost zpr´av - veˇsker´a komunikace prob´ıh´a v r´amci dan´eho komunik´atoru, nen´ı umoˇznˇena komunikace mezi procesy, kter´e pouˇz´ıvaj´ı rozd´ıln´e komunik´atory. Komunik´atory i skupiny mohou b´ yt vytv´aˇreny a ruˇseny bˇehem chodu programu. Jednotliv´e d´ılˇc´ı procesy se monou st´at ˇcleny v´ıce skupin, pˇriˇcemˇz v kaˇzd´e skupinˇe maj´ı pˇridˇelena jedineˇcn´a identifikaˇcn´ı ˇc´ısla. Charakteristika komunikace mezi uzly Prob´ıh´a zde komunikace mezi dvˇemi procesy, kdy jeden proces vykon´a operaci odesl´an´ı (MPI SEND) a druh´ y proces operaci pˇr´ıjet´ı (MPI RECV) Vˇetˇsina komunikaˇcn´ıch funkc´ı MPI m˚ uˇze b´ yt provozov´ana v blokovac´ım nebo neblokovac´ım reˇzimu. Blokovac´ı reˇzim znamen´a kontrolovan´ y pˇrenos a pˇr´ıjem (tzn. dokud operace pˇrenosu nebo pˇr´ıjmu neskonˇc´ı, nebude se prov´adˇet jin´a operace). V ide´aln´ım pˇr´ıpadˇe nast´av´a po kaˇzd´em odesl´an´ı na jednom procesu pˇr´ıjem zpr´avy na druh´em procesu. Vˇsechny implementace MPI by mˇeli dle specifikace obslouˇzit komunikaci i v pˇr´ıpadˇe, kdy je z nˇejak´eho d˚ uvodu opoˇzdˇen pˇr´ıjem zpr´avy. Nejˇcastˇeji se to ˇreˇs´ı syst´emov´ ym bufferem, kde jsou data na
16
stranˇe pˇr´ıjemce doˇcasnˇe uloˇzena. Standart MPI garantuje, ˇze se jednotliv´e zpr´avy od jednoho odes´ılatele (procesu) nebudou pˇredb´ıhat tzn. budou zpracov´any v poˇrad´ı, v jak´em pˇriˇsly. Operace pˇrenosu zpr´av je synchronn´ı, prob´ıh´a ve stejn´em ˇcase. Je zajiˇstˇena i heterogenita komunikuj´ıc´ıch stran, coˇz umoˇzn ˇuje propojen´ı poˇc´ıtaˇc˚ u r˚ uzn´ ych architektur bez nutnosti ˇreˇsit kompatibilitu z pohledu program´atora.
17
1.4 1.4.1
Moˇ znosti paraleln´ıho zpracov´ an´ı u ´ loh v Octave Octave
GNU Octave ([8]) je vyˇsˇs´ı programovac´ı jazyk, pˇrev´aˇznˇe urˇcen´ y pro numerick´e v´ ypoˇcty. Poskytuje moˇznosti pˇr´ıkazov´e ˇr´adky pro ˇc´ıseln´e ˇreˇsen´ı line´arn´ıch i neline´arn´ıch matematick´ ych probl´em˚ u a pro vykon´av´an´ı jin´ ych numerick´ ych experiment˚ u. Umoˇzn ˇuje i grafick´e vizualizace a manipulace s daty. Lze jej tak´e vyuˇz´ıt jako d´avkovˇe orientovan´ y jazyk. Je psan´ y tak, aby vˇetˇsina pˇr´ıkaz˚ u byla ekvivalentn´ı pˇr´ıkaz˚ um Matlabu. V´ yvoj vede John Eaton. Octave dosud neum´ı nativnˇe pracovat nad MPI, proto je nutn´e vyuˇz´ıvat dalˇs´ı rozhran´ı mezi MPI a Octave. N´ıˇze jsou uvedeny pˇr´ıklady tˇechto rozhran´ı.
1.4.2
MPITB pro Octave
MPITB [9] je soubor n´astroj˚ u, kter´ y umoˇzn ˇuje bˇeh MPI program˚ u z prostˇred´ı Octave. Byl vyvinut Javierem F. Baldomerem z Granadsk´e univerzity. MPITB spol´eh´a na on LAM-7 (pˇredch˚ udce OpenMPI) nebo MPICH jako pozad´ı pro bˇeh paraleln´ıch aplikac´ı. Lze jej vyuˇz´ıt jednak v prostˇred´ı UNIX (Linux), po kompilaci i v prostˇred´ı Windows. Bohuˇzel, v dneˇsn´ı dobˇe jiˇz nen´ı d´ale vyv´ıjen, lze jej vyuˇz´ıt do verze Octave 3.0.2.
Obr. 1.1: Sch´ema komunikace MPITB
1.4.3
openmpi ext
openmpi ext je rozˇsiˇruj´ıc´ı bal´ık pro Octave, kter´ y vyvinul Michael Creel [1] pro u ´ˇcely sv´e v´ yzkumn´e pr´ace. Je to upraven´a verze MPITB, pˇrepsan´a tak, aby ˇsla pouˇz´ıt pro souˇcasnou verzi rozhran´ı MPI a Octave, je volnˇe ke staˇzen´ı na str´ank´ach octave.sourceforge.net [19]. V souˇcasn´e dobˇe (rok 2013) se na v´ yvoji pod´ıl´ı Jaroslav H´ajek a Carlo de Falco, projekt je d´ale vyv´ıjen.
18
1.5
VLAN
VLAN [18] umoˇzn ˇuj´ı logicky rozdˇelit s´ıt’ na z´akladn´ı funkce a umoˇzn ˇuje fyzickou s´ıt’ dˇelit na logick´e celky. Vyuˇz´ıv´a se to hlavnˇe v pˇr´ıpadˇe, kdy by se jednotliv´e segmenty s´ıtˇe mohli navz´ajem negativnˇe ovlivnit. T´ım se rozdˇel´ı i vˇsesmˇerov´e dom´eny na nˇekolik nekolik logick´ ych dom´en a zabr´an´ı se tak kolizi dom´en (viz n´ıˇze). Pro propojen´ı VLAN je nutn´ y smˇeˇrovaˇc, tak jako v klasick´em syst´emu LAN. Funkci smˇeˇrovaˇce dokaˇz´ı nahradit i nˇekter´e vyˇsˇs´ı ˇrady pˇrep´ınaˇc˚ u (tzv. L3 pˇrep´ınaˇce). Kolizn´ı dom´ ena Zv´ yˇsov´an´ım poˇctu stanic v segmentu s´ıtˇe vzr˚ ust´a pravdˇepodobnost kolize a v´ıce opaˇ sen´ım je rozdˇelit kolizn´ı dom´eny na nˇekolik menˇs´ıch navz´ajem kovan´ ych pˇrenos˚ u. Reˇ oddˇelen´ ych ˇca´st´ı. Pro propojen´ı tˇechto ˇc´ast´ı se vyuˇz´ıvaj´ı mosty tabulky MAC adres asociovan´ ych s porty. Kolize zapˇriˇciˇ nuj´ı pokles v´ ykonosti s´ıtˇe, pˇri kolizi vˇsechny stanice na urˇcit´ y ˇcas pˇreruˇs´ı pˇrenos. Vˇ sesmˇ erov´ a (broadcastov´ a) dom´ ena Pro komunikaci se ostatn´ımi kolizn´ımi dom´enami jsou technologi´ı Ethernet vyuˇzity vˇsesmerov´e a v´ıcesmˇerov´e r´amce na 2. vrstvˇe modelu OSI. Kdyˇz potˇrebuje stanice komunikovat se vˇsemi ostatn´ımi stanicemi (napˇr. zjiˇst’ov´an´ı DHCP serveru) poˇsle vˇsesmˇerov´ y r´amec, tzn. r´amec s c´ılovou MAC adresou 0xFFFFFFFFFFFF. Na t´eto adrese pˇrij´ımaj´ı r´amce vˇsechny stanice. Broadcastov´a dom´ena je seskupen´ım kolizn´ıch dom´en, kter´e jsou spojen´e zaˇr´ızen´ımi na 2. vrstvˇe. Identifikace r´ amc˚ u VLAN Pˇri pouˇzit´ı v´ıce pˇrep´ınaˇc˚ u v r´amci nˇekolika VLAN s´ıt´ı je tˇreba pro kaˇzd´ y datagram urˇcit, do kter´e VLAN s´ıtˇe patˇr´ı. Proto pˇred vstupem do linky mezi pˇrep´ınaˇci (tzv. trunkov´a linka) se do datagramu vloˇz´ı znaˇcka identifikuj´ıc´ı VLAN s´ıt’. Pˇri odevzd´an´ı daatagramu koncov´emu zaˇr´ızen´ı se tato znaˇcka odstran´ı. Znaˇckov´an´ı r´amc˚ u je vykon´avan´e podle protokolu standardu IEEE 802.1Q. Je zaloˇzen´ y na vkladan´ı znaˇcky (ˇc´ısla do velikosti 4096) do hlaviˇcky r´amce.
19
2
INSTALACE A KONFIGURACE ´ ˇ ´IHO KLASTRU VYPO CETN
V t´eto ˇca´sti je pops´ana funkce klastru a postup instalace operaˇcn´ıho syst´emu hypervizoru a jednotliv´ ych virtu´aln´ıch stroj˚ u spolu s jejich nastaven´ım. Na kaˇzd´em poˇc´ıtaˇci v uˇcebnˇe bude instalov´an hypervizor s dvˇemi virtu´aln´ımi stroji. Jeden bude vyuˇz´ıv´an studenty jako n´ahrada za p˚ uvodn´ı syst´em, instalovan´ y na fyzick´ y stroj. Druh´ y bude slouˇzit jako souˇca´st klastru a bude nastaven tak, aby neovlivˇ noval funkˇcnost druh´e VM. Pˇri spuˇstˇen´ı fyzick´eho poˇc´ıtaˇce se automaticky spust´ı oba virtu´aln´ı stroje a vnc klient, kter´ y je napojen na virtu´aln´ı stroj s Windows. Uˇzivateli se tak zobraz´ı jen pˇrihlaˇsovac´ı obrazovka do prostˇred´ı Windows. Po vypnut´ı fyzick´eho stroje se oba virtu´aln´ı stroje automaticky vypnou. V pˇr´ıpadˇe poˇzadavku na v´ ypoˇcet pomoc´ı klastru se uˇzivatel pˇrihlas´ı na hlavn´ı uzel, na kter´em m˚ uˇze zadat pˇrikaz pro paraleln´ı v´ ypoˇcet pomoc´ı prostˇred´ı Octave. Jako operaˇcn´ı syst´em pro hypervizory i virtu´aln´ı stroje byla vybr´ana distribuce CentOS ve verzi 6.3 x86 x64. Jedn´a se o klon distribuce RHEL (Red Hat Enterprise Linux) spoleˇcnosti Red Hat, kter´ y vznik´a kompilac´ı origin´aln´ıch zdrojov´ ych k´od˚ u RHEL a t´ım je zajiˇstˇena pln´a bin´arn´ı kompatibilita. I kdyˇz je RHEL komerˇcnˇe nab´ızen´a distribuce, je ˇs´ıˇren´a pod licenc´ı GNU/GPL, takˇze je moˇzn´e po odstranˇen´ı licencovan´ ych prvk˚ u (firemn´ı loga, atd.) prov´est voln´e ˇs´ıˇren´ı t´eto distribuce. Jeden ze z´asadn´ıch rozd´ıl˚ u distribuce CentOS v˚ uˇci RHEL je absence podpory spoleˇcnosti Red Hat, m´a vˇsak ˇsirokou komunitn´ı podporu. Na rozd´ıl od druh´eho komunitn´ıho clonu RedHatu, distribuce Fedora, nevznik´a CentOS jako prostˇred´ı pro test nov´ ych technologi´ı, ale naopak zachov´av´a v´ yhody p˚ uvodn´ıho RHEL (v´ yvojov´ y cyklus, updaty). RHEL je odladˇenou a spolehlivou distribuc´ı, prim´arnˇe se pouˇz´ıv´a k serverov´emu nasazen´ı v podnic´ıch, kde je preferov´ana stabilita. Bezpeˇcnostn´ı updaty vyd´avan´e pro RHEL jsou pˇrev´adˇeny s mal´ ym spoˇzdˇen´ım i do CentOS. CentOS je zkompilov´an pro platformy i386, x86 64, ia64, s390x, ppc.
20
2.1
Instalace hypervizoru
Kaˇzd´ y poˇc´ıtaˇc v dan´e uˇcebnˇe m´a jen jednu s´ıt’ovou kartu, kter´a m´a z DHCP serveru (um´ıstˇen´em na u ´stavu) pˇridˇelenou (veˇrejnou) IP adresu. V ide´aln´ım pˇr´ıpadˇe abychom mohli vyuˇz´ıt vlastn´ı DHCP server a vyhnuli se tak manu´aln´ımu nastavov´an´ı, bude komunikace rozdˇelena pomoc´ı tagovan´ ych VLAN. Z´aroveˇ n t´ım oddˇel´ıme kolizn´ı dom´eny. S´ıtˇe typu VLAN budou dvˇe: VLAN s ID 100 pro komunikaci uzl˚ u klastru a VLAN s ID 200 pro spr´avu fyzick´ ych stroj˚ u. Komunikace virtu´aln´ıho windows serveru prob´ıh´a pˇres rozhran´ı br0 zapojen´em s eth0 v reˇzimu mostu. Fyzick´ y pˇrep´ınaˇc v uˇcebnˇe povol´ı komunikaci VLAN ID 100 a VLAN ID 200 jen na portech, na kter´e jsou zapojeny poˇc´ıtaˇce uˇcebny, takˇze zamez´ıme vˇsesmˇerov´emu vys´ıl´an´ı mimo uˇcebnu. Prerekvizity hardwaru Pˇred samotnou instalac´ı hypervizoru na hostuj´ıc´ı (fyzick´ y) poˇc´ıtaˇc, je nutno zapnout podporu virtualizace (Intel VT nebo AMD-V). V BIOSu se tato mmoˇznost skr´ yv´a pod volbou Chipset, Advanced CPU Configuration nebo Northbridge. Pokud jsou dostupn´e volby Intel VTd nebo AMD IOMMU zapneme je tak´e. Slouˇz´ı k mapov´an´ı PCI zaˇr´ızen´ı. Pˇ r´ıprava hostitelsk´ eho operaˇ cn´ıho syst´ emu Nejprve se nainstaluje podkladov´ y operaˇcn´ı syst´em. Stejnˇe jako u virtu´aln´ıch stroj˚ u uvodce. je pouˇzit Centos 6.3 x86 x64. Instalaci prob´ıhala za pomoci grafick´eho pr˚ Konfigurace se vol´ı nasleduj´ıc´ı: • Jazyk instalace vybr´an anglick´ y (en-US.UTF-8) • Rozloˇzen´ı kl´avesnice U.S. International. ˇ • Casov´ a z´ona zvolena Evropa/Praha. • Heslo roota: hesloheslo“. ” • Pˇri v´ ybˇeru rozdˇelen´ı disku zvolena moˇznost Vytvoˇrit odd´ıly ruˇcnˇe“. ” V´ ysledn´a tabulka disku viz tabulka 2.1. Tab. 2.1: Tabulka rozdˇelen´ı disku pˇri instalaci Odd´ıl sda1 sda2 sda3 sda4
Velikost (MB) Pˇripojit do 250 /boot 1024 10240 / zbytek /data
21
Typ Form´atovat ext4 ano swap ano ext4 ano ext4 ano
• Zapsat odd´ıly a naform´atovat. • Zavadˇeˇc syst´emu (GRUB) instalovat na /dev/sda. • Pˇri v´ yberu rozsahu instalace ponech´ana volbu minim´aln´ı“ a zvoleno upravit ” ” v´ ybˇer ted’“. Vybr´any nav´ıc tyto bal´ıky: openssh, vim, which, yum, yum-utils, tigervnc . Instalaˇcn´ı skupiny: basic-desktop, 11x, virtualization-client, virtualization. Po restartu zkontrolujeme, zda fyzick´e zaˇr´ızen´ı obsahuje rozˇs´ıˇren´ı pro virtualizaci. To lze vyˇc´ıst ze souboru /proc/cpuinfo z ˇca´sti flags. Jelikoˇz se jedn´a o poˇc´ıtaˇce s procesory platformy Intel, kl´ıˇcov´ y pˇr´ıznak je pˇr´ıznak vmx (v pˇr´ıpadˇe platformy AMD se pˇr´ıznak jmenuje svm). S´ıt’ov´ e rozhran´ı N´azev poˇc´ıtaˇce se nastavuje v souboru /etc/sysconfig/network: NETWORKING=yes HOSTNAME=hypervizor V souboru /etc/sysconfig/network-scripts/ifcfg-eth0 nastav´ıme s´ıt’ov´e rozhran´ı eth0. DEVICE=eth0 ONBOOT=yes BOOTPROTO=none TYPE=Ethernet HWADDR=E2:11:4C:5D:92:10 BRIDGE=br0 Vytvoˇr´ıme s´ıt’ov´e rozhran´ı br0 typu most bridge, kter´e bude pˇr´ımo komunikovat pˇres rozhran´ı eth0. Pouˇzijeme ho pro virtu´aln´ı stroj s Windows. V operaˇcn´ıho syst´emu virtu´aln´ıho stroje toto zaˇr´ızen´ı nastav´ıme do reˇzimu DHCP, kterou bude z´ısk´avat z DHCP serveru u ´stavu. DEVICE=br0 ONBOOT=yes BOOTPROTO=none TYPE=Bridge Uzel klustru bude pˇripojen pˇres s´ıt’ov´e rozhran´ı eth0.100, kter´e je v tagovan´e VLAN s ID 100. Rozhran´ı bude takt´eˇz nastaveno zevnitˇr operaˇcn´ıho syst´emu. Zjist´ıme prvnˇe, jestli jsou naˇcten´e moduly j´adra 8021q: lsmod | grep 8021q
22
a pokud nejsou, tak je naˇcteme: modprobe 8021q Vytvoˇr´ıme soubor /etc/sysconfig/network-scripts/ifcfg-eth0.100 DEVICE=eth0.100 ONBOOT=yes BOOTPROTO=none VLAN=yes Druh´e s´ıt’ov´e rozhran´ı eth0.200 pro spr´avu hypervizoru je nastaveno takto: DEVICE=eth0.200 ONBOOT=yes BOOTPROTO=static NETWORK=192.168.99.0 IPADDR=192.168.99.250 TYPE=Ethernet VLAN=yes Restartujeme s´ıt’ovou sluˇzbu: service network restart Konfiguraci jednoduˇs´ıme vypnut´ım SELinux pomoc´ı /etc/sysconfig/selinux. Po t´eto zmˇenˇe je nezbytn´e restartovat poˇc´ıtaˇc. V´ ysledn´a konfigurace vypad´a takto: # This file controls the state of SELinux on the system. # SELINUX= can take one of these three values: # enforcing - SELinux security policy is enforced. # permissive - SELinux prints warnings instead of enforcing. # disabled - No SELinux policy is loaded. SELINUX=disabled # SELINUXTYPE= can take one of these two values: # targeted - Targeted processes are protected, # mls - Multi Level Security protection. SELINUXTYPE=targeted Povol´ıme port 22 pro sluˇzbu sshd pˇrid´an´ım z´aznamu -A INPUT -m state --state NEW -m tcp -p tcp --dport 22 -j ACCEPT do souboru /etc/sysconfig/iptables. Komunikaci na s´ıt’ov´em rozhran´ı br0 povol´ıme pˇrid´an´ım -A INPUT -i br0 -j ACCEPT. Soubor pak vypad´a takto:
23
*filter :INPUT ACCEPT [0:0] :FORWARD ACCEPT [0:0] :OUTPUT ACCEPT [0:0] -A INPUT -m state --state ESTABLISHED,RELATED -j ACCEPT -A INPUT -p icmp -j ACCEPT -A INPUT -i lo -j ACCEPT -A INPUT -i br0 -j ACCEPT -A INPUT -m state --state NEW -m tcp -p tcp --dport 22 -j ACCEPT -A INPUT -j REJECT --reject-with icmp-host-prohibited -A FORWARD -j REJECT --reject-with icmp-host-prohibited COMMIT
2.1.1
Omezen´ı uˇ zivatelsk´ eho pˇ r´ıstupu
Pro minimalizaci interakce uˇzivatel˚ u s hostitelsk´ ym syst´emem je vhodn´e zak´azat nˇekter´e kl´avesov´e zkratky a pˇr´ıkazy a umoˇznit uˇzivateli interaktivn´ı pr´aci jen s virtu´aln´ım strojem. D˚ uleˇzit´e je vytvoˇrit oddˇelen´ y, neprivilegovan´ yu ´ˇcet. Vytvoˇr´ıme bˇeˇzn´ y uˇzivatelsk´ yu ´ˇcet user useradd user passwd user Povol´ıme uˇzivateli automatick´e pˇrihl´aˇsen´ı bez v´ yzvy k heslu z´aznamem v konfiguraˇcn´ım souboru spr´avce desktopu /etc/X11/gdm/gdm.conf. AutomaticLoginEnable=true AutomaticLogin=user V domovsk´em adres´aˇri uˇzivatele user vytvoˇr´ıme soubor skript spouˇstˇej´ıc´ı vnc klienta s n´azvem vncviewer, kter´ y se napoj´ı na virtu´aln´ı stroj s Windows, pojmenujeme jej auto_vnc.sh. #!\bin\bash /usr/vncviewer \ #vypne kompresi -NOJPEG=1 \ #spouˇ st´ ı v reˇ zimu cel´ e obrazovky -FULLSCREEN=1 \ #bez pouˇ zit´ ı kodek˚ u kv˚ uli rychlosti a kvalitˇ e obrazu -PreferredEncoding=raw
24
#pln´ y rozsah barev -FullColor #nepouˇ z´ ıvat z´ astupn´ e znaky m´ ısto kurzoru -DotWhenNoCursor=0 #vstup do menu pomoc´ ı neexistuj´ ı kl´ avesy -MenuKey=F13 #adresa a port serveru 127. 0. 0.1:1 Aby se skript se spoˇstˇel automaticky pˇri grafick´em pˇrihl´aˇsen´ı, vytvoˇr´ıme soubor vncviewer.desktop v adres´aˇri uˇzivatele /home/user/.config/autostart/, kter´ y obsahuje: [Desktop Entry] Encoding=UTF-8 Name=TigerVNC Viewer Exec=/home/user/auto_vnc.sh Icon=tigervnc Terminal=false Type=Application Vypnut´ı zachycen´ı kl´avesov´e kombinace CTRL+ALT+DELETE se provede zakomentov´an´ım ˇr´adk˚ u v souboru /init/control-alt-delete.conf #start on control-alt-delete #exec /sbin/shutdown -r now "Control-Alt-Delete pressed" Zak´aˇzeme nepouˇz´ıvan´e termin´aly 2-6, t´ım zabr´an´ıme i jejich pˇrepnut´ı kl´avesami CTRL+ALT[F1-F7] modifikac´ı parametru ACTIVE_CONSOLES. Vynut´ıme heslo i v jednouˇzivatelsk´em reˇzimu nastaven´ım parametru SINGLE. Zmˇeny se t´ yk´aj´ı souboru /etc/sysconfig/init. ACTIVE_CONSOLES=/dev/tty[1] SINGLE=/sbin/sulogin
2.1.2
Vytvoˇ ren´ı virtu´ aln´ıch stroj˚ u
Virtu´aln´ı stroj s Windows serverem bude slouˇzit pro bˇeˇznou v´ yuku v uˇcebnˇe. Vhodn´ ymi volnˇe dostupn´ ymi n´astroji m˚ uˇzeme m´ısto nov´e instalace virtualizovat fyzick´ y stroj, napˇr. za pomoci VMware vCenter Converter Standalone [20]. Pˇrit tvorbˇe virtu´aln´ıho stroje vyuˇzijeme bal´ık aplikac´ı libvirt [15], kter´e slouˇz´ı pro pr´aci s virtualizaˇcn´ımi n´astroji. N´ıˇze je pˇr´ıkaz pro vytvoˇren´ı Windows VM. V z´avork´ach jsou uvedeny v´ yznamy parametr˚ u.
25
virt-install --connect qemu:///system --arch=x86_64 (typ architektury) --cpu host (okop´ ır˚ uj parametry cpu hostitele) --name windows7 (n´ azev VM) --ram 2048 (velikost pˇ ridˇ elen´ e ram) --vcpus=4 (poˇ cet virtu´ aln´ ıch cpu) --disk path=/data/windows7,size=100 (cesta a velikost v GB disku) --cdrom /mnt/Iso/win_7.iso (cesta k instalaˇ cn´ ımu m´ ediu) --vnc (umoˇ zn´ ı pˇ ripojen´ ı pomoc´ ı VNC) --vnclisten=127.0.0.1 (vnc naslouch´ a jen na lok´ aln´ ı adrese) --noautoconsole (zamez´ ı automatick´ emu otevˇ ren´ ı konzole) --os-type windows (typ OS) --os-variant win7 (varianta OS) --autostart (pˇ rı ´znak pro automatick´ e spouˇ stˇ en´ ı) --host-device 001.003 (pˇ ripojen´ ı USB zaˇ rı ´zen´ ı hostitele dle sbˇ ernice) --video=vga (grafick´ a karta typu vga) --hvm (nastav´ ı plnou virtualizaci) --network bridge=br0 (pˇ ripoj´ ı s´ ıt’ov´ e rozhran´ ı typu most br0) Pˇr´ıkaz pro vytvoˇren´ı linuxov´eho virtu´aln´ıho stroje pro klastr: virt-install --connect qemu:///system --arch=x86_64 (typ architektury) --cpu host (okop´ ır˚ uj parametry cpu hostitele) --name node (n´ azev VM) --ram 2048 (velikost pˇ ridˇ elen´ e ram) --vcpus=4 (poˇ cet virtu´ aln´ ıch cpu) --disk path=/data/window7,size=8 (cesta a velikost v GB disku) --cdrom /mnt/Iso/centos.iso (cesta k instalaˇ cn´ ımu m´ ediu) --vnc (umoˇ zn´ ı pˇ ripojen´ ı pomoc´ ı VNC - jen pro potˇ rebu instalace) --vnclisten=127.0.0.1 (vnc naslouch´ a jen na lok´ aln´ ı adrese) --noautoconsole (zamez´ ı automatick´ emu otevˇ ren´ ı konzole) --os-type linux (typ OS) --os-variant rhel6 (varianta OS) --autostart (pˇ rı ´znak pro automatick´ e spouˇ stˇ en´ ı) --video=cirrus (grafick´ a karta typu vga) --network bridge=eth0.100 (pˇ ripoj´ ı s´ ıt’ov´ e rozhran´ ı vlan 100) Nastav´ıme priority pˇriˇrazen´ı vcpu pomoc´ı n´astroje pomoc´ı n´astroje virsh. T´ım doc´ıl´ıme toho, stroj s windows bude m´ıt prioritnˇeji pˇridˇelov´an ˇcas CPU v pomˇeru
26
3:1 v˚ uˇci stroji klastru. V dobˇe, kdy stroj s windows nepoˇzaduje v´ ykon, m˚ uˇze uzel klastru (druh´ y virtu´aln´ı stroj) plnˇe vyuˇz´ıt prostˇredky hostitele, tj. neuplatˇ nuje se zm´ınˇen´ y pomˇer [24]. virsh schedinfo --set cpu_shares=3072 windows7 virsh schedinfo --set cpu_shares=1024 node Pro samotnou instalaci operaˇcn´ıch syst´em˚ u vyuˇzijeme n´astroj virt-viewer, kter´ y se pomoc´ı protokolu VNC pˇripoj´ı na virtu´aln´ı stroje a umoˇzn´ı grafickou instalaci. Pro vylepˇsen´ı v´ ykonu virtu´aln´ıho stroje s OS Windows se doporuˇcuje doinstalovat ovladaˇce virtio viz[23]. virt-viewer windows7 virt-viewer node
27
2.2
Pˇ r´ıprava virtu´ aln´ıch stroj˚ u klastru
Pˇri n´avrhu a instalaci jsem vych´azel ˇca´steˇcnˇe z doporuˇcen´ı viz [16, 2]. Vztvoˇr´ıme nˇekolik uzl˚ u klastru typu (slave) a jeden hlavn´ı uzel (master). Pro usnadnˇen´ı instalace byl prvnˇe vytvoˇren tzv. golden node“, po jeho z´akladn´ı konfiguraci (viz n´ıˇze), ” byl v prostˇred´ı jej lze snadno naklonovat. Jeden vybran´ y klon byl d´ale rozˇs´ıˇren jako hlavn´ı uzel master“. ”
2.3
Konfigurace ˇ r´ıd´ıc´ıho poˇ c´ıtaˇ ce
Prvotn´ı instalace uzlu golden node“ probˇehla pomoc´ı grafick´eho pr˚ uvodce. Zvolen´e ” volby v jednotliv´ ych kroc´ıch: • Jazyk instalace vybr´an anglick´ y (en-US.UTF-8) • Rozloˇzen´ı kl´avesnice U.S. International. ˇ • Casov´ a z´ona zvolena Evropa/Praha. • Heslo roota: hesloheslo“. ” • Pˇri v´ ybˇeru rozdˇelen´ı disku zvolena moˇznost Vytvoˇrit odd´ıly ruˇcnˇe“. V´ ysledn´a ” tabulka disku viz tabulka 2.2. Tab. 2.2: Tabulka rozdˇelen´ı disku pˇri instalaci Odd´ıl sda1 sda2 sda3
Velikost (MB) Pˇripojit do 250 /boot 1024 6941 /
Typ Form´atovat ext4 ano swap ano ext4 ano
• Zapsat odd´ıly a naform´atovat. • Zavadˇeˇc syst´emu (GRUB) instalovat na /dev/sda. • Pˇri v´ yberu rozsahu instalace ponech´ana volbu minim´aln´ı“ a zvoleno upra” ” vit v´ ybˇer ted’“. Vybr´any nav´ıc tyto bal´ıky: dhcp, openssh, , gcc, gcc-c++, vim, which, yum, yum-utils, nfs, nfs-utils, open-mpi, open-mpi-devel, mpich2-devel, mpich2, make Octave Program Octave nen´ı souˇc´ast´ı ˇza´dn´eho repozit´aˇre CentOSu, je tˇreba jej zkompilovat ze zdrojov´ ych k´od˚ u, nebo st´ahnout ze speci´aln´ıho repozit´aˇre EPEL. V tomto repozit´aˇri jsou upraveny a pˇreportov´any bal´ıky z distribuce Fedora tak, aby byly kompatibiln´ı s distribuc´ı CentOS. Aby se zabr´anilo koliz´ım s repozit´aˇri CentOS, jsou v tomto repozit´aˇri um´ıstˇeny jen bal´ıˇcky, kter´e v repozit´aˇr´ıch CentOSu v˚ ubec
28
nejsou. Rozhodl jsem se pro kompilaci ze zdrojov´ ych k´od˚ u, abych mˇel jistotu, ˇze byla sestavena se spr´avn´ ymi parametry. Protoˇze nˇekter´e nezbytn´e komponenty pro sestaven´ı Octave nejsou souˇc´ast´ı repozit´aˇr˚ u CentOSu, pˇrid´ame nejprve mezi repozit´aˇri i EPEL. Pro usnadnˇen´ı pr´ace pouˇzijeme pˇr´ıkaz yum-builddep, kter´ y automaticky vyhled´a z´avislosti pro Octave a nab´ıdne k instalaci. Pˇr´ıkazem wget st´ahneme zdrojov´e k´ody posledn´ı verze octave a rozbal´ıme je. rpm -Uvh http://dl.fedoraproject.org/pub/epel/6/i386/... ...epel-release-6-7.noarch.rpm yum-builddep octave wget ftp://ftp.gnu.org/gnu/octave/octave-3.6.3.tar.gz tar -xzf ./octave-3.6.3.tar.gz Po staˇzen´ı vˇsech potˇrebn´ ych knihoven a hlaviˇckov´ ych soubor˚ u provedeme sestaven´ı s parametry enable-dl“ kter´ y umoˇzn´ı Octave pracovat s dynamicky linko” van´ ymi externˇe zkompilovan´ ymi funkcemi (.oct soubory) a a enable-shared“, ” kter´ y povol´ı sd´ılen´e knihovny, coˇz zmenˇs´ı v´ yslednou velikost oct soubor˚ u a zkompilujeme. ./octave-3.6.3 ./configure --enable-dl --enable-shared make make install Po tomto kroku je jiˇz nezbytn´e vytvoˇrit klony z tohoto virtu´aln´ıho stroje, bude n´asledovat rozd´ıln´a konfigurace master a slave uzl˚ u. DHCP a konfigurace s´ıt’ov´ ych zaˇ r´ızen´ı Jednou z rol´ı hlavn´ıho uzlu (master u) je i pˇridˇelov´an´ı IP adres pomoc´ı protokolu DHCP, obsluhovat bude pouze VLAN 100 (tj. eth0.100 na hypervizoru) tj. pouze v r´amci uˇcebny. Konfiguraˇcn´ı soubor /etc/dhcp/dhcpd.conf vypad´a takto: option subnet-mask 255.255.255.0; option broadcast-address 192.168.99.255; option dns-name-server 192.168.99.250, 192.168.119.2 option routers 192.168.119.2 subnet 192.168.99.0 netmask 255.255.255.0 { #parametr urˇ cuj´ ıc´ ı, z ˇe m´ a naslouchat jen na zaˇ rı ´zen´ ı eth0 DHCPDARGS=eth0 group { # definice vˇ sech uzl˚ u i hlavn´ ıho uzlu (node0) host node0{ hardware ethernet 08:00:27:49:CE:A5;
29
fixed-address 192.168.99.250; } host node1{ hardware ethernet 08:00:27:30:12:89; fixed-address 192.168.99.1; } host node2{ hardware ethernet 08:00:27:A6:2F:DB; fixed-address 192.168.99.2; } host node3{ hardware ethernet 08:00:27:38:DA:4B; fixed-address 192.168.99.3; } host node4{ hardware ethernet 08:00:27:38:29:65; fixed-address 192.168.99.4; } } V p˚ uvodn´ım n´avrhu (viz [2]) byla chybnˇe pouˇzita volba not authoritative“ na ” rozsah extern´ı s´ıtˇe (ke kter´e je pˇr´ımo pˇripojena s´ıt’ov´em rozhran´ı eth1). Tato volba znamen´a jen, ˇze nebude vynucovat zmˇenu ip, ale nov´e poˇzadavky vybav´ı. Volba DHCPDARGS=0 znamen´a, ˇze d´emon dhcpd bude naslouchat jen na s´ıt’ov´em rozhran´ı eth0.100. Ide´aln´ı jmenn´a konvence je stejn´e ˇc´ıslo v n´azvu uzlu nodex i jako posledn´ı ˇc´ıslice v IP adrese 192.168.99.x. Je tak´e d˚ uleˇzit´e nakonfigurovat nastaven´ı s´ıt’ov´ ych zaˇr´ızen´ı aby bylo aktivn´ı po startu poˇc´ıtaˇce a pro konfiguraci pouˇz´ıvalo DHCP. Viz n´ıˇze: Nastaven´ı u ostatn´ıch uzl˚ u (slave): DEVICE=eth0 ONBOOT=yes BOOTPROTO=dhcp NETMASK=255.255.255.0 NETWORK=192.168.99.0 BROADCAST=192.168.99.255 U kaˇzd´eho uzlu je t´eˇz tˇreba prov´est nastaven´ı v souboru /etc/sysconfig/network:
30
NETWORKING=YES IPFORWARD=YES HOSTNAME=nodex kde x je ˇc´ıslo uzlu. Pomoc´ı pˇr´ıkazu: service network restart se provede restart s´ıt’ov´eho rozhran´ı a sluˇzeb s n´ım spojen´ ych. Na hlavn´ım uzlu spust´ıme DHCP a nastav´ıme u ´roveˇ n bˇehu sluˇzby DHCPD pˇr´ıkazy: service dhcpd start chkconfig dhcpd on DNS DNS sluˇzba realizov´ana nebyla, pˇreklady n´azv˚ u realizov´any pomoc´ı z´aznam˚ u v souboru /etc/hosts 192.168.99.250 192.168.99.1 192.168.99.2 192.168.99.3 192.168.99.4 ...
2.4
node0 node1 node2 node3 node4
Konfigurace souborov´ eho serveru
Uˇzivatel´e, kteˇr´ı budou pouˇz´ıvat sluˇzby clusteru potˇrebuj´ı m´ıt pˇr´ıstupn´a stejn´a data na vˇsech uzlech. Nasd´ılen´ı se prov´ad´ı pomoc´ı sluˇzby NFS (Network File System, s´ıt’ov´ y souborov´ y syst´em), kdy se domovsk´a sloˇzka uˇzivatel˚ u, fyzicky um´ıstˇen´a na hlavn´ı uzlu - node0, pˇripoj´ı na vˇsechny uzly. Pˇr´ıpojn´ ym bodem je /home. V hlavn´ım uzlu v souboru /etc/export nastav´ıme: /home/ 192.168.99.0/255.255.255.0(rw, sync, no_root_squash) /root 192.168.99.0/255.255.255.0(rw, sync, no_root_squash) sd´ılen´ı domovsk´e sloˇzky a sloˇzky roota pˇres danou pods´ıt’, kdy jsou s´ıt’ov´e sloˇzky urˇceny ke ˇcten´ı i k z´apisu, budou se synchronizovat a root do nich m˚ uˇze zapisovat. Povol´ıme rovnˇeˇz komunikaci /etc/sysconfig/iptables. [breaklines] -A INPUT -m state --state NEW -m tcp -p tcp --dport 2049 -j ACCEPT
31
Ve vˇsech podˇr´ızen´ ych uzlech (slave) vytvoˇr´ıme trval´e pˇripojen´ı pomoc´ı z´aznamu do souboru /etc/fstab 192.168.99.250:/home /home nfs rw, hard, intr 0 0 192.168.99.250:/root /root nfs rw, hard, intr 0 0 V masteru povol´ıme port 2049 [breaklines] -A INPUT -m state --state NEW -m tcp -p tcp --dport 2049 -j ACCEPT a odzkouˇs´ıme namapov´an´ı pomoc´ı pˇr´ıkazu, kter´ y pˇripoj´ı poloˇzky z /etc/fstab: mount -a Pˇr´ıkazy chkconfig nfsd on service nfsd start nastav´ıme u ´roveˇ n bˇehu a spust´ıme sluˇzbu.
2.5
Konfigurace v´ ypoˇ cetn´ıch server˚ u
Pro fungov´an´ı MPI a pro snadnˇejˇs´ı spr´avu je vhodn´e nastavit pˇrihlaˇsov´an´ı pˇres SSH bez hesla pomoc´ı certifik´atu. Vˇsichni uˇzivatel´e, jeˇz budou syst´em pouˇz´ıvat si vygeneruj´ı certifikaˇcn´ı p´ar pomoc´ı pˇr´ıkazu: ssh-keygen -t rsa ponechaj´ı default´ı um´ıstˇen´ı, heslo ponechaj´ı pr´azdn´e. Pomoc´ı pˇr´ıkazu cp si nakop´ıruj´ı veˇrejn´ y kl´ıˇc do souboru s autorizovan´ ymi kl´ıˇci: cp ~/.ssh/id_.pub ~/.ssh/authorized keys Veˇrejn´e kl´ıˇce poˇc´ıtaˇc˚ u lze velmi jednoduˇse z´ıskat a z´aroveˇ n i zapsat do souboru ∼/.ssh/known host pˇr´ıkazem ssh-keyscan -f hostsfile kde soubor hostsfile obsahuje DNS jm´ena vˇsech uzl˚ u. Budeme tento soubor vytv´aˇrit v pr˚ ubehu dalˇs´ıho kroku. V konfiguraˇcn´ıch souborech na vˇsech uzlech uprav´ıme /etc/ssh/ssh_config a /etc/ssh/sshd_config t´ım, ˇze odkomentujeme poloˇzky protocol 2, port 22, PubkeyAuthentication yes, IdentityFile ~/.ssh/id_rsa. ˇ ımˇz jsme povolili autentizaci pomoc´ı certifik´atu. C´ Povol´ıme na vˇsech uzlech komunikaci na portu 22. -A INPUT -m state --state NEW -m tcp -p tcp --dport 22 -j ACCEPT
32
OpenMPI, MPICH2 Pro zprovoznˇen´ı MPI plnˇe postaˇc´ı vytvoˇrit soubor ∼/.mpd.conf, kter´ y bude obsahovat z´aznam s tajnou hodnotou. Slouˇz´ı k zabezpeˇcen´ı relace. cd ~ touch .mpd.conf chmod 600 .mpd.conf echo mr45-j9z >>.mpd.conf Pˇr´ıkazem module avail zjist´ıme, kter´e module lze naˇc´ıst. Naˇcten´ı modulu v praxi znamen´a, ˇze syst´em s´am zmˇen´ı symbolick´e odkazy na bin´arn´ı soubory i knihovny jednotliv´ ych implementac´ı MPI, jeˇz jsou v syst´emu obsaˇzeny. Toto n´am usnadn´ı sestaven´ı a zkompilov´an´ı program˚ u pro paraleln´ı zpracov´an´ı. module avail --------------- /usr/share/Modules/modulefiles -----------dot module-info mpich2-i386 use.own module-cvs modules null ------------------ /etc/modulefiles -----------------openmpi-i386 Tˇemito pˇr´ıkazy dan´ y modul naˇcteme, zobraz´ıme, nebo uvoln´ıme: module load mpich2-i386 module list module unload mpich2-i386
2.6
Testov´ an´ı instalace
Funkˇcnost MPI byla otestov´ana pomoc´ı zkompilov´an´ı a spuˇstˇen´ı jednoduch´e u ´lohy typu hello world“. Zdrojov´e k´ody viz n´ıˇze (pˇrevza to z [17]) ”
EXECS=mpi_hello_world MPICC?=mpicc all: ${EXECS} mpi_hello_world: mpi_hello_world.c ${MPICC} -o mpi_hello_world mpi_hello_world.c
33
clean: rm ${EXECS} #include <mpi.h> #include <stdio.h> #include <stdlib.h> int main(int argc, char** argv) { // Initialize the MPI environment. The two arguments to //MPI Init are not currently used by MPI implementations, //but are there in case future // implementations might need the arguments. MPI_Init(NULL, NULL); // Get the number of processes int world_size; MPI_Comm_size(MPI_COMM_WORLD, &world_size); // Get the rank of the process int world_rank; MPI_Comm_rank(MPI_COMM_WORLD, &world_rank); // Get the name of the processor char processor_name[MPI_MAX_PROCESSOR_NAME]; int name_len; MPI_Get_processor_name(processor_name, &name_len); // Print off a hello world message printf("Hello world from processor %s, rank %d out of %d processors\n", processor_name, world_rank, world_size); // Finalize the MPI environment. //No more MPI calls can be made after this MPI_Finalize(); V´ ystup programu po spuˇstˇen´ı: mpirun -n 4 -machinefile hostnames ./mpi_hello_world.o
34
Hello Hello Hello Hello
world world world world
from from from from
processor processor processor processor
node0.mizde, node0.mizde, node1.mizde, node1.mizde,
rank rank rank rank
0 1 2 3
out out out out
of of of of
4 4 4 4
processors processors processors processors
Dalˇs´ım testem bylo spuˇstˇen´ı distribuovan´e u ´lohy v octave. Pouˇzit k tomu byl bal´ıˇcek OpenMPI_ext (viz [1, 9]) staˇziteln´ y ze str´anek sourceforge. Byla spuˇstˇena aplikace z tohoto bal´ıˇcku pro v´ ypoˇcet hodnoty Π nazvan´a Pi. octave -q --eval "pkg install openmpi_ext forge" mpiexec -1 -n 4 octave -q --eval "pkg load openmpi_ext; Pi(1E7,’s’)" ans = scalar structure containing the fields: pi = 3.1416 err = 4.4409e-16 time = 4.2019 Pˇr´ıkazem ps aux| grep octave na ostatn´ıch uzlech jsem ovˇeˇril, ˇze se v´ ypoˇcet dˇeje na vˇsech uzlech, nejen na masteru.
35
3
´ ER ˇ ZAV
Bˇehem t´eto diplomov´e pr´ace byly prostudov´any principy a techniky pro propojen´ı poˇc´ıtaˇc˚ u do klastru. Byly navrˇzeny jednotliv´e souˇca´sti v´ ypoˇcetn´ıho klastru a byla provedena jeho instalace do virtu´aln´ıho prostˇred´ı v r´amci nˇekolikati fyzick´ ych poˇc´ıtaˇc˚ u. Na z´akladˇe tˇechto znalost´ı byl vytvoˇren z´aklad pro re´aln´ y klastr, jenˇz bude sloˇzen´ y z bˇeˇzn´ ych poˇc´ıtaˇc˚ u v laboratoˇri na fakultˇe elektrotechniky.
36
LITERATURA [1] Creel, M. Using Parallelization to Solve a Macroeconomic Model: A Parallel Parameterized Expectations Algorithm.Computational Economics [online]. 2008, vol. 32, no. 4 s. 343-352. Dostupn´ y z WWW: http://www.springerlink.com/content/b2l43gg723781m87. ISSN 0927-7099. [2] Auffarth, B. How to Build a Linux Cluster for Scientific Computing, Institute for Bioengineering of Catalonia, Spain: 2009, s. 25., dostupn´e z WWW: http://euler.msi.ucsb.edu/notes/obsolete/dyi cluster.pdf. [3] Balaji P. a kol. MPICH2 Installer’s Guide Mathematics and Computer Science Division 1.5, Argonne National Laboratory, USA: 2012. [4] DAMGARD, I.; NIELSEN, J. B.; CRAMER, R. Multiparty Computation, an Introduction. [s.l.] : [s.n.], 2009. 83 s. Dostupn´ y z WWW:
. [5] Domovsk´a str´anka KVM [online][cit. 2013-05-20] Dostupn´ y z WWW: [6] Domovsk´a str´anka Xen [online][cit. 2013-05-20] Dostupn´ y z WWW: [7] Gropp W.; Lusk E. Goals Guiding Design: PVM and MPI. In: Proceedings of the IEEE International Conference on Cluster Computing, USA: Computer Society 2002, s. 257. ISBN 0-7695-1745-5. [8] Eaton, J. W. Octave. Dostupn´ y z WWW: http://www.gnu.org/software/octave/octave.html [9] Fernad´ez, J.; Anguita, M. SCE Toolboxes for the development of high-level parallel applications. Computational Science – ICCS 2006 [online]. 2006, vol. 3992 Dostupn´ y z WWW: http://www.springerlink.com/content/h586kvrl0577/. ISSN 0302-9743. [10] GNU R Dostupn´ y z WWW: http://cran.r-project.org/ [11] How to check if your hardware supports virtualization [online][cit. 2013-05-20] Dostupn´ y z WWW: . [12] Changelog 2.6.20 [online][cit. 2013-05-20], the Linux Kernel Organization, 2007, Dostupn´ y z WWW: .
37
[13] Intel virtualization [online][cit. 2013-05-20] Dostupn´ y z WWW: . [14] Kvm-Hypervisor [online][cit. 2013-05-20] Dostupn´ y z WWW: . [15] Libvirt [online][cit. 2013-05-20] Dostupn´ y z WWW: [16] Lucke, R. W. Building Clustered Linux Systems. 1 edition. Prentice Hall, 2004. 648 p. ISBN 978-0131448537 [17] MPI Tutorial [online]. posledn´ı aktualizace 21. 06. 2011 v 12:56, [cit. 2012-1207]. Dostupn´ y z WWW: [18] Odom, W. Poˇc´ıtaˇcov´e s´ıtˇe bez pˇredchoz´ıch znalost´ı. CP Books, Brno: 2005. 383 s. ISBN 80-251-0538-5 [19] Octave-Forge [online]. [cit. 2012-12-07]. Dostupn´ y z WWW: http://octave.sourceforge.net [20] Physical to virtual [online][cit. 2013-05-20] Dostupn´ y z WWW: [21] QEMU [online] [cit. 2013-05-24]. Dostupn´ y z WWW: . [22] Virtualization [online]. posledn´ı aktualizace 14. 12. 2012 v 13:02, [cit. 2012-1214]. Dostupn´ y z WWW: http://en.wikipedia.org/wiki/Virtualization [23] Windows VirtIO Drivers [online][cit. 2013-05-20] Dostupn´ y z WWW: [24] Working with libvirt cgroups [online][cit. 2013-05-20] Dostupn´ y z WWW:
38
˚ VELICIN ˇ SEZNAM SYMBOLU, A ZKRATEK API
Application programming interface
DNS
Domain name server
DHCP
Dynamic host configuration protocol
HA
High availability
KVM
Kernel-based virtual machine
LB
Load balancing
MPI
Message passing interface
NFS
Network File System
PVM
Parallel virtual machine
RHEL
Red Hat Enterprise Linux
SSH
Secure shell
VM
Virtual Machine
39