PARALELNÍ PROCESY A PROGRAMOVÁNÍ

´ Í PARALELNÍ PROCESY A PROGRAMOVAN 8 Paraleln´ı v´ ypoˇ cetn´ı modely Ing. Michal Bliˇ zn ˇ´ ak, Ph.D.

Zl´ın 2013

Tento studijn´ı materi´ al vznikl za finanˇcn´ı podpory Evropského sociáln´ıho fondu (ESF) a rozpoˇctu ˇceské republiky v rámci ˇreˇsen´ı projektu: CZ 1.07/2.2.00/15.0463, MOD´ ´ ´ ˚ ´ ERNIZACE VYUKOV YCH MATERIAL U A DIDAKTICKYCH METOD

OBSAH

1

Obsah 1 Parallel Random Access Machine (PRAM) model 1.1 Vlastnosti PRAM modelu . . . . . . . . . . . . . . . 1.2 Omezen´ı PRAM modelu . . . . . . . . . . . . . . . . 1.2.1 Soubˇeˇzn´ y pˇr´ıstup do sd´ılené pamˇeti . . . . . 1.3 V´ ypoˇcetn´ı s´ıla PRAM podmodel˚ u . . . . . . . . . . 1.4 Cena, optimalita a efektivnost PRAM algoritm˚ u . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

3 4 4 4 5 6

2 Simulace velk´ eho PRAM na mal´ em PRAM

6

3 Simulace silnˇ ejˇ s´ıho PRAM na slabˇ s´ım PRAM

7

4 Asynchronn´ı PRAM (APRAM) model 9 4.1 APRAM v´ ypoˇcet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 4.2 V´ ykonostn´ı parametry modelu APRAM . . . . . . . . . . . . . . . . . . . . . . . . . 10 5 Kontroln´ı ot´ azky

´ ´ ´ ˚ ´ MODERNIZACE VYUKOV YCH MATERIAL U A DIDAKTICKYCH METOD CZ.1.07/2.2.00/15.0463

11

OBSAH

ˇ Y ´ OBSAH PREDN ˇ ´ SKY ˇ STRUCN A Parallel Random Access Machine (PRAM) model Simulace velkého PRAM na malém PRAM Simulace silnˇejˇs´ıho PRAM na slabˇs´ım PRAM Asynchronn´ı PRAM (APRAM) model

MOTIVACE Paraleln´ı výpoˇcetn´ı modely slouˇz´ı jako teoretické rámce stanovuj´ıc´ı podm´ınky pro v´ ypoˇcet ˇcasové sloˇzitosti paraleln´ıch algoritm˚ u, kterou kromˇe poˇctu procesor˚ u a povahy algoritmu ovlivˇ nuje také pouˇzit´ a pamˇet’ov´ a architektura a zp˚ usob pˇr´ıstupu do sd´ılen´ ych pamˇet’ov´ ych oblast´ı. Tato kapitola pojedn´ av´ a o modelu PRAM a jeho vlastnostech a derivátech.

CÍL Obeznámit se s v´ ypoˇcetn´ım modelem PRAM a jeho základn´ımi vlastnosti. Pochopit, jak jednotlivé podmodely PRAM ovlivˇ nuj´ı ˇcasovou a prostorovou sloˇzitost paraleln´ıho algoritmu.


2

Parallel Random Access Machine (PRAM) model

1

3


PRAM model je jednoduch´ y model SIMD SMP systému. Vycház´ı z klasického RAM (Random Access Machine) modelu, kter´ y je definován tˇemito vlastnostmi [1]: • Základem RAM je v´ ypoˇ cetn´ı jednotka s uˇzivatelsky definovan´ ym programem. • Pro ˇcten´ı vstupn´ıch dat pouˇz´ıv´ a vstupn´ı p´ asku a pro zápis v´ ystupn´ıch dat v´ ystupn´ı p´ asku. • Poˇcet lok´ aln´ıch pamˇet’ov´ ych bunˇek je neomezen´ y. • Pamˇet’ové buˇ nky jsou schopny obsahovat ˇc´ısla neomezen´ e velikosti. • Systém podporuje instrukce pro aritmetické, logické a I/O operace a vˇetven´ı toku programu. • V´ ypoˇcet zaˇcne prvn´ı instrukc´ı a skonˇc´ı po proveden´ı instrukce HALT. • Vˇsechny instrukce trvaj´ı jednotkov´ y ˇcas bez ohledu na délku operand˚ u. ˇ • Casov´ a sloˇ zitost je definov´ ana jako poˇcet proveden´ ych instrukc´ı. • Pamˇ et’ov´ a sloˇ zitost je definov´ ana jako poˇcet pouˇzit´ ych pamˇet’ov´ ych bunˇek. PRAM model je zobecnˇen´ım RAM modelu; m´ısto jednoho procesoru bude pouˇzito v´ıce procesor˚ u pˇripojen´ ych ke spoleˇcné pamˇeti. Tyto procesory budou pracovat synchronnˇe jako u SIMD poˇc´ıtaˇce. Dalˇs´ı vlastnosti specifické pro PRAM model jsou: • PRAM obsahuje neomezen´ y poˇcet procesor˚ u P1 , P2 , ..., Pp . • Pamˇet’ je tvoˇrena neomezen´ ym poˇctem sd´ılen´ ych pamˇet’ov´ ych bunˇek M [1], M [2], ..., M [n]. • Kaˇzd´ y Pi m´ a vlastn´ı neomezenou lok´ aln´ı pamˇ et’ a zná sv˚ uj index i. • Kaˇzd´ y procesor m˚ uˇze pˇristupovat to kterékoliv sd´ılené pamˇet’ové buˇ nky v jednotkov´ em ˇ case. • Vstup a v´ ystup PRAM algoritmu se skládá z n/n0 poloˇzek uloˇzen´ ych ve sd´ılené pamˇeti. • PRAM instrukce tvoˇr´ı vˇzdy 3-f´ azové cykly: ˇ data ze sd´ılené pamˇeti do svého registru 1. Cti 2. Proved’ lok´ aln´ı v´ ypoˇcet 3. Zapiˇs data ze svého registru do sd´ılené pamˇeti • Procesory prov´ adˇej´ı tyto PRAM instrukce synchronnˇ e. • Konflikty soubˇeˇzného ˇcten´ı ˇci z´ apisu do sd´ılené pamˇeti je zapotˇreb´ı explicitnˇe oˇsetˇrit. • Procesory mohou komunikovat pouze ˇcten´ım/zápisem do sd´ılené pamˇeti. • P1 má speci´ aln´ı aktivaˇ cn´ı registr obsahuj´ıc´ı nejvyˇsˇs´ı index aktivn´ıho procesoru: 1. Na poˇc´ atku je aktivn´ı pouze P1 2. P1 spoˇc´ıt´ a poˇcet poˇzadovan´ ych aktivn´ıch procesor˚ u a nastav´ı aktivaˇcn´ı registr 3. Poté zaˇcnou prov´ adˇet své programy ostatn´ı aktivn´ı procesory • V´ ypoˇcet bˇeˇz´ı aˇz do doby, kdy se P1 zastav´ı (v té dobˇe jiˇz budou vˇsechny ostatn´ı procesory neaktivn´ı) • Paraleln´ı ˇ casov´ a sloˇ zitost je rovna ˇcasu v´ ypoˇctu P1 . • Prostorov´ a sloˇ zitost je rovna poˇctu pouˇzit´ ych pamˇet’ov´ ych bunˇek. ´ ´ ´ ˚ ´ MODERNIZACE VYUKOV YCH MATERIAL U A DIDAKTICKYCH METOD CZ.1.07/2.2.00/15.0463


1.1

4

Vlastnosti PRAM modelu

Aˇckoliv PRAM model ignoruje urˇcit´ a omezen´ı a detaily niˇzˇs´ıch vrstev paraleln´ıho systému, je pro tv˚ urce paraleln´ıch algoritm˚ u d˚ uleˇzit´ y, protoˇze: • je pˇ rirozen´ y, nebot’ poˇcet operac´ı proveden´ ych v jednom cyklu na p procesorech je nejv´ yˇse p. • je v´ ypoˇ cetnˇ e siln´ y, nebot’ jak´ ykoliv procesor m˚ uˇze ˇc´ıst ˇci zapisovat do sd´ılené pamˇet’ové buˇ nky v jednotkovém ˇcase. • je jednoduch´ y, nebot’ zanedb´ av´ a komunikaˇcn´ı a synchronizaˇcn´ı reˇzie. • m˚ uˇze slouˇzit jako zkuˇ sebn´ı model - neexistuje-li pro dan´ y problém rozumn´ y/efektivn´ı PRAM model, nem´ a smysl se snaˇzit vym´ yˇslet rozumn´ y/efektivn´ı ˇreˇsen´ı na reálném paraleln´ım systému. • je uˇ ziteˇ cn´ y, nebot’ je idealizac´ı existuj´ıc´ıch paraleln´ıch poˇc´ıtaˇc˚ u se sd´ılenou pamˇet´ı (SMP).

1.2

Omezen´ı PRAM modelu

Prakticky pouˇzitelné PRAM algoritmy mus´ı poˇc´ıtat s omezen´ımi, kter´ ymi je nutné korigovat nˇekteré velkorysé pˇredpoklady z´ akladn´ıho PRAM modelu a to zejména: • Omezen´ı velikosti slova: velikost slova procesor˚ u nebo pamˇet’ová buˇ nky je omezena. • Mal´ e PRAM: poˇcet procesor˚ u je v reálném svˇete omezen. Pokud je poˇcet procesor˚ u PRAM modelu vyˇsˇs´ı, fyzické procesory se mus´ı mezi nimi ”pˇrep´ınat”v reˇzimu sd´ılen´ı ˇcasu. • PRAM s malou pamˇ et´ı: poˇcet bunˇek sd´ılené pamˇeti je omezen. • Konflikty pˇ r´ıstupu do pamˇ eti: pro souˇcasn´ y pˇr´ıstup z v´ıce procesor˚ u do jedné sd´ılené pamˇet’ové buˇ nky jsou definov´ any jasné omezuj´ıc´ı podm´ınky, kter´ ym se budeme vˇenovat v následuj´ıc´ı kapitole. 1.2.1

Soubˇ eˇ zn´ y pˇ r´ıstup do sd´ılen´ e pamˇ eti

Z hlediska nutnosti oˇsetˇren´ı soubˇeˇzného pˇr´ıstupu ke sd´ılen´ ym pamˇet’ov´ ym buˇ nkám bylo definov´ ano ’ nˇekolik podmodel˚ u stanovuj´ıc´ıch podm´ınky omezuj´ıc´ı soubˇeˇzné pˇr´ıstupy k jedné pamˇet ové buˇ nce. Jedná se o podmodely ˇ adn´ • Exclusice Read Exclusive Write (EREW) PRAM - Z´ ym dvˇema procesor˚ um nen´ı povoleno ˇc´ıst ani zapisovat do téˇze pamˇet’ové buˇ nky souˇcasnˇe. • Concurent Read Exclusive Write (CREW) PRAM - Souˇcasné ˇcten´ı téˇze pamˇet’ové buˇ nky je povole, zapisovat vˇsak m˚ uˇze v dan´ y okamˇzik pouze jeden procesor. ˇ ıst sd´ılenou pamˇet’ovou buˇ • Exclusive Read Concurent Write (ERCW) PRAM - C´ nku m˚ uˇze v dan´ y omakˇzik pouze jeden procesor, souˇcasné zápisy do sd´ılené pamˇeti je povoleno v´ıc procesor˚ um. • Concurent Read Concurent Write (CRCW) PRAM - Jsou povolena jak souˇcasn´ a ’ ˇcten´ı, tak i z´ apisy do sd´ılené pamˇet ová buˇ nky. Je zˇrejmé ˇze pˇr´ıpady soubˇeˇzného zápisu (Concurent Write) je nutné dále upˇresnit pomoc´ı rozˇsiˇruj´ıc´ıch podmodel˚ u: ´ ´ ´ ˚ ´ MODERNIZACE VYUKOV YCH MATERIAL U A DIDAKTICKYCH METOD CZ.1.07/2.2.00/15.0463


5

• Prioritn´ı (Priority) CRCW - Procesor˚ um jsou pˇridˇeleny pevné priority a fyzick´ y zápis je povolen pouze procesoru s nejvyˇsˇs´ı prioritou ve skupinˇe ˇzadatel˚ u. • N´ ahodn´ y (Arbitrary) CRCW - Ukonˇcit zápis je povoleno náhodnˇe vybranému procesoru. • Shodn´ y (Common) CRCW - Existuje-li v´ıce ˇzádost´ı o zápis do dané pamˇet’ové buˇ nky, mus´ı b´ yt zapisovan´ a hodnota ve vˇsech ˇzádostech shodná. V´ yˇse uvedené podmodely ovlivˇ nuj´ı také celkov´ y paraleln´ı ˇcas algoritmu. Uved’me si jednoduch´ y pˇr´ıklad. Pˇ r´ıklad Uvaˇzujme p procesorov´ y PRAM kde p < n a pole n nesetˇr´ıdˇen´ ych hodnot uloˇzen´ ych ve ´ sd´ılené pamˇeti obsahuj´ıc´ı n r˚ uzn´ ych poloˇzek. Procesor P1 vlastn´ı hodnotu x. Ukolem je ozn´ amit procesoru P1 , zda se hodnota x naléz´ a ve vstupn´ım poli. 1. EREW PRAM algoritmus: (a) Procesor P1 rozeˇsle procesor˚ um P2 , ..., Pp hodnotu x v log p kroc´ıch pomoc´ı bin´ arn´ı distribuce kopi´ı. (b) Kaˇzd´ y procesor provede lok´ aln´ı hledán´ı v dn/pe poloˇzkách v dn/pe kroc´ıch. (c) Kaˇzd´ y procesor nastav´ı pˇr´ıznak Nalezeno a vˇsechny procesory povedou paraleln´ı redukci hodnot tˇechto pˇr´ıznak˚ u pomoc´ı binárn´ıho redukˇcn´ıho stromu v ˇcase O(log p). Celkov´ y paraleln´ı ˇcas je tedy T (n, p) = O(log p + n/p). ˇ sen´ı je podobné jako u EREW podmodelu pouze s t´ım 2. CREW PRAM algoritmus: Reˇ rozd´ılem, ˇze procesory P2 , ..., Pn si mohou naˇc´ıst hledanou hodnotu soubˇeˇznˇe ze sd´ılené pamˇet’ové buˇ nky v ˇcase O(1). Paraleln´ı ˇc´ as z´ avˇereˇcné redukce vˇsak z˚ ustává stejn´ y a pro se nemˇen´ı ani asymptotické vyjádˇren´ı celkového paraleln´ıho ˇcasu, které je tedy stejnˇe jako minule T (n, p) = O(log p+n/p). 3. Shodn´ y CRCW PRAM algoritmus: V této modifikaci trvá také závˇereˇcn´ y krok algoritmu konstantn´ı ˇcas O(1) nebot’ ty procesory, které nastavily pˇr´ıznak Nalezeno na hodnotu 1, mohou provést z´ apis do sd´ılené v´ ysledkové pamˇet’ové buˇ nky procesoru P1 souˇcasnˇe v jednom kroku. Celkov´ y paraleln´ı ˇcas poté bude T (n, p) = O(n/p), ˇc´ımˇz jsme se dostali k optimáln´ımu ˇreˇsen´ı.

1.3

V´ ypoˇ cetn´ı s´ıla PRAM podmodel˚ u

Jak bylo patrné z pˇr´ıkladu v kapitole 1.2.1, omezen´ı uvalená na jednotlivé podmodely PRAM ovlivˇ nuj´ı také ˇcasovou sloˇzitost algoritm˚ u a proto m˚ uˇzeme hovoˇrit o v´ ypoˇcetn´ı s´ıle jednotliv´ ych PRAM podmodel˚ u. Definice 1 PRAM podmodel A je v´ ypoˇ cetnˇ e silnˇ ejˇ s´ı neˇz podmodel B, ps´ ano A ≥ B, jestliˇze jakýkoliv algoritmus napsaný pro PRAM poˇc´ıtaˇc B pobˇeˇz´ı na stejnˇe velkém PRAM poˇc´ıtaˇci A beze zmˇeny a s t´ımtéˇz paraleln´ım ˇcasem. Lemma 1 Prioritn´ı CRCW ≥ N´ ahodný CRCW ≥ Shodný CRCW ≥ CREW ≥ EREW


Simulace velkého PRAM na malém PRAM

1.4

6

Cena, optimalita a efektivnost PRAM algoritm˚ u

Definice 2 Necht’ K je problém s mnoˇzinou vstupn´ıch dat o velikosti n. Pˇredpokl´ adejme, ˇze K lze ˇreˇsit na p-procesorovém PRAM poˇc´ıtaˇci algoritmem A v ˇcase T (n, p). Pak ˇrekneme, ˇze 1. A je efektivn´ı, jestliˇze T (n, p) = O(logO(1) n) a C(n, p) = O(SU (n) logO(1) n) 2. A je cenovˇ e optim´ aln´ı, jestliˇze T (n, p) = O(logO(1) n) a C(n, p) = O(SU (n)) 3. A je plnˇ e paraleln´ı, jestliˇze T (n, p) = O(1) a p = O(SU (n)) Plnˇe paraleln´ı algoritmy jsou tedy cenovˇe optim´ aln´ı.

2

Simulace velk´ eho PRAM na mal´ em PRAM

Model PRAM neomezuje n´ avrh´ aˇre paraleln´ıch algoritm˚ u ani z hlediska poˇctu procesor˚ u ani z hlediska poˇctu sd´ılen´ ych pamˇet’ov´ ych bunˇek. Situace se vˇsak m˚ uˇze radikálnˇe zmˇenit pˇri implementaci takového PRAM algoritmu na reálném PRAM poˇc´ıtaˇci (SMP), kter´ y nedisponuje potˇrebn´ ym poˇctem procesor˚ u nebo bunˇek sd´ılené pamˇeti. V takovém pˇr´ıpadˇe je potˇreba pˇristoupit k simulaci velkého PRAM poˇc´ıtaˇce na malém. Vˇ eta 1 Pˇredpokl´ adejme, ˇze p0 < p. Uvaˇzujme algoritmus A, který bˇeˇz´ı na p-procesorovém PRAM v t kroc´ıch. Pak lze A simulovat na p’-procesorovém PRAM v t0 = O(t · p/p0 ) kroc´ıch za pˇredpokladu, ˇze velikost sd´ılené pamˇeti je stejn´ a. D˚ ukaz. 1. Rozdˇelme p simulovan´ ych procesor˚ u do p0 skupin o velikosti p/p0 . 2. Pˇriˇrad’me kaˇzdému z p0 simuluj´ıc´ıch procesor˚ u jednu skupinu. 3. Kaˇzd´ y simuluj´ıc´ı procesor simuluje jeden krok své skupiny procesor˚ u: (a) proveden´ım nejdˇr´ıve vˇsech jej´ıch operac´ı READ a lokáln´ıch v´ ypoˇct˚ u, (b) proveden´ım jejich operac´ı WRITE poté. D˚ uleˇzit´ ym d˚ usledkem je, ˇze • Kaˇzd´ y PRAM algoritmus s cenou C(n, p) lze provést sekvenˇcnˇe v ˇcase T (n, 1) = C(n, p). • Pokud jsme navrhli PRAM algoritmus s cenou C(n, p) = o(SU (n)), pak jsme automaticky navrhli nov´ y nejlepˇs´ı sekvenˇcn´ı algoritmus. V pˇr´ıpadˇe, ˇze omezen´ı re´ alného PRAM poˇc´ıtaˇce spoˇc´ıvá v nedostateˇcném velikosti sd´ılené pamˇeti, je moˇzné chybˇej´ıc´ı pamˇet’ové buˇ nky simulovat v lokáln´ı pamˇeti procesor˚ u. Simuluj´ıc´ı procesory tak budou simulovat jak procesory p˚ uvodn´ı, tak také chybˇej´ıc´ı velkou sd´ılenou pamˇet’ pomoc´ı sv´ ych mal´ ych lok´ aln´ıch pamˇet´ı. Vˇ eta 2 Pˇredpokl´ adejme, ˇze m0 < m a uvaˇzujme algoritmus A, který bˇeˇz´ı na p-procesorovém PRAM s m pamˇet’ovými buˇ nkami v t kroc´ıch. Pak lze A simulovat na p’ = max(p, m’)-procesorovém PRAM s m’ pamˇet’ovými buˇ nkami v t0 = O(t · m/m0 ) kroc´ıch. ´ ´ ´ ˚ ´ MODERNIZACE VYUKOV YCH MATERIAL U A DIDAKTICKYCH METOD CZ.1.07/2.2.00/15.0463

Simulace silnˇejˇs´ıho PRAM na slabˇs´ım PRAM

7

D˚ ukaz. Pamˇet’ové buˇ nky simulovaného a simuluj´ıc´ıho poˇc´ıtaˇce budeme oznaˇcovat M [1, ..., m] a M 0 [1, ..., m0 ]. 1. Rozdˇelme m simulovan´ ych sd´ılen´ ych pamˇet’ov´ ych bunˇek do m0 souvisej´ıc´ıch u ´sek˚ u Si o ve0 likosti m/m . 2. Kaˇzd´ y simuluj´ıc´ı procesor Pi0 , 1 ≤ i ≤ p, bude simulovat Pi p˚ uvodn´ıho PRAM. 3. Kaˇzd´ y simuluj´ıc´ı procesor Pi0 , 1 ≤ i ≤ m0 , uloˇz´ı poˇcáteˇcn´ı obsah Si do své lokáln´ı pamˇeti a bude pouˇz´ıvat M 0 [i] jako pomocnou pamˇet’ovou buˇ nku pro simulován´ı pˇr´ıstupu k buˇ nkám Si . 4. Simulace jedné p˚ uvodn´ı operace READ: Kaˇzd´ y procesor Pi0 , i = 1, ..., max(p, m0 ), opakuje pro k = 1, ..., m/m0 : (a) je-li i ∈ 1, ..., m0 , zapiˇs hodnotu k-té buˇ nky svého u ´seku Si do M 0 [i]. (b) je-li i ∈ 1, ..., p a v nˇejakém M 0 [j] se objevila hodnota, kterou by simulovan´ y procesor Pi ˇcetl v tomto simulovaném kroku, pˇreˇcti ji. 5. Lokáln´ı v´ ypoˇcetn´ı krok procesoru Pi , i = 1, ..., p, je simulován procesorem Pi0 v jednom kroku. 6. Simulace jedné operace WRITE je analogická simulaci operace READ. ˇ Casov´ a sloˇzitost simulace pak plyne z faktu, ˇze jeden krok p˚ uvodn´ıho algoritmu je simulov´ an v 0 0 0 0 t = O(m/m ) + 1 + O(m/m ) = O(m/m ) kroc´ıch.

3

Simulace silnˇ ejˇ s´ıho PRAM na slabˇ s´ım PRAM

Jak jiˇz bylo zm´ınˇeno v kapitole 1.3, r˚ uzné podmodely PRAM maj´ı r˚ uznou v´ ypoˇcetn´ı s´ılu. Pˇri návrhu paraleln´ıho algoritmu se m˚ uˇze stát, ˇze v´ ypoˇcetn´ı s´ıla pouˇzitého podmodelu je vyˇsˇs´ı, neˇz v´ ypoˇcetn´ı s´ıle re´ alného PRAM poˇc´ıtaˇce, napˇr. pokud HW poˇc´ıtaˇce neum´ı oˇsetˇrit konflikty pˇr´ıstupu do sd´ılen´ ych pamˇet’ov´ ych bunˇek. V takovém pˇr´ıpadˇe je nutné pˇrikroˇcit k SW ˇreˇsen´ı konfliktn´ıch situac´ı, tj. k simulaci v´ ypoˇcetnˇe silnˇejˇs´ı PRAM podmodelu na v´ ypoˇcetnˇe slabˇs´ım PRAM poˇc´ıtaˇci. Vzhledem k tomu, ˇze moˇzn´ ych simulaˇcn´ıch kombinac´ı je velké mnoˇzstv´ı, zamˇeˇr´ıme se na extrémn´ı pˇr´ıpad simulace v´ ypoˇcetnˇe nejsilnˇejˇs´ıho prioritn´ıho CRCW PRAM na v´ ypoˇcetnˇe nejslabˇs´ım EREW PRAM. Uved’me si dvˇe moˇzné simulaˇcn´ı metody. Vˇ eta 3 Uvaˇzujme Prioritn´ı CRCW PRAM s prioritn´ım systémem zaloˇzeným na indexov´ an´ı procesor˚ u a to takovým, ˇze procesory s niˇzˇs´ım indexem maj´ı vyˇsˇs´ı prioritu. Jeden krok p-procesorového Prioritn´ıho CRCW PRAM s m buˇ nkami sd´ılené pamˇeti lze simulovat na p-procesorovém EREW PRAM s m · p buˇ nkami sd´ılené pamˇeti v t0 = O(log p) kroc´ıch. D˚ ukaz. 1. Kaˇzd´ y procesor Pk , k = 1, ..., p, v Prioritn´ım CRCW je simulován EREW procesorem Pk0 . 2. Kaˇzdá buˇ nka sd´ılené pamˇeti M [i], i = 1, ..., m, v Prioritn´ım CRCW je simulov´ ana polem p bunˇek sd´ılené pamˇeti M 0 [i, k], k = 1, ..., p, na EREW. M 0 [i, 1] hraje roli M [i]. M 0 [i, 2], ..., M 0 [i, p] jsou pomocn´ e buˇ nky organizované jako vnitˇ rn´ı uzly u ´ pln´ eho bin´ arn´ıho stromu Ti s p listy, i = 1, ..., m. V´ yˇska stromu Ti je dlog pe. 3. Simulace kroku prioritn´ı WRITE. Kaˇzd´ y EREW procesor mus´ı zjistit, zda je procesorem s nejmenˇs´ım indexem v r´ amci skupiny procesor˚ u, ˇzádaj´ıc´ıch o zápis do téˇze buˇ nky. Pokud ano, je v´ıtˇezem skupiny a m˚ uˇze provést zápis. Postup je následuj´ıc´ı: ´ ´ ´ ˚ ´ MODERNIZACE VYUKOV YCH MATERIAL U A DIDAKTICKYCH METOD CZ.1.07/2.2.00/15.0463

Simulace silnˇejˇs´ıho PRAM na slabˇs´ım PRAM

8

(a) Vˇsechny buˇ nky pomocn´ ych pol´ı M 0 [i, ∗] maj´ı nastaven´ y pˇr´ıznak s na pr´ azdný. (b) Pokud chce Pk zapisovat do M [i], procesor P 0 [k] se stane aktivn´ım a stane se k-t´ ym listem stromu Ti . V´ı, zda je prav´ ym ˇci lev´ ym listem vzhledem ke svému rodiˇci, tj. dané buˇ nce pomocného pole M 0 [i, ∗]. (c) Kaˇzd´ y aktivn´ı lev´ y procesor uloˇz´ı své ID do rodiˇcovské buˇ nky ve svém stromˇe, nastav´ı jej´ı pˇr´ıznak s na obsazen´ a a z˚ ustane aktivn´ı. (d) Kaˇzd´ y aktivn´ı prav´ y procesor zkontroluje svou rodiˇcovskou buˇ nku. Je-li s = pr´ azdn´ a, uloˇz´ı do n´ı své ID, nastav´ı s na obsazen´ a a z˚ ustane aktivn´ı. V opaˇcném pˇr´ıpadˇe se pˇrepne do stavu neaktivn´ı. (e) Toto se opakuje log p-kr´ at na dalˇs´ıch hladinách stromu. (f) Procesor, kterému se podaˇrilo postoupit do koˇrene Ti se stává v´ıtˇezem, kter´ y m˚ uˇze zapsat do M 0 [i, 1]. Procesory, které pouˇz´ıvaly strom Ti ho pak mus´ı proj´ıt dol˚ u v opaˇcném poˇrad´ı a vynulovat pˇr´ıznak s. 4. Simulace kroku Prioritn´ı READ je podobná. (a) Paralelnˇe se provedou stejné pr˚ uchody stromy Ti smˇerem nahoru, aby se urˇcili v´ıtˇezové ve skupin´ ach. (b) V´ıtˇezové pˇreˇctou hodnotu z bunˇek M 0 [∗, 1]. (c) Bˇehem zpˇetného pr˚ uchodu stromy Ti smˇerem dol˚ u si procesory, které prohrály, kromˇe nastavov´ an´ı pˇr´ıznaku s kop´ıruj´ı naˇctenou hodnotu. Druh´ y simulaˇcn´ı algoritmus m´ a stejnˇe jako pˇredchoz´ı optimáln´ı ˇcasovou sloˇzitost (i kdyˇz skryt´ a konstanta je vˇetˇs´ı), ale vyˇzaduje pomocné pole, kde staˇc´ı pouze jedna buˇ nka na jeden simulovan´ y procesor. Vˇ eta 4 Uvaˇzujme Prioritn´ı CRCW PRAM, kde procesory s niˇzˇs´ım indexem maj´ı vyˇsˇs´ı prioritu. Jeden krok Prioritn´ıho CRCW PRAM s p procesory a m buˇ nkami sd´ılené pamˇeti lze simulovat na EREW PRAM s p procesory a m + p buˇ nkami sd´ılené pamˇeti v t0 = O(log p) kroc´ıch. D˚ ukaz. 1. Kaˇzd´ y procesor Pk , k = 1, ..., p, v Prioritn´ım CRCW je simulován EREW procesorem P 0 k. 2. Kaˇzdá buˇ nka M [i], i = 1, ..., m, v Prioritn´ım CRCW je simulována EREW buˇ nkou M 0 [i]. 3. EREW pouˇz´ıv´ a pomocn´ e pole A s p buˇ nkami. 4. Chce-li Pk pˇr´ıstup do M [i], procesor Pk0 zap´ıˇse do buˇ nky A[k] dvojici (i, k), v opaˇcném pˇr´ıpadˇe zap´ıˇse dvojici (0, k). 5. Vˇsech p procesor˚ u provede paraleln´ı setˇr´ıdˇen´ı pole A podle index˚ u procesor˚ u lexikograficky vhodn´ ym EREW algoritmem s ˇcasovou sloˇzitost´ı O(log p)). 6. Kaˇzd´ y Pk0 pˇripoj´ı k buˇ nce A[k] pˇr´ıznak s, kde:  je-li prvn´ı poloˇzka dvojice A[k] bud’ rovna 0 nebo je-li shodná s prvn´ı poloˇzkou  0 pˇredchoz´ı dvojice A[k-1], s=  1 jinak. Dalˇs´ı kroky se liˇs´ı podle toho, zde simulujeme WRITE nebo READ. ´ ´ ´ ˚ ´ MODERNIZACE VYUKOV YCH MATERIAL U A DIDAKTICKYCH METOD CZ.1.07/2.2.00/15.0463

Asynchronn´ı PRAM (APRAM) model

9

7. Prioritn´ı WRITE: (a) Kaˇzd´ y Pk0 pˇreˇcte trojici (i, j, s) ze své buˇ nky A[k] a zap´ıˇse ji do A[j] (tato permutace je bezkonfliktn´ı). V tomto okamˇziku má kaˇzd´ y procesor Pk0 ve své buˇ nce A[k] zpˇet svoji trojici (∗, k, ∗). (b) Kaˇzd´ y Pk0 pˇreˇcte trojici (i, k, s) ze své buˇ nky A[k]. Je-li s = 1, stal se v´ıtˇezem a m˚ uˇze zapsat do M [i] svoji hodnotu. 8. Prioritn´ı READ: (a) Kaˇzd´ y Pk0 pˇreˇcte trojici (i, j, s) ze své buˇ nky A[k]. (b) Kaˇzd´ y Pk0 s s = 1 pˇreˇcte hodnotu vi z M 0 [i] a uloˇz´ı ji do trojice (i, j, vi ). Jelikoˇz ale d´ıky pˇredchoz´ımu tˇr´ıdˇen´ı doˇslo k permutaci trojic, nen´ı prozat´ım v A[k] jeho vlastn´ı v´ ysledek. (c) Sémantika operace Prioritn´ı READ je taková, ˇze kaˇ zd´ y, kdo poˇzádal o ˇcten´ı, by mˇel obsah poˇzadované buˇ nky dostat. Vzhledem k tomu, ˇze sousedn´ı buˇ nky v setˇr´ıdˇeném poli A obsahuj´ı poˇzadavky na stejné pamˇet’ové buˇ nky, provedou vˇsechny procesory pomoc´ı EREW algoritmu bin´ arn´ıho zdvojov´ an´ı jednoduˇse rozkop´ırován´ı trojice (i, ∗, vi ) do vˇsech (i, ∗, 0) v O(log p) kroc´ıch. nky A[k] a uloˇz´ı ji do A[j]. T´ım se poˇzadavek (d) Kaˇzd´ y Pk0 pˇreˇcte trojici (i, j, vi ) ze své buˇ dost´ av´ a do buˇ nky svého p˚ uvodce. y ˇz´ adal o READ si pˇreˇcte hodnotu vi z trojice (i, k, vi ) ze své buˇ nky A[k]. (e) Kaˇzd´ y Pk0 , kter´

4


Reálné paraleln´ı poˇc´ıtaˇce se vetˇsinou od idealizovaného PRAM modelu liˇs´ı v nˇekolika d˚ uleˇzit´ ych skuteˇcnostech: jednak jejich procesory nepracuj´ı synchronnˇe a nav´ıc pˇr´ıstup do sd´ılené pamˇeti je ˇcasovˇe nároˇcnˇejˇs´ı neˇz pˇr´ıstup do lok´ aln´ıch registr˚ u. Z tohoto d˚ uvodu je uˇziteˇcné m´ıt k dispozici model, kter´ y bude lépe reflektovat moˇznosti reáln´ ych poˇc´ıtaˇc˚ u. T´ım m˚ uˇze b´ yt napˇr´ıklad model APRAM (Asynchronous PRAM), kter´ y se od klasického PRAM odliˇsuje tˇemito vlastnostmi: • procesory pracuj´ı asynchronnˇe, • procesory je potˇreba explicitnˇe synchronizovat, • a doba pˇr´ıstupu do sd´ılené pamˇeti nen´ı jednotková.

4.1

APRAM v´ ypoˇ cet

APRAM v´ ypoˇcet m˚ uˇze prov´ adˇet instrukce 4 typ˚ u: 1. Glob´ aln´ı ˇ cten´ı - pˇreˇcte obsah sd´ılené pamˇet’ové buˇ nky do lokáln´ı pamˇeti. 2. Lok´ aln´ı v´ ypoˇ cet - provede jakoukoliv RAM instrukci s operandy a v´ ysledky uloˇzen´ ymi v lokáln´ı pamˇeti. 3. Glob´ aln´ı z´ apis - zap´ıˇse hodnotu z lokáln´ı pamˇeti do sd´ılené pamˇeti. 4. Bari´ erov´ a synchronizace - kaˇzd´ y proces se v bodˇe bariéry zastav´ı aˇz do doby, neˇz k n´ı doraz´ı vˇsechny zb´ yvaj´ıc´ı procesy, pro které byla bariéra definována. Výpoˇcet na APRAM je pak definov´ an jako posloupnost asynchronnˇe prov´ adˇených glob´ aln´ıch f´ az´ı oddˇelených bariérovou synchronizac´ı. V r´ amci daných glob´ aln´ıch f´ az´ı mus´ı být z´ apis do sd´ılených pamˇet’ových bunˇek exkluzivn´ı. ´ ´ ´ ˚ ´ MODERNIZACE VYUKOV YCH MATERIAL U A DIDAKTICKYCH METOD CZ.1.07/2.2.00/15.0463


4.2

10

V´ ykonostn´ı parametry modelu APRAM

Sloˇzitost jednotliv´ ych APRAM operac´ı je následuj´ıc´ı: • Sloˇzitost lok´ aln´ı operace je 1. • Sloˇzitost glob´ aln´ı operace ˇcten´ı nebo zápisu je obecnˇe d. Pro jednoduchost pˇredpoklád´ ame, ˇze d ≥ 2 je konstanta. • Sloˇzitost implementace bariéry b(p) je vˇzdy neklesaj´ıc´ı funkc´ı p, kde d ≤ b(p) ≤ p. Typické hodnoty jsou b(p) = Θ(d log p) pro implementaci pomoc´ı binárn´ıho redukˇcn´ıho stromu nebo b(p) = Θ(d · p) pro implementaci pomoc´ı centráln´ıho ˇc´ıtaˇce [1]. • k po sobˇe jdouc´ıch operac´ı glob´ aln´ıho ˇcten´ı nebo zápisu má sloˇzitost d + k − 1, ne d · k, jak by se dalo pˇredpokl´ adat, coˇz odr´ aˇz´ı vlastnosti souˇcasn´ ych sbˇernicov´ ych systém˚ u [1].


Kontroln´ı otázky

5

11

Kontroln´ı ot´ azky • Co je to v´ ypoˇcetn´ı model PRAM a k ˇcemu slouˇz´ı? • Jaké rozliˇcujeme v´ ypoˇcetn´ı podmodely PRAM z hlediska ˇr´ızen´ı soubˇeˇzného pˇr´ıstupu k pamˇet’ov´ ym buˇ nk´ am? • Jak´ ym zp˚ usobem ovlivˇ nuje simulace vˇetˇs´ıho PRAM na menˇs´ım ˇcasovou a pamˇet’ovou sloˇzitost algoritmu? • Jak´ ym zp˚ usobem ovlivˇ nuje simulace silnˇejˇs´ıho PRAM na slabˇs´ım ˇcasovou a pamˇet’ovou sloˇzitost algoritmu?


REFERENCE

Reference ˇ [1] Pavel Tvrd´ık. Paraleln´ı systémy a algoritmy. Vydavatelstv´ı CVUT, Praha, 2005.


12

PARALELNÍ PROCESY A PROGRAMOVÁNÍ

Recommend Documents