PARALELNÍ PROCESY A PROGRAMOVÁNÍ

´ Í PARALELNÍ PROCESY A PROGRAMOVAN 6 Anal´ yza sloˇ zitosti algoritm˚ u - cena, pr´ ace a efektivita Ing. Michal Bliˇ zn ˇ´ ak, Ph.D.

Zl´ın 2013

Tento studijn´ı materi´ al vznikl za finanˇcn´ı podpory Evropského sociáln´ıho fondu (ESF) a rozpoˇctu ˇceské republiky v rámci ˇreˇsen´ı projektu: CZ 1.07/2.2.00/15.0463, MOD´ ´ ´ ˚ ´ ERNIZACE VYUKOV YCH MATERIAL U A DIDAKTICKYCH METOD

OBSAH

1

Obsah 1 Kvalitativn´ı mˇ eˇ r´ıtka paralelizace algoritmu 1.1 Cena algoritmu . . . . . . . . . . . . . . . . 1.2 Paraleln´ı pr´ ace . . . . . . . . . . . . . . . . 1.3 Efektivita algoritmu . . . . . . . . . . . . . 1.3.1 Brent˚ uv simulaˇcn´ı princip . . . . . . 1.3.2 Izoefektivita paraleln´ıho algoritmu . 1.3.3 Absolutnˇe minim´ aln´ı paraleln´ı ˇcas . 1.3.4 Karp-Flattova metrika . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

2 Pˇ r´ıklad anal´ yzy paraleln´ıho algoritmu 3 Kontroln´ı ot´ azky

´ ´ ´ ˚ ´ MODERNIZACE VYUKOV YCH MATERIAL U A DIDAKTICKYCH METOD CZ.1.07/2.2.00/15.0463

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

3 3 3 3 5 5 7 7 9 12

OBSAH

ˇ Y ´ OBSAH PREDN ˇ ´ SKY ˇ STRUCN A Kvalitativn´ı mˇeˇr´ıtka paralelizace algoritmu Pˇr´ıklad anal´ yzy paraleln´ıho algoritmu

MOTIVACE Analýza sloˇzitosti algoritm˚ u umoˇzn ˇuje zjistit ˇcasové a pamˇet’ové charakteristiky jednotliv´ ych algoritm˚ u. Na z´ akladˇe tˇechto anal´ yz lze urˇcit vhodnost jednotliv´ ych algoritm˚ u pro ˇreˇsen´ı konkrétn´ıch u ´loh a také to, zda má smysl urˇcit´ y algoritmus implementovat. Tato kapitola pojedn´ av´ a o anal´ yze ˇcasové a pamˇet’ové sloˇzitosti sekvenˇcn´ıch a paraleln´ıch algoritm˚ u a o moˇznostech urˇcen´ı kvalitativn´ıch mˇeˇr´ıtek paraleln´ıch algoritm˚ u.

CÍL Nauˇcit se stanovit cenu, pr´ aci a efektivitu paraleln´ı algoritmu a prozkoumat jeho ˇskálovatelnost.


2

Kvalitativn´ı mˇeˇr´ıtka paralelizace algoritmu

1

3

Kvalitativn´ı mˇ eˇ r´ıtka paralelizace algoritmu

Stanoven´ım zrychlen´ı paraleln´ıho algoritmu jeho anal´ yza zdaleka nekonˇc´ı. Dalˇs´ımi d˚ uleˇzit´ ymi mˇeˇr´ıtky kvality paralelizace je cena, práce a zejména efektivita nového paraleln´ıho algoritmu. Vyjádˇren´ım a zkoum´ an´ım tˇechto mˇeˇr´ıtek lze zjistit, zda byla paralelizace algoritmu provedena optimálnˇe a u ´ˇcelnˇe. Také je zapotˇreb´ı prozkoumat, zda je dan´ y paraleln´ı algoritmus dostateˇcnˇe ˇskálovateln´ y, tzn. zda lze mˇenit poˇcet v´ ypoˇcetn´ıch jednotek (CPU) pod´ılej´ıc´ıch se na v´ ypoˇctu podle potˇreb tak, aby nebyla negativnˇe ovlivnˇena jak cena, tak i efektivita paraleln´ıho algoritmu. Následuj´ıc´ı kapitoly popisuj´ı stanoven´ı jednotliv´ ych kvalitativn´ıch mˇeˇr´ıtek paralelizace a ukazuj´ı také dalˇs´ı metody vhodné ke zjiˇstˇen´ı pˇr´ıˇcin jej´ı pˇr´ıpadné neefektivnosti.

1.1

Cena algoritmu

Cena paraleln´ıho algoritmu vyjadˇruje jak´ ych náklad˚ u jsme museli vynaloˇzit na dosaˇzen´ı konkrétn´ıho paraleln´ıho ˇcasu a je definov´ ana jako K CA (n) = C(n, p) = p · T (n, p)

(1)

Obecnˇe lze ˇr´ıci, ˇze C K (n, p) = Ω(SU K (n)) Definice 1 M˚ uˇzeme-li tvrdit, ˇze C K (n, p) = O(SU K (n)), pak je paraleln´ı algoritmus cenovˇ e optim´ aln´ı.

1.2

Paraleln´ı pr´ ace

Práce paraleln´ıho algoritmu pˇredstavuje celkov´ y poˇcet aktivnˇe pracuj´ıc´ıch procesor˚ u ve vˇsech kroc´ıch paraleln´ıho algoritmu. Oznaˇcme t0 = T (n, p), pak paraleln´ı práci definujeme jako WAK (n) = W (n, p) = N1 + N2 + ... + Nt0

(2)

kde Ni je poˇcet aktivnˇe pracuj´ıc´ıch procesor˚ u v kroku i = 1, 2, ..., t0 . Je zˇrejmé, ˇze W (n, p) ≤ C(n, p), jelikoˇz C(n, p) zahrnuje také zahálej´ıc´ı procesory. V praxi se pro urˇcen´ı kvality paraleln´ıho algoritmu uvád´ı sp´ıˇse C(n, p), protoˇze jeho hodnota lépe reflektuje celkové vyt´ıˇzen´ı paraleln´ıho systému. To je dáno t´ım, ˇze zahálej´ıc´ı procesory nen´ı vˇzdy moˇzné z d˚ uvodu architektonického omezen´ı paraleln´ıho systému uvolnit pro dalˇs´ı vyuˇzit´ı a proto je hodnota W (n, p) pˇr´ıliˇs optimistick´ a. Definice 2 Plat´ı-li tvrzen´ı, ˇze W K (n, p) = O(SU K (n)), pak lze paraleln´ı algoritmus povaˇzovat za pracovnˇ e optim´ aln´ı.

1.3

Efektivita algoritmu

Jednou z nejd˚ uleˇzitˇejˇs´ıch metrik kvality paraleln´ıho algoritmu je jeho efektivita, kterou lze ch´ apat jako m´ıru vyt´ıˇzen´ı procesor˚ u. Efekticitu paraleln´ıho algoritmu oznaˇcujeme jako K EA (n)

(3)

E(n, p)

(4)

nebo zjednoduˇsenˇe

a lze ji vyj´ adˇrit vztahem



4

SU K (n) C K (n, p)

(5)

SU K (n) S(n, p) · T (n, p) S(n, p) = = ≤1 C K (n, p) p · T (n, p) p

(6)

E(n, p) = Vztah 5 lze rozvinout jako E(n, p) =

coˇz znamen´ a, ˇze efektivitu paraleln´ıho algoritmu lze chápat také jako jeho zrychlen´ı na procesor a jej´ı hodnota bude vˇzdy ≤ 1 (v ide´ aln´ı pˇr´ıpadˇe = 1 pro paraleln´ı algoritmy s lineárn´ım zrychlen´ım). Z toho vypl´ yv´ a, ˇze algoritmus je cenovˇ e optim´ aln´ı ⇔ má line´ arn´ı zrychlen´ı ⇔ má konstantn´ı efektivitu. Obecnˇe lze v souladu s Amdahlov´ ym efektem ˇr´ıci, ˇze rostouc´ı velikost problému n a pˇri zachov´ an´ı konstantn´ı hodnoty poˇctu procesor˚ u p má tendenci zvyˇsovat zrychlen´ı paraleln´ıho algoritmu a t´ım také jeho efektivitu. Naopak, ne´ umˇerné zvyˇsován´ı poˇctu procesor˚ u má za následek r˚ ust paraleln´ı reˇzie a t´ım také sn´ıˇzen´ı zrychlen´ı a efektivity. Typické pr˚ ubˇehy paraleln´ıho ˇcasu, zrychlen´ı a efektivity jsou zobrazeny na obr´ azku 1.

Obr´ azek 1: Typické pr˚ ubˇehy T (n, p), E(n, p) a S(n, p) v závislosti na zmˇenˇe n Zdroje neefektivity paraleln´ıho algoritmu mohou b´ yt • nedostatek uˇ ziteˇ cn´ e pr´ ace pro dan´ y poˇcet procesor˚ u, • velk´ e komunikaˇ cn´ı n´ aklady v porovnán´ı s v´ ypoˇcetn´ı sloˇzitost´ı, • velk´ a synchronizaˇ cn´ı reˇ zie, • ˇ spatn´ a distribuce pr´ ace (nerovnomˇerné rozdˇelen´ı práce) mezi procesory. Neefektivitu paraleln´ıho algoritmu lze odstranit dvoj´ım zp˚ usobem: technologicky a algoritmicky. Technologick´ y pˇr´ıstup zahrnuje • pouˇzit´ı rychlejˇs´ıho komunikaˇcn´ıho HW, • zmenˇsen´ı SW komunikaˇcn´ı reˇzie, • pˇrekr´ yv´ an´ı komunikaˇcn´ıch a v´ ypoˇcetn´ıch operac´ı. Algoritmick´ y pˇr´ıstup zahrnuje • respektov´ an´ı ˇ sk´ alovatelnosti problému volnou vhodné granularity, ´ ´ ´ ˚ ´ MODERNIZACE VYUKOV YCH MATERIAL U A DIDAKTICKYCH METOD CZ.1.07/2.2.00/15.0463


5

• dobré statické mapov´ an´ı algoritmu na paraleln´ı architekturu, • rovnomˇerné statické rozdˇelen´ı v´ ypoˇcetn´ı zátˇeˇze, • vhodné pˇredˇrazov´ an´ı komunikaˇcn´ıch operac´ı pˇred m´ısta v programu, kde jsou vymˇen ˇovan´ a data potˇreba. Je zˇrejmé, ˇze vyuˇzit´ı algoritmického pˇr´ıstupu bude ve vˇetˇsinˇe pˇr´ıpad˚ u v´ yhodnˇejˇs´ı; náklady na u ´pravu a optimalizaci paraleln´ıho algoritmu budou menˇs´ı neˇz náklady na u ´pravu (upgrade) v´ ypoˇcetn´ıho HW. Z algoritmick´ ych moˇznost´ı sn´ıˇzen´ı neefektivity paraleln´ıho algoritmu se pak nejˇcastˇeji vyuˇz´ıv´ a moˇznosti vhodného ˇ sk´ alov´ an´ı paraleln´ıho algoritmu. ˇ alovatelnost´ı paraleln´ıho algoritmu budeme rozumˇet jeho schopnost pˇrizp˚ Sk´ usobit se mˇen´ıc´ımu poˇctu procesor˚ u nebo velikosti ˇreˇseného problému pˇri udrˇzen´ı co nejlepˇs´ı efektivity. 1.3.1

Brent˚ uv simulaˇ cn´ı princip

V pˇr´ıpadˇe, ˇze n´ aˇs paraleln´ı algoritmus pouˇz´ıvá neprakticky velké mnoˇzstv´ıá procesor˚ u, lze jeho ˇskálován´ım sn´ıˇzi cenu a t´ım zv´ yˇsit jeho efektivitu. Je-li poˇcet procesor˚ u menˇs´ı neˇz stupeˇ n paralelizmu a pˇredpokl´ ad´ ame-li n´ızké komunikaˇcn´ı reˇzie, m˚ uˇzeme pouˇz´ıt Brent˚ uv simulaˇ cn´ı princip, podle kterého nem˚ uˇze m´ıt simulace ˇrádovˇe horˇs´ı ani práci ani cenu. Vˇ eta 1 Uvaˇzujme problém K o velikosti n ˇreˇsitelný v t paraleln´ıch kroc´ıch na pP procesorech pˇri zanedb´ an´ı komunikaˇcn´ı reˇzie. Necht’ mi je poˇcet operac´ı v kroku i. Pak W (n, p) = ti=1 mi a staˇc´ı p = maxti=1 mi procesor˚ u, ˇc´ımˇz dostaneme C(n, p) = pt = maxti=1 mi t. Uvaˇzujme p0 procesorový poˇc´ıtaˇc M s p0 < p týmiˇz procesory. Jestliˇze lze u M téˇz ignorovat komunikaˇcn´ı reˇzie jako u K, lze tentýˇz výpoˇcet na M provést v T (n, p0 ) paraleln´ıch kroc´ıch, kde T (n, p0 ) = W (n, p)/p0 + t

(7)

D˚ ukaz 1 Paraleln´ı kroky se simuluj´ı postupnˇem kdy kaˇzdý i-tý krok, ve kterém je nutné provést mi operac´ı, lze na M simulovat v dmi /p0 e kroc´ıch. Celkov´ a doba simulace proto bude T (n, p0 ) =

t t t X X X dmi /p0 e = (mi /p0 ) + t = (mi )/p0 + t = W (n, p)/p0 + t i−1

i=1

(8)

i=1

a d´ ale W (n, p0 ) = W (n, p) C(n, p0 ) = p0 T (n, p0 ) ≤ W (n, p) + pt = W (n, p) + C(n, p)

(9)

V´ yznam Brentova simulaˇcn´ıho principu spoˇc´ıvá v tvrzen´ı, ˇze neprakticky velké mnoˇzstv´ı procesor˚ u lze libovolnˇe sniˇzovat, pˇriˇcemˇz doba v´ ypoˇ ctu poroste nejv´ yˇ se u ´ mˇ ernˇ e a celkov´ a pr´ ace, cena i efektivita z˚ ust´ avaj´ı ˇ r´ adovˇ e stejn´ e. Zvol´ıme-li pro simulaci vhodn´ y menˇs´ı poˇcet procesor˚ u, m˚ uˇze pˇri zachov´ an´ı stejné pr´ ace cena algoritmu dokonce klesnout, protoˇze budou pouˇzité procesory v´ıce vyt´ıˇzeny. U algoritmu, u nichˇz nelze zanedbat komunikaˇcn´ı reˇzie je toto zapotˇreb´ı brát v u ´vahu. 1.3.2

Izoefektivita paraleln´ıho algoritmu

Jak jiˇz bylo zm´ınˇeno, pˇri n´ avrhu paraleln´ıho algoritmu je pro udrˇzen´ı konstantn´ı efektivity zapotˇreb´ı správnˇe volit granularitu, tj. mus´ıme zvolit správn´ y pomˇer mezi poˇctem procesor˚ u p a velikost´ı ˇreˇseného problému n. K tomu nám m˚ uˇze pomoci tzv. izoefektivn´ı metrika. Jedn´ a se ´ ´ ´ ˚ ´ MODERNIZACE VYUKOV YCH MATERIAL U A DIDAKTICKYCH METOD CZ.1.07/2.2.00/15.0463


6

o metriku ˇsk´ alovatelnosti paraleln´ıho systému, ˇcili jeho schopnosti zvyˇsovat v´ ykon pˇri zvyˇsov´ an´ı poˇctu procesor˚ u. Z Amdahlova efektu vypl´ yv´ a, ˇze zrychlen´ı je rostouc´ı funkc´ı velikosti ˇreˇseného problému n. Aby byla zachována konstantn´ı efektivita E(n, p), pˇri rostouc´ım p mus´ı r˚ ust také n. Rychlost tohoto r˚ ustu lze vyj´ adˇrit pomoc´ı izoefektivn´ı funkce. Uvaˇzujme vztah mezi paraleln´ım a sekvenˇcn´ım ˇcasem algoritmu ˇreˇs´ıc´ım stejn´ y problém pT (n, p) = T (n, 1) + κ(n, p)

(10)

kde T (n, p) je paraleln´ı ˇcas, T (n, 1) je sekvenˇcn´ı ˇcas a κ(n, p) je celková paraleln´ı reˇzie. Paraleln´ı ˇcas pak lze vyj´ adˇrit jako T (n, p) =

T (n, 1) + κ(n, p) p

(11)

Dosad´ıme-li vztah 11 do vztahu pro vyjádˇren´ı zrychlen´ı algoritmu, dostaneme S(n, p) ≤

SU (n) T (n, 1) pT (n, 1) ≤ ≤ T (n, p) T (n, p) T (n, 1) + κ(n, p)

(12)

Vyjádˇr´ıme-li efektivitu algoritmu pomoc´ı vztahu 12, dostaneme E(n, p) ≤

T (n, 1) 1 1 S(n, p) ≤ ≤ ≤ κ(n,p) κ(n,p) p T (n, 1) + κ(n, p) 1 + T (n,1) 1 + SU (n)

(13)

Izoefektivn´ı funkci lze poté odvodit následovnˇe T (n, 1) ≥ E(n, p)(T (n, 1) + κ(n, p)) T (n, 1)(1 − E(n, p)) ≥ κ(n, p)E(n, p) E(n,p) T (n, 1) ≥ 1−E(n,p) κ(n, p) T (n, 1) ≥ c · κ(n, p)

(14)

kde c je konstanta c=

E(n, p) 1 − E(n, p)

(15)

Z odvozen´ı 14 vypl´ yv´ a, ˇze pˇri zmˇenˇe p (a t´ım pádem i celkové paraleln´ı reˇzie) se mus´ı zmˇenit i n, aby platila dan´ a nerovnice a efektivita z˚ ustala zachována konstantn´ı. To znamená, ˇze zmˇen´ı-li κ(n,p0 ) 0 se p na p , mus´ı se zmˇenit také n o n´ asobek κ(n,p) . Pro dobˇre ˇskálovatelné paraleln´ı algoritmy mus´ı b´ yt tato zmˇena minim´ aln´ı, protoˇze i jejich paraleln´ı reˇzie by mˇela b´ yt co nejniˇzˇs´ı. Problém stanoven´ı horn´ı a doln´ı meze vhodného poˇctu procesor˚ u lze vyjádˇrit pomoc´ı izoefektivn´ıch funkc´ı ψ1 a ψ2 . Definice 3 Necht’ je d´ ana konstanta 0 < E0 < 1. Pak • ψ1 je asymptoticky minim´ aln´ı funkce takov´ a, ˇze ∀np = Ω(ψ1 (p)) : E(np , p) ≥ E0

(16)

ˇcili ψ1 ud´ av´ a asymptoticky nejmenˇs´ı instanci problému, kter´ a je na daném poˇctu procesor˚ u ˇreˇsiteln´ a s konstantn´ı efektivitou.



7

• ψ2 je asymptoticky maxim´ aln´ı funkce takov´ a, ˇze ∀pn = O(ψ2 (n)) : E(n, pn ) ≥ E0

(17)

ˇcili ψ2 ud´ av´ a asymptoticky nejvˇetˇs´ı poˇcet procesor˚ u, který jeˇstˇe poskytuje ˇreˇsen´ı dané instance problému s konstantn´ı efektivitou. Funkce ψ2 (n) je inverzn´ı k funkci ψ1 (p). Menˇs´ı (pomalu rostouc´ı) funkce ψ1 (p) ˇr´ıká, ˇze systém je lépe ˇskálovateln´ y. Pro funkci ψ2 (n) je tvrzen´ı opaˇcné. 1.3.3

Absolutnˇ e minim´ aln´ı paraleln´ı ˇ cas

Pro zjiˇstˇen´ı optim´ aln´ıho poˇctu procesor˚ u, které jsou schopny problém dané velikosti vyˇreˇsit v absolutnˇe minim´ aln´ım ˇcase lze pouˇz´ıt následuj´ıc´ı postup. Jak jiˇz bylo zm´ınˇeno v´ yˇse a jak je patrné na obrázku 2, pˇridáván´ım nadmˇerného poˇctu procesor˚ u m˚ uˇzeme doc´ılit nejen poklesu zrychlen´ı, ale dokonce také prodluˇzován´ı ˇcasu ˇreˇsen´ı. Toho m˚ uˇzeme vyuˇz´ıt k tomu, abychom pomoc´ı derivace pr˚ ubˇehu paraleln´ıho ˇcasu nalezli optimáln´ı poˇcet procesor˚ u popt pouˇzit´ ych pro ˇreˇsen´ı problému dané velikosti.

Obr´ azek 2: Typické pr˚ ubˇehy T (n, p) v závislosti na zmˇenˇe n a p Uvaˇzujme rovnici ∂T (n, p) |p=popt = 0 ∂p

(18)

Jej´ım ˇreˇsen´ım z´ısk´ ame optim´ aln´ı poˇcet procesor˚ u popt pro dan´ y algoritmus a velikost problému. 1.3.4

Karp-Flattova metrika

Chceme-li zjistit pˇ r´ıˇ cinu neefektivity paraleln´ıho algoritmu, m˚ uˇzeme pouˇz´ıt Karp-Flattovu metriku, kter´ a umoˇzn ˇuje urˇcit, zda je neefektivita zp˚ usobena velkou sekvenˇ cn´ı sloˇ zkou fσ paraleln´ıho algoritmu ˇci jeho nadmˇ ernou reˇ zi´ı κ(n, p). Karp-Flattova metrika stanovuje tzv. experiment´ alnˇ e urˇ cen´ y pomˇ er sekvenˇ cn´ı sloˇ zky e. Z pr˚ ubˇehu hodnoty e pˇri vzr˚ ustaj´ıc´ım p lze vyvodit pˇr´ıˇcinu neefektivity: • je-li e konstantn´ı, je pˇr´ıˇcinou neefektivity velká sekvenˇcn´ı sloˇzka, • je-li e rostouc´ı, je pˇr´ıˇcinou neefektivity nadmˇerná paraleln´ı reˇzie. ´ ´ ´ ˚ ´ MODERNIZACE VYUKOV YCH MATERIAL U A DIDAKTICKYCH METOD CZ.1.07/2.2.00/15.0463


8

Uvaˇzujme T (n, p) = σ(n) + φ(n) p + κ(n, p) T (n, 1) = σ(n) + φ(n)

(19)

Experiment´ alnˇe urˇcen´ y pomˇer sekvenˇcn´ı sloˇzky lze vyjádˇrit jako e=

σ(n) + κ(n, p) ⇒ σ(n) + κ(n, p) = T (n, 1)e T (n, 1)

(20)

Po dosazen´ı do 19 a u ´pravˇe dostaneme vyjádˇren´ı paraleln´ıho ˇcasu T (n, p) = T (n, 1)e +

T (n, 1)(1 − e) p

(21)

Uvaˇzujme S(n, p) =

T (n, 1) ⇒ T (n, 1) = S(n, p)T (n, p) T (n, p)

(22)

Pak po zjednoduˇsen´ı vztahu T (n, p) = S(n, p)T (n, p)e +

S(n, p)T (n, p)(1 − e) p

(23)

dostaneme experiment´ alnˇe urˇcen´ y pomˇer sekvenˇcn´ı sloˇzky e=

Pˇ r´ıklad 1

1 S(n,p)

1−

−

1 p

(24)

1 p

Experiment´ aln´ı cestou jsme pˇri anal´ yze paraleln´ıho algoritmu z´ıskali tabulku Tabulka 1: Experimentálnˇe zjiˇstˇené S(n, p) a pr˚ ubˇeh e p S(n,p) e

2 1.82 0.1

3 2.5 0.1

4 3.08 0.1

5 3.57 0.1

6 4.00 0.1

7 4.38 0.1

8 4.71 0.1

Hodnota e v tabulce 1 je konstantn´ı coˇz znamená, ˇze pˇr´ıˇcinou neefektivity zkoumaného algoritmu je velká sekvenˇcn´ı sloˇzka fσ . Pˇ r´ıklad 2

Experiment´ aln´ı cestou jsme pˇri anal´ yze paraleln´ıho algoritmu z´ıskali tabulku Tabulka 2: Experimentálnˇe zjiˇstˇené S(n, p) a pr˚ ubˇeh e p S(n,p) e

2 1.87 0.07

3 2.61 0.075

4 3.23 0.08

5 3.73 0.085

6 4.14 0.09

7 4.46 0.095

8 4.71 0.1

Hodnota e v tabulce 2 je rostouc´ı coˇz znamená, ˇze pˇr´ıˇcinou neefektivity zkoumaného algoritmu je velká paraleln´ı reˇzie κ(n, p).


Pˇr´ıklad anal´ yzy paraleln´ıho algoritmu

2

9

Pˇ r´ıklad anal´ yzy paraleln´ıho algoritmu

Vˇsechny doposud diskutované aspekty anal´ yzy paraleln´ıho algoritmu si demonstrujme na pˇr´ıkladu zkoumán´ı postupu paraleln´ı redukce mnoˇziny hodnot. Uvaˇzujme paraleln´ı redukci mnoˇziny n ˇc´ısel na p procesorovém stroji kde p = n dle schématu na obrázku 3, kde jednotlivé ˇr´ adky pˇredstavuj´ı paraleln´ı fáze algoritmu.

Obr´ azek 3: Schéma paraleln´ı redukce Pˇredpokl´ adejme, ˇze operace souˇctu i pˇrenosu dat mezi procesory trvá 1 ˇcasovou jednotku. Paraleln´ı v´ ypoˇcet probˇehne v log n iterac´ıch (paraleln´ıch fáz´ıch), kaˇzd´ y bude trvat 2 jednotky ˇcasu. Paraleln´ı algoritmus m´ a ˇcasovou sloˇzitost T (n, p) = 2 log n = Θ(log n)

(25)

Horn´ı mez sekvenˇcn´ıho algoritmu ˇreˇs´ıc´ıho stejn´ y problém je SU (n) = T (n, 1) = 2(n − 1) = 2n − 2 = Θ(n)

(26)

Základn´ı charakteristiky algoritmu jsou pak následuj´ıc´ı: C(n, p) = Θ(n · log(n)) W (n, p) = (

(27)

n n n n + ) + ( + ) + ... + (1 + 1) = 2n − 2 = Θ(n) 2 2 4 4

(28)

S(n, p) = Θ(

n ) log n

(29)

E(n, p) = Θ(

1 ) log n

(30)

Z v´ yˇse uvedeného je patrné, ˇze algoritmus je ˇ casovˇ e i pracovnˇ e optim´ aln´ı, nen´ı vˇ sak cenovˇ e optim´ aln´ı, coˇz je d´ ano nedostatkem uˇziteˇcné práce pro vˇsechny procesory (viz. obr´ azek 3). Pokusme se proto sn´ıˇzit paraleln´ı cenu algoritmu jeho vhodn´ ym ˇskálován´ım. Uvaˇzujme tedy modifikaci algoritmu paraleln´ı redukce n hodnot na v´ ypoˇcetn´ım stoji s p0 < n procesory. V tom pˇr´ıpadˇe existuj´ı nejménˇe dva zp˚ usoby simulace: 1. Pˇriˇrazen´ı simulovan´ ych procesor˚ u po ˇrádc´ıch, coˇz znamená, ˇze kaˇzd´ y z p0 procesor˚ u provede n ˇcinnost p0 simulovan´ ych procesor˚ u v jedné paraleln´ı fázi, jak je ilustrováno na obrázku 4. Doba trván´ı jedné paraleln´ı f´ aze je pn0 a poˇcet paraleln´ıch fáz´ı je p0 . Závˇerem z˚ ustane v posledn´ım n aktivn´ım procesoru p0 meziv´ ysledk˚ u, které je potˇreba redukovat sekvenˇcnˇe, coˇz zabere ˇcas pn0 . Celkov´ y paraleln´ı ˇcas této simulace je ´ ´ ´ ˚ ´ MODERNIZACE VYUKOV YCH MATERIAL U A DIDAKTICKYCH METOD CZ.1.07/2.2.00/15.0463


n n n T (n, p0 ) = ( 0 ) log p0 + 0 = Θ( 0 log p0 ) p p p

10

(31)

Obr´ azek 4: Simulace pˇriˇrazován´ı po ˇrádc´ıch 2. Pˇriˇrazen´ı simulovan´ ych procesor˚ u po sloupc´ıch, coˇz znamená, ˇze kaˇzd´ y z p0 procesor˚ u provede n n 0 sekvenˇcn´ı redukci p0 hodnot v ˇcase p0 , ˇc´ımˇz dostaneme p meziv´ ysledk˚ u, které pak lze paralelnˇe zredukovat v log p0 paraleln´ıch f´ az´ıch v ˇcase log p0 . Postup je ilustrován na obrázku 5. Celkov´ y paraleln´ı ˇcas této simulace je T (n, p0 ) =

n n + log p0 = Θ( 0 + log p0 ) 0 p p

(32)

Obr´ azek 5: Simulace pˇriˇrazován´ı po sloupc´ıch Paraleln´ı cena simulace pˇriˇrazov´ an´ı po ˇrádc´ıch je C(n, p) = Θ(n · log p0 ), coˇz stále nen´ı cenovˇe optimáln´ı. Paraleln´ı cena simulace pˇriˇrazov´ an´ı po sloupc´ıch je C(n, p) = Θ(n+p0 ·log p0 ), coˇz za pˇredpokladu 0 0 n >> p · log p je C = Θ(n). V tomto pˇr´ıpadˇe se jiˇz jedná o cenovˇe optimáln´ı paraleln´ı algoritmus. Nyn´ı se pokusme pomoc´ı izoefektivn´ı funkce stanovit vhodnou granularitu algoritmu. S(n, p) = E(n, p) =

T (n, 1) = T (n, p)

n p0

n + log p0

n 1 1 1 S(n, p) = = = 0 ·log p0 = 0 0 p κ(n,p) κ(n,p) p n + p · log p 1+ n 1 + T (n,1) 1 + SU (n)

Ze vztahu 34 vypl´ yv´ a, ˇze κ(n, p) = p0 · log p0 . Vyjádˇr´ıme-li izoefektivn´ı funkci jako ´ ´ ´ ˚ ´ MODERNIZACE VYUKOV YCH MATERIAL U A DIDAKTICKYCH METOD CZ.1.07/2.2.00/15.0463

(33) (34)


T (n, 1) ≥ c · κ(n, p) n ≥ c · p0 · log p0

11

(35)

pak z nerovnice vypl´ yv´ a, ˇze zmˇen´ı-li se p0 na p00 , mus´ı se pro zachován´ı konstantn´ı efektivity 00 p00 zmˇenit také n a to o n´ asobek pp0 ·log ·log p0 . Na závˇer si stanovme absolutn´ı minimáln´ı ˇcas simulovaného algoritmu. Jak jiˇz bylo zm´ınˇeno, lok´ aln´ı operace a komunikace stoj´ı 2 jednotky ˇcasu. Derivujme paraleln´ı ˇcas podle p0 T (n, p) = ∂T (n,p0 ) ∂p0 ∂T (n,p0 ) ∂p0

= =

n 0 p0 + 2 · log p −n + p20 = 0 p02 2p0 −n =0 p02

(36)

odtud popt =

n 2

(37)

Dosazen´ım z´ısk´ ame minim´ aln´ı paraleln´ı ˇcas Tmin (n, popt ) = 2 + 2 · log n2 Tmin (n, popt ) = 2 + 2(log n + log 12 ) Tmin (n, popt ) = 2 · log n = Θ(log n)


(38)

Kontroln´ı otázky

3

12

Kontroln´ı ot´ azky • Co vyjadˇruje cena a pr´ ace paraleln´ıho algoritmu? • Co vyjadˇruje efektivita paraleln´ıho algoritmu? Jaké maximáln´ı a minimáln´ı hodnoty efektivity m˚ uˇze paraleln´ı algoritmus dos´ ahnout? • Co je to ˇsk´ alovatelnost paraleln´ıho algoritmu? • Jaké by mˇely b´ yt ide´ aln´ı pr˚ ubˇehy graf˚ u zrychlen´ı a efektivity dobˇre ˇskálovateln´ ych paraleln´ıch algoritm˚ u? • Co je to granularita paraleln´ıho algoritmu? • Co vyjadˇruje izoefektivita paraleln´ıho algoritmu? Jak ji definujeme? • Co vyjadˇruje Karp-Flattova metrika paraleln´ıho algoritmu?


PARALELNÍ PROCESY A PROGRAMOVÁNÍ

Recommend Documents