1 Paralelní a distribuované architektury

1

Paraleln´ı a distribuovan´ e architektury

Flynnova klasifikace procesor˚ u: • SISD – konvenˇcn´ı procesory • SIMD – vektorové procesory • MISD – ˇretˇezové procesory • MIMD – multiprocesory (komukuj´ı sd´ılenou pamˇet´ı) – multicomputery a distribuované systémy (zas´ılán´ı zpráv) Flynnova klasifikace popisuje pouze Von-Neumannovské architektury. Data-flow a reukˇcn´ı architektury jsou také paraleln´ı architektury. Architektura data-flow nem´ a program a PC (Program Counter), provád´ı interpretaci grafu toku dat. Do uzlu vstupuj´ı operandy a vystupuje v´ ysledek. V pamˇeti udrˇzuje struktury pro uzly, které definuj´ı operace, vstupy a v´ ystupy, propojeno do orientovaného grafu. Paralelismus spoˇc´ıvá v nˇekolika operaˇcn´ıch jednotk´ ach, které vyb´ıraj´ı ud´ alosti a pouˇst´ı je grafem. Redukˇ cn´ı poˇ c´ıtaˇ c bere v´ yraz a nahrazuje jeho ˇcásti v´ ysledkem dané operace (2*3 na 6). Program se pˇrevede na strom a po zad´ an´ı hodnot se strom redukuje aˇz na jeden uzel. VLIW (Very Long Instruction Word) je SISD, jedna velmi dlouhá instrukce (pˇredstavuje nˇekolik menˇs´ıch pro r˚ uzné procesory). Tyto procesory mohou pracovat paralelnˇe, pokud je to moˇzné (nejsou kolize, neˇcek´ a se na meziv´ ysledek). Jednoduch´ a implementace a ˇskálovatelnost, ale nˇekteré instrukce ˇspatné (skok vyuˇzije jedinou podinstrukci, meziv´ ysledky apod). Pohybuj´ı se nˇekde mezi statick´ ymi a dynamick´ ymi superskaláry. Statick´ e superskal´ arn´ı procesory zpracovávaj´ı sekvenˇcn´ı program na v´ıce procesorech in-order, takˇze paralelnost je jen za soubˇehu spr´ avn´ ych instrukc´ı. Dynamick´ e superskal´ arn´ı procesory zpracovávaj´ı sekvenˇcn´ı program na v´ıce procesorech out-of-order, napˇr. spekulativn´ı v´ ypoˇcty za skokem. MISD jsou line´ arnˇe propojené procesory, ˇreˇs´ı proudové u ´lohy, sekvenˇcn´ı pr˚ uchod. Zˇ retˇ ezen´ e procesory vyuˇz´ıv´ aj´ı nˇekolik paraleln´ıch postup˚ u provádˇen´ı (pipelines), protoˇze jednotlivé ˇcásti v´ ypoˇcetn´ıho ˇretˇezce by jednou pipeline byly nevyuˇzity. Nˇekteré jednotky se pak mohou vyskytovat v´ıcekrát (ALU). SIMD jsou vektorové procesory, paralelnˇe se provád´ı stejná instrukce na n procesorech a n ˇcástech vstupn´ıch dat (MMX, SSE). Rozliˇsuj´ı se podle toho, zda kaˇzd´ y procesor má vlastn´ı pamˇet’, nebo je pˇr´ıstupn´ a vˇsem a alokuje se. Jednoduch´ a implementace, latence a synchronizace oproti MIMD. Ne vˇsechny problémy jsou vhodné, nevyplat´ı se v malém poˇctu. Granularita paralelismu – na u ´rovni instrukc´ı, mezi instrukcemi, mezi pˇr´ıkazy, mezi bloky procesu, mezi procesy ˇ s´ı soupeˇren´ı a kooperaci, pouˇziv´ Synchronizace zajiˇst’uje dodrˇzen´ı poˇzadovan´ ych ˇcasov´ ych vztah˚ u. Reˇ a zas´ıl´ an´ı zpr´ av, rendezvous, semafor, monitor a bariéru. Komunikace je pˇrenos dat mezi paraleln´ımi procesy, hlavn´ımi prostˇredky je zas´ılán´ı zpráv a sd´ılená pamˇet’.

1

2

Topologie

Multitasking – 1 CPU pˇrep´ın´ a kontext (virtuáln´ı procesor), pamˇet’ je sd´ılená, pˇredáván´ı zpráv simulov´ ano SW Syst´ em se sd´ılenou pamˇ et´ı – CPU maj´ı svou cache, zbytek na sbˇernici (boj), pˇredáván´ı zpráv m˚ uˇze b´ yt v HW nebo simulace SW Virtu´ aln´ı sd´ılen´ a pamˇ et’ – CPU m´ a svou pamˇet’, ale je virtuálnˇe spojena v simulovanou sd´ılenou, opˇet HW/SW simulované zas´ıl´ an´ı zpr´ av Syst´ em s pˇ red´ av´ an´ım zpr´ av – CPU v´ az´ any volnˇe (napˇr. poˇc´ıtaˇcová s´ıt’), sd´ılená pamˇet’ simulovaná SW Sd´ılen´ a pamˇ et’: • Vˇsechny procesory maj´ı pˇr´ıstup do celého pamˇet’ového prostoru. ˇ sen´ı souˇcasného pˇr´ıstupu k jedné buˇ • Reˇ nce: – EREW – Exclusive Read, Exclusive Write (velmi omezuj´ıc´ı) – CREW – Concurrent Read, Exclusive Write (ˇcasté, jednoduché) – ERCW – Exclusive Read, Concurrent Write (nedává smysl) – CRCW – Concurrent Read, Concurrent Write (sloˇzité) Pˇ red´ av´ an´ı zpr´ av: • Kaˇzd´ y procesor m´ a vlastn´ı adresov´ y prostor. • Také kaˇzd´ y procesor m´ a vlastn´ı fyzickou pamˇet’, pˇr´ıstup jinam komunikac´ı. Statick´ e propojovac´ı s´ıtˇ e: • Vˇsechny uzly jsou procesory. • Vˇsechny hrany jsou komunikaˇcn´ı kanály. • Neobsahuj´ı sd´ılenou pamˇet’. • Pr˚ umˇer je nejdelˇs´ı délka nejkratˇs´ıch cest mezi vˇsemi dvojicemi uzl˚ u. • Konektivita je minim´ aln´ı poˇcet hran, které je nutné odstranit pro rozdˇelen´ı na dvˇe ˇcásti. ˇıˇrka bisekce je minim´ • S´ aln´ı poˇcet hran, které spojuj´ı dvˇe pˇribliˇznˇe stejnˇe velké ˇcásti s´ıtˇe. Typick´ a statick´ a propojen´ı: ´ e propojen´ı • Upln´ • Hvˇezda • Line´ arn´ı pole • D-rozmˇern´ a mˇr´ıˇzka • K-´ arn´ı d-rozmˇern´ a kostka • D-´ arn´ı strom Dynamick´ e propojovac´ı s´ıtˇ e: • Uzly jsou procesory, pamˇet’ové moduly nebo pˇrep´ınaˇce. 2

ˇ • Casto implementuj´ı sd´ılenou pamˇet’. • Implementace: kˇr´ıˇzov´ y pˇrep´ınaˇc, sbˇernice, . . . V´ıce´ urovˇ nov´ e s´ıtˇ e spojuj´ı p procesor˚ u s p pamˇet’ov´ ymi moduly pomoc´ı p.log(p) pˇrep´ınaˇc˚ u.

3

Distribuovan´ e a paraleln´ı algoritmy a jejich sloˇ zitost

Poˇ cet procesor˚ u p je odvozen on délky vstupu n. p(n) = {1, c, log(n), n, n.log(n), n2 , . . . , nr , rn }. ˇ Cas v´ ypoˇ ctu t je také odvozen od n a je udáván v jednotkách (kroc´ıch). Cena algoritmu c(n) = p(n).t(n). Algoritmus s optimáln´ı cenou je stejnˇe drah´ y jako sekvenˇcn´ı algoritmus (jde o cenu, ne rychlost) copt (n) = tseq (n). Zrychlen´ı paralelizac´ı je d´ ano vztahem tseq (n)/t(n), efektivnost pak tseq (n)/c(n), nastaven´ı je závislé na pˇr´ıpadu pouˇzit´ı. Sloˇ zitost´ı vˇetˇsinou rozum´ıme poˇcet procesor˚ u. Pˇri v´ ypoˇctu závislosti na délce vstupu je nejzaj´ımavˇejˇs´ı nejhorˇs´ı pˇr´ıpad, takˇze pokud jedna ˇc´ ast algoritmu vyˇzaduje p(n) procesor˚ u a druhá p(n2 ) procesor˚ u, v´ ysledná sloˇzitost je p(n2 ).

4

Algoritmy ˇ razen´ı

ˇ Razen´ ı bere posloupnost prvk˚ u a podle relace > je seˇrad´ı. Zjednoduˇsujeme na ˇrazen´ı pomoc´ı operace porovn´ an´ı. Také pˇredpokl´ ad´ ame, ˇze v posloupnosti nejsou ˇzádné dva prvky rovny. Vˇsechny posloupnosti tak lze vyj´ adˇrit (m˚ uˇzeme pˇridat index - sloˇzitost O(n)). Optim´ aln´ı sloˇ zitost podle sekvenˇcn´ıho algoritmu je c(n) = O(n.log(n)). Enumeration sort: • Princip: v´ ysledn´ a pozice prvku je dáná poˇctem prvk˚ u, které jsou menˇs´ı • Topologie: mˇr´ıˇzka n kr´ at n, ˇr´ adky a sloupce jsou binárn´ı stromy v poli • Procesory: registry A,B,RANK; do A,B zápis prvku, RANK inkrementace; moˇznost poslat registr syn˚ um • Algoritmus: pomoc´ı jedné ˇrady se prvky porovnaj´ı (a pˇritom se mˇen´ı RANK); správná pozice je RANK; nakonec se prvky pˇresunou stromem • Sloˇzitost: t(n) = O(log(n)) – nejrychlejˇs´ı paraleln´ı ˇreˇsen´ı; c(n) = O(n2 .log(n)) – nen´ı optimáln´ı Odd-even transposition sort • Princip: paraleln´ı bubble-sort, porovnávaj´ı se jen sousedé a mohou se pˇrehodit • Topologie: line´ arn´ı pole n procesor˚ u • Procesory: obsahuj´ı jedin´ y registr s hodnotou prvku • Algoritmus: na poˇc´ atku se pole napln´ı posloupnost´ı; v lichém kroku pracuj´ı liché procesory, v sudém sudé; porovn´ a se s n´ asledn´ıkem a pˇr´ıpadnˇe prohod´ı hodnoty; algoritmus konˇc´ı po n kroc´ıch (lze urychlit testem na prohozen´ı)

3

• Sloˇzitost: t(n) = O(n) – nejrychlejˇs´ı ˇreˇsen´ı pro lineárn´ı topologii; c(n) = O(n2 ) – nen´ı ideáln´ı Odd-even merge sort • Princip: s´ıt’ sloˇzen´ a ze speci´ aln´ıch procesor˚ u • Topologie: procesory propojeny tak, aby sloˇzen´ım jednotliv´ ych porovnán´ı byla seˇrazená posloupnost • Procesory: 2 vstupy a 2 v´ ystupy, porovná vstupy a dá na v´ ystupy high a low • Algoritmus: spoˇc´ıv´ a v zapojen´ı s´ıtˇe, kaskáda 1 × 1, 2 × 2, 4 × 4, . . . • Sloˇzitost: t(n) = O(log 2 (n)); c(n) = O(n.log 4 (n)) – nen´ı optimáln´ı Merge-splitting sort • Princip: varianta odd-even sortu, kaˇzd´ y procesor ˇrad´ı krátkou posloupnost • Topologie: line´ arn´ı pole procesor˚ u – p(n) < n • Procesory: obsahuje m prvk˚ u, které um´ı seˇradit optimáln´ım sekvenˇcn´ım algoritmem • Algoritmus: m´ısto porovn´ an´ı soused˚ u se provede spojen´ı posloupnost´ı (O(n)) a pak rozdˇelen´ı na p˚ ul • Sloˇzitost: c(n) = O(n.log(n)) + O(n.p), optimáln´ı pro p ≤ log(n) Pipeline merge sort • Princip: rozdˇeleno na nˇekolik krok˚ u, prvn´ı spojuje posloupnosti délky 1, pak 2, atd. • Topologie: lin´ arn´ı pole procesor˚ u – p(n) = log(n) + 1 • Procesory: um´ı spojovat dvˇe seˇrazené posloupnosti O(n) • Algoritmus: ze vstupn´ı posloupnosti se vezme prvn´ı prvek a dá jej do jedné posloupnosti, druh´ y do druhé; dalˇs´ı vybere vˇzdy nejvˇetˇs´ı prvek a prvn´ı dva dává do prvn´ı posloupnosti, druhé dva do druhé; tˇret´ı krok také bere nejvˇetˇs´ı, ale stˇr´ıd´ a posloupnosti po ˇctyˇrech, atd. • Sloˇzitost: t(n) = O(n); c(n) = O(n).O(log(n) + 1) = O(n.log(n)) – optimáln´ı Enumeration sort podruh´ e • Princip: porovn´ an´ı se vˇsemi prvky a poˇcet menˇs´ıch urˇcuje poˇrad´ı • Topologie: line´ arn´ı pole n procesor˚ u a sbˇernice, která muˇze pˇrenést jednu hodnotu • Procesory: registr C (poˇcet menˇs´ıch), X (prvek na dané pozici), Y (prvek posloupnosti, kter´ y se porovn´ av´ a) a Z (v´ ysledn´ a pozice) • Algoritmus: C se nastav´ı na 1; sbˇernic´ı se poˇsle hodnota X a lineárnˇe pˇres procesory Y prvn´ımu prvku; Y se posunou doprava a v dalˇs´ım prvku se poˇsle X druhému a Y zase lineárnˇe prvn´ımu; neprázdné registry se porovnaj´ı a pˇr´ıpadnˇe inkrementuje C; po vyˇcerpán´ı vstupu se X poˇsle do Z procesoru, kter´ y je urˇcen C a to sbˇernic´ı (protoˇze Y se st´ ale posouvá doprava) • Sloˇzitost: t(n) = n; c(n) = O(n2 ) – nen´ı optimáln´ı Minimum extraction sort • Princip: stromem odeb´ır´ a vˇzdy nejmenˇs´ı prvek • Topologie: strom s n listy, log(n) + 1 u ´rovnˇemi a 2n − 1 procesory

4

• Procesory: listov´ y procesor obsahuje prvek posloupnosti, nelistové prvky um´ı porovnat syny • Algoritmus: napln´ı se listy; v kaˇzdém kroku otec vybere menˇs´ı hodnotu; jakmile je v koˇrenu hodnota je to prvn´ı prvek seˇrazené posloupnosti • Sloˇzitost: t(n) = O(n); c(n) = O(n2 ) – nen´ı optimáln´ı Bucket sort • Princip: stromem spojené procesory, které ˇrad´ı menˇs´ı posloupnosti a pak spojen´ı • Topologie: strom s m listy, kde n = 2m • Procesory: listové procesory ˇrad´ı krátkou posloupnost, ostatn´ı spojuj´ı syny – O(n) • Algoritmus: – • Sloˇzitost: t(n) = O(n); c(n) = O(n.log(n)) – optimáln´ı Median finding and splitting • Princip: dˇel´ı posloupnost medi´ anem aˇz na dvojice, které porovná • Topologie: strom s m listy, kde n = 2m • Procesory: listové procesory porovnaj´ı dvojici, ostatn´ı vyberou medián a rozdˇel´ı posloupnost – O(n) • Algoritmus: je jasn´ y, pro v´ ybˇer mediánu je potˇreba optimáln´ı, napˇr. select • Sloˇzitost: t(n) = O(n); c(n) = O(n.log(n)) – optimáln´ı

5

Algoritmy vyhled´ av´ an´ı

Vyhled´ av´ an´ı zjiˇst’uje pˇr´ıtomnost zadaného prvku v posloupnosti a pˇr´ıpadnˇe i jeho pozici. Optim´ aln´ı sloˇ zitost podle sekvenˇcn´ıho algoritmu je O(n) pro neseˇrazenou posloupnost – sekvenˇcn´ı vyhled´ av´ an´ı; O(log(n)) pro seˇrazenou posloupnost – binárn´ı vyhledáván´ı. N-ary search • Seˇrazeno: ano • Princip: paraleln´ı analogie k bin´ arn´ımu hledán´ı, zjiˇst’uje se ˇcást, ve které prvek je • Topologie: line´ arn´ı pole m procesor˚ u, kde m < n; CREW (hledan´ y prvek) • Procesory: porovn´ avaj´ı prvek na svém m´ıstˇe s hledan´ ym, registr, kter´ y ˇr´ıká, na které stranˇe pokraˇcovat • Algoritmus: v kaˇzdé iteraci se nastav´ı registry, v u ´seku, kde na obou stranách je hodnota odliˇsn´ a se hled´ a v dalˇs´ı iteraci • Sloˇzitost: t(n) = O(logm+1 (n + 1)); c(n) = O(m.logm+1 (n + 1)) – nen´ı optimáln´ı Unsorted search • Seˇrazeno: ne • Princip: paralelnˇe volan´ y sekvenˇcn´ı algoritmus • Topologie: line´ arn´ı pole m procesor˚ u, kde m < n • Procesory: sekvenˇcnˇe hledaj´ı prvek X s pˇridˇelenou posloupnost´ı 5

• Algoritmus: procesory naˇctou prvek do registru a provedou hledán´ı, mohou nastavit flag nalezen´ı • Sloˇzitost: EREW – c(n) = O(m.log(m) + n); CREW – c(n) = O(n) (pokud zapisuje pouze jedin´ y procesor) Tree search • Seˇrazeno: ne • Princip: listy porovnaj´ı a v´ ysledek se propaguje stromem • Topologie: strom s 2n − 1 procesory • Procesory: listy umˇej´ı porovnat, otec logick´ y OR vysledk˚ u syn˚ u • Algoritmus: koˇren naˇcte hledan´ y prvek a stromem propaguje; listy obsahuj´ı prvky posloupnosti a porovnaj´ı; otec udˇel´ a OR • Sloˇzitost: t(n) = O(log(n)); c(n) = O(n.log(n)) – nen´ı optimáln´ı

6

Maticov´ e algoritmy

Sloˇ zitost u maticov´ ych algoritm˚ u neb´ yv´ a zaloˇzena na poˇctu prvk˚ u, ale na poˇctu ˇr´ adk˚ u/sloupc˚ u n, také vˇetˇsinou uvaˇzujeme ˇctvercové matice n × n. Transpozice matic m´ a sekvenˇcn´ı sloˇzitost O(n2 ). Mesh transpose • Princip: prvky se pos´ılaj´ı matic´ı na svá nová m´ısta vˇzdy v obou smˇerech • Topologie: mˇr´ıˇzka n kr´ at n procesor˚ u • Procesory: 3 registry, A obsahuje v´ ysledn´ y prvek, B prvek od pravého/horn´ıho souseda, C od levého/doln´ıho • Algoritmus: vˇzdy nejkrajnˇejˇs´ı prvky poˇslou svou hodnotu sousedovi tak, aby dorazil na své m´ısto (vˇzdy pouze horizont´ alnˇe a pak vertik´ alnˇe • Sloˇzitost: t(n) = O(n); c(n) = O(n3 ) – nen´ı optimáln´ı EREW transpose • Princip: prvky se prohod´ı pˇr´ımo mezi sebou paralelnˇe • Topologie: (n2 − n)/2 procesor˚ u (jeden na dva prvky a bez diagonály) • Procesory: nejsou to ani procesory, pouze pˇrehod´ı prvky • Algoritmus: v jednom kroku se najednou paralelnˇe pˇrehod´ı potˇrebné prvky • Sloˇzitost: t(n) = 1 – nejrychlejˇs´ı; c(n) = O(n2 ) – optimáln´ı N´ asoben´ı matic A(m, n) a B(n, k) d´ av´ a matici C(m, k), kde Cij =

n P

ail .blj .

l=1

Sloˇ zitost podle sekvenˇcn´ıho algoritmu je O(n3 ), ale optimáln´ı nen´ı znám, pohybuje se nˇekde mezi O(n2 ) a O(n3 ). Obecn´ eˇ reˇ sen´ı paralelizuje pouze v´ yslednou matici, ale v´ ypoˇcet sumy ponechává sekvenˇcn´ı. Mesh multiplication

6

• Topologie: mˇr´ıˇzka n kr´ at k procesor˚ u • Procesory: udrˇzuj´ı pr˚ ubˇeˇznou hodnotu v´ ysledného prvku, na konci v´ ysledek • Algoritmus: prvky matic se pˇriv´ adˇej´ı do prvn´ıho ˇrádku resp. prvn´ıho sloupce a posléze se pos´ıl´ aj´ı mezi procesory d´ ale • Sloˇzitost: t(n) = O(n); c(n) = O(n3 ) – nen´ı optimáln´ı N´ asoben´ı matice vektorem je specializovan´ y pˇr´ıpad násoben´ı matic – k = 1. Linear array multiplication je specializovan´ y pˇr´ıpad mesh multiplication (vektor pˇricház´ı shora, matice zboku, jeden sloupec procesor˚ u). t(n) = O(n); c(n) = O(n2 ) – optimáln´ı Tree MV multiplication • Topologie: bin´ arn´ı strom 2n − 1 procesor˚ u • Procesory: listové n´ asob´ı, nelistové sˇc´ıtaj´ı • Algoritmus: v listech je vektor, matice se pˇrivád´ı po ˇrádc´ıch; v´ ysledky násoben´ı ˇrádku se sˇc´ıtaj´ı otcem aˇz do koˇrene • Sloˇzitost: t(n) = O(n); c(n) = O(n2 ) – optimáln´ı

7

Model PRAM

PRAM (Parallel Random Access Machine) je synchronn´ı model paraleln´ıho v´ ypoˇctu pomoc´ı procesor˚ u se sd´ılenou pamˇet´ı a spoleˇcným programem. Alternativa k paraleln´ımu Turingovu stroji. Procesor: • Aditivn´ı a logické operace • Multiplikativn´ı operace • Podm´ınˇené skoky • Pˇr´ıstup ke svému unik´ atn´ımu ˇc´ıslu (index) Pamˇ et’: • N´ ahodn´ y pˇr´ıstup pro vˇsechny procesory • Reprezentovan´ a neomezen´ ym poˇctem registr˚ u • Neomezen´ a délka slova (dnes nen´ı vyˇzadováno) • M´ ody pˇr´ıstupu EREW, CREW a CRCW V´ ypoˇ cet prob´ıh´ a synchronnˇe po kroc´ıch – ˇcten´ı, lokáln´ı operace, zápis. ˇ sen´ı CRCW konflikt˚ Reˇ u: 1. COMMON – vˇsechny hodnoty musej´ı b´ yt stejné, jinak se nezap´ıˇse 2. ARBITRARY – zap´ıˇse se libovoln´ a z hodnot 3. PRIORITY – procesory maj´ı pˇridˇelenu prioritu Broadcast je algoritmus pro EREW PRAM pro distribuci hodnoty na jednom m´ıstˇe v pamˇeti do vˇsech procesor˚ u. ˇ S´ıˇren´ı je logaritmické – jeden procesor pˇreˇcte, pˇredá dalˇs´ımu, pak jsou dva, kaˇzd´ y jednomu, atd. t(n) = O(log(n)) 7

8

Suma prefix˚ u

Suma prefix˚ u (all-prefix-sums, allsums, scan) je základn´ım kamenem paraleln´ıch algoritm˚ u. Je to operace, jej´ıˇz vstupem je uspoˇr´ adan´ a posloupnost a bin´ arn´ı asociativn´ı operace ⊕. V´ ysledkem je posloupnost a0 , (a0 ⊕ a1 ), (a0 ⊕ a1 ⊕ a2 ), . . .. Pouˇ zit´ı: vyhodnocov´ an´ı polynom˚ u, rychlé sˇc´ıtán´ı v HW, lexikáln´ı anal´ yza a porovnáván´ı, ˇrazen´ı, hled´ an´ı regul´ arn´ıch v´ yraz˚ u, odstranˇen´ı oznaˇcen´ ych prvk˚ u apod. Sekvenˇ cn´ı ˇ reˇ sen´ı proch´ az´ı vˇsechny prvky a nese si meziv´ ysledek, sloˇzitost O(n). Varianty: • Scan je norm´ aln´ı suma prefix˚ u. • Prescan je rozˇs´ıˇrena o neutr´ aln´ı prvek na poˇcátku v´ ysledku a bez posledn´ıho prvku. • Reduce je pouze hodnota posledn´ıho prvku scan. • Segmentovaný scan je doplnˇen o pole pˇr´ıznak˚ u, kter´ y urˇcuje hranici segmentu, kaˇzd´ y segment je scanov´ an zvl´ aˇst’. Paraleln´ı reduce je moˇzno spoˇc´ıtat pomoc´ı stromu procesor˚ u, v´ ysledek je v koˇreni. t(n) = O(log(n)); c(n) = O(n.log(n)) – nen´ı optim´ aln´ı, lze vylepˇsit tak, ˇze se paralelnˇe poˇc´ıtá reduce menˇs´ıch posloupnost´ı Algoritmy scan nen´ı nutné pˇr´ımo uv´ adˇet, jelikoˇz se jedná o prescan s pouˇzit´ım reduce. Prescan se skl´ ad´ a ze dvou ˇc´ ast´ı – upsweep a downsweep. Sloˇzitost je stejná jako u reduce. Upsweep je totoˇzn´ y s reduce, ale meziv´ ysledky se nezahazuj´ı. Downsweep: 1. Koˇrenu se pˇriˇrad´ı neutr´ aln´ı prvek. 2. Koˇren pˇriˇrad´ı pravému synovi svou hodnotu ⊕ hodnotu levého syna. 3. Koˇren pˇriˇrad´ı levému synovi svou hodnotu. 4. Opakuje se pro dalˇs´ı u ´rovnˇe. Packing problem bere vstupn´ı pole, kde pouze nˇekteré hodnoty jsou d˚ uleˇzité a tyto shrne na poˇcátek pole. 1. Potˇrebné poloˇzky se oznaˇc´ı flagem. 2. Spoˇcte se +-scan flag˚ u. 3. Kaˇzd´ y prvek s hodnotou vyˇsˇs´ı neˇz lev´ y soused se pˇresune na pozici danou touto hodnotou. Probl´ em viditelnosti – je d´ ana v´ yˇskov´ a mapa (matice) a na n´ı pozorovac´ı bod X. Je potˇreba zjistit, které body jsou viditelné z bodu X. 1. Bod je viditeln´ y, pokud ˇz´ adn´ y bod mezi n´ım a pozorovatelem nemá vˇetˇs´ı vertikáln´ı u ´hel. 2. Vytvoˇr´ı se vektor v´ yˇsek bod˚ u na cestˇe paprsku. 3. Vektor v´ yˇsek se pˇrepoˇc´ıt´ a na vektor u ´hl˚ u. 4. Pomoc´ı max-prescan se spoˇcte vektor maximáln´ıch u ´hl˚ u.

8

5. Urˇc´ı se u ´hel studovaného bodu a porovná s maximem.

Bin´ arn´ı sˇ c´ıtaˇ cka – Carry Lookahead Parallel Binary Adder. U normáln´ı sˇc´ıtaˇcky paralelizaci vad´ı závislost na carry ze sˇc´ıt´ an´ı niˇzˇs´ıch bit˚ u. Je potˇreba carry pˇredpoˇc´ıtat. 1. Vypoˇcte se vektor s oborem hodnot ”Propagate, Stop, Generate” podle tabulky. 2. Vypoˇcte se scan nad vektorem opˇet pomoc´ı tabulky. 3. Hodnota Generate ˇr´ık´ a, ˇze na vyˇsˇs´ım bitu bude potˇreba uplatnit carry. 4. Carry je tak vypoˇcteno logaritmicky, pak je moˇzné seˇc´ıst v konstantn´ım ˇcase. Radix sort je zaloˇzen na dvojkovém radix sort, tedy prvky s bitem 0 se pˇrem´ıst´ı na poˇcátek. To se provede pro vˇsechny ˇr´ ady. Operace split je operace pˇresunut´ı prvk˚ u na poˇcátek, implementována jako scan a prescan, sloˇzitost jako scan. Quicksort pouˇz´ıv´ a segmentovan´ y scan, segmenty jsou 3 – menˇs´ı, rovné, vˇetˇs´ı neˇz pivot. Pivot se nepoˇc´ıt´ a, vˇetˇsinou se bere n´ ahodn´ y/prvn´ı prvek. 1. Kontroluje se, zda jiˇz nen´ı seˇrazeno (test mezi sousedy a AND-reduce v´ ysledk˚ u). 2. Vybere se pivot kaˇzdého segmentu, opˇet scan. Na poˇcátku segment jeden. 3. V kaˇzdém segmentu porovnej prvky s pivotem a rozdˇel. 4. Modifikovan´ y split pro pˇreˇrazen´ı do segmentu. 5. Rekurzivnˇe na segmenty quicksort. 6. Sloˇzitost t(n) = O(n/m.log(n) + log(m).log(n)); c(n) = O(n.log(m) + m.log(n).log(m)) – optim´ aln´ı pro malé m.

9

Seznamy

Line´ arn´ı seznam je modelov´ an jako pole (moˇzno pˇristoupit indexem) prvk˚ u v pamˇeti, které obsahuj´ı hodnotu a index n´ asledn´ıka. Posledn´ı prvek ukazuje sám na sebe. Predecessor computing poˇc´ıt´ a index pˇredch˚ udce v konstantn´ım ˇcase (Pred[Succ[i]] = i). List ranking pˇriˇrazuje prvk˚ um jejich vzd´ alenost od konce. Sekvenˇcn´ı sloˇzitost je O(n). V paraleln´ım prostˇred´ı se pouˇz´ıv´ a technika path doubling. Path doubling: 1. Paralelnˇe se vˇsem prvk˚ um pˇriˇrad´ı RANK (0 pro posledn´ı prvek, jinak 1). 2. Kaˇzd´ y procesor prvku v log(n) kroc´ıch se poˇc´ıtá RANK jako RANK[i] + RANK[Succ[i]] a posune ukazatel Succ[i] = Succ[Succ[i]].

9

3. t(n) = O(log(n)); c(n) = O(n.log(n)) – nen´ı optimáln´ı Suma suffix˚ u je obdoba sumy prefix˚ u, ale na seznamech (kde pevn´ y bod je konec). Poˇc´ıtá se stejnˇe jako list ranking, ale pouˇzije se zadan´ a operace ⊕. Vylepˇ sen´ı list rankingu (a sumy suffix˚ u) spoˇc´ıvá ve sn´ıˇzen´ı ceny, nˇekteré procesory totiˇz provádˇej´ı zbyteˇcnou ˇ sen´ım je odpojovat procesory a t´ım sn´ıˇzit cenu. pr´ aci (poˇc´ıtaj´ı jiˇz spoˇc´ıtané vˇeci nebo cykl´ı na konci). Reˇ Nejprve kaˇzd´ y procesor dostane vzd´ alenost 1, pak pracuje kaˇzd´ y druh´ y a zv´ yˇs´ı ji na 2 pak kaˇzd´ y ˇctvrt´ y a opˇet zv´ yˇs´ı. V rekonstrukˇcn´ı f´ azi se pouze pˇriˇc´ıtaj´ı meziv´ ysledky. Probl´ em v paralelismu – jak se urˇc´ı ”kaˇzd´ y druh´ y” ? • Random mating – n´ ahodnˇe si vybere pohlav´ı, female následovan´ y male se odpoj´ı • Optimal list ranking – kaˇzd´ y procesor má zásobn´ık prvk˚ u, simulace random mating List coloring je obarven´ı seznamu tak, aby sousedé nemˇeli stejnou barvu. k-obarven´ı m˚ uˇze pouˇz´ıt k r˚ uzn´ ych barev. 2log(n) coloring vyuˇz´ıv´ a index procesoru k urˇcen´ı barvy. Hodnota k je index nejniˇzˇs´ıho bitu ID, ve kterém se sousedé liˇs´ı, pak je barva C = 2k + ID[k]. k-Ruling set (mnoˇzina oddˇelovaˇc˚ u) je podmnoˇzina seznamu taková, ˇze ˇzádné vybrané vrcholy nesoused´ı a je mezi nimi maxim´ alnˇe k nevybran´ ych prvk˚ u. 2k-ruling set from k-coloring vybere prvek tehdy, kdyˇz jeho barva má menˇs´ı index neˇz pˇredch˚ udce a n´ asledn´ıka.

10

Stromy

Stromy jsou prezentov´ any podobnˇe jako seznamy, ale vazba nen´ı na následn´ıka (i + 1), n´ ybrˇz na syny (2i a 2i + 1). Eulerova cesta je obecn´ y pˇr´ıpad pr˚ uchodu stromem (linearizace). Pˇrevád´ı strom na orientovan´ y graf (nahrad´ı hranu dvˇema opaˇcn´ ymi) → Eulerova kruˇznice. Eulerova kruˇ znice je reprezentov´ ana funkc´ı etour(e), která hranˇe pˇriˇrad´ı následuj´ıc´ı hranu v kruˇznici. Funkce je uloˇzena jako seznam sousednosti. Koˇ ren stromu vznikne tak, ˇze se v jednom bodˇe (koˇreni) Eulerova kruˇznice pˇreruˇs´ı. Pozice uzlu je vypoˇctena jako 2n − 2 − Rank(e), kde Rank je v´ ysledek list rankingu – O(log(n)). Vyuˇz´ıv´ a se pro zjiˇstˇen´ı rodiˇce. Tree contraction je operace pouˇzit´ a pˇri v´ ypoˇctu v´ yraz˚ u ve stromˇe. Eulerova cesta nen´ı pouˇzitelná. Kaˇzd´ y list obsahuje operand a nelist oper´ ator. Tree contraction strom postupnˇe zmenˇsuje aˇz do jediného uzlu, tedy v´ ysledku. RAKE operation odstran´ı dan´ y uzel a otce, na jehoˇz m´ısto dosad´ı sourozence s jeho podstromem. Vyuˇz´ıv´ a se pro tree contraction. Paraleln´ı RAKE nesm´ı b´ yt aplikov´ an na soused´ıc´ı uzly (konflikt), snaha co nejv´ıce RAKE najednou. 1. Oznaˇc´ıme listy zleva doprava.

10

2. Krajn´ı se vyˇrad´ı (z˚ ustanou posledn´ı). 3. Nejprve se vol´ a RAKE na liché a pak na sudé listy. 4. Redukce stromu za t(n) = O(log(n)).

11

Interakce mezi procesy

Interakce mezi procesy m˚ uˇzeme rozdˇelit na kooperaci (je potˇreba synchronizace) a soupeˇren´ı (je potˇreba v´ yluˇcn´ y pˇr´ıstup). Probl´ em: jelikoˇz procesy bˇeˇz´ı paralelnˇe (popˇr. pseudoparalelnˇe), nen´ı jasné poˇrad´ı vykonáván´ı instrukc´ı obou program˚ u. Zde odkazuji na podklady pˇredmˇetu POS, tomuto tématu se tam vˇenuje nˇekolik kapittol, staˇc´ı si odmyslet ˇc´ asti spojené s OS. Oper´ ator S> je p˚ uvodnˇe pouze teoretick´ y operátor, implementovan´ y ve vyˇsˇs´ıch programovac´ıch jazyc´ıch pro paraleln´ı programov´ an´ı. Jeho implementace je problémová. Zajiˇst’uje atomiˇcnost <>, oˇcekáv´ a splnˇen´ı podm´ınky B a poté atomicky vykon´ a sekvenci pˇr´ıkaz˚ u S. Critical Region ve vyˇsˇs´ıch jazyc´ıch jsou obalen´ı pouˇzit´ı semafor˚ u pro pˇr´ıstup ke KS, kl´ıˇcové slovo region a oznaˇcen´ı promˇenn´ ych shared. Problém, pokud se zanoˇruj´ı, pak m˚ uˇze doj´ıt ke konfliktu. Jednoduch´ a implementace (témˇeˇr makro). Conditional Critical Region rozˇsiˇruje koncepci o podm´ınku, pokud je stanovena dobˇre, ke kolizi nedojde. Implementace je ovˇsem velmi sloˇzit´ a. Z´ akladn´ı algoritmy (chybné) by cht´ıt nemˇeli, pokroˇcilé (bez chyby) se uˇcit nebudu.

12

Pˇ red´ av´ an´ı zpr´ av

Zas´ıl´ an´ı zpr´ av je zaloˇzeno na dvou operac´ıch – send() a receive(). Zprávy se pos´ılaj´ı tzv. kan´ alem. Asynchronn´ı kan´ al neblokuje odes´ıl´ an´ı, data bufferuje v sobˇe, tˇeˇzko se implementuje (buffer je problém). Synchronn´ı kan´ al blokuje (hned nebo pokud je naplnˇen buffer), buffer m˚ uˇze b´ yt, ale je omezen, vˇetˇsinou bez bufferu, jde simulovat asynchronn´ım kanálem (pouˇzit´ı ACK). OCCAM je programovac´ı jazyk zaloˇzen´ y na CSP (Communicating Sequential Processes). • Z´ akladem je proces, operace pˇriˇrazen´ı :=, vstup ? a v´ ystup !. • Sekvenˇcn´ı pˇr´ıkazy v odd´ılu SEQ. • Paralelnˇe prov´ adˇené pˇr´ıkazy v odd´ılu PAR. • Podm´ınka na z´ akladˇe vstupn´ıho kanálu ALT. ADA je imperativn´ı objektov´ y jazyk s validaˇcn´ımi prostˇredky. Má silné prostˇredky pro zas´ılán´ı zpráv. • Konstrukce accept oˇcek´ av´ a pˇr´ıchod zprávy daného jména a parametr˚ u, pak zpracuje u ´kol a odeˇsle v´ ysledek.

11

• Konstrukce select oˇcek´ av´ a v´ıce typ˚ u zpráv a pak vybere oˇsetˇruj´ıc´ı kód. Linda je paraleln´ı programovac´ı jazyk zaloˇzen´ y na C. Je zaloˇzena na asynchron´ım zas´ılán´ı zpráv pˇres glob´ aln´ı prostor zpr´ av (global space). • Tuple Space (n´ astˇenka) – glob´ aln´ı prostor zpráv (sd´ılená pamˇet’). • Tuple – n-tice obsahuj´ıc´ı pole s daty (zpráva). • Actual field – pole zpr´ avy, které je vyhodnoceno pˇred odeslán´ım • Formal field – pole zpr´ avy, které je pˇredáno jako promˇenná • Vkl´ ad´ an´ı na TS prov´ adˇej´ı out a eval. Pˇrij´ımán´ı pak in a rd. • out – generuje data (passive tuple), data vyhodnocena sekvenˇcnˇe • eval – generuje procesy (active tuple), které vypoˇc´ıtaj´ı data paralelnˇe • in – pˇrijme a odebere z TS, blokuj´ıc´ı • rd – pouze pˇreˇcte z TS, blokuj´ıc´ı • Poˇzadavky na ˇcten´ı zpr´ av jsou ve tvaru ˇsablon (("x",?y,?z)).

13

Jazyky pro paraleln´ı zpracov´ an´ı

Situace: obrovské s´ıtˇe poˇc´ıtaˇc˚ u propojené rychl´ ym spojen´ım, je moˇzné pouˇz´ıvat distribuované v´ ypoˇcty, potˇreba jazyka a protokolu, nejpouˇz´ıvanˇejˇs´ı jsou PVM a MPI PVM (Parallel Virtual Machine) • Vytvoˇren jednou skupinou. • Distribuovan´ y operaˇcn´ı systém. • Pˇrenosn´ y mezi HW. • Heterogenn´ı (r˚ uzné moˇznosti reprezentace dat). • Velk´ a odolnost proti chyb´ am. • Dynamick´ y (pˇridat, odebrat proces, vyrovnán´ı zátˇeˇze, chyby). MPI (Message Passing Interface) • Vytvoˇren f´ orem firem. • Knihovna poskytuj´ıc´ı funkce. • Pˇrenosn´ y mezi HW a SW (je to knihovna). • Heterogenn´ı (zabalen´ı r˚ uzn´ ych dat do dan´ ych typ˚ u). • Zamˇeˇren na vysok´ y v´ ykon. • Pˇresnˇe definované chov´ an´ı. • Statick´ y (vyˇsˇs´ı v´ ykon). • Nen´ı odolnost proti chyb´ am (neurˇcit´ y v´ ysledek). Implementace PVM 12

• Démon, beˇz´ıc´ı na stanic´ıch. • Démoni spolu komunikuj´ı. • Spojen´ı démon˚ u tvoˇr´ı virt´ aln´ı paraleln´ı stroj. • Démon m´ a pod sebou procesy, kter´ ym je nadˇrazen. • Prvn´ı démon je oznaˇcen jako master. • Master se star´ a o nastaven´ı, pˇrid´ aván´ı, hl´ıdán´ı. Implementace MPI • Na kaˇzdém poˇc´ıtaˇci bˇeˇz´ı procesy (jeden na CPU). • Procesy maj´ı identifikaci. • Procesy znaj´ı ID ostatn´ıch proces˚ u. • Procesy komunikuj´ı mezi sebou pˇr´ımo. • Proces neum´ı fork() (MPIv1) Message Passing v MPI • Kooperativn´ı – explicitn´ı send() a recv(). • Jednostranné (MPIv2) – z´ apis do pamˇeti c´ıle/ˇcten´ı zdroje Put() a Get(). • Procesy se sdruˇzuj´ı do skupin a zprávy do kontextu. • Komunik´ ator urˇcuje kontext a skupinu (napˇr. MPI_COMM_WORLD). • Kolektivn´ı operace – bcast() a reduce(). • Neblokuj´ıc´ı operace – Isend() a Irecv(), pak Iwait(). • MPI_Barrier() pro synchronizaci.

13

1 Paralelní a distribuované architektury

Recommend Documents