Datové struktury Algoritmy operací Jednoduché důsledky předpokladů... 9

Datové struktury

Obsah ´ 1 Uvod

6

2 Haˇ sov´ an´ı

7

2.1

Slovn´ıkov´ y problém . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

2.2

Haˇsován´ı obecnˇe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

2.3

Haˇsován´ı se separovan´ ymi ˇretˇezci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

2.3.1

Algoritmy operac´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

2.3.2

Nejhorˇs´ı pˇr´ıpady . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

2.3.3

Oˇcekávané pˇr´ıpady - pˇredpoklady . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

2.3.4

Jednoduché d˚ usledky pˇredpoklad˚ u. . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

2.3.5

Oˇcekávaná délka ˇretˇezc˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

2.3.6

Oˇcekávan´ y nejdelˇs´ı ˇretˇezec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

2.3.7

Oˇcekávan´ y poˇcet test˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

Haˇsován´ı s uspoˇra´dan´ ymi separovan´ ymi ˇretˇezci . . . . . . . . . . . . . . . . . . . . . . . . .

16

2.4.1


16

2.4.2

Algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16

2.5

Motivace pro neseparované ˇretˇezce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

2.6

Haˇsován´ı s pˇrem´ıst’ován´ım . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

2.6.1

Nepˇresn´ y popis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

2.6.2

Ilustrace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

2.6.3

Algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

2.6.4


20

2.6.5

Diskuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

Haˇsován´ı s dvˇema ukazateli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

2.7.1

Nepˇresn´ y popis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

2.7.2

Ilustrace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

2.4

2.7

1

2.8

2.9

2.7.3

Algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

2.7.4


22

Sr˚ ustaj´ıc´ı haˇsován´ı - pˇrehled . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

2.8.1

Nepˇresn´ y popis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

2.8.2

Pˇrehled . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

Metody EISCH a LISCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

2.9.1

Popis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

2.9.2

Ilustrace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

2.9.3

Algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

2.9.4

Oˇcekávan´ y poˇcet test˚ u ne´ uspˇeˇsného vyhledáván´ı (sn+1 ∈ / S) . . . . . . . . . . . . .

25

´ eˇsn´ Uspˇ y pˇr´ıpad (sj ∈ S) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29

2.10 Metody LICH, EICH, VICH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

2.10.1 Popis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

2.10.2 Ilustrace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

2.10.3 Algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

33

2.10.4 Oˇcekávan´ y poˇcet test˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

2.11 Haˇsován´ı s lineárn´ım pˇridáván´ım . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

2.11.1 Popis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

2.11.2 Algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

2.11.3 Ilustrace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

2.11.4 Oˇcekávan´ y poˇcet test˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

2.12 Dvojité haˇsován´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

2.12.1 Popis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

2.12.2 Algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

2.12.3 Ilustrace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

2.12.4 Oˇcekávan´ y poˇcet test˚ u - ne´ uspˇeˇsn´ y pˇr´ıpad . . . . . . . . . . . . . . . . . . . . . . .

38

´ eˇsn´ 2.12.5 Uspˇ y pˇr´ıpad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

40

2.13 Porovnán´ı efektivity haˇsovac´ıch algoritm˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

2.13.1 Ne´ uspˇeˇsné vyhledáván´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

´ eˇsné vyhledáván´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.13.2 Uspˇ

41

2.13.3 Oˇcekávan´ y poˇcet test˚ u pˇri u ´plnˇe zaplnˇené tabulce . . . . . . . . . . . . . . . . . . .

41

2.9.5

2.13.4 Vliv β =

m m′

pˇri sr˚ ustaj´ıc´ım haˇsován´ı . . . . . . . . . . . . . . . . . . . . . . . . . .

42

2.13.5 Komentáˇr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

2.14 Dalˇs´ı otázky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

2

2.14.1 Jak nalézt voln´ y ˇra´dek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

2.14.2 Jak ˇreˇsit pˇreplnˇen´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

2.14.3 Jak ˇreˇsit DELETE v metodách, které ho nepodporuj´ı . . . . . . . . . . . . . . . . .

42

2.14.4 Otevˇrené problémy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

2.14.5 Pˇredpoklady a jejich splnitelnost . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

2.15 Univerzáln´ı haˇsován´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

2.15.1 Základn´ı idea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

2.15.2 Modifikace ideje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

2.15.3 Formáln´ı definice c-univerzáln´ıch systém˚ u . . . . . . . . . . . . . . . . . . . . . . .

44

2.15.4 Existence univerzáln´ıch systém˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

2.15.5 Vlastnosti univerzáln´ıho haˇsován´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

2.15.6 Markovova nerovnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

2.15.7 V´ ybˇer funkce ze systému . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48

2.15.8 Doln´ı odhady na velikost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48

2.15.9 Mal´ y univerzáln´ı systém - definice . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49

2.15.10 Univerzalita malého systému H1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

50

2.15.11 Odhad na velikost c . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

52

2.15.12 Problémy univerzáln´ıho haˇsován´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . .

53

2.16 Perfektn´ı haˇsován´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

54

2.16.1 Idea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

54

2.16.2 Poˇzadavky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

54

2.16.3 (N, m, n)-perfektn´ı systém - definice . . . . . . . . . . . . . . . . . . . . . . . . . . .

54

2.16.4 Doln´ı odhady na velikost (N, m, n)-perfektn´ıho souboru . . . . . . . . . . . . . . . .

55

2.16.5 Existence (N, m, n)-perfektn´ıho souboru . . . . . . . . . . . . . . . . . . . . . . . .

56

2.16.6 Konstrukce perfektn´ıch haˇsovac´ıch funkc´ı A, B . . . . . . . . . . . . . . . . . . . . .

58

2.16.7 Konstrukce perfektn´ı haˇsovac´ı funkce C

. . . . . . . . . . . . . . . . . . . . . . . .

61

2.16.8 Konstrukce perfektn´ı haˇsovac´ı funkce D . . . . . . . . . . . . . . . . . . . . . . . .

62

2.16.9 Konstrukce perfektn´ı haˇsovac´ı funkce E . . . . . . . . . . . . . . . . . . . . . . . . .

64

2.16.10 Univerzáln´ı a perfektn´ı haˇsován´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

65

2.16.11 Dynamické perfektn´ı haˇsován´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

66

2.16.12 Algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

67

2.17 Extern´ı haˇsován´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

2.17.1 Algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

71

3

3 Vyhled´ av´ an´ı v uspoˇ r´ adan´ em poli

73

3.1

Zadán´ı u ´lohy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

73

3.2

Metaalgoritmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

73

3.3

Typy funkce next . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

74

3.3.1

74

Zobecnˇené kvadratické vyhledáván´ı . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Stromy

76

4.1

Uspoˇra´dan´ y slovn´ıkov´ y problém . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

4.2

(a, b)-stromy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

77

4.2.1

Obecná definice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

77

4.2.2

Speciáln´ı pˇr´ıpad – definice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

77

4.2.3

Vlastnosti – velikost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

77

4.2.4

Vlastnosti – uspoˇra´dán´ı na listech . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78

4.2.5

Jak reprezentujeme mnoˇzinu? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78

4.2.6

Algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78

4.2.7

Korektnost algoritm˚ u. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

82

4.2.8

ˇ Casov´ a anal´ yza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

83

4.2.9

Poˇra´dková statistika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

83

4.2.10 Hodnoty a, b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

84

4.2.11 Paraleln´ı verze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

84

4.2.12 A-sort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

84

4.2.13 A-sort – sloˇzitost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

86

4.2.14 Propojené stromy s prstem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

87

4.2.15 Omezen´ı ˇstˇepen´ı, spojován´ı a pˇresun˚ u. . . . . . . . . . . . . . . . . . . . . . . . . .

87

4.2.16 Omezen´ı ˇstˇepen´ı, spojován´ı a pˇresun˚ u – diskuze . . . . . . . . . . . . . . . . . . . .

93

Binárn´ı vyhledávac´ı stromy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

94

4.3.1

Formáln´ı definice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

94

4.3.2

Algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

95

4.3.3

Korektnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

97

4.3.4

ˇ Casov´ a sloˇzitost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

98

4.3.5

Poˇra´dková statistika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

98

4.3.6

Diskuze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

98

4.3.7

Rotace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

99

4.3

4.4

AVL-stromy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

4

4.5

4.4.1

Definice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

4.4.2

Odhad v´ yˇsky stromu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

4.4.3

Algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

ˇ Cerveno-ˇ cerné stromy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 4.5.1

Definice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

4.5.2

Vyváˇzenost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

4.5.3

Popis algoritm˚ u (kromˇe vyvaˇzován´ı)

4.5.4

Vyvaˇzovac´ı operace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

4.5.5

Popis nevyvaˇzovac´ıch operac´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

4.5.6

Korektnost a sloˇzitost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

. . . . . . . . . . . . . . . . . . . . . . . . . . 109

4.6

Váhovˇe vyváˇzené stromy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

4.7

Historick´ y pˇrehled: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

5 Haldy 5.1

5.2

5.3

120

´ Uvodn´ ı definice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 5.1.1

Motivace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

5.1.2

Zadán´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

5.1.3

Definice haldy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

Regulárn´ı haldy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 5.2.1

d-regulárn´ı strom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

5.2.2

V´ yˇska . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

5.2.3

Reprezentace pomoc´ı pole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

5.2.4

Algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

5.2.5

Korektnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

5.2.6

Sloˇzitost operac´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

5.2.7

Aplikace – heapsort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

5.2.8

Aplikace – Dijkstra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

Leftist haldy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 5.3.1

´ Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

5.3.2

Defince . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

5.3.3

Základn´ı vlastnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

5.3.4

Algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

5.3.5

ˇ Casov´ a sloˇzitost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

5.3.6

Efektivn´ı DECREASE a INCREASE . . . . . . . . . . . . . . . . . . . . . . . . 128

5

5.4

5.5

5.6

Amortizovaná sloˇzitost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 5.4.1

Idea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

5.4.2

Definice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

Binomiáln´ı haldy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 5.5.1

Motivace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

5.5.2

Definice binomiáln´ıho stromu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

5.5.3

Vlastnosti binomiáln´ıho stromu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

5.5.4

Definice binomiáln´ı haldy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

5.5.5

Algoritmy, korektnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

5.5.6

Sloˇzitost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

5.5.7

L´ıná binomiáln´ı halda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

Fibonacciho haldy

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

5.6.1

Motivace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

5.6.2

Velmi neformáln´ı definice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

5.6.3

Ménˇe neformáln´ı definice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

5.6.4

Algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

5.6.5

Sloˇzitost operac´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

5.6.6

Aplikace

5.6.7

Historick´ y pˇrehled . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

6 Tˇ r´ıdic´ı algoritmy

142

6.0.8

HEAPSORT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

6.0.9

MERGESORT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

6.0.10 QUICKSORT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 6.0.11 Porovnán´ı tˇr´ıdic´ıch algoritm˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 6.0.12 Sléván´ı nestejnˇe dlouh´ ych posloupnost´ı . . . . . . . . . . . . . . . . . . . . . . . . . 148 6.1

Rozhodovac´ı stromy

6.2

Pˇrihrádkové tˇr´ıdˇen´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

6.3

Poˇra´dkové statistiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 6.3.1

1

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

Historick´ y pˇrehled . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

´ Uvod

Základn´ı problém: Reprezentace mnoˇzin a operace s nimi. V ˇradˇe u ´loh a algoritm˚ u je tento podproblém rozhoduj´ıc´ı pro sloˇzitost ˇreˇsen´ı, protoˇze tyto operace se mnohokrát opakuj´ı. Proto je tˇreba navrhnout

6

pro tyto u ´lohy co nejefektivnˇejˇs´ı algoritmy (kaˇzd´ y uˇsetˇren´ y ˇcas mnohonásobn´ ym opakován´ım zaˇcne hrát d˚ uleˇzitou roli). To vede k detailn´ı anal´ yze sloˇzitosti v závislosti na vnˇejˇs´ıch okolnostech. Nelze ˇr´ıct, ˇze nˇekter´ y algoritmus je nejlepˇs´ı, protoˇze za urˇcit´ ych okolnost´ı m˚ uˇze b´ yt ‘ménˇe efektivn´ı’ algoritmus v´ yhodnˇejˇs´ı. C´ılem této pˇrednáˇsky nen´ı pouze seznámit vás s algoritmy pro ˇreˇsen´ı tˇechto problém˚ u, protoˇze s tˇemi jste se seznámili uˇz v pˇrednáˇsce ‘Algoritmy a datové struktury’. Hlavn´ım c´ılem je ukázat vám prostˇredky a metody, jak mˇeˇrit a zjiˇst’ovat jejich efektivitu, a t´ım vám ukázat prostˇredky, které vám umoˇzn´ı rozhodnout se v dané situaci pro urˇcit´ y algoritmus. Proto hlavn´ı nápln´ı této pˇrednáˇsky bude poˇc´ıtán´ı efektivity algoritm˚ u. Budeme poˇc´ıtat za zjednoduˇsen´ ych pˇredpoklad˚ u, protoˇze neum´ım ˇr´ıct (a ani to nelze, protoˇze vˇzdy záleˇz´ı na konkrétn´ıch okolnostech), které sofistikovanˇejˇs´ı metody budou v praxi vhodné pro ˇreˇsen´ı vaˇseho problému. C´ılem pˇrednáˇsky je seznámit vás s moˇznostmi, jak ˇreˇsit tyto problémy, a se základn´ımi metodami pro jejich ˇreˇsen´ı. Skripta byla napsána profesorem Koubkem; pan profesor je dal k dispozici Karlovi B´ılkovi a Markovi Vaˇsutovi, kteˇr´ı z nich svévolnˇe“ udˇelali tuto upravenou verzi v LaTeXu. Nˇekteré ˇca´sti tedy nemus´ı ” b´ yt správné. Delˇs´ı d˚ ukazy, ve kter´ ych mi v p˚ uvodn´ıch skriptech chybˇela struktura, jsem pˇrepsal na sérii drobnˇejˇs´ıch lemmat, doufám, ˇze to bude jasnˇejˇs´ı.

2 2.1

Haˇ sov´ an´ı Slovn´ıkov´ y probl´ em

Nejprve si zadefinujeme asi nejzákladnˇejˇs´ı problém, kter´ y ˇreˇs´ıme v datov´ ych strukturách. ˇ s´ıme tzv. slovn´ıkov´ Reˇ y problém: Dáno univerzum U , máme reprezentovat S ⊆ U a navrhnout algoritmy pro následuj´ıc´ı operace MEMBER(x) – zjist´ı, zda x ∈ S, a nalezne jeho uloˇzen´ı INSERT(x) – kdyˇz x ∈ / S, pak vloˇz´ı x do struktury reprezentuj´ıc´ı S DELETE(x) – kdyˇz x ∈ S, pak odstran´ı x ze struktury reprezentuj´ıc´ı S. Efektivita algoritmu: ˇcasová sloˇzitost, prostorová sloˇzitost; vyˇsetˇrené bud’ v nejhorˇs´ım pˇr´ıpadˇe nebo v pr˚ umˇerném pˇr´ıpadˇe nebo amortizovanˇe. Literatura: K. Mehlhorn: Data Structures and Algorithms 1: Sorting and Searching, Springer 1984 http://www.mpi-sb.mpg.de/~mehlhorn/DatAlgbooks.html J. S. Vitter, W.-Ch. Chen: Design and Analysis of Coalesced Hashing, Oxford Univ. Press, 1987

2.2

Haˇ sov´ an´ı obecnˇ e

Pomoc´ı bitového pole m˚ uˇzeme rychle implementovat operace MEMBER, INSERT a DELETE. Nev´ yhoda: kdyˇz je velké univerzum, pak je prostorová sloˇzitost v nejlepˇs´ım pˇr´ıpadˇe ohromná, ve ˇspatném pˇr´ıpadˇe nelze pole zadat do poˇc´ıtaˇce. Haˇsován´ı chce zachovat rychlost operac´ı, ale odstranit pamˇet’ovou nároˇcnost. Prvn´ı publikovan´ y ˇclánek o haˇsován´ı je od Dumney z roku 1956, prvn´ı anal´ yza haˇsován´ı pocház´ı od Petersona z roku 1957, ale existuje technická zpráva od IBM o haˇsován´ı z roku 1953. Základn´ı idea: Dáno univerzum U a mnoˇzina S ⊆ U tak, ˇze |S| << |U |. Máme funkci h : U → {0, 1, . . . , m− 1} (taky heˇsovac´ı funkce) a mnoˇzinu S reprezentujeme tabulkou (polem) s m ˇra´dky tak, ˇze s ∈ S je uloˇzen na ˇra´dku h(s). 7

m (jako memory) si tedy budeme znaˇcit velikost tabulky; n je velikost |S|. Nev´ yhoda: mohou existovat r˚ uzná s, t ∈ S taková, ˇze h(s) = h(t) - tento jev se naz´ yvá kolize. Hlavn´ı problém, kterému se vˇenuje zbytek kapitoly: ˇreˇsen´ı koliz´ı.

2.3

Haˇ sov´ an´ı se separovan´ ymi ˇ retˇ ezci

Základn´ı ˇreˇsen´ı: pouˇzijeme pole o velikosti [0..m − 1] a i-tá poloˇzka pole bude spojov´ y seznam obsahuj´ıc´ı vˇsechny prvky s ∈ S takové, ˇze h(s) = i. Toto ˇreˇsen´ı se naz´ yvá haˇsován´ı se separovanými ˇretˇezci. Pˇr´ıklad: U = {1, 2, . . . , 1000}, S = {1, 7, 11, 53, 73, 141, 161} a funkce je h(x) = x mod 10. Pak P (0) = P (2) = P (4) = P (5) = P (6) = P (8) = P (9) = ∅, P (7) =< 7 >, P (3) =< 53, 73 >, P (1) =< 1, 141, 11, 161 > . Seznamy nemus´ı b´ yt uspoˇra´dané. 2.3.1

Algoritmy operac´ı

MEMBER(x) Spoˇc´ıtáme i := h(x), t := N IL if i-t´ y seznam je neprázdn´ y then t :=prvn´ı prvek i-tého seznamu while t 6= x a t 6=posledn´ı prvek i-tého seznamu do t :=následuj´ıc´ı prvek i-tého seznamu enddo endif if t = x then V´ ystup: x ∈ S else V´ ystup: x ∈ / S endif INSERT(x) Spoˇc´ıtáme i := h(x), t := N IL if i-t´ y seznam je neprázdn´ y then t :=prvn´ı prvek i-tého seznamu while t 6= x a t 6=posledn´ı prvek i-tého seznamu do t :=následuj´ıc´ı prvek i-tého seznamu enddo endif if t 6= x then vloˇz´ıme x do i-tého seznamu endif DELETE(x) Spoˇc´ıtáme i := h(x), t := N IL if i-t´ y seznam je neprázdn´ y then t :=prvn´ı prvek i-tého seznamu while t 6= x a t 6=posledn´ı prvek i-tého seznamu do t :=následuj´ıc´ı prvek i-tého seznamu enddo endif if t = x then odstran´ıme x z i-tého seznamu endif

8

2.3.2

Nejhorˇ s´ı pˇ r´ıpady

V následuj´ıc´ı anal´ yze pˇredpokládáme, ˇze hodnota funkce h(x) je spoˇcitatelná v ˇcase O(1). V nejhorˇs´ım pˇr´ıpadˇe operace vyˇzaduj´ı ˇcas O(|S|) (vˇsechny prvky jsou v jednom seznamu). Poˇzadovaná pamˇet’ová nároˇcnost O(m+|S|) (pˇredpokládáme, ˇze reprezentace prvku s ∈ S vyˇzaduje pamˇet’ O(1)) Pamˇet’ nen´ı efektivnˇe vyuˇzitá. Dalˇs´ı kapitoly 2.3 jsou vˇenovány oˇ cek´ avan´ ym pˇ r´ıpad˚ um 2.3.3

Oˇ cek´ avan´ e pˇ r´ıpady - pˇ redpoklady

Pro v´ ypoˇcet oˇcekávan´ ych pˇr´ıpad˚ u si zavedeme pˇredpoklady: 1. h je rychle spoˇcitatelná (tj. O(1)) a nemˇenná bˇehem v´ ypoˇctu; 2. vˇsechny h−1 (i) jsou stejnˇe velké, tj. h rozdˇeluje univerzum U rovnomˇernˇe (tj. −1 ≤ |h−1 (i)| − |h−1 (j)| ≤ 1 pro i, j ∈ {0, 1, . . . , m − 1} – rozd´ıl 1 kv˚ uli tomu, ˇze jde o celá ˇc´ısla); 3. S je náhodnˇe vybraná z univerza U (tj. pro dané n = |S| jsou vˇsechny podmnoˇziny U o velikosti n reprezentovanou mnoˇzinou S se stejnou pravdˇepodobnost´ı); 4. kaˇzd´ y prvek z U má stejnou pravdˇepodobnost b´ yt argumentem operace INSERT, DELETE, MEMBER 5. velikost reprezentované mnoˇziny je v´ yraznˇe menˇs´ı neˇz velikost univerza. Pouˇzité znaˇcen´ı: |S| = n (number ), m =poˇcet ˇretˇezc˚ u (memory), |U | = N , n ℓ(i) =délka i-tého ˇretˇezce, α = m faktor naplnˇen´ı (load factor) 2.3.4

Jednoduch´ e d˚ usledky pˇ redpoklad˚ u

1. Prob(h(x) = i) = m1 pro vˇsechna x ∈ U a vˇsechna i = 0, 1, . . . , m − 1 – tj. prvky jsou rovnomˇernˇe rozloˇzeny do slot˚ u“ ” u maj´ı 2. Prob(ℓ(i) = l) = pn,l = nl ( m1 )l (1 − m1 )n−l pro vˇsechna i = 0, 1, . . . , m − 1 – tj. délky ˇretˇezc˚ binomiáln´ı rozdˇelen´ı. Vysvˇetlen´ı: i-t´ y ˇretˇezec má délku l, právˇe kdyˇz je l prvk˚ u z S zaheˇ sováno do i a zbytek ne – tj. exisn tuje podmnoˇzina A ⊆ S taková, ˇze |A| = l (tˇechto moˇznost´ı je l ), pro kaˇzdé x ∈ A plat´ı h(x) = i (pravdˇepodobnost tohoto jevu je ( m1 )l ) a pro kaˇzdé x ∈ S \ A plat´ı h(x) 6= i (pravdˇepodobnost tohoto jevu je (1 − m1 )n−l ). To znamená, ˇze jev má binomiáln´ı rozdˇelen´ı. Zde jsme nepˇresn´ı kv˚ uli moˇznému rozd´ılu 1 ve velikostech mnoˇzin. Obecnˇe pro náhodnˇe zvolené x ∈ U a −1 dané i je Prob(h(x) = i) = |h |U(i)| a kdyˇz existuj´ı dvˇe r˚ uzná i, j ∈ {0, 1, . . . , m − 1} taková, ˇze |h−1 (i)| 6= | −1

|h−1 (j)|, pak obecnˇe |h |U(i)| 6= m1 . Toto nastane i v pˇr´ıpadˇe, kdyˇz jsme jiˇz zvolili nˇejak´ y prvek v h−1 (i). | Protoˇze vˇsak pˇredpokládáme, ˇze n, m << |U | tak ve vˇsech uvaˇzovan´ ych pˇr´ıpadech je P rob(h(x) = i) 1 1 pˇribliˇznˇe m , a m˚ uˇzeme tuto pravdˇepodobnost aproximovat hodnotou m .

9

2.3.5

Oˇ cek´ avan´ a d´ elka ˇ retˇ ezc˚ u

Vˇ eta. Oˇcekávan´ a délka ˇretˇezc˚ u je

n . m

D˚ ukaz. E(l) =

n X

l=0 n X

lpn,l l

l=0

n

n X 1 n 1 l = l ( ) (1 − )n−l = m l m l=0

1 1 n! ( )l (1 − )n−l = l!(n − l)! m m

n X (n − 1)! 1 1 ( )l−1 (1 − )n−l = m l=1 (l − 1)!(n − l)! m m n 1 n X n − 1 1 l−1 ( ) (1 − )(n−1)−(l−1) = m l=1 l − 1 m m n−1 n X n−1 1 l 1 ( ) (1 − )n−1−l = l m l=0 m m 1 n n 1 ( + 1 − )n−1 = . m m m m

Toto je standardn´ı elementárn´ı v´ ypoˇcet oˇcekávané hodnoty binomiáln´ıho rozdˇelen´ı.

Lemma (Druh´ y moment). E(l2 ) =

n (1 m

+

n−1 ) m

D˚ ukaz. E(l2 ) =E(l(l − 1)) + E(l), n X n 1 l 1 E(l(l − 1)) = l(l − 1) ( ) (1 − )n−l = l m m l=0 n 1 (n−2)−(l−2) n(n − 1) X n − 2 1 l−2 ) (1 − ) = ( l − 2 m2 m m l=2 n−2 n(n − 1) X n − 2 1 l 1 ( ) (1 − )n−2−l = 2 l m m m l=0 n(n − 1) , m2 n(n − 1) n n n−1 E(l2 ) = + = (1 + ). 2 m m m m

Vˇ eta. Rozptyl ˇretˇezc˚ u je nm(1 −

1 ). m

10

D˚ ukaz. var(l) =E(l − E(l))2 = E(l2 ) − (E(l))2 = n n−1 n n 1 (1 + ) − ( )2 = (1 − ). m m m m m

Shrneme v´ ysledky:

Oˇcekávaná délka ˇretˇezc˚ u je

n m

a rozptyl délky ˇretˇezc˚ u je

n m (1

− m1 ).

Toto jsou standardn´ı elementárn´ı odvozen´ı druhého momentu a rozptylu binomiáln´ıho rozdˇelen´ı. 2.3.6

Oˇ cek´ avan´ y nejdelˇ s´ı ˇ retˇ ezec

Spoˇc´ıtáme E(N P ) oˇcekávanou délku maximáln´ıho ˇretˇezce (N P jako nejhorˇs´ı pˇr´ıpad :)) P Lemma. E(N P ) = j Prob(maxi ℓ(i) ≥ j), kde ℓ(i) je délka i-tého ˇretˇezce. D˚ ukaz. Plat´ı, ˇze

Prob(max ℓ(i) = j) = Prob(max ℓ(i) ≥ j) − Prob(max ℓ(i) ≥ j + 1). i

i

i

Pak m˚ uˇzeme poˇc´ıtat: E(N P ) =

X

j Prob(max ℓ(i) = j) = i

j

X j

X j

X j

X j

X j

j(Prob(max ℓ(i) ≥ j) − Prob(max ℓ(i) ≥ j + 1)) = i

i

j Prob(max ℓ(i) ≥ j) − i

j Prob(max ℓ(i) ≥ j) − i

X j

X j

j Prob(max ℓ(i) ≥ j + 1) = i

(j − 1) Prob(max ℓ(i) ≥ j) = i

(j − j + 1) Prob(max ℓ(i) ≥ j) = i

Prob(max ℓ(i) ≥ j). i

Vysvˇetlen´ı: Pˇri ˇctvrté rovnosti se v druhé sumˇe zvˇetˇsil index, pˇres kter´ y sˇc´ıtáme, o 1, v páté rovnosti se k sobˇe daly koeficienty pˇri stejn´ ych pravdˇepodobnostech ve dvou sumách.

11

n j−1 1 Lemma. Prob(maxi (ℓ(i)) ≥ j) ≤ min{1, n( m ) j! }.

D˚ ukaz. Prob(max(ℓ(i)) ≥ j) = i

Prob(ℓ(1) ≥ j ∨ ℓ(2) ≥ j ∨ · · · ∨ ℓ(m − 1) ≥ j) ≤ X n 1 j Prob(ℓ(i) ≥ j) ≤ m ( ) = j m i Qj−1 n 1 k=0 (n − k) 1 j−1 ( ) ≤ n( )j−1 . j! m m j! Vysvˇetlen´ı: Prvn´ı nerovnost plyne z toho, ˇze pravdˇepodobnost disjunkce jev˚ u je menˇs´ı neˇz souˇcet pravdˇepodobnost´ı jev˚ u, druhá nerovnost plyne z toho, ˇze i-t´ y ˇretˇezec má délku alespoˇ n j, jakmile existuje podmnoˇzina A ⊆ S taková, ˇze |A| = j (tˇechto moˇznost´ı je nj ) a pro kaˇzdé x ∈ A plat´ı h(x) = i (pravdˇepodobnost tohoto jevu je ( m1 )j ). Protoˇze pravdˇepodobnost je pro vˇsechna i stejná a i nab´ yvá m hodnot, dostáváme druhou nerovnost. Následuj´ıc´ı rovnost plyne z rozepsán´ı binomick´ ych koeficient˚ u. Posledn´ı nerovnost dostaneme nahrazen´ım n − k hodnotou n. ˇ pravdˇepodobnost je menˇs´ı neˇz 1 je triviáln´ı. Ze

Lemma (Stirling˚ uv vzorec pro faktoriály (bez d˚ ukazu)). j! =

√ 2jπ

Lemma (Pomocné lemma). Kdyˇz ( qe )q ≤ n, pak q ≤ (1 + o(1)) lnlnlnnn .

j j e

1+

1 12j

+

1 288j 2

D˚ ukaz. Vˇsimnˇeme si nejdˇr´ıv, ˇze plat´ı ln n ln n ln n (ln( )−1 =(ln ln n − ln ln ln n − 1) = ln ln n ln ln n ln ln n ln n(ln ln ln n) ln n ln n − − = ln ln n ln ln n 1 ln ln ln n − ) = (1 + o(1)) ln n, ln n(1 − ln ln n ln ln n protoˇze limn7→∞

ln ln ln n ln ln n

= 0 = limn7→∞

1 . ln ln n

lim

n7→∞

Odtud plyne !

ln n ln ln n

e

= e(1+o(1)) ln n = n.

Protoˇze ( qe )q je rostouc´ı funkce, tak dostáváme, ˇze q ≤ (1 + o(1))( lnlnlnnn ).

n j−1 1 Oznaˇcme si j0 = min{j | n( m ) j! ≤ 1}

Lemma (Omezen´ı j0 ). Pokud α =

n m

≤ 1, pak j0 ≤

(1+o(1)) log n log log n

12

+ O(j −3 )

D˚ ukaz. j0 = min{j | n(

n j−1 1 j ln n ) ≤ 1} ≤ min{j | n ≤ j!} ≤ min{j | n ≤ ( )j } ≤ (1 + o(1)) . m j! e ln ln n

Prvn´ı nerovnost je jen pˇreveden´ı na druhou stranu a ignorován´ı zlomku menˇs´ıho neˇz 1, druhá nerovnost plyne ze Stirlingova vzorce, tˇret´ı plyne z pomocného lemmatu.

Vˇ eta. Pokud α =

n m

≤ 1, horn´ı odhad odhad oˇcekávané délky maxim´ aln´ıho ˇretˇezce je O( logloglogn n )

D˚ ukaz. E(N P ) =

X

Prob(max(ℓ(i)) ≥ j) ≤

X

min{1, n(

j

i

n j−1 1 ) }= m j!

j

j0 X

1+

j=1

∞ X

j=j0 +1 ∞ X

j0 +

n j0 ! j=j

j0 +

1 j0 +1 − j01+1 +

0

∞ X n n j−1 1 = ≤ j0 + n( ) m j! j! j=j +1 0

X j0 ! 1 j−j0 ≤ j0 + ( ) = j! j +1 +1 j=j +1 0 1

0

= j0 +

1 = O(j0 ). j0

n j−1 1 Vysvˇetlen´ı: Pˇri druhé rovnosti jsme pouˇzili, ˇze n( m ) j! ≤ 1, právˇe kdyˇz j ≤ j0 . Pˇri druhé nerovnosti n jsme pouˇzili, ˇze m ≤ 1, pˇri tˇret´ı nerovnosti jsme pouˇzili, ˇze jn0 ! ≤ 1 a

1 1 j−j0 j0 ! . = Qj ) ≤( j! j + 1 k 0 k=j +1 0

aroveˇ n i doln´ı odhad E(N P ). Vˇ eta (bez d˚ ukazu). Kdyˇz 0.5 ≤ α ≤ 1, je O( logloglogn n ) z´ Shrneme z´ıskan´ y v´ ysledek

n ≤ 1 je pˇri haˇsován´ı se separovan´ ymi ˇretˇezci Za pˇredpokladu α = m log n horn´ı odhad oˇcekávané délky maximáln´ıho ˇretˇezce O( log log n ). Kdyˇz 0.5 ≤ α ≤ 1, je to zároveˇ n i doln´ı odhad.

13

2.3.7

Oˇ cek´ avan´ y poˇ cet test˚ u

Test je porovnán´ı argumentu operace s prvkem na daném m´ıstˇe ˇretˇezce nebo zjiˇstˇen´ı, ˇze vyˇsetˇrovan´ y ˇretˇezec je prázdn´ y. Budeme rozliˇsovat dva pˇr´ıpady: u ´spˇeˇsné vyhledáv´ an´ı – argument operace je mezi prvky reprezentované mnoˇziny, ne´ uspˇeˇsné vyhledáv´ an´ı – argument operace nen´ı mezi prvky reprezentované mnoˇziny. Vˇ eta (Ne´ uspˇeˇsné vyhledáván´ı). Pˇri haˇsován´ı se separovanými ˇretˇezci je oˇcekávaný poˇcet test˚ u pˇri ne´ uspeˇs−α ném vyhledávan´ı pˇribliˇznˇe e + α D˚ ukaz. Oˇcekávan´ y poˇcet test˚ u: E(T ) = Prob(ℓ(i) = 0) +

X

l Prob(ℓ(i) = l) =

l

pn,0 +

X

lpn,l =

l

(1 −

1 n n ) + ≈ e−α + α. m m

Vysvˇetlen´ı: Zjiˇstˇen´ı, zda ˇretˇezec je prázdn´ y, vyˇzaduje jeden test, tj. Prob(ℓ(i) = 0) nen´ı s koeficientem 0, ale 1. Protoˇze pravdˇepodobnosti y P jsou stejné pro vˇsechny ˇretˇezce, nemus´ıme specifikovat ˇretˇezec, kter´ vyˇsetˇrujeme, staˇc´ı psát obecnˇe i. l lpn,l jsme spoˇc´ıtali pˇri v´ ypoˇctu oˇcekávané délky ˇretˇezce. ´ eˇsné vyhledáván´ı). Pˇri haˇsován´ı se separovanými ˇretˇezci je oˇcekávaný poˇcet test˚ Vˇ eta (Uspˇ u pˇri u ´speˇsném α vyhledávan´ı pˇribliˇznˇe 1 + 2 D˚ ukaz. Zvolme jeden ˇretˇezec prvk˚ u o délce l. Poˇcet test˚ u pˇri vyhledán´ı vˇsech prvk˚ u v tomto ˇretˇezci je l+1 1 + 2 + ··· + l = . 2 Oˇcekávan´ y poˇcet test˚ u pˇri vyhledán´ı vˇsech prvk˚ u v nˇejakém ˇretˇezci je X l + 1 X l+1 pn,l . Prob(ℓ(i) = l) = 2 2 l l Oˇcekán´ y poˇcet test˚ u pˇri vyhledán´ı vˇsech prvk˚ u v tabulce je m

P

l

l+1 2

pn,l .

Oˇcekávan´ y poˇcet test˚ u pro vyhledán´ı jednoho prvku je n n n X mX l+1 m X 2 pn,l = l pn,l + lpn,l = 2 n l=0 2n l=0 l=0

n n X m X l(l − 1)pn,l + 2 lpn,l = 2n l=1 l=1

m n(n − 1) 2n n−1 ( + )= +1≈ 2 2n m m 2m α 1+ . 2

14

Jin´ y postup. D˚ ukaz. Pˇredpokládejme, ˇze poˇcet test˚ u pˇri u ´spˇeˇsném vyhledáván´ı prvku x ∈ S je 1+poˇcet porovnán´ı kl´ıˇc˚ u pˇri ne´ uspˇeˇsném vyhledáván´ı x v operaci INSERT(x). Pak poˇcet porovnán´ı kl´ıˇc˚ u je délka ˇretˇezce, a proto oˇcekávan´ y poˇcet porovnán´ı kl´ıˇc˚ u je oˇcekávaná délka ˇretˇezce. Tedy oˇcekávan´ y poˇcet test˚ u pˇri u ´spˇeˇsném vyhledáván´ı x je 1+oˇcekávaná délka ˇretˇezce v okamˇziku vkládán´ı x, neboli n−1

1X n−1 i . (1 + ) = 1 + n i=0 m 2m

Pˇri haˇsován´ı se separovan´ ymi ˇretˇezci je oˇcekávan´ y poˇcet test˚ u pˇri −α ne´ uspeˇsném vyhledávan´ı pˇribliˇznˇe e + α a pˇri u ´spˇeˇsném vyhα ledáván´ı pˇribliˇznˇe 1 + 2 .

Následuj´ıc´ı tabulka dává pˇrehled oˇcekávaného poˇctu test˚ u pro r˚ uzné hodnoty α α ne´ usp. vyh. u ´spˇeˇs. vyh. α ne´ usp. vyh. u ´spˇeˇs. vyh.

0 0.1 0.2 0.3 0.4 0.5 0.6 1 1.005 1.019 1.041 1.07 1.107 1.149 1 1.05 1.1 1.15 1.2 1.25 1.3 0.7 0.8 0.9 1 2 3 1.196 1.249 1.307 1.368 2.135 3.05 1.35 1.4 1.45 1.5 2 2.5

Vˇsimnˇete si, ˇze oˇcekávan´ y poˇcet test˚ u pˇri ne´ uspˇeˇsném vyhledáván´ı je menˇs´ı neˇz oˇcekávan´ y poˇcet test˚ u pˇri u ´spˇeˇsném vyhledáván´ı, kdyˇz α ≤ 1. Na prvn´ı pohled vypadá tento v´ ysledek nesmyslnˇe, ale d˚ uvod je, ˇze poˇcet test˚ u pˇri u ´spˇeˇsném vyhledáván´ı pr˚ umˇerujeme proti n, kdeˇzto pˇri ne´ uspˇeˇsném vyhledáván´ı proti m. Ilustrujeme to na následuj´ıc´ım pˇr´ıkladu: ych ˇretˇezc˚ u má délku 1 a polovina má délku 2. Necht’ n = m2 a necht’ polovina neprázdn´ Oˇcekávan´ y poˇcet test˚ u pˇri ne´ uspˇeˇsném vyhledávan´ı: • 1 test pro prázdné ˇretˇezce a ˇretˇezce délky 1 – tˇechto pˇr´ıpad˚ u je • 2 testy pro ˇretˇezce délky 2 – tˇechto pˇr´ıpad˚ u je

5m 6

m . 6

Oˇcekávan´ y poˇcet test˚ u je m1 (1 5m + 2 m6 ) = 67 . 6 Oˇcekávan´ y poˇcet test˚ u pˇri u ´spˇeˇsném vyhledáván´ı: • 1 test pro prvky na prvn´ım m´ıstˇe ˇretˇezce – tˇechto pˇr´ıpad˚ u je

2n 3

• 2 testy pro prvky, které jsou na druhém m´ıstˇe ˇretˇezce – tˇechto pˇr´ıpad˚ u je n3 . Oˇcekávan´ y poˇcet test˚ u je n1 (1 2n + 2 n3 ) = 34 . 3 Velikost α je doporuˇcována menˇs´ı neˇz 1, ale nemá b´ yt hodnˇe malá, protoˇze by pamˇet’ nebyla efektivnˇe vyuˇzita. 15

2.4

Haˇ sov´ an´ı s uspoˇ r´ adan´ ymi separovan´ ymi ˇ retˇ ezci

Vylepˇsen´ı metody: haˇsován´ı s uspoˇra´dan´ ymi ˇretˇezci. Rozd´ıl proti p˚ uvodn´ı metodˇe – ˇretˇezce jsou uspoˇra´dané ve vzr˚ ustaj´ıc´ım poˇrad´ı. Protoˇze ˇretˇezce obsahuj´ı tytéˇz prvky, je poˇcet oˇcekávan´ ych test˚ u pˇri u ´spˇeˇsném vyhledáván´ı stejn´ y jako u neuspoˇra´dan´ ych ˇretˇezc˚ u. Pˇri ne´ uspˇeˇsném vyhledáván´ı konˇc´ıme, kdyˇz argument operace je menˇs´ı neˇz vyˇsetˇrovan´ y prvek v ˇretˇezci, tedy konˇc´ıme dˇr´ıv. 2.4.1


2.4.2

Oˇcekávan´ y poˇcet test˚ u pˇri ne´ uspˇeˇsném vyhledáván´ı pro haˇsován´ı s uspoˇra´dan´ ymi ˇretˇezci je pˇribliˇznˇe e−α + 1 + α2 − α1 (1 − e−α ). Oˇcekávan´ y poˇcet test˚ u pˇri u ´spˇeˇsném vyhledáván´ı pro haˇsován´ı s uspoˇra´dan´ ymi ˇretˇezci je pˇribliˇznˇe 1 + α2 .

Algoritmy

MEMBER(x) Spoˇc´ıtáme i := h(x), t := N IL if i-t´ y seznam je neprázdn´ y then t :=prvn´ı prvek i-tého seznamu while t < x a t 6=posledn´ı prvek i-tého seznamu do t :=následuj´ıc´ı prvek i-tého seznamu enddo endif if t = x then x ∈ S else x ∈ / S endif INSERT(x) Spoˇc´ıtáme i := h(x), t := N IL if i-t´ y seznam je neprázdn´ y then t :=prvn´ı prvek i-tého seznamu while t < x a t 6=posledn´ı prvek i-tého seznamu do t :=následuj´ıc´ı prvek i-tého seznamu enddo endif if t 6= x then if x < t then vloˇz´ıme x do i-tého seznamu pˇred prvek t else vloˇz´ıme x do i-tého seznamu za prvek t endif endif

16

DELETE(x) Spoˇc´ıtáme i := h(x), t := N IL if i-t´ y seznam je neprázdn´ y then t :=prvn´ı prvek i-tého seznamu while t < x a t 6=posledn´ı prvek i-tého seznamu do t :=následuj´ıc´ı prvek i-tého seznamu enddo endif if t = x then odstran´ıme x z i-tého seznamu endif

2.5

Motivace pro neseparovan´ eˇ retˇ ezce

Nev´ yhody haˇsovan´ı se separovan´ ymi ˇretˇezci – nevyuˇzit´ı alokované pamˇeti (nehospodárné) pouˇz´ıván´ı ukazatel˚ u (cache). ˇ sen´ı: vyuˇz´ıt pro ˇretˇezce p˚ Reˇ uvodn´ı tabulku. Pak ˇra´dky tabulky mus´ı m´ıt strukturu, která umoˇzn ˇuje prohledávat ˇretˇezce, a velikost reprezentované mnoˇziny m˚ uˇze b´ yt nejv´ yˇse rovna velikosti tabulky. Poloˇzky tabulky: • key, • odkaz na uloˇzená data, • poloˇzky pro práci s tabulkou. Pˇredpokládáme, ˇze data jsou velká, v tom pˇr´ıpadˇe se ukládaj´ı mimo tabulku. V tabulce je jen odkaz na uloˇzená data. Pˇri popisu práce s tabulkou tuto ˇca´st budeme vynechávat (tj. data budou pouze kl´ıˇc). Podle ˇreˇsen´ı kolize dˇel´ıme dál haˇsován´ı: • haˇsován´ı s pˇrem´ıst’ován´ım • haˇsován´ı s dvˇema ukazateli, • sr˚ ustaj´ıc´ı haˇsován´ı, • dvojité haˇsován´ı, • haˇsován´ı s lineárn´ım pˇridáván´ım.

2.6 2.6.1

Haˇ sov´ an´ı s pˇ rem´ıst’ov´ an´ım Nepˇ resn´ y popis

(pozn.: sekce nepˇresný popis“ jsou opravdu nepˇresné) ” V tabulce na ˇra´dku i bud’ nic nen´ı (= do i se nic nezaheˇsovalo), nebo tam zaˇc´ıná ˇretˇezec od nˇeˇceho, co koliduje v h(i), nebo je tam prostˇredek nˇejakého jiného ˇretˇezce (taky jenom tehdy, pokud se do i nic nezaheˇsovalo). 17

Pokud tam pˇri vkládán´ı nic neni, dám to tam. Pokud tam je prostˇredek jiného ˇretˇezce, pˇrem´ıst´ım ten prostˇredek (od toho název metody) do jiného volného m´ısta a vkládan´ y prvek dám do novˇe uvolnˇeného m´ısta. Pokud tam je zaˇca´tek správného ˇretˇezce, dojedu na konec a dám to za nˇej. 2.6.2

Ilustrace

Poloˇzky pro práci s tabulkou: next, previous poloˇzka next – ˇc´ıslo ˇra´dku tabulky obsahuj´ıc´ı následuj´ıc´ı poloˇzku seznamu poloˇzka previous – ˇc´ıslo ˇra´dku tabulky obsahuj´ıc´ı pˇredcházej´ıc´ı poloˇzku seznamu. Protoˇze velikost tabulky omezuje velikost reprezentované mnoˇziny, m˚ uˇze nastat pˇreplnˇen´ı. O ˇreˇsen´ı pˇr´ıpadného pˇreplnˇen´ı pojednáme pozdˇeji na str. 29. Stejn´ y zp˚ usob ˇreˇsen´ı pˇreplnˇen´ı se pouˇz´ıvá i v dalˇs´ıch metodách, kde velikost tabulky omezuje velikost reprezentované mnoˇziny. Pˇr´ıklad: U = {1, 2, . . . , 1000}, h(x) = x mod 10, uloˇzená mnoˇzina S = {1, 7, 11, 53, 73, 141, 161}, ˇretˇezce: P (1) = (1, 141, 11, 161), P (3) = (73, 53), P (7) = (7). Haˇsovac´ı tabulka: ˇra´dek P(0) P(1) P(2) P(3) P(4) P(5) P(6) P(7) P(8) P(9)

key

next previous

1

9

73

6

161 53 7 11 141

8 3 5 8

9 1

Tabulka vznikla následuj´ıc´ı posloupnost´ı operac´ı: INSERT(1), INSERT(141), INSERT(11), INSERT(73), INSERT(53), INSERT(7), INSERT(161). 2.6.3

Algoritmy

MEMBER(x) Spoˇc´ıtáme i := h(x) if i.previous 6=prázdné nebo i.key =prázdné then V´ ystup: x ∈ / S, stop endif while i.next 6=prázdné a i.key 6= x do i := i.next enddo if i.key = x then V´ ystup: x ∈ S else V´ ystup: x ∈ / S endif

18

DELETE(x) Spoˇc´ıtáme i := h(x) if i.previous 6=prázdné nebo i.key =prázdné then stop endif while i.next 6=prázdné a i.key 6= x do i := i.next enddo if i.key = x then if i.previous 6=prázdné then (i.previous).next := i.next if i.next 6=prázdné then (i.next).previous := i.previous endif i.key := i.next := i.previous := prázdné else if i.next 6=prázdné then i.key := (i.next).key, i.next := (i.next).next if ((i.next).next) 6=prázdné then ((i.next).next).previous := i endif (i.next).key := (i.next).next := (i.next).previous := prázdné else i.key := prázdné endif endif endif INSERT(x) Spoˇc´ıtáme i := h(x) if i.key = N IL then i.key := x, stop endif if i.previous 6= N ILthen if neexistuje prázdn´ y ˇra´dek tabulky then V´ ystup: pˇreplnˇen´ı else necht’ j je voln´ y ˇra´dek tabulky j.key := i.key, j.previous := i.previous, j.next := i.next, (j.previous).next := j if j.next 6= N IL then (j.next).previous := j endif i, key := x, i.next := i.previous :=prázdné endif endif else while i.next 6= N IL a i.key 6= x do i := i.next enddo if i.key 6= x then if neexistuje prázdn´ y ˇra´dek tabulky then V´ ystup: pˇreplnˇen´ı else necht’ j je voln´ y ˇra´dek tabulky i.next := j, j.key := x, j.previous := i endif endif endif V pˇr´ıkladu provedeme INSERT(28), nov´ y ˇra´dek je 4. ˇra´dek

19

– v´ ysledná haˇsovac´ı tabulka ˇra´dek P(0) P(1) P(2) P(3) P(4) P(5) P(6) P(7) P(8) P(9) 2.6.4

next previous

1

9

73 11 161 53 7 28 141

6 5

4

9 4 3

1


2.6.5

key

Oˇcekávan´ y poˇcet test˚ u je stejn´ y jako pro haˇsován´ı se separovan´ ymi ˇretˇezci: α u ´spˇeˇsné vyhledáván´ı: n−1 2m + 1 ≈ 1 + 2 n ≈ e−α + α, ne´ uspˇeˇsné vyhledáván´ı: (1 − m1 )n + m kde m = velikost tabulky, n = velikost S, tj. poˇcet uloˇzen´ ych prvk˚ u, n α = m = faktor zaplnˇen´ı.

Diskuse

Nev´ yhodou haˇsován´ı s pˇrem´ıst’ován´ım je v operaci INSERT pˇr´ıpad, ˇze previous h(i)-tého ˇra´dku je neprázdn´ y. Pak pˇrem´ıst’ujeme poloˇzku na h(i)-tém ˇra´dku na voln´ y ˇra´dek a to vyˇzaduje v´ıce ˇcasu – operace s pˇrem´ıstˇen´ım poloˇzky. Toto odstraˇ nuje dalˇs´ı implementace haˇsován´ı se separuj´ıc´ımi ˇretˇezci.

2.7 2.7.1

Haˇ sov´ an´ı s dvˇ ema ukazateli Nepˇ resn´ y popis

V ˇra´dku i je u ´plnˇe jedno, co je v poloˇzce key, resp. nijak to nesouvis´ı s v´ ysledkem heˇsovac´ı funkce – co souvis´ı je poloˇzka begin, co ˇr´ıká, kde ˇretˇezec k danému ˇc´ıslu zaˇc´ıná. Nemus´ıme nic pˇrem´ıst’ovat, staˇc´ı ukazovat na správn´ y zaˇca´tek. 2.7.2

Ilustrace

Poloˇzky pro práci s tabulkou – next, begin Poloˇzka next – ˇc´ıslo ˇra´dku tabulky obsahuj´ıc´ı následuj´ıc´ı poloˇzku seznamu Poloˇzka begin – ˇc´ıslo ˇra´dku tabulky obsahuj´ıc´ı prvn´ı poloˇzku seznamu s touto adresou Stejná data jako v minulém pˇr´ıpadˇe

20

Haˇsovac´ı tabulka: ˇra´dek P(0) P(1) P(2) P(3) P(4) P(5) P(6) P(7) P(8) P(9)

key

next begin

1

9

1

73

7

3

161 7 53 11 141

6 5 8

Tabulka vznikla následuj´ıc´ı posloupnost´ı operac´ı: INSERT(1), INSERT(141), INSERT(11), INSERT(73), INSERT(53), INSERT(7), INSERT(161). 2.7.3

Algoritmy

MEMBER(x) Spoˇc´ıtáme i := h(x) if i.begin =prázdné then V´ ystup: x ∈ / S, stop else i := i.begin endif while i.next 6=prázdné a i.key 6= x do i := i.next enddo if i.key = x then V´ ystup: x ∈ S else V´ ystup: x ∈ / S endif DELETE(x) Spoˇc´ıtáme i := h(x) if i.begin =prázdné then stop else j := i, i := i.begin endif while i.next 6=prázdné a i.key 6= x do j := i, i := i.next enddo if i.key = x then if i = j.begin then if i.next 6=prázdné then j.begin := i.next else j.begin :=prázdné endif else j.next := i.next endif i.key := i.next :=prázdné endif

21

INSERT(x) Spoˇc´ıtáme i := h(x) if i.begin =prázdné then if i.key =prázdné then i.key := x, i.begin := i else if neexistuje prázdn´ y ˇra´dek tabulky then V´ ystup: pˇreplnˇen´ı else necht’ j je voln´ y ˇra´dek tabulky j.key = x, i.begin := j endif endif else i := i.begin while i.next 6=prázdné a i.key 6= x do i := i.next enddo if i.key 6= x then if neexistuje prázdn´ y ˇra´dek tabulky then V´ ystup: pˇreplnˇen´ı else necht’ j je voln´ y ˇra´dek tabulky i.next := j, j.key := x endif endif endif V pˇr´ıkladu provedeme INSERT(28), nov´ y ˇra´dek je 4. ˇra´dek – v´ ysledná haˇsovac´ı tabulka ˇra´dek P(0) P(1) P(2) P(3) P(4) P(5) P(6) P(7) P(8) P(9) 2.7.4

key

next begin

1

9

1

73 28 161 7 53 11 141

7

3

5 8

6 4


Algoritmus pˇri práci s poloˇzkami je rychlejˇs´ı neˇz pˇri haˇsován´ı s pˇrem´ıst’ován´ım, ale zaˇca´tek ˇretˇezce v jiném m´ıstˇe tabulky pˇridává jeden test.

Oˇcekávan´ y poˇcet test˚ u: n−1 α2 α + ≈ 1 + u ´spˇeˇsn´ y pˇr´ıpad: 1 + (n−1)(n−2) 2 6m 2m 6 + 2 2 ne´ uspˇeˇsn´ y pˇr´ıpad: ≈ 1 + α2 + α + e−α (2 + α) − 2. 22

2.8 2.8.1

Sr˚ ustaj´ıc´ı haˇ sov´ an´ı - pˇ rehled Nepˇ resn´ y popis

Máme ˇretˇezce jako v minul´ ych dvou algoritmech, ale pokud se tref´ım doprostˇred ˇretˇezce, tak ho nepˇrem´ıst’uji, ale srostu s n´ım. Protoˇze nic nepˇrem´ıst’ujeme, nen´ı potˇreba previous. Typy: • Standardn´ı – normáln´ı tabulka. – LISCH - vkládám na konec ˇretˇezce – EISCH - vkládám hned za prvek • Nestandardn´ı“ – bez p´ısmene nav´ıc :) – tabulka rozˇs´ıˇrena o pomocnou tabulku, kam ukládám jako ” prvn´ı – LICH - vkládám na konec ˇretˇezce – EICH - vkládám hned za prvek – VICH - komplikovanost, viz dál 2.8.2

Pˇ rehled

Sr˚ ustaj´ıc´ı haˇsován´ı se dˇel´ı podle práce s pamˇet´ı na standardn´ı a na sr˚ ustaj´ıc´ı haˇsován´ı s pomocnou pamˇet´ı (které se naz´ yvá jen sr˚ ustaj´ıc´ı haˇsován´ı) a podle zp˚ usobu pˇridáván´ı dalˇs´ıho prvku. Pop´ıˇseme metody: Standardn´ı sr˚ ustaj´ıc´ı haˇsován´ı: LISCH, EISCH, Sr˚ ustaj´ıc´ı haˇsován´ı: LICH, VICH, EICH. Vˇsechny metody pro práci s tabulkou pouˇz´ıvaj´ı jen poloˇzku next – ˇc´ıslo ˇra´dku tabulky obsahuj´ıc´ı následuj´ıc´ı poloˇzku seznamu. Základn´ı idea: ˇretˇezec zaˇc´ıná na svém m´ıstˇe, ale pokud uˇz tam byl uloˇzen nˇejak´ yu ´daj, pak ˇretˇezec tohoto u ´daje sroste s ˇretˇezcem zaˇc´ınaj´ıc´ım na tomto ˇra´dku. To znamená, ˇze prvky ˇretˇezce, kter´ y zaˇc´ıná na tomto m´ıstˇe, budou uloˇzeny v ˇretˇezci, kter´ y uˇz je uloˇzen na tomto m´ıstˇe, ale jen od tohoto m´ısta dál.

2.9 2.9.1

Metody EISCH a LISCH Popis

• EISCH – early-insertion standard coalesced hashing • LISCH – late-insertion standard coalesced hashing. Organizace tabulky je stejná jako v pˇredchoz´ıch pˇr´ıpadech. Základn´ı ideje: LISCH pˇridává nov´ y prvek na konec ˇretˇezce, EISCH pˇridává nov´ y prvek x do ˇretˇezce na ˇra´dek h(x) (pokud je prázdn´ y) nebo hned za prvek na ˇra´dku h(x)

23

2.9.2

Ilustrace

U = {1, 2, . . . , 1000}, h(x) = x mod 10 mnoˇzina S = {1, 7, 11, 53, 73, 141, 171} je uloˇzena v haˇsovac´ı tabulce ˇra´dek P(0) P(1) P(2) P(3) P(4) P(5) P(6) P(7) P(8) P(9)

key next 1

9

73

6

7 53 161 11 141

5 7 8

Tabulka pro metodu LISCH vznikla následuj´ıc´ı posloupnost´ı operac´ı: INSERT(1), INSERT(141), INSERT(11), INSERT(73), INSERT(53), INSERT(161), INSERT(7). Pro metodu EISCH tabulka vznikla následuj´ıc´ı posloupnost´ı operac´ı: INSERT(1), INSERT(161), INSERT(11), INSERT(73), INSERT(53), INSERT(7), INSERT(141). Provedeme INSERT(28), pˇridáváme do ˇcvrtého rádku, v´ ysledná tabulka vlevo je pro metodu LISCH, vpravo pro metodu EISCH. ˇra´dek P(0) P(1) P(2) P(3) P(4) P(5) P(6) P(7) P(8) P(9) 2.9.3

key next 1

9

73 28 7 53 161 11 141

6

ˇra´dek P(0) P(1) P(2) P(3) P(4) P(5) P(6) P(7) P(8) P(9)

4 5 7 8

Algoritmy

Algoritmus operace MEMBER je pro obˇe metody stejn´ y. MEMBER(x) Spoˇc´ıtáme i := h(x) while i.next 6=prázdné a i.key 6= x do i := i.next enddo if i.key = x then V´ ystup: x ∈ S else V´ ystup: x ∈ / S endif

24

key next 1

9

73 28 7 53 161 11 141

6 7

5 4 8

Metoda LISCH: INSERT(x) Spoˇc´ıtáme i := h(x) while i.next 6=prázdné a i.key 6= x do i := i.next enddo if i.key 6= x then if neexistuje prázdn´ y ˇra´dek tabulky then V´ ystup: pˇreplnˇen´ı else necht’ j je prázdn´ y ˇra´dek j.key := x, i.next := j endif endif Metoda EISCH: INSERT(x) Spoˇc´ıtáme k := i := h(x) while i.next 6=prázdné a i.key 6= x do i := i.next enddo if i.key 6= x then if neexistuje prázdn´ y ˇra´dek tabulky then V´ ystup: pˇreplnˇen´ı else necht’ j je voln´ y ˇra´dek tabulky j.next := k.next, k.next := j, j.key := x endif endif Efektivn´ı operace DELETE nen´ı známá, ale i primitivn´ı algoritmy pro operaci DELETE maj´ı rozumnou oˇcekávanou ˇcasovou sloˇzitost. 2.9.4

Oˇ cek´ avan´ y poˇ cet test˚ u ne´ uspˇ eˇ sn´ eho vyhled´ av´ an´ı (sn+1 ∈ / S)

Popis situace: Uloˇzena mnoˇzina S = {s1 , s2 , . . . , sn } do tabulky velikosti m, je dán prvek sn+1 a máme zjistit, zda sn+1 ∈ S. Oznaˇcme ai = h(si ) pro i = 1, 2, . . . , n + 1, kde h je pouˇzitá haˇsovac´ı funkce. Pˇredpoklad: vˇsechny posloupnosti a1 , a2 , . . . , an+1 jsou stejnˇ e pravdˇ epodobn´ e. V´ ybˇer prázdného ˇra´dku je pevnˇe dan´ y, to znamená, ˇze pˇri stejnˇe obsazen´ ych ˇradc´ıch dostaneme vˇzdy stejn´ y prázdn´ y ˇra´dek. Definice. C(a1 , a2 , . . . , an ; an+1 ) oznaˇcuje poˇcet test˚ u pro zjiˇstˇen´ı, ˇze sn+1 ∈ / S – tj. to, co chceme spoˇc´ıtat, pro konkrétn´ı posloupnost an . Lemma. Oˇcekávaný poˇcet test˚ u pˇri ne´ uspˇeˇsném vyhledáván´ı v mnoˇzinˇe S je P a1 ,a2 ,...,an+1 C(a1 , a2 , . . . , an ; an+1 ) mn+1

D˚ ukaz. Sˇc´ıtá se pˇres vˇsechny posloupnosti a1 , a2 , . . . , an+1 – a tˇech je mn+1 .

ˇ ezec délky l v mnoˇzinˇe S je maxim´ Definice. Retˇ aln´ı posloupnost adres (b1 , b2 , . . . , bl ) takov´ a, ˇze bi .next = bi+1 pro i = 1, 2, . . . , l − 1. Existence ˇretˇezce je dána posloupnost´ı a (pˇri jiném poˇrad´ı by vzniknul jinak, naopak dvˇe mnoˇziny se stejnou posloupnost´ı a maj´ı stejný ˇretˇezec).

25

Lemma. Jeden ˇretˇezec délky l > 0 v jedné dané posloupnosti {an } pˇrispˇel k souˇctu poˇctem test˚ u 1 + 2 + · · · + l = l + 2l .

P

C(a1 , a2 , . . . , an ; an+1 )

D˚ ukaz. Kdyˇz v mnoˇzinˇe {an } tento ˇretˇezec existuje a adresa an+1 je i-t´ y prvek v ˇretˇezci, pak poˇcet test˚ u je l − i + 1 – poˇcet test˚ u znamená projet“ kompletn´ı zbytek ˇretˇezce. ”

Definice. cn (l) = poˇcet vˇsech ˇretˇezc˚ u délky l ve vˇsech reprezentac´ıch n-prvkových mnoˇzin (ztotoˇzn ˇujeme dvˇe mnoˇziny, které mˇely stejnou posloupnost adres pˇri ukl´ adan´ı prvk˚ u). P P P Lemma. C(a1 , a2 , . . . , an ; an+1 ) = cn (0) + nl=1 lcn (l) + nl=1 2l cn (l) D˚ ukaz.

X

n X

l C(a1 , a2 , . . . , an ; an+1 ) = cn (0) + (l + )cn (l) 2 l=1 n n X X l cn (l), = cn (0) + lcn (l) + 2 l=1 l=1

kde cn (0) je poˇcet prázdn´ ych ˇra´dk˚ u ve vˇsech reprezentac´ıch. cn (0) je zde proto, ˇze test na prázdnost je O(1).1 Sˇc´ıtáme vˇsechny moˇzné C jako souˇcet pˇres vˇsechny moˇzné ˇretˇezce v˚ ubec, ve vˇsech mnoˇzinách.

Lemma. cn (0) = (m − n)mn D˚ ukaz. Reprezentace S má m − n prázdn´ ych ˇra´dk˚ u, vˇsech posloupnost´ı n-adres je mn , proto cn (0) = (m − n)mn . (pozor, opravdu poˇc´ıtáme vˇsechny moˇzné prázdné ˇretˇezce v˚ ubec)

Lemma.

Pn

l=1

lcn (l) = nmn

Pn D˚ ukaz. a délka vˇsech ˇretˇezc˚ u ve vˇsech tabulkách reprezentuj´ıc´ıch vˇsechny n-prvkové l=1 lcn (l) je celkov´ mnoˇziny, a proto n X lcn (l) = nmn . l=1

1

pozn´ amka studenta - tohle mi nen´ı trochu jasné :(

26

Lemma (Rekurentn´ı vztah pro cn (l)). cn+1 (l) = (m − l)cn (l) + (l − 1)cn (l − 1). D˚ ukaz. Pˇridáváme prvek s adresou an+1 . Pak ˇretˇezec délky l v reprezentaci S z˚ ustal stejn´ y, kdyˇz adresa an+1 neleˇzela v tomto ˇretˇezci, v opaˇcném pˇr´ıpadˇe se délka ˇretˇezce zvˇetˇsila na l + 1. Proto pˇridán´ı jednoho prvku vytvoˇrilo z ˇretˇezce délky l celkem m − l ˇretˇezc˚ u délky l a l ˇretˇezc˚ u délky l + 1. Vysˇc´ıtán´ım pˇres vˇsechny n-prvkové posloupnosti adres dostáváme cn+1 (l) = (m − l)cn (l) + (l − 1)cn (l − 1).

Lemma (souˇcet binomick´ ych hodnot). (m − l) D˚ ukaz.

l 2

+l

l+1 2

= (m + 2)

l 2

+l

l 1 l+1 (m − l) +l = (l2 m − lm − l3 + l2 + l3 + l2 ) = 2 2 2 1 2 (l m − lm + 2l2 ) = 2 1 2 (l m − lm + 2(l2 − l)) + l = 2 l (m + 2) + l. 2

Oznaˇcme Sn =

Pn

l l=1 2

cn (l) posledn´ı sˇc´ıtanec.

Lemma (Rekurentn´ı vztah pro Sn ). Sn = (m + 2)Sn−1 + (n − 1)mn−1 D˚ ukaz. Sn =

n X l

cn (l) = 2 l l (m − l)cn−1 (l) + (l − 1)cn−1 (l − 1) = 2 2 l=1 n−1 n X X l+1 l lcn−1 (l) = (m − l)cn−1 (l) + 2 2 l=0 l=1 n (m − n)cn−1 (n)+ 2 n−1 X l l+1 1 ( (m − l) + l)cn−1 (l) + 0cn−1 (0) = 2 2 2 l=1 n−1 n−1 X X l (m + 2)cn−1 (l) + lcn−1 (l) = 2 l=1 l=1 l=1 n X

(m + 2)Sn−1 + (n − 1)mn−1 ,

kde jsme pouˇzili, ˇze cn−1 (n) = 0 a lemma o souˇctu binomick´ ych hodnot. 27

Lemma (Prvn´ı vztah pro Sn ). Sn = (m + 2)n−1 D˚ ukaz. Rekurence pro Sn dává

Pn−1 i=1

i

i m m+2

Sn =(m + 2)Sn−1 + (n − 1)mn−1 = (m + 2)2 Sn−2 + (m + 2)(n − 2)mn−2 + (n − 1)mn−1 = (m + 2)3 Sn−3 + (m + 2)2 (n − 3)mn−3 + (m + 2)(n − 2)mn−2 + (n − 1)mn−1 = n−1 X

(m + 2)n−1 S0 +

i=0

(m + 2)n−1 (m + 2)n−1

n−1 X

(m + 2)i (n − 1 − i)mn−1−i =

(n − 1 − i)

i=0 n−1 X i=1

i

m i , m+2

m n−1−i = m+2

kde jsme vyuˇzili, ˇze S0 = 0.

Definice. Tcn =

Pn

i=1

ici pro n = 1, 2, . . . a c 6= 1

Lemma (Vztah pro Tcn ). Tcn = D˚ ukaz. Z cTcn =

Pn

i=1

ncn+2 − (n + 1)cn+1 + c c−1

ici+1 plyne (c − 1)Tcn =cTcn − Tcn =

n+1 X i=2

(i − 1)ci −

n X

ici =

i=1

n X n+1 nc + ((i − 1)ci − ici ) − c = i=2

ncn+1 +

n X i=2

ncn+1 −

n X i=1

−ci − c =

ci = ncn+1 −

ncn+2 − (n + 1)cn+1 + c . c−1 Tedy plat´ı Tcn =

cn+1 − c = c−1

ncn+2 − (n + 1)cn+1 + c . (c − 1)2

28

Lemma (Druh´ y vztah pro Sn ). Sn = D˚ ukaz. Protoˇze

m m+2

1 4

m(m + 2)n − mn+1 − 2nmn

6= 1, dostáváme dosazen´ım vztahu pro Tcn do prvn´ıho vztahu pro Sn , ˇze

Sn =(m + 2)

(n − 1) n−1

n+1 n m m − n m+2 m+2 2 m −1 m+2

+

m m+2

=

m n m m n+1 1 −n + = (m + 2)n+1 (n − 1) 4 m+2 m+2 m+2 1 (n − 1)mn+1 − n(m + 2)mn + m(m + 2)n = 4 1 m(m + 2)n − mn+1 − 2nmn . 4

Vˇ eta (Odhad nejhorˇs´ıho pˇr´ıpadu). Oˇcekávaný poˇcet test˚ u pˇri ne´ uspˇeˇsném vyhledáván´ı je 41 (e2α − 1 − 2α) D˚ ukaz. Z pˇredchoz´ıch lemmat P

a1 ,a2 ,...,an+1

C(a1 , a2 , . . . , an ; an+1 )

mn+1 (m − n)mn + nmn +

=

1 4

m(m + 2)n − mn+1 − 2nmn = mn+1 mn+1 + 41 m(m + 2)n − mn+1 − 2nmn = mn+1 1 2n 2 1 1 + (1 + )n − 1 − ∼ 1 + (e2α − 1 − 2α). 4 m m 4

Tento odhad je stejn´ y pro obˇe metody – LISCH i EISCH, protoˇze maj´ı stejné posloupnosti adres (liˇs´ı se jen poˇrad´ım prvk˚ u v jednotliv´ ych ˇretˇezc´ıch).

2.9.5

Oˇcekávan´ y poˇcet test˚ u pˇri ne´ uspˇeˇsném vyhledáván´ı je 14 (e2α −1−2α)

´ eˇ Uspˇ sn´ y pˇ r´ıpad (sj ∈ S)

Oˇcekávan´ y poˇcet test˚ u pˇri u ´spˇeˇsném vyhledáván´ı v modelu LISCH spoˇc´ıtáme stejnou metodou jako pro haˇsován´ı se separuj´ıc´ımi ˇretˇezci. Lemma. Pro u ´spˇeˇsné vyhledán´ı prvku sj ∈ S je poˇcet test˚ u roven 1+poˇcet porovnán´ı kl´ıˇc˚ u pˇri ne´ uspˇeˇsném vyhledáv´ an´ı pˇri operaci INSERT(sj ). 29

D˚ ukaz. Pˇri u ´spˇeˇsném vyhledáván´ı procház´ım stejné prvky, jako pˇri vkládán´ı. Jedniˇcka je za posledn´ı porovnán´ı sj , které jsem pˇri vkládán´ı dˇelat nemusel.

Lemma (verze 0). Kdyˇz sj je vloˇzen na m´ısto h(sj ), nebyl porovnáv´ an ˇza´dný kl´ıˇc a test pro u ´spˇeˇsné vyhledáv´ an´ı bude 1. D˚ ukaz. Plyne jednoduˇse z pˇredchoz´ıho lemmatu. Pozor, v pˇredchoz´ı ˇca´sti jsem mˇel 1 test na prázdnost, zde beru v u ´vahu pouze porovnán´ı kl´ıˇc˚ u .2

Lemma (verze > 0). Kdyˇz h(sj ) byl na na i-tém m´ıstˇe v ˇretˇezci délky l, pak bylo pˇri operaci INSERT(sj ) pouˇzito l − i + 1 porovnán´ı kl´ıˇc˚ u a ted’ se pouˇzije l − i + 2 test˚ u. D˚ ukaz. Pˇri ne´ uspˇeˇsném vyhledáván´ı jsem musel projet cel´ y zbytek ˇretˇezce.

Lemma. Oˇcekávaný poˇcet porovnán´ı kl´ıˇc˚ u pˇri ne´ uspˇeˇsném vyhledáv´ an´ı je pro i-prvkovou mnoˇzinu 2i 2 i ) − 1 + . m m

1 4

(1 +

D˚ ukaz. Stejnˇe, jako v pˇredchoz´ı sekci (s t´ım rozd´ılem, ˇze u prázdn´ ych ˇra´dk˚ u nepoˇc´ıtám 13 ) dostaneme, ˇze oˇcekávan´ y poˇcet porovnán´ı kl´ıˇc˚ u pˇri ne´ uspˇeˇsném vyhledáván´ı je i 1 X l )ci (l)) = ( (l + i+1 m 2 l=1

1 1 i i i+1 i (im + m(m + 2) − m − 2im )= mi+1 4 2 2i 1 (1 + )i − 1 + . 4 m m

Lemma. Tedy oˇcekávaný poˇcet test˚ u pˇri u ´spˇeˇsném vyhledáv´ an´ı v n-prvkové mnoˇzinˇe je roven 1 + n-tina souˇctu oˇcekávaného poˇctu porovnán´ı kl´ıˇc˚ u pˇri ne´ uspˇeˇsném vyhledáv´ an´ı v i-prvkové mnoˇzinˇe, kde i prob´ıhá ˇc´ısla 0, 1, . . . , n − 1. D˚ ukaz. Skuteˇcnˇe, kaˇzd´ y prvek z n-prvkové mnoˇziny, podle kter´ ych pr˚ umˇeruji u ´spˇeˇsné vyhledáván´ı, tam musel b´ yt vloˇzen, tj. Pn−1 cekávan´ y poˇcet test˚ u v i-prvkové mnoˇzinˇe i=0 1 + oˇ n a jedniˇcku m˚ uˇzu strˇcit dopˇredu. 2 3

pozn´ amka studenta - toto mi opˇet nen´ı jasné jak p´ıˇsu v´ yˇse, nen´ı mi jasné proˇc

30

Lemma. Souˇcet oˇcekávaných poˇct˚ u porovnán´ı kl´ıˇc˚ u pˇri ne´ uspˇeˇsném vyhledáv´ an´ı v i-prvkové mnoˇzinˇe, kde i prob´ıhá ˇc´ısla 0, 1, . . . , n − 1, je 2 2n n2 − n m (1 + )n − 1 − + 8 m m 4m

. D˚ ukaz. n−1 X 1 i=0

n 2i 1 (1 + m2 )n − 1 n 2 i − + 2 = (1 + ) −1 + = 4 m m 4 1 + m2 − 1 4 2m 2n n2 − n 2 m . (1 + )n − 1 − + 8 m m 4m

Vˇ eta. Oˇcekávaný poˇcet test˚ uvu ´spˇeˇsném pˇr´ıpadˇe pro n-prvkovou mnoˇzinu je 1+ D˚ ukaz. 1+

α 1 2α (e − 1 − 2α) + 8α 4

m 2 2n n − 1 1 2α α (1 + )n − 1 − + ∼1+ (e − 1 − 2α) + . 8n m m 4m 8α 4

Pro LISCH oˇcekávan´ y poˇcet test˚ uvu ´spˇeˇsném pˇr´ıpadˇe pro n-prvko1 2α vou mnoˇzinu je 1 + 8α (e − 1 − 2α) + α4 .

Vˇ eta. Pro metodu EISCH je oˇcekáv´ aný poˇcet test˚ uvu ´spˇeˇsném pˇr´ıpadˇe m 1 1 (1 + )n − 1 ∼ (eα − 1). n m α V´ ypoˇcet je komplikovanˇejˇs´ı, mus´ı se pouˇz´ıt sloˇzitˇejˇs´ı metoda (metoda EISCH dává nov´ y prvek hned za m´ısto, kde má b´ yt uloˇzen). Chyba aproximace pro tyto odhady je O( m1 ).

31

2.10

Metody LICH, EICH, VICH

2.10.1

Popis

• LICH – late-insertion coalesced hashing • EICH – early-insertion coalesced hashing • VICH – varied-insertion coalesced hashing. Základn´ı idea: Metody pouˇz´ıvaj´ı pomocnou pamˇet’. Tabulka je rozdˇelená na adresovac´ı ˇca´st a na pomocnou pamˇet’, která nen´ı dostupná pomoc´ı haˇsovac´ı funkce, ale pomáhá pˇri ˇreˇsen´ı koliz´ı. Metody se liˇs´ı operac´ı INSERT. Vˇsechny metody pˇri kolizi nejprve pouˇzij´ı ˇra´dek tabulky z pomocné ˇca´sti a teprve, kdyˇz je pomocná ˇca´st zaplnˇena, pouˇz´ıvaj´ı adresovac´ı ˇca´st. Metoda LICH: pˇri INSERTu vkládá prvek vˇzdy na konec ˇretˇezce. Metoda EICH: pˇri INSERTu vkládá prvek x do ˇretˇezce vˇzdy na m´ısto hned za ˇra´dkem h(x). Metoda VICH: Pˇri INSERTu, kdyˇz nov´ y ˇra´dek je z pomocné ˇca´sti, tak je vloˇzen s nov´ ym prvkem na konec ˇretˇezce, kdyˇz je pomocná ˇca´st pamˇeti vyˇcerpána, tak se ˇra´dek s nov´ ym prvkem vkládá do ˇretˇezce za posledn´ı ˇra´dek z pomocné ˇca´sti tabulky. Kdyˇz ˇretˇezec neobsahuje ˇza´dn´ y ˇra´dek z pomocné pamˇeti, tak se ˇra´dek s nov´ ym prvkem x vkládá hned za ˇra´dek h(x). Idea: pomocná ˇca´st má zabránit rychlému sr˚ ustán´ı ˇretˇezc˚ u. Tyto metody nepodporuj´ı pˇrirozené efektivn´ı algoritmy pro operaci DELETE. 2.10.2

Ilustrace

U = {1, 2, . . . , 1000}, h(x) = x mod 10, S = {1, 7, 11, 53, 73, 141, 161}. Tabulka má 12 ˇra´dk˚ u a má tvar ˇra´dek P(0) P(1) P(2) P(3) P(4) P(5) P(6) P(7) P(8) P(9) P(10) P(11)

key next 1

10

73

11

7 161 11

5 7

141 53

8

Haˇsovac´ı tabulka vznikla posloupnostmi operac´ı: Pro metodu LICH: INSERT(1), INSERT(73), INSERT(141), INSERT(53), INSERT(11), INSERT(161), INSERT(7). Pro metodu EICH: 32

INSERT(1), INSERT(73), INSERT(161), INSERT(53), INSERT(11), INSERT(141), INSERT(7), ale nedodrˇzovalo se, ˇze se nejdˇr´ıv zaplˇ nuj´ı ˇra´dky z pomocné ˇca´sti. Pˇri dodrˇzován´ı tohoto pravidla takováto tabulka nem˚ uˇze vzniknout. Pro metodu VICH: INSERT(1), INSERT(73), INSERT(141), INSERT(53), INSERT(161), INSERT(11), INSERT(7). Aplikujeme operace INSERT(28) a INSERT(31), nové ˇra´dky budou ˇra´dky ˇc´ıslo 4 a 9. Tabulka vytvoˇrená pomoc´ı metody LICH je na levé stranˇe, metodou VICH je v prostˇredku a metodou EICH je na pravé stranˇe. ˇra´dek P(0) P(1) P(2) P(3) P(4) P(5) P(6) P(7) P(8) P(9) P(10) P(11) 2.10.3

key next 1

10

73 28 7

11 9 4

161 11 31 141 53

5 7 8

ˇra´dek P(0) P(1) P(2) P(3) P(4) P(5) P(6) P(7) P(8) P(9) P(10) P(11)

key next 1

10

73 28 7

11 7

161 11 31 141 53

5 4 8 9

ˇra´dek P(0) P(1) P(2) P(3) P(4) P(5) P(6) P(7) P(8) P(9) P(10) P(11)

key next 1

9

73 28 7

11 7

161 11 31 141 53

5 4 10 8

Algoritmy

Algoritmus operace MEMBER je pro tyto metody stejn´ y jako pro LISCH a EISCH MEMBER(x) Spoˇc´ıtáme i := h(x) while i.next 6=prázdné a i.key 6= x do i := i.next enddo if i.key = x then V´ ystup: x ∈ S else V´ ystup: x ∈ / S endif Algoritmus operace INSERT je pro metodu LICH stejn´ y jako pro metodu LISCH a pro metodu EICH je stejn´ y jako pro metodu EISCH s jedin´ ym doplˇ nkem, pokud existuje prázdn´ y ˇra´dek v pomocné ˇca´sti, tak j-t´ y ˇra´dek je z pomocné ˇca´sti. Tento pˇredpoklad je i pro algoritmus INSERT pro metodu VICH. Metoda LICH INSERT(x) Spoˇc´ıtáme i := h(x) if i.next = N IL then i.next = x, stop endif while i.next 6= N IL a i.key 6= x do i := i.next enddo if i.key 6= x then if neexistuje prázdn´ y ˇra´dek tabulky then V´ ystup: pˇreplnˇen´ı else necht’ j je prázdn´ y ˇra´dek, j.key := x, i.next := j endif endif

33

Metoda EICH Insert(x) Spoˇc´ıtáme k := i := h(x) if i.next = N IL then i.next = x, stop endif while i.next 6= N IL a i.key 6= x do i := i.next enddo if i.key 6= x then if neexistuje prázdn´ y ˇra´dek tabulky then V´ ystup: pˇreplnˇen´ı else necht’ j je voln´ y ˇra´dek tabulky j.next := k.next, k.next := j, j.key := x endif endif Metoda VICH INSERT(x) Spoˇc´ıtáme i := h(x) if i.next = N IL then i.next = x, stop endif while i.next 6= N IL a i.key 6= x do if k nen´ı definováno a i.next < m then k := i endif Pozn´ amka: Podm´ınka pro k je splnˇena, kdyˇz jsme byli na zaˇca´tku nebo v pomocné ˇca´sti, podm´ınka na i.next je splnˇena, kdyˇz i.next nen´ı v pomocné ˇca´sti. i := i.next enddo if i.key 6= x then if neexistuje prázdn´ y ˇra´dek then V´ ystup: pˇreplnˇen´ı else necht’ j je voln´ y ˇra´dek, j.key := x if k nen´ı definováno then i.next := j else j.next := k.next, k.next := j endif endif endif 2.10.4


(pozn. studenta - opravdu nev´ım, jestli je nutné se tohle uˇcit.) Znaˇcen´ı: n – velikost uloˇzené mnoˇziny, m – velikost adresovac´ı ˇca´sti tabulky, m′ – velikost tabulky, α = mn′ – faktor zaplnˇen´ı, m β=m ı faktor, ′ – adresovac´ λ – jediné nezáporné ˇreˇsen´ı rovnice e−λ + λ = β1 . Oˇcekávan´ y poˇcet test˚ u pro metodu LICH ne´ uspˇ eˇsn´ y pˇr´ıpad: α e− β + αβ , kdyˇz α ≤ λβ, 34

α

+ 14 (e2( β −λ) − 1)(3 − u ´spˇeˇsn´ y pˇr´ıpad: α 1 + 2β , kdyˇz α ≤ λβ, 1 β

1+

α β (e2( β −λ) 8α

2 β

+ 2λ) − 12 ( αβ − λ), kdyˇz α ≥ λβ

− 1 − 2( αβ − λ))(3 −

2 β

+ 2λ) + 14 ( αβ + λ) + λ4 (1 −

Oˇcekávan´ y poˇcet test˚ u pro metodu EICH ne´ uspˇ e ˇ s n´ y pˇ r ´ ıpad: α e− β + αβ , kdyˇz α ≤ λβ, α

α

1 ) + e β −λ ( β1 − 1) + ( 14 − e2( β −λ) ( 34 + λ2 − 2β u ´spˇeˇsn´ y pˇr´ıpad: α 1 + 2β , kdyˇz α ≤ λβ,

1+

α 2β

α 2β

+

α

+ αβ ((e β −λ − 1)(1 + λ) − ( αβ − λ))(1 +

λ 2

1 ), 2β

+

λβ ), α

kdyˇz α ≥ λβ.

kdyˇz α ≥ λβ

α )), 2β

kdyˇz α ≥ λβ.

Oˇcekávan´ y poˇcet test˚ u pro metodu VICH ne´ uspˇ e ˇ s n´ y pˇ r ´ ıpad: α e− β + αβ , kdyˇz α ≤ λβ, α

+ 14 (e2( β −λ) − 1)(3 − u ´spˇeˇsn´ y pˇr´ıpad: α , kdyˇz α ≤ λβ, 1 + 2β 1 β

1+

α 2β

2 β

+ 2λ) − 12 ( αβ − λ), kdyˇz α ≥ λβ

α

+ αβ ((e β −λ − 1)(1 + λ) − ( αβ − λ))(1 +

λ 2

+

α )) 2β

+

1−β α (β α

α

− λ − e β −λ + 1), kdyˇz α ≥ λβ.

′

Chyba aproximace pro tyto odhady je O(log √mm′ ).

2.11

Haˇ sov´ an´ı s line´ arn´ım pˇ rid´ av´ an´ım

2.11.1

Popis

Tabulka má jedinou poloˇzku – key Základn´ı idea: Pˇri operaci INSERT(x) vloˇz´ıme x na ˇra´dek h(x), kdyˇz je prázdn´ y, v opaˇcném pˇr´ıpadˇe nalezneme nejmenˇs´ı i takové, ˇze ˇra´dek h(x) + i mod m je prázdn´ y, a tam vloˇz´ıme x. Tato metoda byla motivována snahou o co nejvˇetˇs´ı vyuˇzit´ı pamˇeti. Komentáˇr: Metoda vyˇzaduje minimáln´ı velikost pamˇeti. V tabulce se vytváˇrej´ı shluky pouˇzit´ ych ˇra´dk˚ u, a proto pˇri velkém zaplnˇen´ı metoda vyˇzaduje velk´ y poˇcet test˚ u. Metoda nepodporuje efektivn´ı implementaci operace DELETE. Pˇri vyhledáván´ı je tˇreba testovat, zda nevyˇsetˇrujeme podruhé prvn´ı vyˇsetˇrovan´ y ˇra´dek, a pro zjiˇstˇen´ı pˇreplnˇen´ı je vhodné m´ıt uloˇzen poˇcet vyplnˇen´ ych ˇra´dk˚ u v tabulce. Pro standarn´ı pamˇeti nen´ı v´ yhodná. Pˇri pouˇzit´ı cache-pamˇeti se v´ yraznˇe mˇen´ı jej´ı hodnocen´ı. D˚ uvodem je, ˇze v tomto pˇr´ıpadˇe hraje kl´ıˇcovou roli nikoliv poˇcet test˚ u, ale poˇcet pˇrechod˚ u mezi r˚ uzn´ ymi u ´rovnˇemi pamˇeti. Protoˇze tabulka je reprezentovaná polem, tak je tento poˇcet menˇs´ı neˇz u jin´ ych metod. Proto se tato metoda doporuˇcuje pro poˇc´ıtaˇce s cachepamˇet´ı.

35

2.11.2

Algoritmy

MEMBER(x) Spoˇc´ıtáme i := h(x), h := i if i.key = x then V´ ystup x ∈ S, stop endif if i.key =prázdn´ y then V´ ystup: x ∈ / S, stop endif i := i + 1 while i.key 6=prázdn´ y a i.key 6= x a i 6= h do i := i + 1 mod m enddo if i.key = x then V´ ystup: x ∈ S else V´ ystup: x ∈ / S endif INSERT(x) Spoˇc´ıtáme i := h(x), j := 0 while i.key 6=prázdn´ y a i.key 6= x a j < m do i := i + 1 mod m, j := j + 1 enddo if j = m then V´ ystup: pˇreplnˇen´ı, stop endif if i.key =prázdn´ y then i.key := x endif 2.11.3

Ilustrace

Máme universum U = {1, 2, . . . , 1000}, haˇsovac´ı funkci h(x) = x mod 10 a mnoˇzinu S = {1, 7, 11, 53, 73, 141, 161}. Tato mnoˇzina je uloˇzena v levé tabulce. Provedeme operaci INSERT(35). V´ ysledek je uloˇzen v pravé tabulce. ˇra´dek P(0) P(1) P(2) P(3) P(4) P(5) P(6) P(7) P(8) P(9)

key


1 11 73 141 161 53 7

key 1 11 73 141 161 53 7 35

Tabulka vznikla posloupnost´ı operac´ı: INSERT(1), INSERT(11), INSERT(73), INSERT(141), INSERT(161), INSERT(53), INSERT(7). 2.11.4


1 2 ). Oˇcekávan´ y poˇcet test˚ u pro ne´ uspˇeˇsn´ y pˇr´ıpad: ≈ 12 (1 + 1−α 1 1 Oˇcekávan´ y poˇcet test˚ u pro u ´spˇeˇsn´ y pˇr´ıpad: ≈ 2 (1 + 1−α ).

36

2.12

Dvojit´ e haˇ sov´ an´ı

2.12.1

Popis

Základn´ı nev´ yhoda pˇredchoz´ı metody je zp˚ usob v´ ybˇeru dalˇs´ıho ˇra´dku. Je velmi determinován a d˚ usledkem je vznik shluku ˇra´dk˚ u, kter´ y vede k v´ yraznému zpomalen´ı metody. Idea jak odstranit tuto nev´ yhodu: Pouˇzijeme dvˇe haˇsovac´ı funkce h1 a h2 a pˇri operaci INSERT(x) nalezneme nejmenˇs´ı i = 0, 1, . . . takové, ˇze (h1 (x) + ih2 (x)) mod m je prázdn´ y ˇra´dek, a tam uloˇz´ıme prvek x. Tabulka má jedinou poloˇzku – key. Poˇzadavky na korektnost: Pro kaˇzdé x mus´ı b´ yt h2 (x) a m nesoudˇelné (jinak prvek x nem˚ uˇze b´ yt uloˇzen na libovolném ˇra´dku tabulky). m−1 Pˇredpoklad pro v´ ypoˇcet oˇcekávaného poˇctu test˚ u: posloupnost {h1 (x) + ih2 (x)}i=0 je náhodná permutace mnoˇziny ˇra´dk˚ u tabulky.

Nev´ yhoda: Uvedená metoda nepodporuje operaci DELETE. Poznámka: Metoda haˇsován´ı s lineárn´ım pˇridáván´ım je speciáln´ı pˇr´ıpad dvojitého haˇsován´ı, kde h2 (x) = 1 pro kaˇzdé x ∈ U . 2.12.2

Algoritmy

MEMBER(x) Spoˇc´ıtáme i := h1 (x), h := h2 (x), j := 0 while i.key 6=prázdn´ y a i.key 6= x a j < m do i := i + h mod m, j := j + 1 enddo if i.key = x then V´ ystup: x ∈ S else V´ ystup: x ∈ / S endif INSERT(x) Spoˇc´ıtáme i := h1 (x), h := h2 (x), j := 0 while i.key 6=prázdn´ y a i.key 6= x a j < m do i := i + h mod m, j := j + 1 enddo if j = m then V´ ystup: pˇreplnˇen´ı, stop endif if i.key =prázdn´ y then i.key := x endif 2.12.3

Ilustrace

Mˇejme universum U = {1, 2, . . . , 1000}. Haˇsovac´ı funkce jsou h1 (x) = x mod 10 a h2 (x) = 1 + 2(x mod 4), kdyˇz x mod 4 ∈ {0, 1}, h2 (x) = 3+2(x mod 4), kdyˇz x mod 4 ∈ {2, 3}. Mnoˇzina je S = {1, 7, 11, 53, 73, 141, 161}. Tato mnoˇzina je uloˇzena v levé tabulce. Aplikujme INSERT(35). Pak h2 (35) = 9, tedy posloupnost pro x = 35 je (5, 4, 3, 2, 1, 0, 9, 8, 7, 6).

37

V´ ysledek je uloˇzen v pravé tabulce. ˇra´dek P(0) P(1) P(2) P(3) P(4) P(5) P(6) P(7) P(8) P(9)

key 11 1


73 141 7 53 161

key 11 1 35 73 141 7 53 161

Tabulka vznikla posloupnost´ı operac´ı: INSERT(1), INSERT(73), INSERT(53), INSERT(141), INSERT(161), INSERT(11), INSERT(7). 2.12.4

Oˇ cek´ avan´ y poˇ cet test˚ u - ne´ uspˇ eˇ sn´ y pˇ r´ıpad

Definice. qi (n, m) – kdyˇz tabulka má m ˇrádk˚ u a je v n´ı obsazeno n ˇrádk˚ u, tak je to pravdˇepodobnost, ˇze pro kaˇzdé j = 0, 1, . . . , i − 1 je ˇrádek h1 (x) + jh2 (x) obsazen. Pozorov´ an´ı. q0 (n, m) = 1 D˚ ukaz. Krajn´ı pˇr´ıpad - je urˇcitˇe obsazen pro j = 0 . . . − 1

Pozorov´ an´ı. q1 (n, m) =

n m

D˚ ukaz. Bez druhé heˇsovac´ı funkce, tj. zkus´ım jen jednou.

Pozorov´ an´ı. q2 (n, m) =

n(n−1) m(m−1)

D˚ ukaz. Prvn´ı heˇsovac´ı funkce se nestref´ı, druhá také ne (a druhá funkce je nesoudˇelná s m a je náhodná)

Lemma (Obecn´ y odhad qi ). Obecnˇe plat´ı Qi−1

j=0 (n

qi (n, m) = Qi−1

j=0 (m

D˚ ukaz. Zobecnˇen´ı pˇredchoz´ıch pozorován´ı.

38

− j)

− j)

Definice. C(n, m) – oˇcekávaný poˇcet test˚ u v ne´ uspˇeˇsném vyhledáv´ an´ı, kdyˇz tabulka má m ˇrádk˚ u a n jich je obsazeno (tj. to, co chci spoˇc´ıtat) P Lemma. C(n, m) = nj=0 (j + 1)(qj (n, m) − qj+1 (n, m))

D˚ ukaz. Pro kaˇzdé j vezmu pravdˇepodobnost, ˇze jen pro i ≤ j je h1 (x) + jh2 (x) obsazen, pro vˇsechny dalˇs´ı je voln´ y; pro kaˇzdé takové j je poˇcet test˚ u j+1

Lemma. C(n, m) =

Pn

j=0 qj (n, m)

D˚ ukaz. Pˇredchoz´ı lemma + u ´prava index˚ u

Lemma. C(0, m) = 1 pro kaˇzdé m D˚ ukaz. Vypl´ yvá z pˇredchoz´ıho lemmatu + q0 (0, m) = 1

Lemma. qj (n, m) =

n q (n m j−1

− 1, m − 1) pro vˇsechna j, n > 0 a m > 1

D˚ ukaz. Z obecného odhadu qi Qi−1 qi (n, m) =

Lemma. C(n, m) = 1 + D˚ ukaz. C(n, m) =

j=0 (n − j) Qi−1 j=0 (m − j)

n C(n m

n X j=0

=

n m

Qi−1

j=0 ((n

Qi−1

− 1) − j)

j=0 ((m

− 1) − j)

=

n qj−1 (n − 1, m − 1) m

− 1, m − 1)

qj (n, m) = 1 +

n−1 n n X ( qj (n − 1, m − 1)) = 1 + C(n − 1, m − 1). m j=0 m

Lemma. Oˇcekávaný poˇcet dotaz˚ u pˇri ne´ uspˇeˇsném vyhledáv´ an´ı v tabulce s m ˇrádky, z nichˇz n je obsazeno, m+1 je C(n, m) = m−n+1

39

D˚ ukaz. Indukc´ı. Kdyˇz n = 0, pak C(0, m) =

m+1 m−0+1

= 1 a tvrzen´ı plat´ı.

Pˇredpokládáme, ˇze tvrzen´ı plat´ı pro n − 1 ≥ 0 a pro kaˇzdé m ≥ n − 1 a dokáˇzeme tvrzen´ı pro n a m ≥ n. Plat´ı n C(n, m) =1 + C(n − 1, m − 1) = m n((m − 1) + 1) 1+ = m((m − 1) − (n − 1) + 1) m+1 n = . 1+ m−n+1 m−n+1

1 1−α

Vˇ eta. Oˇcekávaný poˇcet dotaz˚ u pˇri ne´ uspˇeˇsném vyhledáv´ an´ı je pˇribliˇznˇe D˚ ukaz. Z pˇredchoz´ıho lemmatu C(n, m) =

2.12.5

m+1 m−n+1

∼

1 . 1−α

Oˇcekávan´ y poˇcet dotaz˚ u pˇri ne´ uspˇeˇsném vyhledáván´ı je pˇribliˇznˇe 1 1−α .

´ eˇ Uspˇ sn´ y pˇ r´ıpad

Pouˇzijeme opˇet stejnou metodu ze separuj´ıc´ıch ˇretˇezc˚ u, proto jen struˇcnˇe. Vˇ eta. Oˇcekávaný poˇcet dotaz˚ u pˇri u ´spˇeˇsném vyhledáv´ an´ı je pˇribliˇznˇe

1 α

1 ln( 1−α )

D˚ ukaz. Poˇcet dotaz˚ u pˇri vyhledáván´ı x pro x ∈ S je stejn´ y jako byl poˇcet dotaz˚ u pˇri vkládán´ı x do tabulky. Tedy oˇcekávan´ y poˇcet dotaz˚ u pˇri u ´spˇeˇsném vyhledáván´ı v tabulce s m ˇra´dky, z nichˇz n je obsazeno, je n−1

n−1

1 X m+1 1X = C(i, m) = n i=0 n i=0 m − i + 1

m+1 m−n+1 X 1 m+1 X 1 − ≈ n j j j=1 j=1

m+1 1 1 1 ln( ) ≈ ln( ). α m−n+1 α 1−α

Oˇcekávan´ y poˇcet dotaz˚ u pˇri u ´spˇeˇsném vyhledáván´ı je pˇribliˇznˇe 1 1 α ln( 1−α . 40

Následuj´ıc´ı tabulka ukazuje tyto hodnoty v závislosti na velikosti α. hodnota α 1 α

1 1−α

1 ln( 1−α )

0.5 2 1.38

0.7 3.3 1.70

0.9 10 2.55

0.95 20 3.15

0.99 0.999 100 1000 4.65 6.9

2.13

Porovn´ an´ı efektivity haˇ sovac´ıch algoritm˚ u

2.13.1

Ne´ uspˇ eˇ sn´ e vyhled´ av´ an´ı

• • • • • • • •

Haˇsován´ı s uspoˇra´dan´ ymi ˇretˇezci Haˇsován´ı s ˇretˇezci=Haˇsován´ı s pˇrem´ıst’ován´ım Haˇsován´ı s dvˇema ukazateli VICH=LICH EICH LISCH=EISCH Dvojité haˇsován´ı Haˇsován´ı s lineárn´ım pˇridáván´ım

2.13.2

´ eˇ Uspˇ sn´ e vyhled´ av´ an´ı

Poˇrad´ı metod haˇsován´ı podle oˇcekávaného poˇctu test˚ u: • • • • • • • • •

Haˇsován´ı s uspoˇra´dan´ ymi ˇretˇezci=Haˇsován´ı s ˇretˇezci=Haˇsován´ı s pˇrem´ıst’ován´ım Haˇsován´ı s dvˇema ukazateli, VICH LICH EICH EISCH LISCH Dvojité haˇsován´ı Haˇsován´ı s lineárn´ım pˇridáván´ım

Poznámka: Metoda VICH pˇri ne´ uspˇeˇsném vyhledáván´ı pro α < 0.72 a pˇri u ´spˇeˇsném vyhledáván´ı pro α < 0.92 vyˇzaduje menˇs´ı oˇcekávan´ y poˇcet test˚ u neˇz metoda s dvˇema ukazateli. Pˇri ne´ uspˇeˇsném vyhledáván´ı jsou metody VICH a LICH stejné a jsou o 8% lepˇs´ı neˇz EICH a o 15% neˇz metody LISCH a EISCH. Pˇri u ´spˇeˇsném vyhledáván´ı je VICH nepatrnˇe lepˇs´ı neˇz LICH a EICH o 3% lepˇs´ı neˇz EISCH a o 7% lepˇs´ı neˇz LISCH. 2.13.3 • • • • • •

Oˇ cek´ avan´ y poˇ cet test˚ u pˇ ri u ´ plnˇ e zaplnˇ en´ e tabulce

Metoda s pˇrem´ıst’ován´ım: ne´ uspˇeˇsné vyhledáván´ı 1.5, u ´spˇeˇsné vyhledáván´ı 1.4. Metoda s dvˇema ukazateli: u ´spˇeˇsné i ne´ uspˇeˇsné vyhledáván´ı 1.6. VICH: ne´ uspˇeˇsné vyhledáván´ı 1.79, u ´spˇeˇsné vyhledáván´ı 1.67. LICH: ne´ uspˇeˇsné vyhledáván´ı 1.79, u ´spˇeˇsné vyhledáván´ı 1.69. EICH: ne´ uspˇeˇsné vyhledáván´ı 1.93, u ´spˇeˇsné vyhledáván´ı 1.69. EISCH: ne´ uspˇeˇsné vyhledáván´ı 2.1, u ´spˇeˇsné vyhledáván´ı 1.72. 41

• LISCH: ne´ uspˇeˇsné vyhledáván´ı 2.1, u ´spˇeˇsné vyhledáván´ı 1.8. Metodu s lineárn´ım pˇridáván´ım je dobré pouˇz´ıt jen pro α < 0.7, metodu s dvojit´ ym haˇsován´ım pro α < 0.9, pak ˇcas pro ne´ uspˇeˇsné vyhledáván´ı rychle nar˚ ustá. 2.13.4

Vliv β =

m m′

pˇ ri sr˚ ustaj´ıc´ım haˇ sov´ an´ı

Pˇri u ´spˇeˇsném vyhledáván´ı je optimáln´ı hodnota β = 0.85, pˇri ne´ uspˇeˇsném vyhledáván´ı je optimáln´ı hodnota β = 0.78. V praxi se doporuˇcuje pouˇz´ıt hodnotu β = 0.86 (uvedené v´ ysledky byly pro tuto hodnotu β). 2.13.5

Koment´ aˇ r

Metody se separuj´ıc´ımi ˇretˇezci a sr˚ ustaj´ıc´ı haˇsován´ı pouˇz´ıvaj´ı v´ıce pamˇeti (pˇri sr˚ ustaj´ıc´ım haˇsován´ı souˇcet adresovac´ı a pomocné ˇca´sti). Metoda s pˇrem´ıst’ován´ım a metoda dvojitého haˇsován´ı vyˇzaduj´ı v´ıce ˇcasu – na pˇrem´ıstˇen´ı prvku a na v´ ypoˇcet druhé haˇsovac´ı funkce.

2.14

Dalˇ s´ı ot´ azky

2.14.1

Jak nal´ ezt voln´ yˇ r´ adek

Za nejlepˇs´ı metodu se povaˇzuje m´ıt seznam (zásobn´ık) voln´ ych ˇra´dk˚ u a z jeho vrcholu brát voln´ y ˇra´dek a po u ´spˇeˇsné operaci DELETE tam zase ˇra´dek vloˇzit (pozor pˇri operaci DELETE ve strukturách, které nepodporuj´ı DELETE). 2.14.2

Jak ˇ reˇ sit pˇ replnˇ en´ı

Standardn´ı model: Dána základn´ı velikost tabulky m a pracuje se s tabulkami s 2i m ˇra´dky pro vhodné i = 0, 1, . . . . Vhodné i znamená, ˇze faktor zaplnˇen´ı α je v intervalu < 14 , 1 > (s v´ yjimkou i = 0, kde se uvaˇzuje pouze horn´ı mez). Pˇri pˇrekroˇcen´ı meze se zvˇetˇs´ı nebo zmenˇs´ı i a vˇsechna data se pˇrehaˇsuj´ı do nové tabulky. V´ yhoda: Po pˇrehaˇsován´ı do nové tabulky je poˇcet operac´ı, které vedou k novému pˇrehaˇsováván´ı, roven alespoˇ n polovinˇe velikosti uloˇzené mnoˇziny. Praktické pouˇzit´ı: Nedrˇzet se striktnˇe mez´ı, pouˇz´ıvat malé pomocné tabulky pˇri pˇreplnˇen´ı a posunout velké pˇrehaˇsován´ı na dobu klidu (aby systém nenechal uˇzivatele v normáln´ı dobˇe ˇcekat). 2.14.3

Jak ˇ reˇ sit DELETE v metod´ ach, kter´ e ho nepodporuj´ı

Pouˇz´ıt ideu tzv. ‘faleˇsného DELETE’. Odstranit prvek, ale ˇra´dek neuvolnit (i v kl´ıˇci nechat nˇejakou hodnotu, která bude znamenat, ˇze ˇra´dek je prázdn´ y, poloˇzky podporuj´ıc´ı práci s tabulkami nemˇenit). ˇ Rádek nebude v seznamu voln´ ych ˇra´dk˚ u, ale operace INSERT, kdyˇz testuje tento ˇra´dek, tam m˚ uˇze vloˇzit nov´ y prvek. Kdyˇz je alespoˇ n polovina pouˇzit´ ych ˇra´dk˚ u takto blokována, je vhodné celou strukturu pˇrehaˇsovat. Pravdˇepodobnostn´ı anal´ yzu tohoto modelu neznám.

42

2.14.4

Otevˇ ren´ e probl´ emy

Jak vyuˇz´ıt ideje z haˇsován´ı s uspoˇra´dan´ ymi ˇretˇezci pro ostatn´ı metody ˇreˇsen´ı koliz´ı (jmenovitˇe pro sr˚ ustaj´ıc´ı haˇsován´ı). Jakou metodu pouˇz´ıt pro operaci DELETE ve sr˚ ustaj´ıc´ım haˇsován´ı (problém je zachovat náhodnost uloˇzené mnoˇziny a t´ım platnost odhadu na sloˇzitost operac´ı). Jak nalézt druhou haˇsovac´ı funkci pro metodu dvojitého haˇsován´ı, aby vzniklé posloupnosti adres pˇri operaci INSERT se chovaly jako náhodné. 2.14.5

Pˇ redpoklady a jejich splnitelnost

Pˇripomeˇ nme si pˇredpoklady pro pˇredchoz´ı uvedené v´ ysledky o haˇsován´ı: 1. Haˇsovac´ı funkce se rychle spoˇc´ıtá (v ˇcase O(1)); 2. Haˇsovac´ı funkce rovnomˇernˇe rozdˇeluje univerzum (to znamená, ˇze pro dvˇe r˚ uzné hodnoty i a j −1 −1 haˇsovac´ı funkce plat´ı −1 ≤ |h (i)| − |h (j)| ≤ 1); 3. Vstupn´ı data jsou rovnomˇernˇe rozdˇelená. Diskutujme splnitelnost tˇechto pˇredpoklad˚ u. Pˇredpoklad 1) je jasn´ y. Pˇredpoklad 2) – je v´ yhodné, kdyˇz rozdˇelen´ı univerza haˇsovac´ı funkc´ı kop´ıruje známé rozdˇelen´ı vstupn´ıch dat. Toto se pouˇzilo pˇri návrhu pˇrekladaˇce pro FORTRAN (Lum 1971). V pˇrekladaˇci byla pouˇzita metoda separovan´ ych ˇretˇezc˚ u a haˇsovac´ı funkce, která preferovala obvyklé názvy identifikátor˚ u. V´ ysledky byly mˇeˇreny, kdyˇz se pˇrekladaˇc FORTRANu pouˇzil pro standardn´ı v´ ypoˇcet. Z´ıskané v´ ysledky se porovnávaly s teoretick´ ymi v´ ypoˇcty za naˇsich pˇredpoklad˚ u. V následuj´ıc´ı tabulce m˚ uˇzete porovnat v´ ysledky z´ıskané teoretick´ ymi v´ ypoˇcty a namˇeˇrené hodnoty. Porovnán´ı v´ ysledk˚ u:

hodnota α experiment teorie

0.5 1.19 1.25

0.6 1.25 1.30

0.7 1.28 1.35

0.8 0.9 1.34 1.38 1.40 1.45

Závˇer: Podm´ınky 1) a 2) m˚ uˇzeme splnit, kdyˇz známe rozloˇzen´ı vstupn´ıch dat, m˚ uˇzeme dosáhnout jeˇstˇe lepˇs´ıch v´ ysledk˚ u. Nev´ yhoda: Rozloˇzen´ı vstupn´ıch dat nem˚ uˇzeme ovlivnit a obvykle ho ani neznáme. Je reálné, ˇze rozdˇelen´ı vstupn´ıch dat bude nevhodné pro pouˇzitou haˇsovac´ı funkci. D˚ usledek – na poˇca´tku 70. let se zaˇcalo ustupovat od haˇsován´ı. Hledal se postup, kter´ y by se vyhnul uvedenému problému s bodem 3). ˇ sen´ı navrhli Carter a Wegman (1977), kdyˇz pˇriˇsli s metodou univerzáln´ıho haˇsován´ı, která obcház´ı Reˇ poˇzadavek 3). To vedlo k novému rozsáhlému pouˇz´ıván´ı haˇsován´ı. Nalezenému ˇreˇsen´ı je vˇenován následuj´ıc´ı text.

43

2.15

Univerz´ aln´ı haˇ sov´ an´ı

2.15.1

Z´ akladn´ı idea

M´ısto jedné funkce máme mnoˇzinu H funkc´ı z univerza do tabulky velikosti m takov´ ych, ˇze pro kaˇzdou mnoˇzinu S ⊆ U , |S| ≤ m se vˇetˇsina funkc´ı chová dobˇre v˚ uˇci S (tj. haˇsovac´ı funkce má jen málo koliz´ı v mnoˇzinˇe S). Haˇsovac´ı funkci zvol´ıme náhodnˇe z H (s rovnomˇern´ ym rozdˇelen´ım) a haˇsujeme pomoc´ı takto zvolené funkce. Tedy jeˇstˇe jednou – nemám jednu haˇsovac´ı funkci, ale mám v´ıce haˇsovac´ıch funkc´ı, pro kaˇzdou mnoˇzinu S se mi vˇetˇsina z nich chová rozumnˇe – a z nich n´ ahodnˇe jednu vyberu; tedy nen´ı nutné náhodné rozloˇzen´ı S. 2.15.2

Modifikace ideje

Ovˇeˇrován´ı vlastnost´ı vyˇzaduje znalost velikosti mnoˇziny H. Mám ale problém - rychlá vyˇc´ıslitelnost h(x) vyˇzaduje analytické zadán´ı funkc´ı v H, ale zjiˇstˇen´ı rovnosti ˇ sen´ım problému je pouˇzit´ı indexové dvou analyticky zadan´ ych funkc´ı na univerzu U je problematické. Reˇ mnoˇziny I, kterou si oindexuji funkce v H. To znamená, ˇze H = {hi | i ∈ I} a dvˇe funkce jsou r˚ uzné, kdyˇz maj´ı r˚ uzné indexy. Pak velikost systému, tj. velikost H, bude velikost indexové mnoˇziny. M´ısto zvolen´ı haˇsovac´ı funkce budeme volit náhodnˇe index s rovnomˇern´ ym rozloˇzen´ım a kdyˇz zvol´ıme index i, pak budeme pracovat s haˇsovac´ı funkc´ ı h . Oˇ c ek´ a van´ a hodnota n´ a hodn´ e promˇenné f z mnoˇziny I i P i∈I f (i) do reáln´ ych ˇc´ısel bude pr˚ umˇer pˇres I, tj. . |I| 2.15.3

Form´ aln´ı definice c-univerz´ aln´ıch syst´ em˚ u

Necht’ U je univerzum. Soubor funkc´ı H = {hi | i ∈ I} z univerza U do mnoˇziny {0, 1, . . . , m − 1} se naz´ yvá c-univerz´ aln´ı (c je kladné reálné ˇc´ıslo), kdyˇz ∀x, y ∈ U, x 6= y plat´ı |{i ∈ I | hi (x) = hi (y)}| ≤

c|I| . m

Omezuji tedy poˇcet kolizn´ıch funkc´ı pro libovolnou mnoˇzinu. Jako ekvivalentn´ı definici lze pouˇz´ıt toto tvrzen´ı: systém funkc´ı H z univerza U do mnoˇziny {0, 1, . . . , m−1} je c-univerzáln´ı, kdyˇz vybereme-li h ∈ H s rovnomˇern´ ym rozdˇelen´ım, pak pro kaˇzdá dvˇe r˚ uzná x, y ∈ U plat´ı c Prob(h(x) = h(y)) ≤ . m Problémy: existence c-univerzáln´ıch systém˚ u, vlastnosti c-univerzáln´ıch systém˚ u (zda splˇ nuj´ı poˇzadované ideje). 2.15.4

Existence univerz´ aln´ıch syst´ em˚ u

Bez u ´jmy na obecnosti m˚ uˇzu vz´ıt univerzum U , které bude vypadat U = {0, 1, . . . , N − 1} pro prvoˇc´ıslo N . (Staˇc´ı si uvˇedomit, ˇze kaˇzdé univerzum m˚ uˇzeme povaˇzovat za univerzum tvaru {0, 1, . . . , N − 1} pro nˇejaké N a ˇze mezi ˇc´ısly N a 2N vˇzdy existuje nˇejaké prvoˇc´ıslo.) 44

Definujme si mnoˇzinu funkc´ı H pro univerzum U pro nˇejaké m. Definice. H = {ha,b | (a, b) ∈ U × U }, kde ha,b (x) = ((ax + b) mod N ) mod m (tj. indexov´ a mnoˇzina je U × U a jej´ı velikost je N 2 ). V´ yhoda: funkce z mnoˇziny H um´ıme rychle vyˇc´ıslit. Nev´ yhoda: indexová mnoˇzina je velikost univerza na druhou. 2 Lemma. Pro x, y ∈ U takov´ a, ˇze x 6= y, existuje maxim´ alnˇe m ⌈ N ⌉ dvojic (a, b) ∈ U × U takových, ˇze m ha,b (x) = ha,b (y). D˚ ukaz. Zvolme x, y ∈ U taková, ˇze x 6= y. Chceme nalézt (a, b) ∈ U × U takové, ˇze ha,b (x) = ha,b (y).

Mus´ı existovat i ∈ {0, 1, . . . , m − 1} a r, s ∈ {0, 1, . . . , ⌈ N ⌉ − 1} tak, ˇze plat´ı m (ax + b ≡ i + rm) mod N (ay + b ≡ i + sm) mod N

(i je ono shodné modulo, r a s jsou zbytky po modulu, tedy ax + b mod N = i + rm a i + rm < N , podobnˇe s y) Kdyˇz x, y, i, r a s jsou konstanty a a a b jsou promˇenné, je to systém lineárn´ıch rovnic v tˇelese Z/ mod N , kde Z jsou celá ˇc´ısla. Matice soustavy x 1 y 1 je regulárn´ı, protoˇze x 6= y. Jelikoˇz Z/ mod N je tˇeleso (protoˇze N je prvoˇc´ıslo), tak pro fixovaná x, y, i, r a s existuje právˇe jedno ˇreˇsen´ı této soustavy. ⌉ hodnot. Tedy, pro daná x a y, i nab´ yvá m hodnot, r a s nab´ yvaj´ı ⌈ N m Závˇer: pro kaˇzdá x, y ∈ U taková, ˇze x 6= y, existuje maximálnˇe m ⌈ N ⌉ m ˇze ha,b (x) = ha,b (y).

Vˇ eta. Mnoˇzina H je c-univerzáln´ı pro

2

dvojic (a, b) ∈ U × U takov´ ych,

2 ⌉ ⌈N c = m 2 . N m

D˚ ukaz. Skuteˇcnˇe, pro kaˇzdé x, y ∈ U , x 6= y, je poˇcet (a, b) ∈ U × U takov´ ych, ˇze ha,b (x) = ha,b (y), nejv´ yˇse roven 2 2 ⌈N ⌈N ⌉ N2 ⌉ |I| N 2 m m m ⌈ ⌉ = = . N 2 m N 2 m m m

m

Pozorov´ an´ı. Dokázali jsme existenci c-univerzáln´ıch systém˚ u pro c bl´ızké 1.

45

2.15.5

Vlastnosti univerz´ aln´ıho haˇ sov´ an´ı

Pˇredpoklad: H = {hi | i ∈ I} je c-univerzáln´ı systém funkc´ı. (nemus´ı b´ yt totoˇzn´ y s H z posledn´ı kapitoly) Definice. Pro i ∈ I a prvky x, y ∈ U oznaˇcme ( 1 kdyˇz x 6= y a hi (x) = hi (y), δi (x, y) = 0 kdyˇz x = y nebo hi (x) 6= hi (y). δi (x, y) je tedy 1, pokud x, y v hi koliduj´ı, jinak je 0. Definice. Pro mnoˇzinu S ⊆ U , x ∈ U a i ∈ I definujme X δi (x, S) = δi (x, y). y∈S

δi (x, S) tedy ˇr´ıká, s kolika prvky v S x koliduje pˇri pouˇzit´ı funkce hi ; je to tedy horn´ı odhad ˇretˇezce, pokud S je reprezentovaná mnoˇzina. P 1 Lemma. |I| cekávan´ a délka ˇretˇezce pˇri pevném S pˇri n´ ahodném výbˇeru i. i∈I δi (x, S) je oˇ D˚ ukaz. Plyne jednoduˇse z definice.

Lemma. Oˇcekávaný poˇcet test˚ u u operac´ıMEMBER, INSERT a DELETE je O(1+oˇcekávané délka ˇretˇezce) D˚ ukaz. Nen´ı mi zcela jasná +1, jinak ale opravdu mus´ıme projet cel´ y ˇretˇezec.

Lemma. Pro fixovanou mnoˇzinu S ⊆ U a pro fixované x ∈ U plat´ı

P

i∈I δi (x, S) =

(

(|S| − 1)c |I| m |I| |S|c m

kdyˇz x ∈ S, kdyˇz x ∈ / S.

D˚ ukaz. V d˚ ukazu vtipnˇe“ pˇrehod´ıme, pˇres co vlastnˇe sˇc´ıtáme, a pouˇzijeme definici c-univerzáln´ıho systému. ” Seˇcteme δi (x, S) pˇres vˇsechna i ∈ I: X XX XX δi (x, S) = δi (x, y) = δi (x, y) = i∈I

i∈I y∈S

X

y∈S,y6=x

y∈S i∈I

|{i ∈ I | hi (x) = hi (y)}| ≤

|I| = c m y∈S,y6=x X

(

46

(|S| − 1)c |I| m |S|c |I| m

kdyˇz x ∈ S, kdyˇz x ∈ / S.

Lemma. Oˇcekávan´ a d´ elka ˇretˇezce pro fixovanou mnoˇzinu S ⊆ U a fixované x ∈ U pˇres i ∈ I s rovnomˇerným ( c |S|−1 kdyˇz x ∈ S, m rozdˇelen´ım je nejvýˇse |S| kdyˇz x ∈ / S. cm D˚ ukaz. Z pˇredchoz´ıch lemmat: δi (x, S) dává odhad na velikost ˇretˇezce hi (x) pˇri reprezentaci mnoˇziny S pomoc´ı funkce hi , tedy oˇcekávaná délka ˇretˇezce pro fixovanou mnoˇzinu S ⊆ U a fixované x ∈ U pˇres i ∈ I s rovnomˇern´ ym rozdˇelen´ım je nejv´ yˇse ( c |S|−1 kdyˇz x ∈ S, 1 X m δi (x, S) ≤ |S| |I| i∈I kdyˇz x ∈ / S. cm

Vˇ eta. Oˇcekávaný poˇcet test˚ u pˇri operac´ıch MEMBER, INSERT haˇsován´ı je O(1 + cα), kde α je faktor naplnˇen´ı (tj. α = |S| ). m

a DELETE pˇri c-univerzáln´ım

D˚ ukaz. Plyne jednoduˇse z pˇredchoz´ıch lemmat.

Vˇ eta. Oˇcekávaný ˇcas pro pevnou posloupnost n operac´ı MEMBER, INSERT a DELETE aplikovaných n na pr´ azdnou tabulku pro c-univerzáln´ı haˇsován´ı je O((1 + 2c α)n), kde α = m . D˚ ukaz. Já (upravuj´ıc´ı student) nevid´ım, proˇc by to mˇelo platit :(

Oˇcekávan´ y poˇcet test˚ u je O(1 + cα)

V´ yznam v´ ysledku Vzorec se jen o multiplikativn´ı konstantu c liˇs´ı od vzorce pro haˇsován´ı se separovan´ ymi ˇretˇezci. Pˇritom c m˚ uˇze b´ yt jen o málo menˇs´ı neˇz 1 a ve vˇsech znám´ ych pˇr´ıkladech je c ≥ 1. Takˇze, co jsme dosáhli? Rozd´ıl je v pˇredpokladech. Zde je pˇredpoklad 3) nahrazen pˇredpokladem, ˇze index i ∈ I je vybrán s rovnomˇern´ ym rozdˇelen´ım, a nen´ı ˇza´dn´ y pˇredpoklad na vstupn´ı data. V´ ybˇ er indexu i m˚ uˇ zeme ovlivnit, ale v´ ybˇ er vstupn´ıch dat nikoliv. M˚ uˇzeme zajistit rovnomˇerné rozdˇelen´ı v´ ybˇeru i z I nebo se k tomuto rozdˇelen´ı hodnˇe pˇribl´ıˇzit. 2.15.6

Markovova nerovnost

Pˇredpoklady: Je dána mnoˇzina S ⊆ U , prvek x ∈ U . Oˇcekávaná velikost δi (x, S) je µ a t ≥ 1. Pˇredpokladejme, ˇze i je z I vybráno s rovnomˇern´ ym rozdˇelen´ım. Vˇ eta. Pro t > 1 plat´ı: pravdˇepodobnost, ˇze δi (x, S) ≥ tµ pro i ∈ I, je menˇs´ı neˇz 1t . . 47

D˚ ukaz. Oznaˇcme I ′ = {i ∈ I | δi (x, S) ≥ tµ}. Pak plat´ı P P P |I ′ | ′ tµ i∈I ′ δi (x, S) i∈I δi (x, S) > ≥ i∈I = tµ µ= |I| |I| |I| |I| Odtud |I ′ | <

|I| . t

Tedy pravdˇepodobnost, ˇze δi (x, S) ≥ tµ, je menˇs´ı neˇz 1t .

Poznámka: Toto tvrzen´ı plat´ı obecnˇe a naz´ yvá se Markovova nerovnost. Uveden´ y d˚ ukaz ilustruje jednoduché tvrzen´ı pro koneˇcn´ y pˇr´ıpad. 2.15.7

V´ ybˇ er funkce ze syst´ emu

Hlavn´ı problém: Zajiˇstˇen´ı rovnomˇerného rozdˇelen´ı v´ ybˇeru i z I. Proveden´ı v´ ybˇeru: Budeme vyb´ırat index z mnoˇziny I, budeme ho vyb´ırat jako binárn´ı ˇc´ıslo tak, ˇze kaˇzdou pozici binárn´ıho ˇc´ısla náhodnˇe vybereme. Totéˇz formálnˇeji: Zakódovat indexy z mnoˇziny I do ˇc´ısel 0, 1, . . . , |I| − 1. Zvolit náhodnˇe ˇc´ıslo i z tohoto intervalu s rovnomˇern´ ym rozdˇelen´ım a pak pouˇz´ıt funkci s indexem, jehoˇz kód je i. Abychom vybrali i, nalezneme nejmenˇs´ı j takové, ˇze 2j − 1 ≥ |I| − 1. Pak ˇc´ısla v intervalu {0, 1, . . . , 2j − 1} jednoznaˇcnˇe koresponduj´ı s posloupnostmi 0 a 1 délky j. Budeme vyb´ırat náhodnˇe posloupnost 0 a 1 délky j. Kdyˇz takto vybraná posloupnost neodpov´ıdá prvku z I, tak vygenerujeme jinou posloupnost (a tuto vynecháme). Pokud pouˇzijeme náhodn´ y generátor 0 a 1, pak takto z´ıskáme náhodn´ y prvek z I. Tedy k v´ ybˇeru náhodné funkce potˇrebujeme náhodn´ y generátor 0 a 1 s rovnomˇern´ ym rozdˇelen´ım. Závada: Skuteˇcn´ y náhodn´ y generátor pro rovnomˇerné rozdˇelen´ı je prakticky nedosaˇziteln´ y (nˇekteré fyzikáln´ı procesy). K dispozici je pouze pseudogenerátor. ˇ ım je j vˇetˇs´ı, t´ım je posloupnost pravidelnˇejˇs´ı (tj. ménˇe náhodná). Jeho nev´ yhoda: C´ D˚ usledky: Hledáme co nejmenˇs´ı c-univerzáln´ı systémy. Nejprve ale nalezneme doln´ı odhady na jejich velikost obecnˇe. (Velikost´ı je zde stále myˇsleno poˇcet funkc´ı v |H|, vˇse ostatn´ı – c, |S|, m – je fixováno!) 2.15.8

Doln´ı odhady na velikost

Pˇredpoklady: Necht’ U je univerzum velikosti N a necht’ H = {hi | i ∈ I} je c-univerzáln´ı systém funkc´ı haˇsuj´ıc´ıch do tabulky velikosti m. M˚ uˇzeme pˇredpokládat, ˇze I = {0, 1, . . . , |I| − 1}. Vˇ eta. Kdyˇz H = {hi | i ∈ I} je c-univerzáln´ı systém pro univerzum U o velikosti N haˇsuj´ıc´ı do tabulky s m ˇrádky, pak m |I| ≥ (⌈logm N ⌉ − 1). c D˚ ukaz. Indukc´ı definujme mnoˇziny U0 , U1 , . . . tak, ˇze: U0 = U . Necht’ U1 je nejvˇetˇs´ı podmnoˇzina U0 vzhledem k poˇctu prvk˚ u taková, ˇze h0 (U1 ) je jednoprvková mnoˇzina. 48

Necht’ U2 je nejvˇetˇs´ı podmnoˇzina U1 vzhledem k poˇctu prvk˚ u taková, ˇze h1 (U2 ) je jednoprvková mnoˇzina. Necht’ U3 je nejvˇetˇs´ı podmnoˇzina U2 vzhledem k poˇctu prvk˚ u taková, ˇze h2 (U3 ) je jednoprvková mnoˇzina. ’ Obecnˇe, necht Ui je nejvˇetˇs´ı podmnoˇzina Ui−1 vzhledem k poˇctu prvk˚ u taková, ˇze hi−1 (Ui ) je jednoprvková mnoˇzina. i−1 | Protoˇze haˇsujeme do tabulky velikosti m, plat´ı |Ui | ≥ ⌈ |Um ⌉. Protoˇze |U0 | = N , dostáváme indukc´ı, ˇze |Ui | ≥ ⌈ mNi ⌉ pro kaˇzdé i. Zvolme i = ⌈logm N ⌉ − 1. Pak i je nejvˇetˇs´ı pˇrirozené ˇc´ıslo takové, ˇze mNi > 1. Tedy Ui má aspoˇ n dva prvky, zvolme x, y ∈ Ui taková, ˇze x 6= y. Pak hj (x) = hj (y) pro j = 0, 1, . . . , i − 1. Tedy

i ≤ |{j ∈ I | hj (x) = hj (y)}| ≤

c|I| . m

Kdyˇz H = {hi | i ∈ I} je c-univerzáln´ı systém pro univerzum U o velikosti N haˇsuj´ıc´ı do tabulky s m ˇra´dky, pak |I| ≥ mc (⌈logm N ⌉−1).

Pozorov´ an´ı. Posloupnosti 0 a 1 pˇri n´ ahodné volbˇe i z I mus´ı m´ıt délku alespoˇ n ⌈(log m−log c+log log N − log log m)⌉ (zde vˇsechny logaritmy jsou o z´ akladu 2). 2.15.9

Mal´ y univerz´ aln´ı syst´ em - definice

Zkonstruujeme c-univerzáln´ı systém takov´ y, ˇze logaritmus z velikosti jeho indexové mnoˇziny pro velká univerza je aˇz na aditivn´ı konstantu menˇs´ı neˇz 4(log m + log log N ), kde N je velikost univerza a m je poˇcet ˇra´dk˚ u v tabulce. Mˇejme velikost tabulky m a univerzum U = {0, 1, . . . , N − 1} pro nˇejaké pˇrirozené ˇc´ıslo N (nemus´ı b´ yt prvoˇc´ıslo). Definice. Necht’ p1 , p2 , . . . je rostouc´ı posloupnost vˇsech prvoˇc´ısel. Definice. Necht’ t je nejmenˇs´ı ˇc´ıslo takové, ˇze t ln pt ≥ m ln N . Lemma. t < m ln N , kdyˇz pt > 3. D˚ ukaz. Pokud pt > 3, je ln pt ≥ 1.

Definice. Definujme H1 = {gc,d (hℓ ) | t < ℓ ≤ 2t, c, d ∈ {0, 1, . . . , p2t − 1}},

kde hℓ (x) = x mod pℓ a gc,d (x) = ((cx + d) mod p2t ) mod m.

V dalˇs´ı sekci ukáˇzeme, ˇze kdyˇz m(ln m + ln ln m) < N , pak H1 je 3.25-univerzáln´ı systém. Nejdˇr´ıve ale ukáˇzeme, ˇze indexová mnoˇzina je dostateˇcnˇe malá. Pˇripomeneme si známou vˇetu o velikosti prvoˇc´ısel, bez d˚ ukazu (zde ln je pˇrirozen´ y logaritmus, tj. o základu e). Vˇ eta. Pro kaˇzdé i = 1, 2, . . . plat´ı pi > i ln i a pro i ≥ 6 plat´ı pi < i(ln i + ln ln i). 49

Pozorov´ an´ı. Pro i ≥ 6 plat´ı pi < 2i ln i. (z dosazen´ı do vˇety o velikosti prvoˇc´ısel) Vˇ eta. |I| < 16m4 log4 N pro dostateˇcnˇe velké t. D˚ ukaz. (pozn. studenta - d´ıky logaritm˚ um je tento d˚ ukaz dost nepˇrehledn´ y :( logaritmy jsou dvojkové) Indexová mnoˇzina H1 je I = {(c, d, ℓ) | c, d ∈ {0, 1, . . . , p2t − 1, t < ℓ ≤ 2t}. Tedy |I| = tp22t . Odtud plyne |I| ≤ 16t3 ln2 2t a tedy log(|I|) ≤ 4 + 3 log t + 2 log log t. Pro dostateˇcnˇe velké t (takové, ˇze log t ≥ 2 log log t, tj. t ≥ 16)4 plat´ı, ˇze log(|I|) ≤ 4 + 4 log t. t ≤ m ln N , kdyˇz pt ≥ 3 (viz v´ yˇse). Po dosazen´ı log(|I|) ≤ 4 + 4(log m + log log N ), coˇz uˇz uprav´ıme na poˇzadovanou nerovnost.

Pozorov´ an´ı. Logaritmus z d˚ ukazu, tj. log(|I|) ≤ 4+4(log m+log log N ), n´ am dáv´ a horn´ı omezen´ı velikosti bin´ arn´ıho z´ apisu funkce, tj. poˇcet nutných n´ ahodných výbˇer˚ u. 2.15.10

Univerzalita mal´ eho syst´ emu H1

Zvolme r˚ uzná x a y z univerza U . Definice. Oznaˇcme G1 = {(c, d, ℓ) | gc,d (hℓ (x)) = gc,d (hℓ (y)), hℓ (x) 6= hℓ (y)}, G2 = {(c, d, ℓ) | gc,d (hℓ (x)) = gc,d (hℓ (y)), hℓ (x) = hℓ (y)} Budeme odhadovat G1 , G2 . Vˇ eta. G1 ≤

|I| (1 m

+

m 2 ) p2t

D˚ ukaz. Pouˇzijeme podobn´ y trik, jako v kapitole s d˚ ukazem existence univerzáln´ıch systém˚ u. Kdyˇz (c, d, ℓ) ∈ G1 , pak existuj´ı r, s ∈ {0, 1, . . . , ⌈ pm2t ⌉ − 1} a i ∈ {0, 1, . . . , m − 1} taková, ˇze (c(x mod pℓ ) + d ≡ i + rm) mod p2t (c(y mod pℓ ) + d ≡ i + sm) mod p2t . Kdyˇz c a d povaˇzujeme za neznámé, pak je to soustava lineárn´ıch rovnic s regulárn´ı matic´ı (protoˇze x mod pℓ 6= y mod pℓ ), a tedy pro kaˇzdé ℓ, i, r a s existuje právˇe jedna taková dvojice (c, d) (pˇripom´ınáme, ˇze Z/ mod p2t je tˇeleso). Proto |G1 | ≤ tm(⌈ 4

p2t 2 tp22t m 2 |I| m 2 ⌉) ≤ (1 + (1 + ) = ). m m p2t m p2t

Nejsem si jist, proˇc plat´ı, ale asi ano

50

Vˇ eta. G2 ≤

|I| m

Q D˚ ukaz. Oznaˇcme L = {ℓ | t < ℓ ≤ 2t, x mod pℓ = y mod pℓ } a P = ℓ∈L pℓ . Protoˇze P dˇel´ı |x − y|, |L| ln N ≤ mt z dostáváme, ˇze P ≤ N . Protoˇze pt < pℓ pro kaˇzdé ℓ ∈ L, dostáváme, ˇze P > pt . Tedy |L| ≤ ln pt definice t. Protoˇze (c, d, ℓ) ∈ G2 , právˇe kdyˇz ℓ ∈ L a c, d ∈ {0, 1, . . . , p2t − 1}, shrneme, ˇze |G2 | ≤

|L|p22t

tp22t |I| ≤ = . m m

Lemma (Pomocné lemma). Kdyˇz t ≥ 6 a m(ln m + ln ln m) < N , pak m <

pt . ln t

D˚ ukaz. Pˇredpokládejme, ˇze tvrzen´ı neplat´ı. Pak m ≥ lnptt . Z Vˇety o velikosti prvoˇc´ısel plyne m ≥ t ln t = t. Kdyˇz pouˇzijeme, ˇze m(ln m + ln ln m) < N , tak dostaneme, ˇze ln t

pt ln t

>

ln m + ln(ln m + ln ln m) < ln N, a odtud plyne, ˇze t ln pt < t ln(t(ln t + ln ln t)) ≤ m(ln m + ln(ln m + ln ln m)) < m ln N a to je spor s definic´ı t. Tedy m <

Pozorov´ an´ı. ln 2t ≥ ln t ≥ ln ln t Lemma.

m p2t

pt . ln t

pro vˇsechna t ≥ 1

je menˇs´ı, neˇz 12 , a pokud t konverguje k +∞, tak konverguje k 0.

D˚ ukaz. Zkombinujeme Vˇetu o odhadu velikosti prvoˇc´ısel, Pomocné lemma a pˇredchoz´ı pozorován´ı a dostaneme, ˇze pt t(ln t + ln ln t) 1 ln ln t m ln t < < (1 + ). ≤ p2t 2t ln 2t 2t ln t ln 2t ln 2t ln t yraz konverguje k 0. Je zˇrejmé, ˇze tento v´ yraz je menˇs´ı neˇz 21 , a kdyˇz t konverguje k +∞, pak tento v´

Lemma. (1 +

m 2 ) p2t

≤ 1.52 = 2.25

D˚ ukaz. Plyne jednoduˇse z pˇrechoz´ıho lemmatu.

Vˇ eta. H1 je 3.25-univerz´ aln´ı

51

D˚ ukaz. Z pˇredchoz´ıho plyne: |{i ∈ I | hi (x) = hi (y)}| = |G1 | + |G2 | ≤ |I| m 2 |I| |I| |I| (1 + ≤ (1 + 2.25) = 3.25 . ) + m p2t m m m

Kdyˇz t ≥ 6 a m ln m ln ln m < N , pak H1 je 3.25-univerzáln´ı.

Bez jak´ ychkoliv pˇredpoklad˚ u lze ukázat, ˇze H1 je 5-univerzáln´ı. 2.15.11

Odhad na velikost c

Lemma (Technické lemma). Mˇejme reáln´ a ˇc´ısla bi pro i = 0, 1, . . . , m − 1 a necht’ b = m−1 X i=0

b − 1). m

bi (bi − 1) ≥ b(

Pm−1 i=0

bi . Pak

D˚ ukaz. Z Cauchyho-Schwarzovy nerovnosti (

m−1 X i=0

plyne (

Pm−1 i=0

bi )2 = b2 ≤ m( m−1 X i=0

Pm−1 i=0

xi yi ) 2 ≤ (

m−1 X

x2i )(

i=0

m−1 X

yi2 )

i=0

b2i ), staˇc´ı poloˇzit xi = bi a yi = 1, a tedy

bi (bi − 1) =

m−1 X i=0

b2i −

m−1 X i=0

bi =

m−1 X i=0

b2i − b ≥

b2 m

≤

Pm−1 i=0

b2i . Odtud

b b2 − b = b( − 1) m m

a lemma je dokázáno.

Lemma (O obecné funkci). Pokud f : U → T je libovolná haˇsovac´ı funkce (tj. ne z H), poˇcet dvojic u, v −m takových, ˇze u 6= v a f (u) = f (v) (tj. koliduj´ıc´ı dvojice) je vˇetˇs´ı, neˇz N ( Nm ), kde N je velikost U a m je velikost T . D˚ ukaz. Kdyˇz pro t ∈ T oznaˇc´ıme kt = |f −1 (t)|, pak |A| = |A| = protoˇze

P

t∈T

X t∈T

kt (kt − 1) ≥ N (

kt = N .

Nerovn´ıtko plyne z technického lemmatu.

52

P

t∈T

kt (kt − 1). Z lemmatu plyne, ˇze

N −m N − 1) = N ( ), m m

Vˇ eta. Kdyˇz H je c-univerzáln´ı systém univerza U o velikosti N haˇsuj´ıc´ı do tabulky s m ˇrádky, pak c ≥ m 1− N . D˚ ukaz. Pouˇzijeme pˇredchoz´ı lemma o obecné funkci a pˇri sˇc´ıtán´ı si vtipnˇe“ pˇrehod´ıme, pˇres co vlastnˇe ” sˇc´ıtáme, a poté vyuˇzijeme toho, ˇze H je c-univerzáln´ı. Kdyˇz H = {hi | i ∈ I} je c-univerzáln´ı systém funkc´ı z univerza U o velikosti N do tabulky o velikosti m, pak pomoc´ı lemmatu dostáváme N −m |I|N ( )≤ m X |{(x, y) ∈ U × U | hi (x) = hi (y), x 6= y}| = i∈I

X

|{i ∈ I | hi (x) = hi (y)}| ≤

X

c

(x,y)∈U ×U, x6=y

(x,y)∈U ×U,x6=y

|I| |I| = N (N − 1)c . m m

Odtud plyne, ˇze N − m ≤ c(N − 1), a tedy c≥

2.15.12

N −m N −m m > =1− . N −1 N N

Kdyˇz H je c-univerzáln´ı, c ≥ 1 −

m N.

Probl´ emy univerz´ aln´ıho haˇ sov´ an´ı

Pouˇz´ıt jiné metody na ˇreˇsen´ı koliz´ı neˇz separované ˇretˇezce. Jak to ovlivn´ı pouˇzitelnost univerzáln´ıho haˇsován´ı? Plat´ı podobné vztahy jako pro pevnˇe danou haˇsovac´ı funkci? Jak´ y vliv na efektivnost má nepˇr´ıtomnost operace DELETE? Existuje c-univerzáln´ı haˇsovac´ı systém pro c < 1? Jak´ y je vztah mezi velikost´ı c-univerzáln´ıho haˇsovac´ıho systému a velikost´ı c? Lze zkonstruovat mal´ y c-univerzáln´ı systém pro c < 3.25? Zde hraje roli fakt, ˇze pˇri c = 3.25 se oˇcekávaná délka ˇretˇezce m˚ uˇze pohybovat aˇz kolem hodnoty 7. ˇ Pouˇzit´ı Cebyˇ sevovy nerovnosti m´ısto Markovovy nerovnosti dává kvadratick´ y odhad pravdˇepodobnosti, ˇze délka ˇretˇezce je o t vˇetˇs´ı neˇz oˇcekávaná hodnota. Za jak´ ych okolnost´ı dává lepˇs´ı odhad? Lze pouˇz´ıt i vyˇsˇs´ıch moment˚ u? Jak pouˇz´ıt Markovou nerovnost a oˇcekávanou délku maximáln´ıho ˇretˇezce pro odhad oˇcekávaného poˇctu voleb haˇsovac´ı funkce? Pro jaké parametry lze pouˇz´ıt následuj´ıc´ı model?5 Je dána základn´ı velikost tabulky m a dále pro j = 0, 1, . . . ˇc´ısla (parametry) lj a c-univerzáln´ı haˇsovac´ı systémy Hj = {hi | i ∈ Ij } z univerza do tabulky s m2j ˇra´dky. 5

pozn.studenta - v˚ ubec nev´ım, o co jde :(

53

Mnoˇzina S ⊆ U je reprezentována následovnˇe: je dáno j takové, ˇze kdyˇz j > 0, pak m2j−2 ≤ |S| ≤ m2j , kdyˇz j = 0, pak |S| ≤ m, a je zvolen index i ∈ Ij . Dále máme prosté ˇretˇezce r0 , r1 , . . . , rm2j −1 , jejichˇz délky jsou nejv´ yˇse lj , a ˇretˇezec rk obsahuje prvky {s ∈ S | hi (s) = k}. Operace INSERT(x) prohledá ˇretˇezec rhi (x) a kdyˇz tento ˇretˇezec neobsahuje prvek x, pak ho pˇridá. Kdyˇz m2j−2 ≤ |S| ≤ m2j a délka ˇretˇezce rhi (x) je nejv´ yˇse lj , pak operace konˇc´ı. Kdyˇz |S| > m2j , tak se nejdˇr´ıve zvˇetˇs´ı j o 1. Pak se náhodnˇe zvol´ı i ∈ Ij a zkonstruuj´ı se ˇretˇezce reprezentuj´ıc´ı S. Kdyˇz nˇekter´ y z nich má délku vˇetˇs´ı neˇz lj , tak se volba a konstrukce ˇretˇezc˚ u opakuje tak dlouho, dokud se nepovede zvolit i ∈ Ij takové, ˇze vˇsechny zkonstruované ˇretˇezce maj´ı délku nejv´ yˇse lj . Operace DELETE se ˇreˇs´ı analogicky. Problém: Jak volit parametry li ? V pˇr´ıpadˇe ˇreˇsen´ı koliz´ı dvojit´ ym haˇsován´ım nebo haˇsován´ım s lineárn´ım pˇridáván´ım je tˇreba dát silnˇejˇs´ı podm´ınky na velikost |S|. V posledn´ı dobˇe se této tématice vˇenuje pozornost a byla dosaˇzena ˇrada zaj´ımav´ ych v´ ysledk˚ u.

2.16

Perfektn´ı haˇ sov´ an´ı

2.16.1

Idea

Jde o dalˇs´ı ˇreˇsen´ı koliz´ı. Idea je nalézt pro pˇredem danou mnoˇzinu haˇsovac´ı funkci, která nevytváˇr´ı ˇza´dné kolize. Nev´ yhoda: Metoda nepˇripouˇst´ı operaci INSERT (pro nov´ y vstup nem˚ uˇzeme zaruˇcit, ˇze nevznikne kolize). Metodu lze prakticky pouˇz´ıt pro u ´lohy, kde lze oˇcekávat hodnˇe operac´ı MEMBER a operace INSERT se témˇeˇr nevyskytuje (kolize se ˇreˇs´ı pomoc´ı malé pomocné tabulky, kam se ukládaj´ı koliduj´ıc´ı data). Tato metoda se pouˇz´ıvá pˇri navrhován´ı kompilátor˚ u. 2.16.2

Poˇ zadavky

Pro danou mnoˇzinu S ⊆ U chceme nalézt haˇsovac´ı funkci h takovou, ˇze 1. pro s, t ∈ S takové, ˇze s 6= t, plat´ı h(s) 6= h(t) (tj. h je perfektn´ı haˇsovac´ı funkce pro S); 2. h haˇsuje do tabulky s m ˇra´dky, kde m je pˇribliˇznˇe stejnˇe velké jako |S| (nen´ı praktické haˇsovat do pˇr´ıliˇs velk´ ych tabulek – ztrác´ı se jeden ze základn´ıch d˚ uvod˚ u pro haˇsován´ı); 3. h mus´ı b´ yt rychle spoˇcitatelná – jinak haˇsován´ı nen´ı rychlé; 4. uloˇzen´ı h nesm´ı vyˇzadovat moc pamˇeti, nejv´ yhodnˇejˇs´ı je analytické zadán´ı (kdyˇz zadán´ı h bude vyˇzadovat moc pamˇeti, napˇr. kdyˇz by byla dána tabulkou, pak se ztrác´ı d˚ uvod k pouˇzit´ı stejnˇe jako v bodˇe 2). Kompenzace: Nalezen´ı haˇsovac´ı funkce m˚ uˇze spotˇrebovat v´ıce ˇcasu. Provád´ı se jen na zaˇca´tku u ´lohy. 2.16.3

(N, m, n)-perfektn´ı syst´ em - definice

Mˇejme univerzum U = {0, 1, . . . , N − 1}. Definice. Soubor funkc´ı H z U do mnoˇziny {0, 1, . . . , m − 1} se nazýv´ a (N, m, n)-perfektn´ı, kdyˇz pro kaˇzdou S ⊆ U takovou, ˇze |S| = n, existuje h ∈ H perfektn´ı pro S (tj. h(s) 6= h(t) pro kaˇzdá dvˇe r˚ uzn´ a s, t ∈ S). 54

Protoˇze nev´ıme, zda taková h existuj´ı, nejprve vyˇsetˇr´ıme mnoˇziny perfektn´ıch haˇsovac´ıch funkc´ı. Vyˇsetˇr´ıme vlastnosti (N, m, n)-perfektn´ıch soubor˚ u funkc´ı. 2.16.4

Doln´ı odhady na velikost (N, m, n)-perfektn´ıho souboru

Pˇredpokládejme, ˇze H je (N, m, n)-perfektn´ı systém pro U = {0, 1, . . . , N − 1} a nejprve nalezneme doln´ı odhady na velikost |H|. N n ( m ) mnoˇzin. Lemma. Libovolná funkce h z U do mnoˇziny {0, 1, . . . , m−1} je perfektn´ı pro maxim´ alnˇe m n D˚ ukaz. Jeˇstˇe jednou – zjiˇst’ujeme poˇcet mnoˇzin S ⊆ U takov´ ych, ˇze h je perfektn´ı funkce pro S a |S| = n.

Funkce h je perfektn´ı pro S ⊆ U , právˇe kdyˇz pro kaˇzdé i = 0, 1, . . . , m − 1 je |h−1 (i) ∩ S| ≤ 1. (pokud by bylo vˇetˇs´ı, nebyla by perfektn´ı) Odtud poˇcet tˇechto mnoˇzin je n−1 Y

X

0≤i0
|h−1 (ij )|

Vysvˇetlen´ı: vzali jsme si vˇsechny moˇzné podmnoˇziny m, velké n – tahle mnoˇzina nám ˇr´ıká, na kter´ ych m´ıstech v´ ysledné tabulky je nˇeco zaheˇsováno – a reprezentovali jsme si ji pˇres rostouc´ı posloupnost. Pro kaˇzdé m´ısto v tabulce, kde je nˇeco zaheˇsováno, jsem si vzal vˇsechny moˇznosti, co tam m˚ uˇzou b´ yt (to je −1 |h (ij )|). Jinak ˇreˇceno, h(S) = {ij | j = 0, 1, . . . , n − 1}.

Hledáme horn´ı odhad této sumy; je maxim´ aln´ı, kdyˇz |h−1 (i)| = m N n h m˚ uˇze b´ yt perfektn´ı nejv´ yˇse pro n ( m ) mnoˇzin. Vˇ eta.

N n m N n. (m) n

N m

pro kaˇzdé i. Posloupnost´ı i je

m n

, tedy

|H| ≥ D˚ ukaz. V´ıme, ˇze n-prvkov´ ych podmnoˇzin universa je (Nn ) m N n ( ) mnoˇ z in, tedy skuteˇ c nˇ e |H| ≥ N n. n m ) (mn)( m

N n

, a kaˇzdá z funkc´ı v H je perfektn´ı pro maximálnˇe

Jin´ y odhad velikosti (N, m, n)-perfektn´ıho souboru. Vˇ eta. |H| ≥

log N log m

D˚ ukaz. Velikost souboru funkc´ı nazvˇeme t, H = {h1 , . . . , ht }. Definujme indukc´ı soubor mnoˇzin Ui : • U0 = U 55

• pro i > 0 je Ui nejvˇetˇs´ı podmnoˇzina Ui−1 , co do poˇctu prvk˚ u, taková, ˇze hi je konstantn´ı na Ui . Pak |Ui | ≥

|Ui−1 | m

pro vˇsechna i > 0; z |U0 | = N plyne |Ui | ≥

N . mi

Pro kaˇzdé i = 1, 2, . . . , t je hj (Ui ) jednobodová mnoˇzina pro kaˇzdé j ≤ i (z definice mnoˇzin U – je tam konstantn´ı). Tedy, jakmile bychom pro nˇejaké i mˇeli mnoˇzinu S, pro kterou |S ∩ Ui | ≥ 2, tak ˇza´dné j ≤ i nen´ı perfektn´ı (protoˇze pro tyto dva prvky by byla shodná). Protoˇze H je (N, m, n)-perfektn´ı, mus´ı b´ yt |Ut | ≤ 1 (vzali-li bychom si mnoˇzinu, co by v sobˇe mˇela v´ıce, neˇz 2 prvky z Ut , ani jedna z funkc´ı by tam nemohla b´ yt perfektn´ı), a tedy mNt ≤ 1. Proto t ≥

log N . log m

Z obou vˇet potom plat´ı:

2.16.5

Kdyˇz H je (N, m, n)-perfektn´ı soubor funkc´ı, pak N log N }. |H| ≥ max{ m nN n , log m ) ( n m

Existence (N, m, n)-perfektn´ıho souboru

Mˇejme univerzum U = {0, 1, . . . , N − 1} a soubor funkc´ı H = {h1 , h2 , . . . , ht } z univerza U do mnoˇziny {0, 1, . . . , m − 1}. (funkce jsou libovolné) Definice. Reprezentujeme tento soubor pomoc´ı matice M (H) typu N × t s hodnotami {0, 1, . . . , m − 1} tak, ˇze pro x ∈ U a i = 1, 2, . . . , t je v x-tém ˇrádku a i-tém sloupci matice M (H) hodnota hi (x). (Jedna matice je tedy rovna jednomu souboru funkc´ı. Pokud mám jedinou mnoˇzinu, pro kterou neexistuje perfektn´ı funkce, uˇz to nen´ı (N, m, n)-perfektn´ı systém.) Lemma. Pro pevnou mnoˇzinu S = {s1 , s2 , . . . , sn } ⊆ U je matic bez perfektn´ı funkce nejvýˇse n

(m −

n−1 Y i=0

(m − i))t m(N −n)t .

ˇ adná funkce z H nen´ı perfektn´ı pro mnoˇzinu S = {s1 , s2 , . . . , sn } ⊆ U , právˇe kdyˇz podmatice D˚ ukaz. Z´ M (H) tvoˇrená ˇra´dky s1 , s2 , aˇz sn a vˇsemi sloupci nemá prost´ y sloupec. Takov´ ych matic je nejv´ yˇse n

(m −

n−1 Y i=0

(m − i))t m(N −n)t .

Qn−1 (m − i) je poˇcet prost´ ych funkc´ı z S Vysvˇetlen´ı: mn je poˇcet vˇsech funkc´ı z S do {0, 1, . . . , m − 1}, i=0 do {0, 1, . Q . . , m − 1}, a tedy poˇcet vˇsech podmatic s n ˇra´dky takov´ ych, ˇze ˇza´dn´ y jejich sloupec nen´ı prost´ y, n−1 n t je (m − i=0 (m − i)) . Tyto podmatice m˚ uˇzeme libovolnˇe doplnit na matici typu N × n a pro kaˇzdou (N −n)t matici je tˇechto doplnˇen´ı m . 56

Lemma. Poˇcet matic, které nereprezentuj´ı (N, m, n)-perfektn´ı systém, je menˇs´ı nebo roven n−1 Y N n (m − (m − i))t m(N −n)t . n i=0 D˚ ukaz. Podmnoˇzin U velikosti n je Nn , tedy poˇcet vˇsech matic, které nereprezentuj´ı (N, m, n)-perfektn´ı Qn−1 (m − i))t m(N −n)t (podle posledn´ıho lemmatu) systém, je menˇs´ı nebo roven Nn (mn − i=0 Lemma (Postaˇcuj´ıc´ı podm´ınka). Kdyˇz n−1 Y N (mn − (m − i))t m(N −n)t < mN t , n i=0 pak nutnˇe existuje (N, m, n)-perfektn´ı systém. Qn−1 D˚ ukaz. Vˇsech matic je mN t , a tedy kdyˇz Nn (mn − i=0 (m − i))t m(N −n)t < mN t , pak nutnˇe existuje (N, m, n)-perfektn´ı systém, protoˇze nˇejaká matice, co ho reprezentuje, se najde“. ”

n2

Vˇ eta. Pokud t ≥ n(ln N )e m , tak existuje (N, m, n)-perfektn´ı soubor funkc´ı. D˚ ukaz. Následuj´ıc´ı v´ yrazy jsou ekvivalentn´ı s postaˇcuj´ıc´ı podm´ınkou: Qn−1 ln Nn N i=0 (m − i) t <1 ⇔ t≥ . 1− Qn−1 (m−i) mn n − ln(1 − i=0mn ) Zlomek vpravo odhadneme shora – protoˇze se jedná o postaˇcuj´ıc´ı podm´ınku, pokud bude t vˇetˇs´ı, neˇz tento horn´ı odhad, pak (N, m, n) systém bude existovat. ˇ Citatel odhadneme shora – ln Nn ≤ n ln N . Jmenovatel odhadneme zdola – protoˇze − ln(1 − x) ≥ x pro x ∈ (0, 1), dostáváme − ln(1 −

n−1 Y Pn−1 i (m − i) i ) ≥ (1 − ) = e i=0 ln(1− m ) ≥ n m m i=0

Qn−1 i=0

e

Rn 0

x )dx ln(1− m

,

kde integrál m˚ uˇzeme odhadnout m[(1 −

n n n n n2 )(1 − ln(1 − )) − 1] ≥ m[(1 − )(1 + ) − 1] = − . m m m m m n2

Horn´ı odhad zlomku je tedy n(ln N )e m . n2

Odtud dostáváme, ˇze kdyˇz t ≥ n(ln N )e m , pak plat´ı postaˇcuj´ıc´ı podm´ınka, a tedy existuje (N, m, n)perfektn´ı soubor funkc´ı. 57

Existence (N, m, n)-perfektn´ıho souboru funkc´ı ale nezaruˇcuje splnˇen´ı poˇzadavk˚ u 2), 3) a 4) ze sekce 2.16.2. Abychom uspˇeli, pouˇzijeme ideu z metody univerzáln´ıho haˇsován´ı. Pozn. studenta – v následuj´ıc´ıch nˇekolika kapitolách jsem si dovolil r˚ uzné funkce, které stav´ıme, nazvat p´ısmeny A, B, C, D, E, abych v nich sám mˇel poˇra´dek. P˚ uvodnˇe ˇslo o jednu kapitolu, ale ztrácel jsem se v tom. 2.16.6

Konstrukce perfektn´ıch haˇ sovac´ıch funkc´ı A, B

Pˇredpoklady: U = {0, 1, . . . , N − 1}, kde N je prvoˇc´ıslo. Mˇejme pevné S ⊆ U o velikosti n. Definice. hk (x) = (kx mod N ) mod m

pro k = 1, 2, . . . , N − 1.

Definice. Pro i = 0, 1, . . . , m − 1 a k = 1, 2, . . . , N − 1 oznaˇcme bki = |{x ∈ S | (kx mod N ) mod m = i}|. ˇ ıkaj´ı, kolik V´ yznam bki : Hodnoty bki lze povaˇzovat za veliˇciny, které ukazuj´ı odchylku od perfektnosti. R´ prvk˚ u koliduje v k-té funkci do i-tého slotu. Pozorov´ an´ı. kdyˇz bki ≥ 2, pak (bki )2 − bki ≥ 2, protoˇze a2 − a ≥ 2, kdyˇz a ≥ 2. Na druhou stranu bki ≤ 1 implikuje (bki )2 − bki = 0. Lemma (Podm´ınka perfektnosti). Funkce hk je perfektn´ı, pr´ avˇe kdyˇz D˚ ukaz. Plyne z

Pm−1 i=0

bki = n.

Lemma. Existuje k takové, ˇze D˚ ukaz. Odhadneme v´ yraz

Pm−1 i=0

PN −1 k=1

N −1 X k=1

(

(

i=0

N −1 X

k=1 N −1 X k=1

i=0

(bki )2 − n < 2.

(bki )2 ≤ 2 n(n−1) + n. m

Pm−1 i=0

m−1 X

Pm−1

(bki )2 ) − n .

(bki )2 ) − n = (

m−1 X i=0

|{x ∈ S | hk (x) = i}|2 ) − n =

|{(x, y) | x, y ∈ S, x 6= y, hk (x) = hk (y)}| =

X

x,y∈S,x6=y

|{k | 1 ≤ k < N, hk (x) = hk (y)}|. 58

Prvn´ı rovn´ıtko je z definice; druhé plat´ı proto, ˇze umocnˇen´ y v´ yraz je poˇcet vˇsech koliduj´ıc´ıch dvojic a n je takov´ ych, ˇze se rovnaj´ı; tˇret´ı je opˇet pˇrehozen´ı sumy. Ted’ pouˇzijeme podobn´ y trik“ s modulem, jako pˇredt´ım. ” Zvolme x, y ∈ S taková, ˇze x 6= y.

Pak hk (x) = hk (y), právˇe kdyˇz existuje i = 0, 1, . . . , m − 1 a r, s = 0, 1, . . . , ⌊ N ⌋ taková, ˇze m (kx ≡ i + rm) mod N (ky ≡ i + sm) mod N a i + rm, i + sm < N (i je opˇet zbytek po modulu). Odtud odeˇcten´ım dostáváme, ˇze hk (x) = hk (y) implikuje kx − ky ≡ (r − s)m mod N . Protoˇze 0 < k < n a x 6= y, plat´ı, ˇze kx − ky 6= 0; tedy hk (x) = hk (y) implikuje existenci (r − s) = q = −⌊

N N N ⌋, −⌊ ⌋ + 1, . . . , −1, 1, 2, . . . , ⌊ ⌋ m m m

takového, ˇze k(x − y) = kx − ky ≡ qm mod N .

⌋ existuje právˇe jedno k takové, ˇze k(x − y) ≡ Necht’ napˇr. q > 0; pro x > y a pro jedno q = 1, 2, . . . , ⌊ N m qm mod N , protoˇze ZN je tˇeleso (tato rovnice má jediné ˇreˇsen´ı – ˇreˇs´ıme k, protoˇze x, y, q, m, N jsou zafixovány). Naopak pro q = −⌊ N ⌋, . . . , −2, −1 je rovnice k(x − y) ≡ qm mod N ekvivalentn´ı s rovnic´ı k(x − y) ≡ m N + qm mod N , opˇet je právˇe jedno ˇreˇsen´ı. ⌋ = 2⌊ Nm−1 ⌋ r˚ uzn´ ych k = 1, 2, . . . , N − 1, ˇze Dostáváme, ˇze pro x, y ∈ S, x > y, existuje nejv´ yˇse 2⌊ N m hk (x) = hk (y) (jedno k pro kaˇzdé moˇzné q). Stejn´ y odhad analogicky dostaneme, kdyˇz x < y (ale dostáváme jiná ˇreˇsen´ı). Odtud

N −1 X k=1

(

m−1 X i=0

(bki )2 ) − n ≤

Tedy plat´ı, ˇze existuje k takové, ˇze

Pm−1 i=0

Lemma. Ukáˇzeme, ˇze existuje v´ıce neˇz

X

2(

x,y∈S,x6=y

n(n − 1) N −1 ) = 2(N − 1) . m m

+ n. (bki )2 ≤ 2 n(n−1) m

N −1 4

m−1 X i=0

takových k, ˇze plat´ı

(bki )2 < 3

n(n − 1) + n. m

D˚ ukaz. Sporem.

59

V opaˇcném pˇr´ıpadˇe dostáváme, ˇze N −1 X k=1

(

m−1 X

3(N − 1) 3n(n − 1) (bki )2 ) − n ≥ = 4 m i=0 9(N − 1)n(n − 1) > 4m 2(N − 1)n(n − 1) , m

a to je spor s pˇredchoz´ım v´ ysledkem. Tedy pˇri náhodném rovnomˇerném v´ ybˇeru k je m−1 X

Prob{

i=0

(bki )2 <

3n(n − 1) 1 + n | k ∈ {1, 2, . . . , N − 1}} ≥ . m 4

Vˇ eta. Kdyˇz n = m, pak (a) (nazvu funkce AD ) existuje deterministický algoritmus, jenˇz v ˇcase O(nN ) nalezne k takové, ˇze m−1 X

(bki )2 < 3n;

i=0

(b) (nazvu AN ) existuje pravdˇepodobnostn´ı algoritmus, který nalezne v ˇcase O(n) takové k, ˇze Pm−1 funkce k 2 (b ) < 4n – oˇcekávaný poˇcet iterac´ı výpoˇctu je nejvýˇse 4. i i=0

D´ ale

(c) (nazvu funkce BD ) existuje deterministický algoritmus, jenˇz v ˇcase O(nN ) pro m = n(n − 1) + 1 nalezne takové k, ˇze hk je perfektn´ı; (d) (nazvu funkce BN ) existuje pravdˇepodobnostn´ı algoritmus, který pro m = 2n(n − 1) v ˇcase O(n) nalezne k takové, ˇze hk je perfektn´ı – oˇcekávaný poˇcet iterac´ı výpoˇctu je nejvýˇse 4. D˚ ukaz. Neformálnˇe: ˇ Casy jsou jednoduché – pro deterministické mus´ıme zkusit vˇsechny moˇzné k, pro nedeterministické zkus´ıme v pr˚ umˇeru jen ˇctyˇrikrát. Zbytek v podstatˇe jen dosad´ıme do pˇredchoz´ıch dvou lemmat r˚ uzné velikosti m. Formálnˇe: Pm−1 k 2 Mˇejme n = m. Protoˇze spoˇc´ıtán´ı i=0 (bi ) pro pevné k vyˇzaduje ˇcas O(n), prohledán´ım vˇsech moˇznost´ı nalezneme k takové, ˇze m−1 X 2n(n − 1) (bki )2 ≤ + n = 3n − 2 < 3n, n i=0

v ˇcase O(nN ). T´ım je dokázáno a). Pravdˇepodobnostn´ı algoritmus dokazuj´ıc´ı b) vol´ı náhodnˇe k a v ˇcase Pm−1 k 2 O(n) ovˇeˇr´ı, zda i=0 (bi ) ≤ 3 n(n−1) + n = 4n − 3 < 4n. Tuto akci opakuje, dokud poˇzadavek nen´ı splnˇen. n y poˇcet iterac´ı akce je nejv´ yˇse Protoˇze pravdˇepodobnost, ˇze k splˇ nuje poˇzadavek, je alespoˇ n 14 , tak oˇcekávan´ ∞ X 3 1 1 1 i( )i−1 = 3 2 = 4 4 4 4 (1 − ) 4 i=0

60

a odtud plyne b). Kdyˇz m = n(n − 1) + 1, pak prohledán´ım vˇsech moˇznost´ı nalezneme k takové, ˇze m−1 X i=0

(bki )2 ≤

2n(n − 1) + n < n + 2, n(n − 1) + 1

v ˇcase O(nN ) a c) plyne z pˇredchoz´ı vˇety. Kdyˇz m = 2n(n − 1), pak pro náhodnˇe zvolené k plat´ı s pravdˇepodobnost´ı ≤ 14 , ˇze m−1 X 3n(n − 1) (bki )2 ≤ + n < n + 2. 2n(n − 1) i=0 Algoritmus splˇ nuj´ıc´ı tvrzen´ı d) je stejn´ y jako v pˇr´ıpadˇe b) (jen m = 2n(n − 1)).

Haˇsovac´ı funkce A nejsou perfektn´ı. Haˇsovac´ı funkce B jsou perfektn´ı, ale nesplˇ nuj´ı poˇzadavek 2) z 2.16.2 (plat´ı m = Θ(n2 )). Pro ten nalezneme funkci C 2.16.7

Konstrukce perfektn´ı haˇ sovac´ı funkce C

Neformálnˇe: Pouˇziji funkce A, ty mi budou nˇekde kolidovat. Na kaˇzdé z kolizn´ıch mnoˇzin pak pouˇziji funkce B, kaˇzdou extra v extra tabulce a pak je vˇsechny dám za sebe. Poˇcet koliz´ı v A je omezen. Formálnˇe, deterministická verze: 1. Nalezneme k takové, ˇze pro m = n plat´ı Si = {s ∈ S | hk (s) = i}

Pm−1 i=0

(bki )2 < 3n. Pro i = 0, 1, . . . , m − 1 nalezneme mnoˇziny

2. Pro kaˇzdé i = 0, 1 . . . , m − 1 takové, ˇze Si 6= ∅, nalezneme pro m = 1 + |Si |(|Si | − 1) takové ki , ˇze hki je perfektn´ı na Si . Definujme ci = 1 + |Si |(|Si | − 1), kdyˇz Si 6= ∅, a ci = 0, kdyˇz Si = ∅. Pi−1 3. Pro i = 0, 1, . . . , m definujme di = j=0 cj a pro x ∈ U oznaˇcme hk (x) = l. Pak poloˇz´ıme g(x) = dl + hkl (x). Formálnˇe, nedeterministická verze, rozd´ıly podtrˇzeny: 1. Nalezneme k takové, ˇze pro m = n plat´ı Si = {s ∈ S | hk (s) = i}

Pm−1 i=0

(bki )2 < 4n. Pro i = 0, 1, . . . , m − 1 nalezneme mnoˇziny

2. Pro kaˇzdé i = 0, 1 . . . , m − 1 takové, ˇze Si 6= ∅, nalezneme pro m = 1 + 2|Si |(|Si | − 1) takové ki , ˇze hki je perfektn´ı na Si . Definujme ci = 2|Si |(|Si | − 1), kdyˇz Si 6= ∅, a ci = 0, kdyˇz Si = ∅. 3. Pro i = 0, 1, . . . , m definujme di = dl + hkl (x).

Pi−1

j=0 cj

a pro x ∈ U oznaˇcme hk (x) = l. Pak poloˇz´ıme g(x) =

61

Vˇ eta. • Zkonstruovan´ a funkce g je perfektn´ı. • Hodnota g(x) se pro kaˇzdé x ∈ U spoˇc´ıt´ a v ˇcase O(1). • V deterministickém pˇr´ıpadˇe haˇsuje do tabulky velikosti < 3n a je nalezena v ˇcase O(nN ), v pravdˇepodobnostn´ım pˇr´ıpadˇe haˇsuje do tabulky velikosti < 6n a je nalezena v ˇcase O(n). • Pro jej´ı zakódován´ı jsou tˇreba hodnoty k a ki pro i = 0, 1, . . . , m − 1. Tyto hodnoty jsou v rozmez´ı 1, 2, . . . , N − 1, a tedy vyˇzaduj´ı O(n log N ) pamˇeti. D˚ ukaz. • Protoˇze g(Si ) pro i = 0, 1, . . . , m − 1 jsou navzájem disjunktn´ı a hki je perfektn´ı na Si , dostáváme, ˇze g je perfektn´ı. • Pro v´ ypoˇcet hodnoty g(x) jsou tˇreba dvˇe násoben´ı, dvoj´ı v´ ypoˇcet zbytku pˇri dˇelen´ı a jedno sˇc´ıtán´ı (hodnoty di jsou uloˇzeny v pamˇeti). Proto v´ ypoˇcet g(x) vyˇzaduje ˇcas O(1). • Dále dm je horn´ı odhad na poˇcet ˇra´dk˚ u v tabulce. Protoˇ ze pro SP ame |Si |(|Si |−1)+1 ≤ |Si |2 = i 6= ∅ m´ Pm−1 m−1 k 2 k 2 (bi ) , dostáváme v deterministickém pˇr´ıpadˇe dm = i=0 ci ≤ i=0 (bi ) < 3n a k nalezneme v ˇcase Pm−1 O(nN ). Protoˇ ze ki nalezneme v ˇcase O(|Si |N ), lze g zkonstruovat v ˇcase O(nN + i=0 |Si |N ) = Pm−1 O(nN + N i=0 |Si |) = O(2nN ) = O(nN ). V pravdˇepodobnostn´ım pˇr´ıpadˇe je dm =

m−1 X i=0

ci ≤

m−1 X i=0

2

(2|Si | − 2|Si |) = 2

m−1 X

(bki )2

i=0

−2

m−1 X i=0

bki < 8n − 2n = 6n

Pm−1 k bi = n). (protoˇze |Si | = bki a i=0 • Protoˇze k nalezneme v ˇcase O(n) a ki v ˇcase O(|Si |), dostaneme, ˇze ˇze g nalezneme v ˇcase O(n). • Zbytek je jasn´ y.

Tedy zkonstruovaná haˇsovac´ı funkce splˇ nuje poˇzadavky 1), 2) a 3) z 2.16.2, ale poˇzadavek 4) nen´ı splnˇen. 2.16.8

Konstrukce perfektn´ı haˇ sovac´ı funkce D

Lemma. Necht’ q =poˇcet prvoˇc´ısel, kter´ a dˇel´ı m. Pak q = O( logloglogmm ). D˚ ukaz. Mˇejme pˇrirozené ˇc´ıslo m a necht’ q je poˇcet vˇsech prvoˇc´ısel dˇel´ıc´ıch m (p1 , p2 , . . . je rostouc´ı posloupnost vˇsech prvoˇc´ısel). Pak m≥

q Y i=1

pi > q! = e

Pq

i=1

ln i

≥e

Rq 1

ln xdx

q q = eq ln( e )+1 ≥ ( )q . e

Proto existuje konstanta c, ˇze q ≤ c lnlnlnmm (viz Pomocné lemma v sekci 2.3.6).

Vˇ eta. Pro kaˇzdou n-prvkovou mnoˇzinu S ⊆ U existuje prvoˇc´ıslo p o velikosti O(n2 ln N ) takové, ˇze funkce φp (x) = x mod p je perfektn´ı pro S. (nazvu funkce D) D˚ ukaz. Mˇejme opˇet pevnˇe danou S = {s1 < s2 < · · · < sn } ⊆ U . Oznaˇcme di,j = sj − si pro 1 ≤ i < j ≤ n. Pak si mod p 6= sj mod p, právˇe kdyˇz di,j 6= 0 mod p. 62

Oznaˇcme D =

Q

2

1≤i<j≤n

di,j ≤ N (n ) .

Pak poˇcet prvoˇc´ıseln´ ych dˇelitel˚ u ˇc´ısla D je nejv´ yˇse c lnlnlnDD (z minulého lemmatu). Tedy mezi prvn´ımi 1 + c lnlnlnDD prvoˇc´ısly existuje prvoˇc´ıslo p takové, ˇze si mod p 6= sj mod p pro kaˇzdé 1 ≤ i < j ≤ n. Existuje proto, ˇze jsme vzali o 1 vˇetˇs´ı neˇz nejvˇetˇs´ı moˇzné prvoˇc´ıslo, které to dˇel´ı; nerovná se proto, ˇze to nesm´ı dˇelit ani jeden rozd´ıl. To znamená, ˇze funkce φp (x) = x mod p je perfektn´ı pro S. Podle vˇety o velikosti prvoˇc´ısel pt ≤ 2t ln t pro kaˇzdé t ≥ 6, tedy ln D ln D p ≤2(1 + c ) ln(1 + c )≤ ln ln D ln ln D ln D ln D ln(2c )≤ 4c ln ln D ln ln D ln D ln D ln D 4c(ln 2c) + 4c ln( )= ln ln D ln ln D ln ln D 4c ln D + o(ln D) = O(ln D) = O(n2 ln N ).

Vˇ eta. Pro danou mnoˇzinu S ⊆ U takovou, ˇze |S| = n, deterministický algoritmus nalezne prvoˇc´ıslo p = O(n2 log N ) takové, ˇze φp (x) = x mod p je perfektn´ı pro S, a pracuje v ˇcase O(n3 log n log N ). D˚ ukaz. Test, zda funkce φp (x) = x mod p je perfektn´ı pro S, vyˇzaduje ˇcas O(n log n). Tedy systematické hledán´ı nejmenˇs´ıho p, ˇze φp je perfektn´ı pro S, vyˇzaduje ˇcas O(n3 log n log N ).

Vˇ eta. Pravdˇepodobnostn´ı algoritmus nalezne prvoˇc´ıslo p = O(n2 log N ) takové, ˇze φp je perfektn´ı, v oˇcekávaném ˇcase O(n log n(log n + log log N )). D˚ ukaz. Nejmenˇs´ı p takové, ˇze φp je perfektn´ı pro S, je prvoˇc´ıslo. Navrhneme pravdˇepodobnostn´ı algoritmus pro nalezen´ı p. Pro dostateˇcnˇe velké n mezi prvn´ımi 9c ln D ˇc´ısly je alespoˇ n polovina takov´ ych prvoˇc´ısel p, ˇze φp je perfektn´ı pro S. Algoritmus pak opakuje následuj´ıc´ı krok, dokud nenalezne perfektn´ı funkci • vyberme náhodnˇe ˇc´ıslo p mezi prvn´ımi 9cn2 ln N ˇc´ısly a otestujme, zda p je prvoˇc´ıslo a φp je perfektn´ı Odhadneme oˇcekávan´ y poˇcet ne´ uspˇeˇsn´ ych krok˚ u. Náhodnˇe zvolené ˇc´ıslo p ≤ 9cn2 ln N je prvoˇc´ıslo s pravdˇepodobnost´ı Θ( ln(9cn12 ln N ) ) (pouˇzijeme RabinMiller˚ uv pravdˇepdobnostn´ı algoritmus na testovén´ı prvoˇc´ısel) a pro prvoˇc´ıslo p je φp perfektn´ı s pravdˇepodobnost´ı ≥ 21 . Tedy náhodnˇe zvolené ˇc´ıslo p ≤ 9cn2 ln N splˇ nuje test s pravdˇepodobnost´ı Θ( ln(9cn12 ln N ) ), a proto oˇcekávan´ y poˇcet ne´ uspˇeˇsn´ ych test˚ u je O(ln(9cn2 ln N )). Tedy oˇcekávan´ y ˇcas algoritmu je O(n log n(log n+ log log N )).

Pozorov´ an´ı. Deterministický algoritmus nalezne nejmenˇs´ı prvoˇc´ıslo s poˇzadovanou vlastnost´ı. Pravdˇepodobnostn´ı algoritmus nalezne prvoˇc´ıslo, které m˚ uˇze být podstatnˇe vˇetˇs´ı, ale jeho velikost je omezena 9cn2 log N . 63

2.16.9

Konstrukce perfektn´ı haˇ sovac´ı funkce E

Neformálnˇe: Nyn´ı vˇsechny funkce A, B, C, D zkombinujeme“ dohromady. ” 1. Prvn´ı vezmeme funkci DD . 2. Na zaheˇsované mnoˇzinˇe najdeme funkci BD s nˇejak´ ym prvoˇc´ıslem jako velikost´ı tabulky. 3. Na zaheˇsované mnoˇzinˇe najdeme funkci CD . Podobnˇe nedeterministicky. Pokud to chápu správnˇe, pouˇzijeme B jakoby dvakrát; jednou v B a jednou v C. Vˇsechno jsme to takhle zkombinovali, protoˇze: • C se nám l´ıb´ı, protoˇze je perfektn´ı a má malou tabulku; ale potˇrebuje moc pamˇeti na uloˇzen´ı. Tak si zmenˇs´ıme prostor, ve kterém se pohybujeme. • Pokud si pˇredt´ım omez´ıme prostor pomoc´ı B, tak je pamˇet’, nutná k C, o nˇeco menˇs´ı, ale zase trvá pˇr´ıliˇs dlouho nalézt parametr k B a je moc velk´ y • Proto si jeˇstˇe pom˚ uˇzu na zaˇca´tku D, která nám prostor zmenˇs´ı. Formálnˇe: 1. Nalezneme prvoˇc´ıslo q0 ∈ O(n2 log N ) takové, ˇze φq0 (x) = x mod q0 je perfektn´ı funkce pro S. Poloˇzme S1 = {φq0 (s) | s ∈ S}. 2. Nalezneme prvoˇc´ıslo q1 takové, ˇze n(n−1) < q1 ≤ 2n(n−1). Pak existuje l ∈ {1, 2, . . . , q0 −1} takové, ˇze hl (x) = ((lx) mod q0 ) mod q1 je perfektn´ı pro S1 ⊆ {0, 1, . . . , q0 − 1}. Poloˇzme S2 = {hl (s) | s ∈ S1 }. 3. Dále zkonstruujme perfektn´ı haˇsovac´ı funkci g pro mnoˇzinu S2 ⊆ {0, 1, . . . , q1 − 1} do tabulky s ménˇe neˇz 3n ˇra´dky. Poloˇzme f (x) = g(hl (φq0 (x))). Konstruovaná haˇsovac´ı funkce je f . V´ ysledek: f je perfektn´ı haˇsovac´ı funkce pro S, protoˇze sloˇzen´ı perfektn´ıch haˇsovac´ıch funkc´ı je zase perfektn´ı funkce, a tedy poˇzadavek 1) je splnˇen. f haˇsuje S do tabulky s ménˇe neˇz 3n ˇra´dky, a tedy splˇ nuje poˇzadavek 2). Protoˇze kaˇzdá z funkc´ı g, hl , φq0 se vyˇc´ısl´ı v ˇcase O(1), i vyˇc´ıslen´ı funkce f vyˇzaduje ˇcas O(1) a poˇzadavek 3) je splnˇen. Funkce φq0 je jednoznaˇcnˇe urˇcena ˇc´ıslem q0 ∈ O(n2 log N ). Funkce hl je urˇcena ˇc´ısly q1 ∈ O(n2 ) a l ∈ O(q0 ). Funkce g je urˇcena n + 1 ˇc´ısly velikosti O(q1 ). Tedy zadán´ı f vyˇzaduje pamˇet’ o velikosti O(log n + log log N + n log n) = O(n log n + log log N ). Lze ˇr´ıct, ˇze poˇzadavek 4) je splnˇen. V´ ypoˇcet φq0 vyˇzaduje ˇcas O(n3 log n log N ). V´ ypoˇcet hl vyˇzaduje ˇcas O(n(n2 log N )) = O(n3 log N ) (pouˇzité univerzum je {0, 1, . . . , q0 }). V´ ypoˇcet g vyˇzaduje ˇcas O(nn2 ) = O(n3 ) (zde univerzum je {0, 1, . . . , q1 }). Celkovˇe v´ ypoˇcet f vyˇzaduje ˇcas O(n3 log n log N ). Lze pouˇz´ıt i pravdˇepodobnostn´ı algoritmy pro nalezen´ı g, hl a φq0 . Pak haˇsujeme do tabulky s ménˇe neˇz 6n ˇra´dky, ale oˇcekávan´ y ˇcas pro nalezen´ı f je O(n log n(log n + log log N )). Tuto metodu navrhli Fredman, Komlós a Szemerédi. 64

2.16.10

Univerz´ aln´ı a perfektn´ı haˇ sov´ an´ı

Pˇredchoz´ı hlavn´ı konstrukce perfektn´ı haˇsovac´ı funkce vycházela z idej´ı pouˇzit´ ych v univerzáln´ım haˇsován´ı. Ukáˇzeme, ˇze to nen´ı náhodná shoda. Dokáˇzeme, ˇze kaˇzd´ y c-univerzáln´ı systém funkc´ı umoˇzn ˇuje základn´ı konstrukci perfektn´ı haˇsovac´ı funkce. Pro kaˇzdé m necht’ Hm = {hi | i ∈ I} je c-univerzáln´ı systém funkc´ı haˇsuj´ıc´ıch do tabulky velikosti m. Pro libovolnou, ale pevnou podmnoˇzinu S ⊆ U o velikosti n definujme bij = {s ∈ S | hi (s) = j} pro kaˇzdé j = 0, 1, . . . , m − 1 a i ∈ I. Kdyˇz bij ≥ 2, pak (bij )2 − bij ≥ 2, a kdyˇz bij ≤ 1, pak (bij )2 − bij = 0. Odtud dostáváme pˇrirozené zobecnˇen´ı d˚ usledku z pˇredchoz´ı sekce, které vyuˇzijeme stejn´ ym zp˚ usobem jako v pˇredchoz´ı sekci: Pm−1 i 2 Pm−1 i 2 D˚ usledek. Kdyˇz j=0 (bj ) ≥ n + 2, pak hi nen´ı perfektn´ı pro S, kdyˇz j=0 (bj ) < n + 2, pak hi je perfektn´ı haˇsovac´ı funkce pro S. Stejnˇe jako v pˇredchoz´ı sekci spoˇc´ıtáme X X m−1 i∈I

j=0

X (bij )2 − n = |{(s, t) | s, t ∈ S, s 6= t, hi (s) = hi (t)}| =

X

s,t∈S,s6=t

i∈I

|{i ∈ I | hi (s) = hi (t)}| ≤

c|I| cn(n − 1)|I| = . m m s,t∈S,s6=t X

Pm−1 i 2 Proto existuje i ∈ I takové, ˇze j=0 (bj ) ≤ cn(n−1) + n. Nyn´ı spoˇc´ıtáme analogické odhady, které tvoˇr´ı m základ pro pravdˇepodobnostn´ı algoritmus. Mˇejme kladné ˇc´ıslo a > 0 a oznaˇcme I ′ mnoˇzinu tˇech i ∈ I, ˇze m−1 X

(bij )2 >

j=0

(c + a)n(n − 1) + n. m

Dále pˇredpokládejme, ˇze |I ′ | ≥ b|I| pro nˇejaké kladné ˇc´ıslo b. Pak plat´ı m−1 X X m−1 cn(n − 1)|I| X X i 2 (bij )2 − n > (bj ) − n ≥ ≥ m j=0 j=0 i∈I i∈I ′

X (c + a)n(n − 1) i∈I ′

m

≥

(c + a)n(n − 1)b|I| . m

c . Kdyˇz tedy vyb´ıráme hi ∈ Hm náhodnˇe s rovnomˇern´ ym Odtud plyne, ˇze c > (c + a)b, a proto b < c+a Pm−1 i 2 (c+a)n(n−1) rozdˇelen´ım (vzhledem k i ∈ I), pak pravdˇepodobnost, ˇze bude platit j=0 (bj ) > + n, je menˇs´ı m c neˇz c+a . Stejnˇe jako v pˇredchoz´ı sekci shrneme tato fakta do tvrzen´ı

Tvrzen´ı. Pro pˇrirozené ˇc´ıslo m mˇejme c-univerzáln´ı systém funkc´ı Hm = {hi | i ∈ I} haˇsuj´ıc´ıch do tabulky o velikosti m = n existuje deterministický algoritmus, který v ˇcase O(|I|n) nalezne hi ∈ Hm Pm−1 m.i Pro 2 takovou, ˇze j=0 (bj ) ≤ c(n − 1) + n, a existuje pravdˇepodobnostn´ı algoritmus, který pro kladné ˇc´ıslo a v ˇcase O(n) nalezne hi ∈ Hm takové, ˇze m−1 X j=0

(bij )2 < (c + a)(n − 1) + n,

a oˇcekávaný poˇcet iterac´ı pˇri hledán´ı hi je menˇs´ı neˇz

c+a . a

Pro m = cn(n−1) + 1 existuje deterministický algoritmus, který nalezne perfektn´ı haˇsovac´ı funkci h ∈ Hm 2 pro mnoˇzinu S velikosti n v ˇcase O(n|I|). +1 existuje pravdˇepodobnostn´ı algoritmus, který nalezne perfektn´ı haˇsovac´ı Pro a > 0 a pro m = (c+a)n(n−1) 2 funkci h ∈ Hm pro mnoˇzinu S v ˇcase O(n) a oˇcekávaný poˇcet iterac´ı je menˇs´ı neˇz c+a . a 65

Pm−1 i 2 D˚ ukaz. Kdyˇz n = m, pak v ˇcase O(n) pro haˇsovac´ı funkci ovˇeˇr´ıme, zda j=0 (bj ) ≤ c(n − 1) + n, Pm−1 i 2 respektive j=0 (bj ) ≤ (c+a)(n−1)+n. V prvn´ım pˇr´ıpadˇe v´ıme, ˇze taková funkce v souboru Hm existuje, a systematick´ ym prohledáván´ım vˇsech funkc´ı v daném c-univerzáln´ım systému Hm ji nalezneme v ˇcase O(n|I|). Pro pravdˇepodobnostn´ı algoritmus budeme vyb´ırat funkci ze souboru Hm náhodnˇe s rovnomˇern´ ym rozdˇelen´ım. Pak oˇcekávan´ y poˇcet iterac´ı neˇz uspˇejeme je ∞ X

∞

∞

X c i−1 c c i−1 X c i i( ) (1 − )≤ ) − ) = i( i( c+a c+a c+a c+a i=1 i=1 i=1 ∞ X i=0

(

c i 1 c+a ) = . c = c+a 1 − c+a a

Pro hledán´ı perfektn´ı haˇsovac´ı funkce opˇet pouˇzijeme systematick´ aván´ı c-univerzáln´ıho systému, Pm−1 i 2 e prohled´ cn(n−1) protoˇze v´ıme, ˇze existuje funkce hi ∈ Hm taková, ˇze j=1 (bj ) ≤ cn(n−1) + n < n + 2, a tedy je tato 2

funkce perfektn´ı. To vyˇzaduje ˇcas O(n|I|).

+1

Kdyˇz máme a > 1 a m = (c+a)n(n−1) + 1 a kdyˇz budeme volit funkce z Hm náhodnˇe s rovnomˇern´ ym 2 a rozdˇelen´ım, pak s pravdˇepodobnost´ı c+a dostaneme funkci hi takovou, ˇze m−1 X j=0

(bij )2 ≤

(c + a)n(n − 1) (c+a)n(n−1) 2

+1

+ n < 2 + n.

Z d˚ usledku plyne, ˇze hi je perfektn´ı. Anal´ yza oˇcekávaného poˇctu iterac´ı je stejná jako u pˇredchoz´ıho tvrzen´ı pro pravdˇepodobnostn´ı algoritmus.

Dalˇs´ı postup konstrukce perfektn´ı haˇsovac´ı funkce uˇz nesouvis´ı s c-univerzáln´ımi systémy. 2.16.11

Dynamick´ e perfektn´ı haˇ sov´ an´ı

Jedna z velk´ ych nev´ yhod perfektn´ıho haˇsovan´ı je neznalost efektivn´ıch aktualizaˇcn´ıch operac´ı. Existuj´ı sice obecné metody na dynamizaci deterministick´ ych operac´ı – viz letn´ı pˇrednáˇska, ale tato metoda v tomto pˇr´ıpadˇe neposkytuje efektivn´ı dynamizaˇcn´ı operace, protoˇze deterministick´ y algoritmus pro ˇreˇsen´ı perfektn´ıho haˇsován´ı je pro aktualizaˇcn´ı operace pˇr´ıliˇs pomal´ y. To vedlo k návrhu, kter´ y kombinuje pravdˇepodobnostn´ı algoritmus pro perfektn´ı haˇsován´ı s obecnou metodou dynamizace a tyto metody jsou upraveny pro konkrétn´ı situaci. Nejprve uvedeme modifikaci v´ ysledk˚ u z pˇredchoz´ı ˇca´sti, na kter´ ych je tato metoda zaloˇzena. Pˇredpokládáme, ˇze U = {0, 1, . . . , N − 1} je univerzum, kde N je prvoˇc´ıslo, a ˇze je dáno ˇc´ıslo s < N . Oznaˇcme Hs = {hk | k = 1, 2, . . . , N − 1} mnoˇzinu funkc´ı z U do {0, 1, . . . , s − 1}, kde hk (x) = (kx mod N ) mod s pro kaˇzdé x ∈ U . Kdyˇz zvol´ıme náhodnˇe k = 1, 2, . . . , N − 1, pak s pravdˇepodobnost´ı alespoˇ n 21 plat´ı s−1 X

(bki )2 <

i=0

Skuteˇcnˇe, kdyˇz pro ménˇe neˇz

N −1 2

hodnot k plat´ı N −1 X k=1

(

m−1 X i=0

Pm

4n2 + n. s −1(bki )2 ≤ !

i=0

(bki )2 ) − n 66

4n , m

≥ 2(N − 1)

pak

n2 m

a to je spor. Budeme pˇredpokládat, ˇze takové k máme, a pak pro kaˇzdé i = 0, 1, . . . , s − 1 pˇredpokládáme, ˇze náhodnˇe zvol´ıme ji ∈ H2(bki )2 takové, ˇze hji je prostá na mnoˇzinˇe Si = {s ∈ S | hk (s) = i} (z pˇredchoz´ıho textu v´ıme, ˇze kdyˇz zvol´ıme náhodnˇe ji = 0, 1, . . . , N − 1, pak s pravdˇepodobnost´ı alespoˇ n 41 je hji prostá na Si ). Pro jednoduchost pˇredpokládáme, ˇze mnoˇziny Si pro i = 0, 1, . . . , s − 1 uloˇz´ıme do tabulek Ti a tabulky T0 , T1 , . . . , Ts−1 budou uloˇzeny v tabulce T . Kdyˇz s = O(|S|), pak tato √ metoda vyˇzaduje O(|S|) 4 prostoru. Abychom urˇcili s, zvolme c > 1 a poloˇzme s = σ(|S|), kde σ(n) = 3 6(1 + c)n pro kaˇzdé n. Nyn´ı pop´ıˇseme algoritmy. Zde n je velikost reprezentované mnoˇziny, s = σ(n) a 2m(j) je velikost tabulky Tj pro j = 0, 1, . . . , s − 1. 2.16.12

Algoritmy

INSERT(x): n := n + 1 if n ≤ s then j := h(x), |Sj | := |Sj | + 1 if |Sj | ≤ m(j) a pozice hj (x) v Tj je prázdná then vloˇz´ıme x do tabulky Tj na pozici hj (x) else if |Sj | ≤ m(j) a pozice hj (x) v Tj je obsazená then vytvoˇr´ıme seznam Sj prvk˚ u v tabulce Tj vyprázdn´ıme tabulku Tj zvol´ıme náhodnˇe funkci hj ∈ Hm(j)2 while hj nen´ı prostá na mnoˇzinˇe Sj do zvol´ıme náhodnˇe funkci hj ∈ Hm(j)2 enddo for every y ∈ Sj do vloˇz´ıme y do Tj na pozici hj (y) enddo else m(j) := 2m(j) if nen´ı dost prostoru pro tabulku Tj nebo σ(m)−1

X i=0

(m(i))2 ≥

4n2 +n σ(n)

then RehashAll else alokujeme prostor pro novou prázdnou tabulku Tj vytvoˇr´ıme seznam Sj prvk˚ u ze staré tabulky Tj a zruˇs´ıme ji zvol´ıme náhodnˇe funkci hj ∈ Hm(j)2 while hj nen´ı prostá na mnoˇzinˇe Sj do zvol´ıme náhodnˇe funkci hj ∈ Hm(j)2 enddo for every y ∈ Sj do vloˇz´ıme y do Tj na pozici hj (y) enddo endif endif else RehashAll endif endif RehashAll: 67

projdeme tabulku T a tabulky Ti a vytvoˇr´ıme seznam prvk˚ u z mnoˇziny S s := σ(n) zvolme náhodnˇe h ∈ Hs for every i = 0, 1, . . . , s − 1 do Si := {x ∈ S | h(x) = i} enddo Ps−1 2 while i=0 2(|Si |)2 > 8ns + 2n do zvolme náhodnˇe h ∈ Hs for every i = 0, 1, . . . , s − 1 do Si := {x ∈ S | h(x) = i} enddo enddo Komentáˇr: zde Si jsou mnoˇziny vytvoˇrené náhodnˇe zvolenou funkc´ı h n := 0 for every i = 0, 1, . . . , s − 1 do m(i) := 2|Si | zvol´ıme náhodnˇe hi ∈ Hm(i)2 while hi nen´ı prostá na mnoˇzinˇe Si do zvol´ıme náhodnˇe hi ∈ Hm(i)2 enddo enddo for every x ∈ S do INSERT(x) enddo DELETE(x): j := h(x), n := n − 1, |Sj | := |Sj | − 1 odstran´ıme x z pozice hj (x) v tabulce Tj , pozice bude prázdná m if n < 1+2c then RehashAll endif MEMBER(x): j := h(x) if x je na hj (x)-té pozici v tabulce Tj then V´ ystup: x je prvek S else V´ ystup: x nen´ı prvkem S endif Algoritmy pˇredpokládaj´ı, ˇze pˇri operaci INSERT(x) prvek x nepatˇr´ı do S a pˇri operaci DELETE(x) x je prvkem S. Velikost reprezentované mnoˇziny je n. Uvedu sloˇzitost této metody bez d˚ ukazu. Vˇ eta. Popsan´ a metoda vyˇzaduje line´ arn´ı pamˇet’ (neuvaˇzuje se pamˇet’ potˇrebn´ a pro zakódován´ı haˇsovac´ıch funkc´ı), operace MEMBER v nejhorˇs´ım pˇr´ıpadˇe vyˇzaduje ˇcas O(1) a oˇcekávan´ a amortizovan´ a sloˇzitost operac´ı INSERT a DELETE je také O(1). Toto zobecnˇen´ı Fredman-Komlós-Szemerédiho metody navrhli Dietzfelbinger, Karlin, Mehlhorn, Meyer auf der Heide, Rohnert a Tarjan. Dalˇs´ı nev´ yhoda Fredman-Komlós-Szemerédiho metody: Navrˇzená metoda pracuje pro m < 3n, ale nezajist´ı m = n. Lze ˇr´ıct, ˇze pamˇet’ je efektivnˇe vyuˇzita? Existuje metoda, která by umoˇznila návrh perfektn´ı haˇsovac´ı funkce pro m = n? Z v´ ysledk˚ u pro (N, m, n)N n+ln(n) perfektn´ı soubory funkc´ı plyne existence (N, n, n)-perfektn´ıho souboru pro n > e ln(N ). Zm´ın´ıme se orientaˇcnˇe o parametrizované metodˇe, která navrhuje perfektn´ı haˇsovac´ı funkci pro S ⊆ U a pro |S| = n. Parametr bude pˇrirozené ˇc´ıslo r, které urˇcuje, jaké hypergrafy jsou uˇzity pˇri konstrukci funkce. Proto nejdˇr´ıve pˇripomeneme nˇekolik definic. Dvojice (X, E), kde X je mnoˇzina a E je systém r-prvkov´ ych podmnoˇzin X, se naz´ yvá r-hypergraf. Prvky v E se naz´ yvaj´ı hrany r-hypergrafu. Cyklus je hypergraf (X, E), kde kaˇzd´ y vrchol leˇz´ı alespoˇ n ve dvou 68

r˚ uzn´ ych hranách. Naopak r-hypergraf (X, E) se naz´ yvá acyklický, kdyˇz ˇza´dn´ y jeho podhypergraf nen´ı cyklus. Nyn´ı pop´ıˇseme metodu, která je rozdˇelena do dvou krok˚ u. Je dáno S ⊆ U takové, ˇze |S| = n. Krok 1) Mˇejme r-hypergraf (V, E), kde |E| = n. Nalezneme zobrazen´ı g : V → {0, 1, . . . , n − 1} P takové, ˇze funkce h : E → {0, 1, . . . , n − 1} definovaná h(e) = ri=1 g(vi ) mod n, kde e = {v1 , v2 , . . . , vr }, je prostá (m´ısto sˇc´ıtán´ı modulo n m˚ uˇzeme pouˇz´ıt libovolnou grupovou operaci na mnoˇzinˇe {0, 1, . . . , n − 1}). Pro acyklick´ y r-hypergraf lze funkci g zkonstruovat následuj´ıc´ım postupem. Zvol´ıme bijekci h : E → {0, 1, . . . , n − 1} a pak definujeme g následovnˇe: kdyˇz e = {v1 , v2 , . . . , vr } a g(vi ) je definováno pro i = 2, 3, . . . , r, pak r X g(v1 ) = h(e) − g(vi ) mod n. i=2

Protoˇze pro kaˇzd´ y acyklick´ y r-hypergraf existuje vrchol, kter´ y leˇz´ı v jediné hranˇe, lze tento postup pouˇz´ıt ke konstrukci g pomoc´ı indukce (a tedy máme algoritmus pro konstrukci g). Krok 2) Nalezneme r funkc´ı f1 , f2 , . . . , fr : U → V takov´ ych, ˇze (V, E), kde

E = {{f1 (x), f2 (x), . . . , fr (x)} | x ∈ S}, P je acyklick´ y r-hypergraf. Pak haˇsovac´ı funkce f je definována f (x) = ri=1 g(fi (x)) pro kaˇzdé x ∈ U . Z konstrukce vypl´ yvá, ˇze je perfektn´ı na mnoˇzinˇe S. Autoˇri dokázali, ˇze nejvhodnˇejˇs´ı alternativa je, kdyˇz zobrazen´ı f1 , f2 , . . . , fr jsou náhodná zobrazen´ı náhodnˇe zvolená. Bohuˇzel taková zobrazen´ı neum´ıme zkonstruovat, ale autoˇri ukázali, ˇze pro tyto u ´ˇcely lze pouˇz´ıt náhodn´ y v´ ybˇer funkc´ı z nˇejakého c-univerzáln´ıho souboru funkc´ı. Autoˇri ukázali, ˇze jejich algoritmus vyˇzaduje O(rn + |V |) ˇcasu a O(n log n + r log |V |) pamˇeti. Tento metapostup navrhli Majewski, Wormald, Havas a Czech (1996). Pro praktické pouˇzit´ı je problematická reprezentace r-hypergrafu a i náhodná volba funkc´ı f1 , f2 , . . . , fr (viz pˇredchoz´ı diskuze o c-univerzalitˇe). Z poˇzadavk˚ u na perfektn´ı haˇsovac´ı funkci je opˇet problémem splnˇen´ı poˇzadavku 4). Nev´ım, jak je uvedená metoda prakticky pouˇzitelná a zda se nˇekde pouˇz´ıvá.

2.17

Extern´ı haˇ sov´ an´ı

Navrˇzen´ y postup je také znám pod názvem Fagin˚ uv algoritmus. T´ımto problémem se jako prvn´ı asi zab´ yval Larsson. ˇ s´ıme jin´ Reˇ y problém – uloˇzen´ı dat v extern´ı pamˇet’i. Hlavn´ı problém – minimalizovat pˇr´ıstupy na extern´ı pamˇet’. Pˇredpoklady: Extern´ı pamˇet’ je rozdˇelena na stránky, kaˇzdá stránka obsahuje b poloˇzek (dat) (pˇredpokládáme, ˇze b > 1, jinak to nemá smysl). Vˇzdy v jednom kroku naˇcteme celou stránku do intern´ı pamˇeti nebo celou stránku v intern´ı pamˇeti v jednom kroku zap´ıˇseme na extern´ı medium. Tyto operace jsou ˇra´dovˇe pomalejˇs´ı neˇz operace v intern´ı pamˇeti. Podobn´ y problém se také ˇreˇs´ı pri práci s cache-pamˇet´ı. V tom pˇr´ıpadˇe vˇsak neovlivˇ nujeme, která stránka se bude naˇc´ıtat, kdeˇzto v pˇr´ıpadˇe extern´ı pamˇeti to právˇe mus´ıme ˇreˇsit. Náˇs c´ıl: Nalézt zp˚ usob ukládán´ı dat do stránek extern´ı pamˇeti, aby se minimalizoval poˇcet operac´ı s extern´ı pamˇet´ı. 69

Pˇredpokládejme, ˇze h : U → {0, 1}∗ je prosté zobrazen´ı takové, ˇze délka h(u) je stejná pro vˇsechny prvky univerza U . Oznaˇcme k délku h(u) pro u ∈ U . Pak h je haˇsovac´ı funkce (to znamená, ˇze haˇsovac´ı funkce je pˇrejmenován´ı prvk˚ u). Necht’ S ⊆ U , pak pro slovo α délky menˇs´ı neˇz k definujme h−1 S (α) = {s ∈ S | α je prefix h(s)}.

ˇ Rekneme, ˇze α je kritické slovo, kdyˇz 0 < |h−1 zd´ y vlastn´ı prefix α′ slova α plat´ı S (α)| ≤ b a pro kaˇ −1 |hS (α′ )| > b. Pro kaˇzdé s ∈ S existuje právˇe jedno kritické slovo α, které je prefixem h(s). Definujme d(s) pro s ∈ S jako délku kritického slova, které je prefixem h(s) a d(S) = max{délka(α) | α je kritické slovo} = max{d(s) | s ∈ S}. Mnoˇzinu S reprezentujeme tak, ˇze je jednoznaˇcná korespondence mezi kritick´ ymi slovy a stránkami extern´ı pamˇeti slouˇz´ıc´ımi k reprezentaci S. Na stránce pˇr´ısluˇsej´ıc´ı kritickému slovu α je reprezentován soubor h−1 S (α). Problém: jak nalézt stránku kritického slova α? ˇ sen´ı: Adresáˇr je funkce, která kaˇzdému slovu α o délce d(S) pˇriˇrad´ı adresu stránky pˇredpisem Reˇ 1. kdyˇz kritické slovo β je prefixem α, pak k α je pˇriˇrazena stránka koresponduj´ıc´ı s β, jinak je k α pˇriˇrazena stránka N IL – speciáln´ı prázdná stránka. −1 Korektnost: Pro r˚ uzná kritická slova β a γ plat´ı h−1 zdé slovo α délky d(S) S (β) ∩ hS (γ) = ∅, a tedy pro kaˇ existuje nejv´ yˇse jedno kritické slovo, které je prefixem α. Kdyˇz α je slovo délky d(S), pak nastane jeden z tˇechto tˇr´ı pˇr´ıpad˚ u: −1 avˇe jedno kritické slovo β, které je prefixem α; 1. h−1 S (α) 6= ∅, pak 0 < |hS (α)| ≤ b a existuje pr´ ′ ′ 2. h−1 y, ˇze 0 < |h−1 avˇe jedno kritické S (α) = ∅ a existuje prefix α slova α takov´ S (α )| ≤ b, pak existuje pr´ ′ slovo, které je prefixem α (a tedy také prefixem α); −1 ′ ′ 3. h−1 zd´ y prefix α′ slova α plat´ı bud’ h−1 S (α) = ∅ a pro kaˇ S (α ) = ∅ nebo |hS (α )| > b (pak k α je pˇriˇrazena stránka N IL).

Mˇejme slovo α o délce d(S). Oznaˇcme c(α) nejkratˇs´ı prefix α′ slova α takov´ y, ˇze kaˇzdému slovu β o délce ′ d(S), které má α za prefix, je pˇriˇrazená stejná stránka jako slovu α. Vˇsimnˇeme si, ˇze kdyˇz h−1 S (α) 6= ∅, pak c(α) je kritické slovo. Plat´ı silnˇejˇs´ı tvrzen´ı, které tvrd´ı, ˇze následuj´ıc´ı podm´ınky jsou ekvivalentn´ı: 1. stránka pˇriˇrazená slovu α je r˚ uzná od N IL; 2. c(α) je kritické slovo; 3. nˇejak´ y prefix α je kritické slovo. Vˇsimnˇeme si, ˇze znalost adresáˇre umoˇzn ˇuje nalézt slovo c(α) pro kaˇzdé slovo o délce d(S). Lineárn´ı uspoˇra´dán´ı na slovech délky n nazveme lexikografické, kdyˇz α < β, právˇe kdyˇz α = γ0α′ a β = γ1β ′ pro nˇejaká slova γ, α′ a β ′ . Lexikografické uspoˇra´dán´ı vˇzdy existuje a je jednoznaˇcné. Reprezentace adresáˇre: Je to seznam adres stránek o délce 2d(S) takov´ y, ˇze adresa na i-tém m´ıstˇe odpov´ıdá i-tému slovu délky d(S) v lexikografickém uspoˇra´dán´ı. Pˇr´ıklad: U je mnoˇzina vˇsech slov nad {0, 1} o délce 5, h je identická funkce a b = 2. Reprezentujme mnoˇzinu S = {00000, 00010, 01000, 10000}. Pak d(00000) = d(00010) = d(01000) = 2, d(10000) = 1, kritická slova jsou 00, 01 a 1 a adresáˇr je (m´ısto adresy stránky uvedeme mnoˇzinu, která je na této stránce uloˇzena) 00 7→ {00000, 00010},

01 7→ {01000}, 70

10 7→ 11 7→ {10000}.

Tedy c(00) = 00, c(01) = 01 a c(10) = c(11) = 1. Kdyˇz odstran´ıme prvek 10000, pak 1 pˇrestane b´ yt kritické slovo a adresáˇr bude m´ıt tvar 00 7→ {00000, 00010},

01 7→ {01000},

10 7→ 11 7→ N IL.

Opˇet plat´ı c(00) = 00, c(01) = 01 a c(10) = c(11) = 1. V adresáˇri je také uloˇzeno d(S). 2.17.1

Algoritmy

Uvedeme zde jen slovn´ı popis operac´ı. Pˇredpokládáme, ˇze adresáˇr je uloˇzen v extern´ı pamˇeti na jedné stránce. MEMBER(x) 1) Spoˇc´ıtáme h(x) a naˇ cteme adresáˇr do intern´ı pamˇeti. Vezmeme prefix α slova h(x) o délce d(S) a nalezneme adresu stránky pˇr´ısluˇsej´ıc´ı k α. Kdyˇz je to stránka N IL, pak x ∈ / S a konec, jinak pokraˇcujeme krokem 2). 2) Naˇ cteme stránku pˇr´ısluˇsej´ıc´ı k α do intern´ı pamˇeti. Prohledáme ji a pokud neobsahuje x, pak x ∈ /Sa konec. Kdyˇz obsahuje x, pak provedeme poˇzadované zmˇeny a stránku uloˇ z´ıme do extern´ı pamˇeti na jej´ı p˚ uvodn´ı m´ısto. Konec. INSERT(x) 1) Spoˇc´ıtáme h(x) a naˇ cteme adresáˇr do intern´ı pamˇeti. Vezmeme prefix α slova h(x) o délce d(S) a nalezneme adresu stránky pˇr´ısluˇsej´ıc´ı k α a slovo c(α). Kdyˇz stránka pˇriˇrazená k α je N IL, pokraˇcujeme krokem 3), v opaˇcném pˇr´ıpadˇe pokraˇcujeme krokem 2). 2) Naˇ cteme stránku pˇriˇrazenou slovu α. Kdyˇz x je uloˇzeno na této stránce, pak skonˇc´ıme. Kdyˇz x nen´ı na této stránce, pak tam pˇridáme slovo x. Pokud na stránce je nejv´ yˇse b prvk˚ u, pak uloˇ z´ıme stránku na jej´ı p˚ uvodn´ı m´ısto a skonˇc´ıme. Kdyˇz na stránce je v´ıce neˇz b prvk˚ u, pak nalezneme nová kritická slova, která nám stránku rozdˇel´ı, a vytvoˇr´ıme dvˇe stránky – jednu uloˇ z´ıme na m´ısto p˚ uvodn´ı stránky a druhou uloˇ z´ıme na novou stránku. Pokraˇcujeme krokem 4). 3) Vytvoˇr´ıme v intern´ı pamˇeti novou stránku, která obsahuje x, nalezneme novou stránku v extern´ı pamˇeti a tam uloˇ z´ıme vytvoˇrenou stránku (vˇsem slov˚ um, která maj´ı c(α) za prefix, bude pˇriˇrazena tato stránka) a pokraˇcujeme krokem 4). 4) Naˇ cteme opˇet adresáˇr do intern´ı pamˇeti, aktualizujeme adresy pˇriˇrazen´ ych stránek a pˇr´ıpadnˇe zvˇetˇs´ıme adresáˇr (to nastane, kdyˇz nˇejaké nové kritické slovo má délku vˇetˇs´ı neˇz d(S), pak nové d(S) je právˇe délka tohoto slova – obˇe kritická slova vzniklá v kroku 2) maj´ı stejnou délku). Aktualizovan´ y adresáˇr uloˇ z´ıme do extern´ı pamˇeti. Konec. DELETE(x) 1) Spoˇc´ıtáme h(x) a naˇ cteme adresáˇr do intern´ı pamˇeti. Vezmeme prefix α slova h(x) o délce d(S) a nalezneme adresu stránky pˇr´ısluˇsej´ıc´ı k α a slovo c(α). Kdyˇz stránka pˇriˇrazená k α je N IL, pak skonˇc´ıme. Oznaˇcme β ′ slovo, které má stejnou délku jako c(α) a liˇs´ı se od c(α) pouze v posledn´ım bitu. Kdyˇz existuje slovo β délky d(S) takové, ˇze c(β) = β ′ , pak stránka pˇriˇrazená k β je kandidát. 2) Naˇ cteme stránku pˇr´ısluˇsnou k slovu α do intern´ı pamˇeti. Kdyˇz tato stránka neobsahuje x, pak skonˇc´ıme. Kdyˇz tato stránka obsahuje x, pak odstran´ıme x z této stránky. Kdyˇz neexistuje kandidát nebo kdyˇz nová stránka a stránka kandidáta dohromady obsahuj´ı v´ıce neˇz b prvk˚ u, pak novou stránku uloˇ z´ıme na jej´ı p˚ uvodn´ı m´ısto a skonˇc´ıme. 3) Kdyˇz nová stránka a stránka kandidáta maj´ı dohromady b prvk˚ u, pak naˇ cteme stránku kandidáta do intern´ı pamˇeti. V intern´ı pamˇeti tyto stránky spoj´ıme do jedné a tuto stránku pak uloˇ z´ıme do extern´ı pamˇeti. 4) Naˇ cteme adresáˇr, kde zaktualizujeme adresy stránek. Pokud jsme slouˇcili dvˇe stránky, mus´ıme nalézt nové c(α) (je to nejkratˇs´ı prefix α′ slova α takov´ y, ˇze ke kaˇzdému slovu β o délce d(S), které má α′ za prefix, je pˇriˇrazena jedna z tˇechto adres: adresa stránky pˇriˇrazená k α, adresa stránky kandidáta, N IL) a 71

kaˇzdému slovu o délce d(S), které má nové c(α) za prefix, bude pˇriˇrazena adresa nové (spojené) stránky. Otestujeme, zda se adresáˇr nem˚ uˇze zkrátit (to nastane, kdyˇz adresy stránek pˇriˇrazené (2i + 1)-´ımu slovu a (2i + 2)-ému slovu o délce d(S) jsou stejné pro vˇsechna i, pak se tato slova spoj´ı a d(S) se zmenˇs´ı o 1). Upraven´ y adresáˇr uloˇ z´ıme. Konec. Následuj´ıc´ı vˇeta ukazuje, ˇze jsme náˇs hlavn´ı c´ıl splnili. Pro jednoduchost pˇredpokládáme, ˇze adresáˇr je také uloˇzen na extern´ı pamˇeti a ˇze v intern´ı pamˇeti nem˚ uˇze b´ yt uloˇzen spolu s nˇejakou jinou stránkou. Vˇ eta. Operace MEMBER vyˇzaduje nejvýˇse tˇri operace s extern´ı pamˇet´ı. Operace INSERT a DELETE vyˇzaduj´ı nejvýˇse ˇsest operac´ı s extern´ı pamˇet´ı. V naˇsem pˇr´ıkladu provedeme operaci INSERT(00001). Po pˇridán´ı prvku stránka p˚ uvodnˇe pˇriˇrazená k slovu 00 vypadá takto {00000, 00001, 00010}. Tuto stránku rozdˇel´ıme na stránky {00000, 00001} a {00010}. Pˇritom kritické slovo prvn´ı stránky je 0000 a druhé stránky je 0001. Takˇze d(S) = 4 a adresáˇr vypadá 0000 7→ {00000, 00001}, 0001 7→ {00010}, 0010 7→ 0011 7→ N IL, 0100 7→ 0101 7→ 0110 7→ 0111 7→ {0100}, 1000 7→ 1001 7→ 1010 7→ 1011 7→ {10000}, 1100 7→ 1101 7→ 1110 7→ 1111 7→ {10000}. To znamená, ˇze kromˇe adresy 00 se ostatn´ı slova rozdˇelila na ˇctyˇri slova, ale adresy z˚ ustaly stejné. Jen u slova 00 vzniklá slova dostala r˚ uzné adresy. V p˚ uvodn´ım pˇr´ıkladu provedeme operaci DELETE(01000). Pak kandidát je 00 a po odstranˇen´ı prvku 01000 nastane spojen´ı tˇechto dvou stránek. Po aktualizaci adres dostane adresáˇr tvar 00 7→ 01 7→ {00000, 00010}, 10 7→ 11 7→ {10000}, tj. k prvn´ımu a druhému slovu je pˇriˇrazena stejná stránka a stejnˇe tak k tˇret´ımu a ˇctvrtému slovu. Takˇze m˚ uˇzeme adresáˇr zmenˇsit. Pak d(S) = 1 a adresáˇr má podobu 0 7→ {00000, 00010}, 1 7→ {10000}. Vzniká otázka, jak je tato metoda efektivn´ı. Hlavnˇe jak efektivnˇe vyuˇz´ıvá pamˇet’. Plat´ı Vˇ eta. Kdyˇz velikost reprezentované mnoˇziny je n, pak oˇcekávaný poˇcet pouˇzitých str´ anek je e 1+ 1b n´ a velikost adres´ aˇre je b ln 2 n .

n b ln 2

a oˇcekáva-

Prvn´ı tvrzen´ı ˇr´ıká, ˇze oˇcekávan´ y poˇcet prvk˚ u na stránce je b ln 2 ≈ 0.69b. Tedy zaplnˇeno je asi 69% m´ıst. Tento v´ ysledek nen´ı pˇrekvapuj´ıc´ı a je akceptovateln´ y. Horˇs´ı je to s adresáˇrem, jak ukazuje následuj´ıc´ı tabulka

velikost S 2 10 50 100

105 6.2 · 107 1.2 · 105 9.8 · 103 4.4 · 103

106 1.96 · 108 1.5 · 106 1.0 · 106 4.5 · 104

108 1.96 · 1011 2.4 · 108 1.1 · 108 4.7 · 106

1010 1.96 · 1014 3.9 · 1010 1.2 · 1010 4.9 · 108

kde jednotlivé ˇra´dky odpov´ıdaj´ı hodnotám b uveden´ ym v prvn´ım sloupci. Protoˇze oˇcekávaná velikost adresáˇre se zvˇetˇsuje rychleji neˇz lineárnˇe (exponent u n je 1 + 1b ), tak nelze oˇcekávat, ˇze tuto metodu lze vˇzdy pouˇz´ıt. V´ ypoˇcty i experimenty ukazuj´ı, ˇze pouˇzitelná je do velikosti |S| = 1010 , kdyˇz b ≈ 100. V tomto rozmez´ı je nár˚ ust adresáˇre jen kolem 5%. Pro vˇetˇs´ı n je tˇreba, aby b bylo jeˇstˇe vˇetˇs´ı. 72

3

Vyhled´ av´ an´ı v uspoˇ r´ adan´ em poli

pozn studenta - tato kapitola byla uprostˇred strom˚ u, ale tam mi nedávala smysl, takˇze jsem si j´ı dovolil pˇresunout sem.

3.1

Zad´ an´ı u ´ lohy

Máme podmnoˇzinu S lineárnˇe uspoˇra´daného univerza a S je uloˇzena v poli A[1..|S|] tak, ˇze pro i < j je A(i) < A(j). Pro dané x ∈ U máme zjistit, zda x ∈ S (operace MEMBER(x)).

3.2

Metaalgoritmus

Pokud x < A(1) nebo A(|S|) < x, pak x nen´ı prvkem S. V opaˇcném pˇr´ıpadˇe bud’ x = A(1) nebo x = A(|S|) nebo máme dvˇe hodnoty d a h takové, ˇze 1 ≤ d < d + 1 < h ≤ |S| a A(d) < x < A(h). Pak najdeme n takové, ˇze d < n < h, a dotazem zjist´ıme, zda x = A(n) (pak konˇc´ıme a x ∈ S) nebo x < A(n) (pak poloˇz´ıme h = n) nebo x > A(n) (pak poloˇz´ıme d = n) a proces opakujeme. Konˇc´ıme, kdyˇz d + 1 ≥ h, pak x ∈ / S. Na zaˇca´tku poloˇz´ıme d = 1 a h = |S|. Formáln´ı zápis algoritmu: MEMBER(x) if x = A(1) then V´ ystup: x ∈ S stop else if x < A(1) then V´ ystup: x ∈ / S stop else d=1 endif endif if x = A(|S|) then V´ ystup: x ∈ S stop else if x > A(|S|) then V´ ystup: x ∈ / S stop else h = |S| endif endif while d + 1 < h do n := next(d, h) if x = A(n) then V´ ystup: x ∈ S stop else if x < A(n) then h := n else d := n endif endif enddo V´ ystup: x ∈ / S stop V tomto metaalgoritmu je next(d, h) funkce, která nalezne hodnotu n takovou, ˇze d < n < h. Korektnost 73

plyne z pozorován´ı, ˇze kdyˇz d + 1 = h, pak A(d) < x < A(h) implikuje, ˇze neexistuje i takové, ˇze x = A(i), a tedy x ∈ / S. Efektivita algoritmu záleˇz´ı na fukci next. Zpracován´ı dotazu vyˇzaduje ˇcas O(1) a poˇcet dotaz˚ u je poˇcet volán´ı funkce next.

3.3

Typy funkce next

Unárn´ı vyhledáván´ı: next(d, h) = d + 1, pak kaˇzd´ y dotaz zvˇetˇs´ı d o 1, a tedy nejvˇetˇs´ı poˇcet dotaz˚ u je |S|. Algoritmus v nejhorˇs´ım pˇr´ıpadˇe vyˇzaduje ˇcas O(|S|) a oˇcekávan´ y poˇcet dotaz˚ u pˇri rovnomˇerném rozloˇzen´ı |S| mnoˇziny S a prvku x je 2 (tedy oˇcekávan´ y ˇcas je O(|S|)). Poznámka: Duáln´ı pˇr´ıstup je, kdyˇz next(d, h) = h − 1, v´ ysledky se nezmˇen´ı. Pˇri aplikac´ıch je nˇekdy v´ yhodné pouˇz´ıt funkci next(d, h) = min{d + c, h − 1}, kde c je nˇejaká konstanta (pak krok nen´ı 1, ale c). Jak uvid´ıme pozdˇeji, jsou situace, kdy je v´ yhodné takovéto unárn´ı vyhledáván´ı pouˇz´ıt. Binárn´ı vyhledáván´ı: next(d, h) = ⌈ d+h ⌉, pak kaˇzd´ y dotaz zmenˇs´ı rozd´ıl h − d pˇribliˇznˇe na polovinu. Poˇcet 2 dotaz˚ u je nejv´ yˇse 3+ log(|S| − 2), algoritmus tedy v nejhorˇs´ım pˇr´ıpadˇe vyˇzaduje ˇcas O(log |S|) a oˇcekávan´ y ˇcas pˇri rovnomˇerném rozloˇzen´ı mnoˇziny S a x ∈ U je také O(log |S|). x−A(d) (h − d)⌉. V nejhorˇs´ım pˇr´ıpadˇe mus´ıme poloˇzit v´ıce Interpolaˇcn´ı vyhledáván´ı: next(d, h) = d + ⌈ A(h)−A(d)

dotaz˚ u, a proto ˇcas v nejhorˇs´ım pˇr´ıpadˇe je O(|S|), ale pˇri rovnomˇerném rozloˇzen´ı mnoˇziny S a neˇz |S| 2 x ∈ U je oˇcekávan´ y ˇcas O(log log |S|). To je zaloˇzeno na faktu, ˇze hodnota next závis´ı i na velikosti x. Kdyˇz x je velké, tak hodnota next je posunuta do vˇetˇs´ıch hodnot, kdyˇz x je malé, pak je posunuta do menˇs´ıch hodnot. Poznámka: Kdyˇz rozloˇzen´ı prvk˚ u nen´ı rovnomˇerné, ale je známé, pak podle toho m˚ uˇzeme upravit funkci next a oˇcekávan´ y ˇcas algoritmu se nezmˇen´ı. Pro následuj´ıc´ı funkci next bude jednoduˇsˇs´ı spoˇc´ıtat oˇcekávan´ y poˇcet dotaz˚ u neˇz pro interpolaˇcn´ı vyhledáván´ı, ale v´ ysledek je asymptoticky stejn´ y. 3.3.1

Zobecnˇ en´ e kvadratick´ e vyhled´ av´ an´ı

Pozn. studenta: Tohle v˚ ubec nechápu a mám to jako TODO, jestli to stihnu. Funkce next je zde definována sloˇzitˇejˇs´ı procedurou, jej´ıˇz v´ ysledek závis´ı i na pˇredchoz´ıch situac´ıch a na v´ ysledku dotazu. Procedura zadává dotazy v bloc´ıch. Prvn´ı dotaz v bloku je interpolaˇcn´ı a procedura pˇritom zjist´ı velikost kroku a zda x je menˇs´ı nebo vˇetˇs´ı neˇz prvn´ı dotaz v bloku. Pak stˇr´ıdá unárn´ı a binárn´ı vyhledáván´ı. Blok konˇc´ı, kdyˇz rozd´ıl mezi h a d je nejv´ yˇse velikost kroku. Krok v následuj´ıc´ım bloku klesne pˇribliˇznˇe na odmocninu velikosti kroku v tomto bloku. Procedura pouˇz´ıvá boolské promˇenné blok, typ, smer. Promˇenná blok je inicializována hodnotou f alse a urˇcuje, zda se dotaz zadává v rámci stejného bloku nebo nikoliv. Promˇenná typ urˇcuje, zda pˇr´ıˇst´ı dotaz je unárn´ı (kdyˇz typ = true) nebo binárn´ı. Promˇenná smer urˇcuje, zda dotazy jsou menˇs´ı neˇz prvn´ı dotaz v bloku (smer = true) nebo vˇetˇs´ı. Dále procedura pouˇz´ıvá promˇennou krok typu integer, která obsahuje velikost kroku v rámci bloku. Hodnoty tˇechto promˇenn´ ych se pˇredávaj´ı z jednoho volán´ı procedury do dalˇs´ıho volán´ı (tj. jsou to globáln´ı promˇenné, které se neinicializuj´ı volán´ım procedury next). next(d, h) if blok then if typ then if smer then next(d, h) := h − krok if A(next(d, h)) < x then 74

blok := f alse endif else next(d, h) := d + krok if A(next(d, h)) > x then blok := f alse endif endif typ := f alse else if min{h − ⌈ d+h ⌉, ⌈ d+h ⌉ − d} < krok then 2 2 blok := f alse endif next(d, h) := ⌈ d+h ⌉, typ := true 2 endif else √ x−A(d) (h − d)⌉, krok := ⌊ h − d⌋, next(d, h) := d + ⌈ A(h)−A(d) if A(next(d, h)) > x then smer := true else smer := f alse endif typ := true, blok := true endif √ Po dvou dotazech klesne h − d bud’ pod h − d nebo pod h+d . Proto procedura v nejhorˇs´ım pˇr´ıpadˇe 2 pouˇzije nejv´ yˇse 8 + 2 log(|S| − 1) + 2 log log |S| dotaz˚ u, a tedy v nejhorˇs´ım pˇr´ıpadˇe vyˇzaduje ˇcas O(log |S|). Nyn´ı spoˇc´ıtáme oˇcekávan´ y poˇcet dotaz˚ u bˇehem jednoho bloku za pˇredpokladu rovnomˇerného rozdˇelen´ı dat. Necht’ pi je pravdˇepodobnost, ˇze v rámci bloku se poloˇz´ı alespoˇ n i dotaz˚ u. Pak oˇcekávan´ y poˇcet dotaz˚ u v rámci bloku je X X E(C) = i(pi − pi+1 ) = pi . i≥1

i≥1

Nyn´ı odhadneme pi . Oznaˇcme n + d argument prvn´ıho dotazu (interpolaˇcn´ı vyhledávan´ı) v rámci bloku a necht’ krok = k v rámci bloku. Oznaˇcme X = |{i | i > d, A(i) ≤ x}| na zaˇca´tku bloku, pak X je náhodná promˇenná závislá na argumentu operace a bloku. Kdyˇz se v bloku poloˇz´ı alespoˇ n i dotaz˚ u pro i > 2, pak i−2 |X − n| ≥ ⌊ 2 ⌋k, protoˇze kaˇzd´ y unárn´ı dotaz, jehoˇz poloˇzen´ı nezmˇen´ı blok, nalezne dalˇs´ıch k hodnot i v rozd´ılu |X − n|. Tedy i−2 ⌋k). pi ≤ Prob(|X − n| ≥ ⌊ 2 ˇ Pouˇzijeme Cebyˇ sevovu nerovnost pro náhodnou promˇennou X. Kdyˇz Y je náhodná promˇenná s oˇcekávanou ˇ (stˇredn´ı) hodnotou µ a rozptylem σ 2 , pak Cebyˇ sevova nerovnost ˇr´ıká, ˇze Prob(|Y − µ| ≥ t) ≤

σ2 t2

pro kaˇzdé t > 0.

Uvaˇzujme okamˇzik, kdy jsme na zaˇca´tku nˇejakého bloku. Protoˇze S je vybraná s rovnomˇern´ ym rozdˇelen´ım, x−A(d) je pravdˇepodobnost, ˇze A(i) < x pro d < i < h, rovna p = A(h)−A(d) , a pak pravdˇepodobnost, ˇze X = j, je h−d j p (1 − p)h−d−j . To znamená, ˇze X je náhodná veliˇcina s binomick´ ym rozdˇelen´ım s rozsahem d − h a j

75

pravdˇepodobnost´ı p, a tedy jej´ı oˇcekávaná hodnota je h−d X h−d j p (1 − p)h−d−j = p(h − d) µ= j j j=0 a rozptyl má hodnotu h−d X

h−d j p (1 − p)h−d−j = p(1 − p)(h − d). σ = (j − µ) j j=0 2

2

√ Kdyˇz si uvˇedom´ıme, ˇze k = ⌊ h − d⌋ a n = p(h − d), pak dostáváme pi , pi+1 ≤ Prob(|X − n| ≥ ⌊

i−2 4p(1 − p)(h − d) ⌋k) ≤ ≤ 2 (i − 2)2 k 2

1 4p(1 − p) ≤ , (i − 2)2 (i − 2)2

protoˇze pro 0 ≤ p ≤ 1 je p(1 − p) ≤ 41 . Kdyˇz shrneme tato pozorován´ı, dostáváme, ˇze E(C) =

X i≥1

pi ≤ 2 + 2

2+2

2

X i≥3 2

X1 1 = 2 + 2 = (i − 2)2 i2 i≥1

π π =2+ ≈ 5.3 6 3

Závˇer: oˇcekávan´ y poˇcet dotaz˚ u v bloku je menˇs´ı neˇz 6. Kdyˇz E(T (n)) je oˇcekávan´ y poˇcet dotaz˚ u pro operaci MEMBER a kdyˇz |S| = n, pak plat´ı √ E(T (n)) ≤ E(C) + E(T ( n)). Protoˇze E(T (1)) = 1 a E(T (2)) ≤ 2, dostáváme z rekurentn´ıho vzorce, ˇze E(T (n)) ≤ 2 + E(C) log log n

pro n ≥ 2.

ˇ operace MEMBER v uspoˇrádaném poli délky n pˇri zobecnˇeném kvadratickém vyhledáv´ Vˇ eta. Cas an´ı je v nejhorˇs´ım pˇr´ıpadˇe O(log n). Kdyˇz rozdˇelen´ı vstupn´ıch dat je rovnomˇerné, pak oˇcekávaný ˇcas je O(log log n). Nev´ yhoda této datové struktury spoˇc´ıvá v neexistenci pˇrirozen´ ych efektivn´ıch implementac´ı operac´ı INSERT, DELETE, SPLIT a JOIN. Pˇrirozené implementace tˇechto operac´ı vyˇzaduj´ı ˇcas O(|S|), zhruba ˇreˇceno mus´ıme pohybovat s témˇeˇr kaˇzd´ ym prvkem. Pokusem o ˇreˇsen´ı tohoto problému byl návrh binárn´ıch vyhledávac´ıch strom˚ u.

4 4.1

Stromy Uspoˇ r´ adan´ y slovn´ıkov´ y probl´ em

Jedná se o rozˇs´ıˇren´ı základn´ıho slovn´ıkového problému. Je dáno totálnˇe uspoˇra´dané univerzum U (tj. pro kaˇzdé dva r˚ uzné prvky u, v ∈ U plat´ı bud’ u < v nebo v < u). C´ılem je reprezentovat mnoˇzinu S ⊆ U a navrhnout algoritmy pro tyto operace: MEMBER, INSERT, DELETE MIN – nalezne nejmenˇs´ı prvek v S, 76

MAX – nalezne nejvˇetˇs´ı prvek v S, SPLIT(x) – zkonstruuje reprezentace dvou mnoˇzin S1 = {s ∈ S | s < x} a S2 = {s ∈ S | s > x} a oznám´ı, zda x ∈ S, JOIN – pouˇz´ıvaj´ı se dvˇe verze této operace: JOIN2(S1 , S2 ) – jsou dány reprezentace mnoˇzin S1 a S2 , které splˇ nuj´ı max S1 < min S2 , vytvoˇr´ı se reprezentace mnoˇziny S = S1 ∪ S2 , JOIN3(S1 , x, S2 ) – jsou dány reprezentace mnoˇzin S1 a S2 a prvek x ∈ U tak, ˇze je splnˇeno max S1 < x < min S2 , vytvoˇr´ı se reprezentace mnoˇziny S = S1 ∪ {x} ∪ S2 . Je vidˇet, ˇze operace JOIN2 a JOIN3 lze pomoc´ı operac´ı INSERT a DELETE pˇrevést jednu na druhou. Proto ˇcasto budeme popisovat pro danou strukturu jen jednu z nich. Obˇcas se také pouˇz´ıvá operace ord(k) – pˇredpokádáme, ˇze k ≤ |S|, a operace nalezne k-t´ y nejmenˇs´ı prvek v S. Zˇrejmˇe operace MIN a MAX jsou speciáln´ım pˇr´ıpadem operace ord(k), pˇresnˇe MIN je operace ord(1) a MAX je operace ord(|S|).

4.2 4.2.1

(a, b)-stromy Obecn´ a definice

D˚ uleˇzitou datovou strukturou vhodnou pro ˇreˇsen´ı uspoˇra´daného slovn´ıkového problému jsou (a, b)-stromy. Tuto datovou strukturu lze pouˇz´ıt pro intern´ı i pro extern´ı pamˇet’. Je to struktura zaloˇzená na stromech. Nejobecnˇejˇs´ı grafová definice (a, b)-stromu je: Necht’ 1 ≤ a < b jsou kladná pˇrirozená ˇc´ısla. Pak koˇrenov´ y strom (T, t) se naz´ yvá (a, b)-strom, kdyˇz 1. kdyˇz v je vnitˇrn´ı vrchol stromu T r˚ uzn´ y od koˇrene t, pak má alespoˇ n a a nejv´ yˇse b syn˚ u; 2. vˇsechny cesty z koˇrene do libovolného listu maj´ı stejnou délku. 4.2.2

Speci´ aln´ı pˇ r´ıpad – definice

Tato definice je pˇr´ıliˇs obecná a pro datové struktury se nehod´ı. Proto pouˇz´ıváme jej´ı speciáln´ı pˇr´ıpad (zmˇeny podtrˇzeny). Datová struktura (a, b)-strom je definována jen na tˇechto stromech: Necht’ a a b jsou pˇrirozená ˇc´ısla taková, ˇze 2 ≤ a a 2a − 1 ≤ b. Pak koˇrenov´ y strom (T, t) nazveme (a, b)-strom, kdyˇz plat´ı 1. kaˇzd´ y vnitˇrn´ı vrchol v stromu T r˚ uzn´ y od koˇrene t má alespoˇ n a a nejv´ yˇse b syn˚ u; 2. koˇren je bud’ list nebo má alespoˇ n dva syny a nejv´ yˇse b syn˚ u; 3. vˇsechny cesty z koˇrene do libovolného listu maj´ı stejnou délku. 4.2.3

Vlastnosti – velikost

V´ yhody naˇsich (a, b)-strom˚ u: Kdyˇz má (a, b)-strom výˇsku h > 0 (tj. délka kaˇzdé cesty z koˇrene do libovolného listu je h), pak strom má alespoˇ n 2ah−1 list˚ u a nejv´ yˇse bh list˚ u. Z toho jednoduˇse plyne: Tvrzen´ı. Mˇejme pˇrirozená ˇc´ısla a a b takov´ a, ˇze a ≥ 2 a b ≥ 2a − 1. Pak pro kaˇzdé kladné pˇrirozené ˇc´ıslo n existuje (a, b)-strom, který má pˇresnˇe n list˚ u. Kdyˇz (a, b)-strom má pˇresnˇe n list˚ u, pak výˇska stromu je n nejvýˇse 1 + loga ( 2 ) a je alespoˇ n logb n. Tedy výˇska stromu je O(log n). 77

4.2.4

Vlastnosti – uspoˇ r´ ad´ an´ı na listech

Mˇejme koˇrenov´ y strom (T, t) takov´ y, ˇze pro kaˇzd´ y vnitˇrn´ı vrchol v plat´ı: ˇ kdyˇz v má ρ(v) syn˚ u, pak jsou oˇc´ıslovány od 1 do ρ(v). Rekneme, ˇze vrchol v je v hloubce h, kdyˇz cesta z koˇrene t do v má délku h. Mnoˇzina vˇsech vrchol˚ u v hloubce h se naz´ yvá h-t´ a hladina. Lexikografické uspoˇrád´ an´ı na h-té hladinˇe je definováno rekurzivnˇe: v ≤ w, právˇe kdyˇz bud’ otec(v) < otec(w) nebo otec(v) = otec(w) a kdyˇz v je i-t´ y syn otec(v) a w je j-t´ y syn otec(v), pak i ≤ j. Pˇredpokládáme, ˇze v (a, b)-stromu synové kaˇzdého vnitˇrn´ıho vrcholu jsou uspoˇra´dány. Listy tvoˇr´ı hladinu h, kde h je hloubka (a, b)-stromu, a je na nich definováno lexikografické uspoˇra´dán´ı. Mˇejme lineárnˇe uspoˇra´dané univerzum U a mnoˇzinu S ⊆ U . Pak (a, b)-strom (T, t) reprezentuje mnoˇzinu S, kdyˇz má pˇresnˇe |S| list˚ u a je dán izomorfismus mezi lexikografick´ ym uspoˇra´dán´ım list˚ u stromu T a uspoˇra´danou mnoˇzinou S (tj. bijekce key : list(T ) → S, která pro s, t ∈ S splˇ nuje s ≤ t v U , právˇe kdyˇz key−1 (s) ≤ key−1 (t) v lexikografickém uspoˇra´dán´ı na mnoˇzinˇe list˚ u stromu T ). 4.2.5

Jak reprezentujeme mnoˇ zinu?

Co je uloˇzeno ve vnitˇrn´ıch vrcholech (a, b)-stromu (T, t) reprezentuj´ıc´ıho mnoˇzinu S ⊆ U ? • ρ(v) – poˇcet syn˚ u vrcholu v, • Sv (1..ρ(v)) – pole ukazatel˚ u na syny vrcholu v takové, ˇze Sv (i) je i-t´ y syn vrcholu v pro i = 1, 2 . . . , ρ(v), • Hv (1..ρ(v) − 1) – pole prvk˚ u z U takové, ˇze Hv (i) je nejvˇetˇs´ı prvek z S reprezentovan´ y v podstromu i-tého syna vrcholu v alternativa: Hv (i) je prvek z U takov´ y, ˇze nejvˇetˇs´ı prvek reprezentovan´ y v podstromu i-tého syna vrcholu v je menˇs´ı nebo roven Hv (i) a to je menˇs´ı neˇz nejmenˇs´ı prvek reprezentovan´ y v podstromu (i + 1)-n´ıho syna vrcholu v Struktura list˚ u: listu v je pˇriˇrazen prvek key(v) ∈ S. Nˇekdy je ve struktuˇre kaˇzdého vrcholu v (a, b)-stromu r˚ uzného od koˇrene jeˇstˇe ukazatel otec(v) na otce vrcholu v. Pozorov´ an´ı. Kdyˇz Hv (i) jsou prvky z reprezentované mnoˇziny, pak pro kaˇzdý prvek s ∈ S kromˇe nejvˇetˇs´ıho existuje pr´ avˇe jeden vnitˇrn´ı vrchol v (a, b)-stromu a jedno i, ˇze Hv (i) = s, a nejvˇetˇs´ı prvek v S nen´ı prvek Hv pro ˇza´dný vrchol v. Tento fakt se pouˇz´ıvá pˇri implementaci, kde se vynechávaj´ı listy. Prvky z S jsou reprezentovány v pol´ıch Hv vnitˇrn´ıch vrchol˚ u stromu a nejvˇetˇs´ı prvek je uloˇzen zvláˇst’ nebo je k mnoˇzinˇe S pˇridán formáln´ı nejvˇetˇs´ı prvek (a ten je pak uloˇzen“ zvláˇst’). Je to prostorovˇe efektivnˇejˇs´ı reprezentace mnoˇziny S, ale je technicky ” nepˇrehledná. Proto pˇri práci s (a, b)-stromy pouˇz´ıvám verzi s listy. Nyn´ı uvedeme algoritmy pro (a, b)-stromy. 4.2.6

Algoritmy

Pomocn´ y algoritmus 78

Vyhledej(x) t :=koˇren stromu T , w := N IL while t nen´ı list do i := 1 while Ht (i) < x a i < ρ(t) do i := i + 1 enddo if Ht (i) = x then w := t endif t := St (i) enddo V´ ystup: t a w. MEMBER(x) Vyhledej(x) if key(t) = x then V´ ystup: x ∈ S else V´ ystup: x ∈ / S endif INSERT(x) Vyhledej(x) if key(t) 6= x then vytvoˇr nov´ y list t′ , key(t′ ) := x, u := otec(t) if key(t) < x then (komentáˇr: x > max S) Su (ρ(u) + 1) := t′ , Hu (ρ(u)) := key(t), ρ(u) := ρ(u) + 1 else najdi i, ˇze Su (i) = t Su (ρ(u) + 1) := S(ρ(u)), j := ρ(u) − 1 while j ≥ i do Su (j + 1) := Su (j), Hu (j + 1) := Hu (j), j := j − 1 enddo Su (i) := t′ , Hu (i) := x, ρ(u) := ρ(u) + 1 endif t := u ˇ epen´ı(t) enddo while ρ(t) > b do Stˇ endif ˇ epen´ı(t) Stˇ if t je koˇren stromu then vytvoˇr nov´ y koˇren u s jedin´ ym synem t endif u := otec(t), najdi i, ˇze Su (i) = t, vytvoˇr nov´ y vnitˇrn´ı vrchol t′ , j := 1 while j < ⌊ b+1 ⌋ do 2 St′ (j) := St (j + ⌈ b+1 ⌉), Ht′ (j) := Ht (j + ⌈ b+1 ⌉), j := j + 1 2 2 enddo ⌋) := St (b + 1), ρ(t) := ⌈ b+1 ⌉, ρ(t′ ) := ⌊ b+1 ⌋, St′ (⌊ b+1 2 2 2 if i < ρ(u) then Su (ρ(u) + 1) := Su (ρ(u)) endif j := ρ(u) − 1, ρ(u) := ρ(u) + 1, while j > i do Su (j + 1) := Su (j), Hu (j + 1) := Hu (j), j := j − 1 enddo Su (i + 1) := t′ , Hu (i + 1) := Hu (i), Hu (i) := Ht (ρ(t)), t := u

79

DELETE(x) Vyhledej(x) if key(t) = x then u := otec(t), najdi i, ˇze Su (i) = t, a j, ˇze Hw (j) = x, k := i if w 6= u a w 6= N IL then Hw (j) := Hu (ρ(u) − 1) endif while k < ρ(u) − 1 do Hu (k) := Hu (k + 1), Su (k) := Su (k + 1), k := k + 1 enddo if i 6= ρ(u) then Su (ρ(u) − 1) := Su (ρ(u)) endif ρ(u) := ρ(u) − 1, odstraˇ n t, t := u while ρ(t) < a a t nen´ı koˇren do y je bezprostˇredn´ı bratr t if ρ(y) = a then Spojen´ı(t, y) else Pˇ resun(t, y) endif enddo endif Spojen´ı(t, y) u := otec(t), najdi i, ˇze Su (i) = t, j := 1 if Su (i − 1) = y then vymˇen ˇ t a y, i := i − 1 endif while j < ρ(y) do St (ρ(t) + j) := Sy (j), Ht (ρ(t) + j) := Hy (j), j := j + 1 enddo Ht (ρ(t)) := Hu (i), St (ρ(t) + ρ(y)) := Sy (ρ(y)), ρ(t) := ρ(t) + ρ(y), odstraˇ ny while i < ρ(u) − 1 do Su (i + 1) := Su (i + 2), Hu (i) := Hu (i + 1), i := i + 1 enddo ρ(u) := ρ(u) − 1 if u je koˇren a ρ(u) = 1 then odstraˇ nu else t := u endif Pˇ resun(t, y) u := otec(t), najdi i takové, ˇze Su (i) = t if Su (i + 1) = y then St (ρ(t) + 1) := Sy (1), Ht (ρ(t)) := Hu (i), Hu (i) := Hy (1), j := 1 while j < ρ(y) − 1 do Sy (j) := Sy (j + 1), Hy (j) := Hy (j + 1), j := j + 1 enddo Sy (ρ(y) − 1) := Sy (ρ(y)), ρ(t) := ρ(t) + 1, ρ(y) := ρ(y) − 1 else St (ρ(t) + 1) := St (ρ(t)), j := ρ(t) − 1 while j > 0 do St (j + 1) := St (j), Ht (j + 1) := Ht (j), j := j − 1 enddo ρ(t) := ρ(t) + 1, St (1) := Sy (ρ(y)), Ht (1) := Hu (i − 1), Hu (i − 1) := Hy (ρ(y) − 1), ρ(y) := ρ(y) − 1 endif

80

MIN t :=koˇren stromu while t nen´ı list do t := St (1) enddo key(t) je nejmenˇs´ı prvek S MAX t :=koˇren stromu while t nen´ı list do t := St (ρ(t)) enddo key(t) je nejvˇetˇs´ı prvek S JOIN2(T1 , T2 ) Pˇredpoklad Ti je (a, b)-strom reprezentuj´ıc´ı mnoˇzinu Si pro i = 1, 2, které splˇ nuj´ı max S1 < min S2 (tento pˇredpoklad je silnˇejˇs´ı neˇz poˇzadavek, ˇze S1 a S2 jsou disjunktn´ı, ale algoritmus nekontroluje jeho splnˇen´ı) if v´ yˇska T1 je vˇetˇs´ı nebo rovna v´ yˇsce T2 then t :=koˇren T1 , k := v(T1 ) − v(T2 ) while k > 0 do t := St (ρ(t)), k := k − 1 enddo Spojen´ı(t,koˇren T2 ), t := otec(t) ˇ epen´ı(t) enddo while ρ(t) > b do Stˇ else t :=koˇren T2 , k := v(T2 ) − v(T1 ) while k > 0 do t := St (1), k := k − 1 enddo Spojen´ı(t,koˇren T1 ), t := otec(t) ˇ epen´ı(t) enddo while ρ(t) > b do Stˇ endif

81

SPLIT(T, x) Z1 , Z2 prázdné zásobn´ıky, t :=koˇren T while t nen´ı list do i := 1 while Ht (i) < x a i < ρ(t) do i := i + 1 enddo t := St (i) if i = 2 then vloˇz podstrom vrcholu St (1) do Z1 endif if i > 2 then vytvoˇr nov´ y vrchol t1 , ρ(t1 ) = i − 1, for every j = 1, 2, . . . , i − 2 do St1 (j) := St (j), Ht1 (j) := Ht (j) enddo St1 (i − 1) := St (i − 1), vloˇz podstrom vrcholu t1 do Z1 endif if i = ρ(t) − 1 then vloˇz podstrom St (ρ(t)) do Z2 endif if i < ρ(t) − 1 then vytvoˇr nov´ y vrchol t2 , ρ(t2 ) := ρ(t) − i for every j = 1, 2, . . . , ρ(t) − i − 1 do St2 (j) := St (i + j), Ht2 (j) := Ht (i + j) enddo St2 (ρ(t) − i) := St (ρ(t)), vloˇz podstrom t2 do Z2 endif enddo if key(t) = x then V´ ystup: x ∈ S else V´ ystup: x ∈ /S if key(t) < x then vloˇz podstrom vrcholu t do Z1 else vloˇz podstrom vrcholu t do Z2 endif endif T1 := vrchol Z1 , odstraˇ n T1 ze Z1 while Z1 6= ∅ do T ′ :=vrchol Z1 , odstraˇ n T ′ ze Z1 , T1 :=JOIN(T ′ , T1 ) enddo T2 := vrchol Z2 , odstraˇ n T2 ze Z2 while Z2 6= ∅ do T ′ := vrchol Z2 , odstraˇ n T ′ ze Z2 , T2 :=JOIN(T2 , T ′ ) enddo 4.2.7

Korektnost algoritm˚ u

Odkaz na otce vrcholu: bud’ je v kaˇzdém vrcholu v stromu T pˇr´ımo odkaz na otec(v), nebo se v proceduˇre Vyhledej vkládaj´ı vrcholy do zásobn´ıku a otec(v) je vrchol v zásobn´ıku pˇred vrcholem v. Pˇri operaci SPLIT se zásobn´ıky pouˇz´ıvaj´ı jednopr˚ uchodovˇe – nejprve se napln´ı a v této ˇca´sti algoritmu se nepouˇzije operace pop, pak se vyprázdn´ı a v této fázi se nepouˇz´ıvá operace push. V okamˇziku, kdyˇz jsou zásobn´ıky naplnˇené, plat´ı: 82

• v zásobn´ıc´ıch jsou uloˇzeny (a, b)-stromy reprezentuj´ıc´ı podmnoˇziny S; • kdyˇz (a, b)-stromy Ti a Ti+1 reprezentuj´ı mnoˇziny Si a Si+1 a jsou v zásobn´ıku Z1 (nebo Z2 ) a strom Ti+1 následuje po stromu Ti , pak plat´ı max Si < min Si+1 < x (nebo min Si > max Si+1 > x) a v´ yˇska Ti je vˇetˇs´ı nebo rovna v´ yˇsce Ti+1 ; • kdyˇz Ti a Ti+1 jsou dva po sobˇe následuj´ıc´ı (a, b)-stromy v zásobn´ıku Zj pro j = 1, 2, které maj´ı stejnou v´ yˇsku, pak následuj´ıc´ı strom v zásobn´ıku Zj má ostˇre menˇs´ı v´ yˇsku. Toto plyne z prvn´ı fáze algoritmu operace SPLIT a zajiˇst’uje korektnost druhé fáze algoritmu. 4.2.8

ˇ Casov´ a anal´ yza

ˇ epen´ı, Spojen´ı a Pˇ Dále si vˇsimnˇeme, ˇze podprocedury Stˇ resun vyˇzaduj´ı ˇcas O(1), a proto algoritmy pro operace MEMBER, INSERT, DELETE, MIN, MAX, JOIN2 a pro prvn´ı fázi algoritmu SPLIT vyˇzaduj´ı ˇcas O(1) pro práci v dané hladinˇe. Protoˇze hladin je nejv´ yˇse loga |S|, m˚ uˇzeme shrnout:

Vˇ eta. Algoritmy pro operace MEMBER, INSERT, DELETE, MIN, MAX, JOIN2 a SPLIT v (a, b)-stromech vyˇzaduj´ı v nejhorˇs´ım pˇr´ıpadˇe ˇcas O(loga |S|), kde S je reprezentovaná mnoˇzina. Je tˇreba jeˇstˇe odhadnout spotˇrebovan´ y ˇcas ve druhé fázi algoritmu pro operaci SPLIT. Nejprve si vˇsimnˇeme, ˇze algoritmus JOIN2(T1 , T2 ) vyˇzaduje ve skuteˇcnosti jen ˇcas rovn´ y O(rozd´ıl v´ yˇsek strom˚ u T1 Kdyˇz po naplnˇen´ı zásobn´ık Zj pro j = 1, 2 obsahuje stromy U1 , U2 , . . . , Uk v tomto poˇrad´ı, pak k ≤ 2 loga |S| Pk−1 a vyprázdnˇen´ı zásobn´ıku Zj vyˇzaduje ˇcas O( i=1 (ui − ui+1 + 1) = O(u1 + k), kde ui je v´ yˇska stromu Ui pro i = 1, 2, . . . , k. Protoˇze v´ yˇska stromu U1 je nejv´ yˇse rovna v´ yˇsce stromu T , dostáváme, ˇze druhá fáze algoritmu SPLIT vyˇzaduje ˇcas O(loga |S|) a d˚ ukaz je kompletn´ı. 4.2.9

Poˇ r´ adkov´ a statistika

Nyn´ı pop´ıˇseme algoritmus pro operaci ord(k). Tato operace se ˇcasto naz´ yvá k-tá poˇra´dková statistika Tato operace nen´ı podporována navrˇzenou strukturou, pro jej´ı efektivn´ı implementaci mus´ıme rozˇs´ıˇrit strukturu vnitˇrn´ıho vrcholu v o pole Pv (1..ρ(v) − 1), kde Pv (i) je poˇcet prvk˚ u S reprezentovan´ ych v podstromu i-tého syna vrcholu v. Udrˇzovat pole Pv v aktuáln´ım stavu znamená pˇri u ´spˇeˇsném proveden´ı aktualizaˇcn´ı operace proj´ıt cestu z vrcholu do koˇrene a aktualizovat pole P . Uvedeme algoritmus pro nalezen´ı k-té poˇra´dkové statistiky. ord(k) if k > |S| then neexistuje k-t´ y nejmenˇs´ı prvek, konec endif t :=koˇren stromu while t nen´ı list do i := 1 while k > Pt (i) a i < ρ(t) do k := k − Pt (i), i := i + 1 enddo t := St (i) enddo key(t) je hledan´ y k-t´ y nejmenˇs´ı prvek Invariant algoritmu: V kaˇzdém okamˇziku plat´ı, ˇze p˚ uvodn´ı k se rovná aktuáln´ı k+poˇcet prvk˚ u z S, které jsou v podstromech vrchol˚ u stromu, které v lexikografickém uspoˇra´dán´ı pˇredcházej´ı i-tému synu vrcholu t. Korektnost algoritmu plyne z tohoto invariantu. 83

Vˇ eta. Algoritmy pro operace MEMBER, INSERT, DELETE, MIN, MAX, SPLIT, JOIN2 a ord(k) pro vˇsechna k v rozˇs´ıˇrené struktuˇre (a, b)-stromu vyˇzaduj´ı v nejhorˇs´ım pˇr´ıpadˇe ˇcas O(log |S|), kde S je reprezentovaná mnoˇzina. 4.2.10

Hodnoty a, b

(a, b)-stromy se pouˇz´ıvaj´ı jak v intern´ı tak v extern´ı pamˇeti. Jaké hodnoty a a b je vhodné pouˇz´ıvat? Pro intern´ı pamˇet’ jsou doporuˇcené hodnoty a = 2, b = 4 nebo a = 3 a b = 6. Pro extern´ı pamˇet’ jsou doporuˇcené hodnoty a ≈ 100, b = 2a. 4.2.11

Paraleln´ı verze

Kdyˇz je mnoˇzina reprezentovaná (a, b)-stromem uloˇzena na serveru a má k n´ı pˇr´ıstup v´ıce uˇzivatel˚ u, vzniká problém s aktualizaˇcn´ımi operacemi. Tyto operace mˇen´ı strukturu (a, b)-stromu a v d˚ usledku toho se v nˇem jin´ y uˇzivatel m˚ uˇze ztratit. Tento problém se dá ˇreˇsit tak, ˇze pˇri aktualizaˇcn´ıch operac´ıch se uzavˇre cel´ y strom. Nev´ yhoda: ostatn´ı uˇzivatelé do nˇeho nemaj´ı pˇr´ıstup a nemohou pracovat. Tzv. paraleln´ı implementace operac´ı INSERT a DELETE nab´ız´ı jiné, efektivnˇejˇs´ı ˇreˇsen´ı. Pˇredpoklad: b ≥ 2a. Pˇri operaci INSERT jsou ve vyhledávac´ı fázi vˇzdy uzavˇreny vrcholy t, otec(t) a synové vrcholu t. Algoˇ epen´ı (proto je ritmus zjist´ı, ve kterém synu vrcholu t má pokraˇcovat, a pak, kdyˇz ρ(t) = b, provede Stˇ nutnˇe b ≥ 2a, abychom po této operaci mˇeli zase (a, b)-strom). V algoritmu pak odpadne vyvaˇzovac´ı ˇca´st ˇ epen´ı pˇri cestˇe vzh˚ (tj. Stˇ uru ke koˇreni). Pˇri operaci DELETE jsou ve vyhledávac´ı fázi uzavˇreny vrcholy t, otec(t), bezprostˇredn´ı bratr y vrcholu t a jejich synové. Kdyˇz ρ(t) = a, pak po najiti vrcholu, kde se bude pokraˇcovat, se provede bud’ Pˇ resun (kdyˇz ρ(y) > a) nebo Spojen´ı (kdyˇz ρ(y) = a). Stejnˇe jako pˇri operaci INSERT se vynechá vyvaˇzovac´ı ˇca´st uzav´ıraj´ıc´ı p˚ uvodn´ı algoritmus. ˇ epen´ı, Spojen´ı a Pˇ Tato u ´prava vyˇzaduje sice v´ıce Stˇ resun˚ u, ale asymptoticky vycház´ı ˇcas stejn´ y (jen je vˇetˇs´ı multiplikativn´ı konstanta). Doporuˇcené hodnoty a a b jsou a ≈ 100 a b = 2a + 2 pˇri uloˇzen´ı na serveru v extern´ı pamˇeti, ve vnitˇrn´ı pamˇeti se doporuˇcuje a = 2, b = 6. Operace JOIN2 lze také paralelizovat, ale operaci SPLIT paralelizovat nelze. 4.2.12

A-sort

(a, b)-stromy dávaj´ı také zaj´ımavé aplikace pro tˇr´ıdic´ı algoritmy. Pouˇzit´ı (a, b)-strom˚ u pro setˇr´ıdˇen´ı náhodné posloupnosti nen´ı vhodné, reˇzie na udrˇzován´ı struktury (a, b)-stromu vede k tomu, ˇze multiplikativn´ı konstanta by byla o hodnˇe vˇetˇs´ı neˇz u klasick´ ych tˇr´ıdic´ıch algoritm˚ u. Také uloˇzen´ı (a, b)-stromu vyˇzaduje v´ıce pamˇeti neˇz je potˇreba pro klasické algoritmy. Situace se podstatnˇe zmˇen´ı, kdyˇz vstupn´ı posloupnost je pˇredtˇr´ıdˇená a je ji tˇreba jen dotˇr´ıdit. Klasické algoritmy vˇetˇsinou nejsou schopné vyuˇz´ıt faktu, ˇze posloupnost je pˇredtˇr´ıdˇená, a jejich ˇcasová nároˇcnost je prakticky stejná (nˇekdy i horˇs´ı) jako u náhodné posloupnosti. Na rozd´ıl od nich algoritmus A-sort zaloˇzen´ y na (a, b)-stromech je schopen pˇredtˇr´ıdˇenost vyuˇz´ıt a má na pˇredtˇr´ıdˇen´ ych posloupnostech lepˇs´ı v´ ysledky neˇz klasické algoritmy. Modifikace (a, b)-strom˚ u pro algoritmus A-sort. Máme (a, b)-strom reprezentuj´ıc´ı vstupn´ı posloupnost, je dán ukazatel Prv na prvn´ı list, listy (a, b)-stromu jsou propojeny do seznamu v rostouc´ım lexikografickém poˇrad´ı (ukazatel na následuj´ıc´ı prvek je Nasl) a je dána cesta z prvn´ıho listu do koˇrene (to znamená, ˇze na cestˇe z prvn´ıho listu do koˇrene známe pro kaˇzd´ y vrchol v jeho otce). Nyn´ı uvedeme algoritmus A-sort. 84

A-sort(x1 , x2 , . . . , xn ) i := n − 1, vytvoˇr jednoprvkov´ y strom s vrcholem t key(t) := xn , Prv := t while i ≥ 1 do A-Insert(xi ), i := i − 1 enddo y1 := key(Prv) while i ≤ n do yi := key(t), i := i + 1, t := Nasl(t) enddo V´ ystup: (y1 , y2 , . . . , yn ) setˇr´ıdˇená posloupnost (x1 , x2 , . . . , xn ) A-Insert(x) t := Prv while t 6= koˇren T a Ht (1) < x do t := otec(t) enddo while t 6= list do i := 1 while Ht (i) < x a i < ρ(t) do i := i + 1 enddo if i > 1 then v := St (i − 1) else v := St (ρ(t)) endif t := St (i) enddo if key(t) 6= x then vytvoˇr nov´ y list t′ , key(t′ ) = x, if t je koˇren then vytvoˇr nov´ y koˇren u, ρ(u) := 2 if key(t) > x then Hu (1) := x, Su (1) := t′ , Su (2) := t, Prv := t′ , Nasl(t′ ) := t, Nasl(t) := N IL else Hu (1) := key(t), Su (1) := t, Su (2) := t′ Prv := t, Nasl(t) := t′ , Nasl(t′ ) := N IL endif else u := otec(t) if key(t) < x then (komentáˇr: x > max S) Su (ρ(u) + 1) := t′ , Hu (ρ(u)) := key(t), ρ(u) := ρ(u) + 1 Nasl(t) := t′ , Nasl(t′ ) := N IL else najdi i, ˇze Su (i) = t, Su (ρ(u) + 1) := S(ρ(u)), j := ρ(u) − 1, Nasl(v) := t′ , Nasl(t′ ) := t while j ≥ i do Su (j + 1) := Su (j), Hu (j + 1) := Hu (j), j := j − 1 enddo Su (i) := t′ , Hu (i) := x, ρ(u) := ρ(u) + 1, if t = Prv then Prv := t′ endif endif t := u ˇ epen´ı(t) enddo while ρ(t) > b do Stˇ endif endif Korektnost algoritmu plyne z faktu, ˇze key je izomorfismus uspoˇra´dán´ı a seznam list˚ u je v rostouc´ım

85

poˇrad´ı. Protoˇze v je vˇzdy bezprostˇredn´ı pˇredch˚ udce t, je seznam korektnˇe definován. Ukazatel otec(t) je dán na cestˇe z vrcholu Prv do koˇrene, pro ostatn´ı vrcholy se ˇreˇs´ı stejn´ ym zp˚ usobem jako pro (a, b)-stromy. 4.2.13

A-sort – sloˇ zitost

Algoritmus A-sort vyˇzaduje v´ıce ˇcasu i v´ıce pamˇeti neˇz klasické tˇr´ıdic´ı algoritmy, ale jejich asymptotická sloˇzitost je stejná. Jeho v´ yhoda je v pouˇzit´ı na pˇredtˇr´ıdˇené posloupnosti. Definice. Pro posloupnost (x1 , x2 , . . . , xn ) prvk˚ u z tot´ alnˇe uspoˇrádaného univerza U definujme F = |{(i, j) | i < j, xj < xi }|. Zˇrejmˇe F = 0, právˇe kdyˇz posloupnost (x1 , x2 , . . . , xn ) je setˇr´ıdˇená. Dále 0 ≤ F ≤ n2 a F = n2 , právˇe kdyˇz je posloupnost (x1 , x2 , . . . , xn ) klesaj´ıc´ı.

To vede k tomu brát F jako m´ıru pˇredtˇr´ıdˇenosti posloupnosti. Spoˇc´ıtáme sloˇzitost algoritmu A-sort v závislosti na n a F .

Pozorov´ an´ı. Algoritmus A-sort v nejhorˇs´ım pˇr´ıpadˇe vyˇzaduje ˇcas, který potˇrebuje A-Insert, plus O(n). Pozorov´ an´ı. Algoritmus A-Insert(x) vyˇzaduje ˇcas potˇrebný na nalezen´ı m´ısta, kam vloˇzit x, plus O(poˇcet ˇ volán´ı Stˇ epen´ı). ˇ epen´ı vytvoˇril jeden vnitˇrn´ı vrchol (a, b)-stromu a protoˇze Pozorov´ an´ı. Protoˇze kaˇzdý bˇeh procedury Stˇ a ≥ 2 a (a, b)-strom po skonˇcen´ı volán´ı A-Insert má n list˚ u, je vnitˇrn´ıch vrchol˚ u (a, b)-stromu < n. Pozorov´ an´ı (Plyne z minulého). Vˇsechny bˇehy procedury A-Insert vyˇzaduj´ı ˇcas na nalezen´ı m´ıst jednotlivých prvk˚ u plus O(n). Pozorov´ an´ı. Kdyˇz procedura A-Insert(x) pˇri hledán´ı m´ısta pro prvek x skonˇcila ve výˇsce h (tj. prvn´ı cyklus se h-kr´ at opakoval), pak nalezen´ı m´ısta pro prvek x vyˇzadovalo ˇcas O(h). Pozorov´ an´ı. Vˇsechny prvky reprezentované (a, b)-stromem pod prvn´ım vrcholem ve výˇsce h−1 jsou menˇs´ı neˇz x a je jich alespoˇ n ah−1 . Pozorov´ an´ı. Kdyˇz x = xi , pak poˇcet prvk˚ u reprezentovaných (a, b)-stromem pˇri bˇehu procedury AInsert(x), které jsou menˇs´ı neˇz x, je poˇcet j takových, ˇze i < j a xj < xi . (Plyne z toho, v jakém poˇrad´ı vkl´ ad´ ame.) Definice. Oznaˇcme fi poˇcet j takových, ˇze i < j a xj < xi . Vˇ eta. Algoritmus A-sort na setˇr´ıdˇen´ı n-ˇclenné posloupnosti vyˇzaduje v nejhorˇs´ım pˇr´ıpadˇe ˇcas O(n + n log Fn ), kde F je m´ıra setˇr´ıdˇenosti vstupn´ı posloupnosti. D˚ ukaz. Z pozorován´ı plat´ı ah−1 ≤ fi =⇒ h − 1 ≤ loga fi =⇒ h ∈ O(log fi ). Proto v nejhorˇs´ım pˇr´ıpadˇe ˇcas potˇrebn´ y pro nalezen´ı pozice xi je O(log fi ). Odtud plyne, ˇze ˇcas algoritmu potˇrebn´ y k bˇehu algoritmu A-sort je n X O(( log fi ) + n). i=1

86

P Zˇrejmˇe ni=1 fi = F a nyn´ı vyuˇzijeme toho, ˇze geometrick´ y pr˚ umˇer je vˇzdy menˇs´ı nebo roven aritmetickému pr˚ umˇeru, a odtud dostáváme n X

log fi = log

i=1

n Y

fi = n log(

i=1

n log

n Y i=1

Pn

i=1

n

fi

= n log

1

fi ) n ≤ F . n

Zhodnocen´ı: Protoˇze A-sort nepouˇz´ıvá operaci DELETE, doporuˇcuje se pouˇz´ıt (2, 3)-stromy. Kdyˇz se budou tˇr´ıdit posloupnosti s m´ırou F ≤ n log n, pak algoritmus A-sort bude potˇrebovat v nejhorˇs´ım pˇr´ıpadˇe ˇcas O(n log log n). Mehlhorn a Tsakalidis dokázali, ˇze kdyˇz F ≤ 0.02n1.57 , pak algoritmus A-sort je rychlejˇs´ı neˇz algoritmus Quicksort. 4.2.14

Propojen´ e stromy s prstem

Hladinovˇe propojený (a, b)-strom s prstem je (a, b)-strom, kde struktura vnitˇrn´ıho vrcholu r˚ uzného od koˇrene je rozˇs´ıˇrena (proti klasickému (a, b)-stromu) o ukazatele otec(v), levy(v), pravy(v), kde: • levy(v) ukazuje na nejvˇetˇs´ı vrchol (v lexikografickém uspoˇrádán´ı) ve stejné hladinˇe jako v, kter´ y je menˇs´ı neˇz v (kdyˇz neexistuje, tak je to N IL), • pravy(v) ukazuje na nejmenˇs´ı vrchol (v lexikografickém uspoˇra´dán´ı) ve stejné hladinˇe jako v, kter´ y je vˇetˇs´ı neˇz v (kdyˇz neexistuje, tak je to N IL). Nav´ıc je dán ukazatel Prst na nˇekter´ y list. Zde se liˇs´ı hlavnˇe vyhledáván´ı, které je zobecnˇen´ım postupu A-sortu. Zaˇc´ınáme od listu p, na kter´ y ukazuje Prst. Kdyˇz x je menˇs´ı neˇz prvek reprezentovan´ y t´ımto listem, pak se pokraˇcuje v jeho otci v, a kdyˇz p byl ’ i-t´ y syn v, tak se pomoc´ı pole Hv zjiˇst uje, zda x nemá b´ yt reprezentován v podstromu jeho j-tého syna pro j < i. Kdyˇz ne, pokraˇcuje se ukazatelem levy(v). Kdyˇz x nen´ı reprezentován ani v jeho podstromu, tak se cel´ y postup opakuje o hladinu v´ yˇs (zkoumá se otec vrcholu). Kdyˇz x je vˇetˇs´ı neˇz prvek reprezentovan´ y listem p, je postup zrcadlovˇe obrácen´ y. Kdyˇz se nalezne vrchol, v jehoˇz podstromu má x leˇzet, pak se aplikuje od tohoto vrcholu (m´ısto od koˇrene) procedura Vyhledej. Struktura kromˇe operac´ı uspoˇra´daného slovn´ıkového problému jeˇstˇe pouˇz´ıvá pˇridanou operaci PRST(x), která nastav´ı ukazatel Prst na list, kter´ y reprezentuje nejmenˇs´ı prvek vˇetˇs´ı nebo rovn´ y x (pokud x > max S, tak ukazatel Prst bude ukazovat na nejvˇetˇs´ı list). Operace provedou vyhledán´ı a pak pokraˇcuj´ı klasick´ ym zp˚ usobem. Pouˇzit´ı: Tato struktura je velmi v´ yhodná pro u ´lohy, kde vˇzdy skupina po sobˇe jdouc´ıch operac´ı pracuje v bl´ızkém okol´ı nˇejakého x ∈ U . Pak vyhledán´ı prvku je rychlejˇs´ı neˇz v klasickém (a, b)-stromu, viz A-sort. 4.2.15

Omezen´ı ˇ stˇ epen´ı, spojov´ an´ı a pˇ resun˚ u

Pozn. studenta - dost jsem popˇresouval poˇrad´ı dokazován´ı v této kapitole tak, aby mi dávalo logick´ y smysl. ˇ epen´ı, Spojov´ Vyvaˇzovac´ı operace Stˇ an´ı, Pˇ resun vyˇzaduj´ı ˇcas O(1), ale ve skuteˇcnosti jsou nejpomalejˇs´ı ˇca´st´ı algoritm˚ u pro operace INSERT a DELETE. Omezen´ı jejich poˇctu vedlo k menˇs´ı sloˇzitosti algoritmu A-sort. To motivovalo anal´ yzu jejich pouˇzit´ı. 87

ˇ epen´ı nejv´ Libovoln´ y bˇeh algoritmu INSERT volá podproceduru Stˇ yˇse log(|S|)-krát a libovoln´ y bˇeh algoritmu DELETE m˚ uˇze nejv´ yˇse log(|S|)-krát zavolat podproceduru Spojen´ı a nejv´ yˇse jednou podproceduru Pˇ resun. V obecném pˇr´ıpadˇe tyto odhady nejdou zlepˇsit. Pro vhodn´ y typ (a, b)-stromu vˇsak amortizovan´ y poˇcet vyvaˇzovac´ıch operac´ı (zaˇc´ınáme-li s p˚ uvodnˇe prázdn´ ym stromem) je konstantn´ı. Pˇripom´ınáme, ˇze výˇska vrcholu v koˇrenovém stromˇe je maximáln´ı délka cesty z nˇeho do nˇekterého listu. (tj. je poˇc´ıtaná odspodu) D˚ ukaz omezen´ı poˇctu ˇstˇepen´ı je zaloˇzen na bankovn´ım principu – navrhneme kvantitativn´ı ohodnocen´ı (a, b)-stromu, nalezneme jeho horn´ı odhad a pop´ıˇseme, jak toto ohodnocen´ı mohou zmˇenit vyvaˇzovac´ı operace. Srovnán´ı tˇechto odhad˚ u dá poˇzadovan´ y v´ ysledek. Necht’ b ≥ 2a a a ≥ 2. Definice. Pro pevné a a b oznaˇcme c = min{min{2a − 1, ⌈

b+1 b+1 ⌉} − a, b − max{2a − 1, ⌊ ⌋}}. 2 2

Definice. Mˇejme (a, b)-strom T , pro vnitˇrn´ı vrchol v r˚ uzný od koˇrene definujme b(v) = min{ρ(v) − a, b − ρ(v), c}, pro koˇren r definujme b(r) = min{ρ(r) − 2, b − ρ(r), c}. b se dá vn´ımat jako vzdálenost“ poˇctu syn˚ u od krajn´ıch hodnot a a b, ale s horn´ım omezen´ım c. ” Pozorov´ an´ı (1). Pro vnitˇrn´ı vrchol stromu v r˚ uzný od koˇrene plat´ı 1. b(v) ≤ c; 2. kdyˇz ρ(v) = a nebo ρ(v) = b, pak b(v) = 0; 3. kdyˇz ρ(v) = a − 1 nebo ρ(v) = b + 1, pak b(v) = −1; 4. kdyˇz ρ(v) = 2a − 1, pak b(v) = c; 5. Kdyˇz v ′ a v ′′ jsou dva r˚ uzné vrcholy stromu r˚ uzné od koˇrene takové, ˇze ρ(v ′ ) = ⌈ b+1 ⌉ a ρ(v ′′ ) = ⌊ b+1 ⌋, 2 2 pak b(v ′ ) + b(v ′′ ) ≥ 2c − 1; 6. pro koˇren r plat´ı b(r) ≤ c. D˚ ukaz. D˚ ukazy 1,2,3,6 jsou triviáln´ı. D˚ ukazy 4 a 5 jsou technické a vypl´ yvaj´ı z definice c (pozn. studenta - já to tam nevid´ım :( )

Definice. Strom (T, r) ohodnot´ıme X bh (T ) = {b(v) | v 6= r vnitˇrn´ı vrchol stromu ve v´ yˇsce h} b(T ) =

∞ X

bh (T ) + b(r).

h=1

ˇ Definice. Rekneme, ˇze (T, r, v) je parciáln´ı (a, b)-strom, kdyˇz r je koˇren stromu, v je vnitˇrn´ı vrchol T a plat´ı: • kdyˇz v 6= r, pak a − 1 ≤ ρ(v) ≤ b + 1 a 2 ≤ ρ(r) ≤ b; 88

• kdyˇz v = r, pak 2 ≤ ρ(r) ≤ b + 1; • kdyˇz t je vnitˇrn´ı vrchol T r˚ uzný od v a r, pak a ≤ ρ(t) ≤ b; • vˇsechny cesty z koˇrene r do nˇejakého listu maj´ı stejnou délku. Tj. jde o a,b strom s jedn´ım pokaˇzen´ ym“ vrcholem. ” Nyn´ı rozloˇz´ıme operace INSERT a DELETE do jednotliv´ ych akc´ı se stromem a vyˇsetˇr´ıme vliv tˇechto akc´ı na jeho ohodnocen´ı. D˚ ukazy lemmat jsou zaloˇzené na následuj´ıc´ım pozorován´ı Pozorov´ an´ı (2). Mˇejme dva stromy T a T ′ , které maj´ı stejnou mnoˇzinu vrchol˚ u ve výˇsce h. Pak plat´ı: 1. kdyˇz kaˇzdý vrchol ve výˇsce h má stejný poˇcet syn˚ u v obou stromech, pak bh (T ) = bh (T ′ ); 2. kdyˇz vˇsechny vrcholy ve výˇsce h aˇz na jeden vrchol maj´ı stejný poˇcet syn˚ u v obou stromech a poˇcet syn˚ u u zbylého vrcholu se ve stromech T a T ′ liˇs´ı nejvýˇse o 1, pak bh (T ) ≥ bh (T ′ ) − 1. Lemma 1. Kdyˇz (T, r) je (a, b)-strom a kdyˇz strom T ′ vznikne z T pˇrid´ an´ım/ubrán´ım jednoho syna vrcholu v ve výˇsce 1 (tj. pˇrid´ avaný/ub´ıraný syn je list), pak (T ′ , r, v) je parciáln´ı (a, b)-strom a plat´ı b1 (T ′ ) ≥b1 (T ) − 1 b(T ′ ) ≥b(T ) − 1.

a bh (T ′ ) = bh (T ) pro h > 1;

D˚ ukaz. Zhorˇsili jsme b1 v nejspodnˇejˇs´ı hladinˇe, na nic jiného jsme neˇsahali, nic jsme neˇstˇepili.

Lemma 2. Necht’ (T, r, v) je parciáln´ı (a, b)-strom, ρ(v) = b + 1 a v je ve výˇsce l ≥ 1. Kdyˇz T ′ vznikne z ˇ epen´ı(v), pak (T ′ , r, otec(v)) je parciáln´ı (a, b)-strom a plat´ı: T operac´ı Stˇ bl (T ′ ) ≥bl (T ) + 2c, bl+1 (T ′ ) ≥ bl+1 (T ) − 1 bh (T ′ ) =bh (T ) pro h 6= l, l + 1; b(T ′ ) ≥ b(T ) + 2c − 1. D˚ ukaz. Nerovn´ıtko o l-té hladinˇe plat´ı kv˚ uli bodu 5 z pozorován´ı 1, protoˇze jsme b z −1 zmˇenili na 2c − 1, o l + 1 hladinˇe to plat´ı proto, protoˇze se zvˇetˇsil uzel o jedna (viz pozorován´ı 2). Zbytek stromu je stejn´ y.

Lemma 3. Necht’ (T, r, v) je parciáln´ı (a, b)-strom, ρ(v) = a − 1, v je ve výˇsce l ≥ 1 a y je bezprostˇredn´ı bratr v takový ˇze ρ(y) = a. Kdyˇz T ′ vznikne z T operac´ı Spojen´ı(v, y), pak (T ′ , r, otec(v)) je parciáln´ı (a, b)-strom a plat´ı: bl (T ′ ) ≥bl (T ) + c + 1, bl+1 (T ′ ) ≥ bl+1 (T ) − 1 bh (T ′ ) =bh (T ) pro h 6= l, l + 1; b(T ′ ) ≥ b(T ) + c. D˚ ukaz. Ve vrstvˇe l se ze situace v bodech 2 a 3 z pozorován´ı 1 dostaneme do situace v bodu 4. Ve vrstvˇe l + 1 opˇet mˇen´ıme jenom jeden prvek. 89

Lemma 4. Necht’ (T, r, v) je parciáln´ı (a, b)-strom, ρ(v) = a − 1, v je výˇsce l ≥ 1 a y je bezprostˇredn´ı bratr v takový, ˇze ρ(y) > a. Kdyˇz T ′ vznikne z T operac´ı Pˇ resun(v, y), pak (T ′ , r) je (a, b)-strom a plat´ı: bl (T ′ ) ≥ bl (T ) a bh (T ′ ) = bh (T ) pro h 6= l;

b(T ′ ) ≥ b(T ).

D˚ ukaz. Nev´ım, ze kterého pozorován´ı pˇresnˇe to plat´ı :( ale ... asi to plat´ı, protoˇze pokud jednu vzdálenost zhorˇs´ıme, jinou zlepˇs´ıme. Nebo tak nˇeco.

Definice. Necht’ P je posloupnost n operac´ı INSERT a DELETE, aplikujme ji na pr´ azdný (a, b)-strom. Oznaˇcme P ˇ epen´ı ve výˇsce h pˇri aplikaci P, St = • Sth – poˇcet Stˇ St Ph h • Sph – poˇcet Spojen´ı ve výˇsce h pˇri aplikaci P, Sp = h Sph P • Ph – poˇcet Pˇ resun˚ u ve výˇsce h pˇri aplikaci P, P = h Ph .

Definice. Poloˇzme si St0 + Sp0 = poˇcet list˚ u v Tk ≤ n, aby n´ am vycházely vzoreˇcky dále (v 0 - tj. listové - hladinˇe jinak nic neˇstˇep´ıme/nespojujeme a St ˇci Sp tam nedáv´ a smysl) Definice. Oznaˇcme Tk (a, b)-strom vzniklý proveden´ım posloupnosti P na pr´ azdný (a, b)-strom. Seˇcten´ım pˇredchoz´ıch v´ ysledk˚ u dostáváme D˚ usledek 5. Kdyˇz poloˇz´ıme St0 + Sp0 = poˇcet list˚ u v Tk ≤ n, pak bh (Tk ) ≥ 2cSth + (c + 1)Sph − Sth−1 − Sph−1 pro h ≥ 1. D˚ ukaz. Skuteˇcnˇe plyne z lemmat z ˇca´st´ı pro hladiny, r˚ uzné operace pˇrispˇej´ı r˚ uznˇe.

D˚ usledek 6. D´ ale b(Tk ) ≥ (2c − 1)St + cSp − n, kde n je délka posloupnosti P. D˚ ukaz. Skuteˇcnˇe plyne z lemmat z ˇca´st´ı pro celé stromy.

Nyn´ı odhadneme shora b(Tk ). c . Lemma 7. Kdyˇz T je (a, b)-strom s m listy, pak 0 ≤ b(T ) ≤ c + (m − 2) a+c−1

90

D˚ ukaz. Pro 0 ≤ j < c oznaˇcme mj poˇcet vnitˇrn´ıch vrchol˚ u r˚ uzn´ ych od koˇrene, které maj´ı pˇresnˇe a + j syn˚ u, a mc oznaˇcme poˇcet vnitˇrn´ıch vrchol˚ u r˚ uzn´ ych od koˇrene, které maj´ı alespoˇ n a + c syn˚ u. Kdyˇ Pcz vrchol v má a + j syn˚ u, pak bT (v) ≤ j a pro kaˇzd´ y vnitˇrn´ı vrchol v plat´ı bT (v) ≤ c. Tedy b(T ) ≤ c + j=0 jmj . Z vlastnost´ı strom˚ u plyne c X X 2+ (a + j)mj ≤ {ρ(v) | v je vnitˇrn´ı vrchol T } = j=0

m+

c X

mj .

j=0

Odtud plyne

c X j=0

Protoˇze

j a+j−1

≤

c a+c−1

(a + j − 1)mj ≤ m − 2.

pro kaˇzdé j takové, ˇze 0 ≤ j ≤ c, dostáváme b(T ) ≤c +

c X

jmj = c +

j=0

c X j=0

c c+ (m − 2) a+c−1

j (a + j − 1)mj ≤ a+j−1

a lemma je dokázáno.

Vˇ eta (1). P ≤n

a

(2c − 1)St + cSp ≤ n + c +

c(n − 2) ; a+c−1

D˚ ukaz. Protoˇze kaˇzdá operace DELETE pouˇzije nejv´ yˇse jednu operaci Pˇ resun (a operace INSERT operaci Pˇ resun nepouˇz´ıvá) dostáváme, ˇze P ≤ poˇcet operac´ı DELETE ≤ n a prvn´ı nerovnost plat´ı. Abychom dokázali druhou nerovnost, spoj´ıme druhé tvrzen´ı v D˚ usledku 5 a Lemma 7 (Tk má nejv´ yˇse n list˚ u) (2c − 1)St + cSp − n ≤ b(Tk ) ≤ c + (n − 2)

c a+c−1

Odtud plyne poˇzadovaná nerovnost.

Lemma 8. Pro kaˇzdé h ≥ 1 a pro kaˇzdý (a, b)-strom T s m listy plat´ı h X l=1

bl (T )(c + 1)l ≤ (c + 1)m.

91

D˚ ukaz. Pro 0 ≤ j < c a pro libovolné h oznaˇcme mj (h) poˇcet vrchol˚ u ve v´ yˇsce h r˚ uzn´ ych od koˇrene, které maj´ı pˇresnˇe a + j syn˚ u, a mc (h) poˇcet vrchol˚ u ve v´ yˇsce h r˚ uzn´ ych od koˇrene, které maj´ı alespoˇ n a+c syn˚ u. Pak máme bh (T ) ≤ c X j=0

kde dodefinováváme

Pc

j=0

(a + j)mj (h) ≤

c X

j=0 c X j=0

jmj (h), mj (h − 1) pro kaˇzdé h ≥ 1,

mj (0) = m. Tyto vztahy pouˇzijeme v následuj´ıc´ım odhadu. Plat´ı

h X l=1

l

bl (T )(c + 1) ≤ h X

l=1

h X l

c X j=0

c X j=0

c X

jmj (l)

j=0

l=1

(c + 1)

(c + 1)

(c + 1)

l

mj (l − 1) − a h

mj (0) − (c + 1) a

c h−1 X X l+1 mj (l) − (c + 1) j=0

l=1

(c + 1)m,

c X

≤

mj (l)

j=0

c X

=

mj (h)+

j=0

c

a X mj (l) ≤ c + 1 j=0

P kde rovnost jsme z´ıskali pˇrerovnán´ım sˇc´ıtanc˚ u tak, aby v´ yrazy cj=0 mj (l) byly u sebe, a posledn´ı nerovnost a ≥ 1, a tedy druh´ y sˇc´ıtanec v pˇredchoz´ım v´ yrazu nen´ı kladn´ y. plyne z toho, ˇze c+1

Lemma 9. Sth + Sph ≤

n (c+1)h

+

(c+1)l l=1 bl (Tk ) (c+1)h+1

Ph

D˚ ukaz. V´ yraz z D˚ usledku 5 uprav´ıme (vyuˇz´ıváme, ˇze c ≥ 1): Sth + Sph ≤

bh (Tk ) Sth−1 + Sph−1 + ≤ c+1 c+1 bh (Tk ) bh−1 (Tk ) Sth−2 + Sph−2 + + ≤ ··· ≤ c+1 (c + 1)2 (c + 1)2 h−1 X bh−i (Tk ) n + = i+1 (c + 1) (c + 1)h i=0 h

X (c + 1)l n + . b (T ) l k (c + 1)h (c + 1)h+1 l=1

Vˇ eta (2). Sth + Sph + Ph ≤

2(c+2)n . (c+1)h

92

D˚ ukaz. Zkombinujeme pˇredchoz´ı dvˇe lemmata. Dostaneme

h

X n (c + 1)l Sth + Sph ≤ + ≤ b (T ) l k h+1 (c + 1)h (c + 1) l=1

n n(c + 1) 2n + = . h h+1 (c + 1) (c + 1) (c + 1)h

Protoˇze Ph ≤ Sph−1 − Sph ≤ Sth−1 + Sph−1 ≤ Sth + Sph + Ph ≤

2n (c+1)h−1

dostáváme, ˇze

2n 2n + 2n(c + 1) 2n + = = h h−1 (c + 1) (c + 1) (c + 1)h 2n(c + 2) (c + 1)h

D˚ usledek. Amortizovaný poˇcet vyvaˇzovac´ıch operac´ı splˇ nuje P + St + Sp 5 ≤ . n 2 D˚ ukaz. Z definice plyne, ˇze c ≥ 1, a protoˇze a ≥ 2, z vˇety (1) dostaneme St + Sp ≤

n−2 n−2 3n n +1+ ≤n+1+ ≤ . c a 2 2

Amortizovan´ y poˇcet vyvaˇzovac´ıch operac´ı splˇ nuje tedy 5 P + St + Sp ≤ . n 2

4.2.16

Omezen´ı ˇ stˇ epen´ı, spojov´ an´ı a pˇ resun˚ u – diskuze

Vˇeta vysvˇetluje, proˇc jsou doporuˇcené hodnoty b ≥ 2a – pak je poˇcet vyvaˇzovac´ıch operac´ı bˇehem posloupnosti operac´ı INSERT a DELETE lineárn´ı vzhledem k délce této posloupnosti. Pro b = 2a − 1 lze lehce nalézt posloupnost operac´ı INSERT a DELETE o délce n takovou, ˇze jej´ı aplikace na prázdn´ y (a, b)strom vyˇzaduje poˇcet vyvaˇzovac´ıch operac´ı u ´mˇern´ y n log n (pro kaˇzdé dostateˇcnˇe velké n). Podobná vˇeta plat´ı i pro paraleln´ı implementaci (a, b)-strom˚ u, ale plat´ı za pˇredpokladu b ≥ 2a + 2. Pro b = 2a nebo b = 2a + 1 lze nalézt posloupnost, která je protipˇr´ıkladem. Proto se doporuˇcuje hodnota b = 2a + 2 pro paraleln´ı implementaci (a, b)-stromu. Pro propojené (a, b)-stromy plat´ı silnˇejˇs´ı verze. Vˇ eta. Pˇredpokládejme, ˇze b ≥ 2a a a ≥ 2. Mˇejme hladinovˇe propojený (a, b)-strom s prstem T , který reprezentuje n-prvkovou mnoˇzinu. Pak posloupnost P operac´ı MEMBER, INSERT, DELETE a PRST aplikovaná na T vyˇzaduje ˇcas O(log(n) + ˇcas na vyhledán´ı prvk˚ u). 93

Vysvˇetlen´ı: Zaˇc´ınáme v libovolném propojeném (a, b)-stromˇe T , proto jeho struktura m˚ uˇze b´ yt nev´ yhodná pro danou posloupnost operac´ı P. Abychom se dostali do vhodného reˇzimu, m˚ uˇze b´ yt tˇreba aˇz log(n) ˇ vyvaˇzovac´ıch operac´ı. Cas na vyhledáván´ı nem˚ uˇzeme ovlivnit, ten mus´ı ovlivnit uˇzivatel. Aplikace: anal´ yza hladinovˇe propojen´ ych strom˚ u s prstem umoˇznila návrh algoritmu, kter´ y pro dvˇe mnoˇziny S1 a S2 reprezentované propojen´ ymi (a, b)-stromy, kde b ≥ 2a a a ≥ 2, zkonstruuje propojen´ y (a, b)-strom reprezentuj´ıc´ı mnoˇzinu S1 ∪ S2 (nebo mnoˇzinu ∆(S1 , S2 ) = (S1 \ S2 ) ∪ (S2 \ S1 ) nebo ), kde n = max{|S1 |, |S2 |} a m = min{|S1 |, |S2 |}. Detaily budou S1 ∩ S2 nebo S1 \ S2 ) v ˇcase O(log n+m m v letn´ım semestru. ˇ epen´ı(t) se provede, jen kdyˇz oba bratˇri Vyvaˇzován´ı pˇri operaci INSERT lze provádˇet tak, ˇze operace Stˇ vrcholu t maj´ı b syn˚ u. Jinak se provád´ı operace Pˇ resun. Nev´ım o ˇza´dném seriózn´ım pokusu tyto alternativy porovnat.

4.3

Bin´ arn´ı vyhled´ avac´ı stromy

Binárn´ı vyhledávac´ı strom je struktura pro binárn´ı vyhledáván´ı v uspoˇra´daném poli roztaˇzeném do roviny a vyhledáván´ı odpov´ıdá cestˇe ve stromˇe. 4.3.1

Form´ aln´ı definice

Pˇredpokládáme, ˇze U je lineárnˇe uspoˇra´dané univerzum a S ⊆ U . Binárn´ı vyhledávac´ı strom T reprezentuj´ıc´ı mnoˇzinu S je u ´pln´ y binárn´ı strom (tj. kaˇzd´ y vrchol je bud’ listem nebo má dva syny, levého a pravého), kde existuje bijekce mezi mnoˇzinou S a vnitˇrn´ımi vrcholy stromu taková, ˇze • kdyˇz v je vnitˇrn´ı vrchol stromu T , kterému je pˇriˇrazen prvek s ∈ S, pak kaˇzdému vnitˇrn´ımu vrcholu u v podstromu levého syna vrcholu v je pˇriˇrazen prvek z S menˇs´ı neˇz s a kaˇzdému vnitˇrn´ımu vrcholu w v podstromu pravého syna vrcholu v je pˇriˇrazen prvek z S vˇetˇs´ı neˇz s. Strukura vnitˇrn´ıho vrcholu v: • • • •

ukazatel otec(v) na otce vrcholu v ukazatel levy(v) na levého syna vrcholu v ukazatel pravy(v) na pravého syna vrcholu v atribut key(v) – prvek z S pˇriˇrazen´ y vrcholu v.

Kdyˇz v je koˇren stromu, pak hodnota ukazatele otec(v) je N IL. List má ukazatele pouze na otce. Kaˇzd´ y list reprezentuje interval mezi dvˇema sousedn´ımi prvky z S – pˇresnˇe, kdyˇz u je list a je lev´ ym synem vrcholu v, nalezneme vrchol na cestˇe z u do koˇrene nejbl´ıˇze u takov´ y, ˇze je prav´ ym synem vrcholu w. Pak u reprezentuje interval (key(w), key(v)) a kdyˇz vrchol w neexistuje, pak u reprezentuje interval (−∞, key(v)) a prvek key(v) je nejmenˇs´ı prvek v S. Kdyˇz u je list a je prav´ ym synem vrcholu v, nalezneme vrchol na cestˇe z u do koˇrene nejbl´ıˇze u takov´ y, ˇze je lev´ ym synem vrcholu w. Pak u reprezentuje interval (key(v), key(w)) a kdyˇz takov´ y vrchol w neexistuje, pak u reprezentuje interval (key(v), +∞) a prvek key(v) je nejvˇetˇs´ı prvek v S. Pˇri implementaci binárn´ıch vyhledávác´ıch strom˚ u je v´ yhodné vynechat listy (m´ısto nich bude ukazatel N IL). Pˇri návrhu algoritm˚ u je vˇsak naopak v´ yhodné pracovat s listy (vyhl´ıˇz´ı to logiˇctˇejˇs´ı). Proto pˇri návrhu algoritm˚ u budeme pˇredpokládat, ˇze stromy maj´ı listy reprezentuj´ıc´ı intervaly.

94

4.3.2

Algoritmy

Navrhneme algoritmy pro binárn´ı vyhledávac´ı stromy realizuj´ıc´ı operace z uspoˇra´daného slovn´ıkového problému. Vyhledej(x) t :=koˇren stromu while t nen´ı list a key(t) 6= x do if key(t) > x then t := levy(t) else t := pravy(t) endif enddo MEMBER(x) Vyhledej(x) if t nen´ı list then V´ ystup: x ∈ S else V´ ystup: x ∈ / S endif INSERT(x) Vyhledej(x) if t je list then t se zmˇen´ı na vnitˇrn´ı vrchol, key(t) := x, levy(t) a pravy(t) jsou nové listy, jejichˇz otcem je t endif DELETE(x) Vyhledej(x) if t nen´ı list then if levy(t) je list then odstran´ıme vrchol levy(t), otec(pravy(t)) := otec(t) if t = levy(otec(t)) then levy(otec(t)) := pravy(t) else pravy(otec(t)) := pravy(t) endif odstran´ıme vrchol t else u := levy(t) while pravy(u) nen´ı list do u := pravy(u) enddo key(t) := key(u), odstran´ıme vrchol pravy(u), otec(levy(u)) := otec(u) if u = levy(otec(u)) then levy(otec(u)) := levy(u) else pravy(otec(u)) := levy(u) endif odstran´ıme vrchol u endif endif

95

MIN t :=koˇren stromu while lev´ y syn t nen´ı list do t := levy(t) enddo V´ ystup: prvek reprezentovan´ y t je nejmenˇs´ı prvek v S MAX t :=koˇren stromu while prav´ y syn t nen´ı list do t := pravy(t) enddo V´ ystup: prvek reprezentovan´ y t je nejvˇetˇs´ı prvek v S SPLIT(x): T1 a T2 jsou prázdné stromy u1 := u2 := N IL t := koˇren stromu T while t nen´ı list a key(t) 6= x do if key(t) > x then u := levy(t), levy(t) := N IL, otec(u) := N IL if T2 je prázdn´ y strom then T2 := podstrom vrcholu t else levy(u2 ) := t, otec(t) := u2 endif u2 := t else u := pravy(t), pravy(t) := N IL, otec(u) := N IL if T1 je prázdn´ y strom then T1 := podstrom vrcholu t else pravy(u1 ) := t, otec(t) := u1 endif u1 := t endif t := u enddo if key(t) = x then otec(levy(t)) := u1 , pravy(u1 ) := levy(t) otec(pravy(t)) := u2 , levy(u2 ) := pravy(t) otec(u1 ) := N IL, otec(u2 ) := N IL, V´ ystup: x ∈ S else V´ ystup: x ∈ /S endif Komentáˇr: T1 je binárn´ı vyhledávac´ı strom reprezentuj´ıc´ı mnoˇzinu {s ∈ S | s < x} a T2 je binárn´ı vyhledávac´ı strom reprezentuj´ıc´ı mnoˇzinu {s ∈ S | s > x}. JOIN3(T1 , x, T2 ) – pˇredpokládáme, ˇze kdyˇz Ti reprezentuje mnoˇzinu Si pro i = 1, 2, pak max S1 < x < min S2 vytvoˇrme nov´ y vrchol u, key(u) = x, otec(u) := N IL, otec(koˇrene T1 ) := u, otec(koˇrene T2 ) := u, levy(u) :=koˇren T1 , pravy(u) :=koˇren T2 .

96

4.3.3

Korektnost

Abych dokázali korektnost algoritmu Vyhledej – jedná se o modifikaci vyhledáván´ı v uspoˇra´daném poli – pop´ıˇseme podrobnˇeji vlastnosti binárn´ıho vyhledávac´ıho stromu. Nejprve rozˇs´ıˇr´ıme universum o dva nové prvky, o nov´ y nejmenˇs´ı prvek −∞ a o nov´ y nejvˇetˇs´ı prvek +∞. Mˇejme binárn´ı vyhledávac´ı strom T reprezentuj´ıc´ı mnoˇzinu S, pak pro vrchol t stromu T definujeme indukc´ı hodnoty λ(t) a π(t). Kdyˇz r je koˇren, pak λ(r) = −∞ a π(r) = +∞. Kdyˇz hodnoty λ(t) a π(t) jsou pro vrchol t definovány, pak pro levého syna u vrcholu t definujeme λ(u) = λ(t) a π(u) = key(y) a pro pravého syna w vrcholu t definujeme λ(w) = key(t) a π(w) = π(t). Pozn. studenta - nejsp´ıˇs Lambda jako Lev´ y, Pi jako Prav´ y. Nyn´ı dokáˇzeme Lemma. Je-li T ′ podstrom bin´ arn´ıho vyhledávac´ıho stromu T urˇcený vrcholem t, pak T ′ reprezentuje mnoˇzinu S ∩ (λ(t), π(t)). Nav´ıc interval (λ(t), π(t)) je nejvˇetˇs´ı interval, který obsahuje jenom prvky z S, které jsou reprezentov´ any vrcholy podstromu T ′ . Nav´ıc, kdyˇz t je list, pak < λ(t), π(t) > je interval repreyentovaný listem t. D˚ ukaz. Tvrzen´ı dokáˇzeme indukc´ı. Zˇrejmˇe plat´ı, kdyˇz t je koˇren stromu T . Pˇredpokládejme, ˇze plat´ı pro vrchol t a dokáˇzeme ho pro syny vrcholu t. Oznaˇcme tl levého syna vrcholu t, tp pravého syna vrcholu t. Z definice binárn´ıho vyhledávac´ıho stromu stromu plyne, ˇze kdyˇz u je vnitˇrn´ı vrchol v podstromu T urˇceném vrcholem tl a kdyˇz v je vnitˇrn´ı vrchol v podstromu T urˇceném vrcholem tp , pak key(u) < key(t) < key(v). Nyn´ı platnost tvrzen´ı pro t implikuje platnost tvrzen´ı i pro vrcholy tl a tp .

Korektnost podprocedury Vyhledej plyne z následuj´ıc´ıho invariantu: Lemma. Kdyˇz pˇri vyhledáv´ an´ı x vyˇsetˇrujeme vrchol t, pak λ(t) < x < π(t). Toto tvrzen´ı se lehce dokáˇze indukc´ı z popisu algoritmu Vyhledej. Tedy operace Vyhledej je korektn´ı a korektnost operac´ı MEMBER a INSERT je ted’ zˇrejmá. V operaci DELETE, kdyˇz levy(t) je list, pak korektnost je zˇrejmá. Kdyˇz levy(t) nen´ı list, pak algoritmus nalezne list v takov´ y, ˇze π(v) = x. Pak pro u = otec(v) plat´ı v = pravy(u) a λ(v) = key(u) a (λ(v), π(v)) ∩ S = ∅. Kdyˇz y = key(u), pak odstranˇen´ı vrchol˚ u u a v dává binárn´ı vyhledávac´ı strom reprezentuj´ıc´ı S \ {y}. Protoˇze (y, x) ∩ S = ∅, tak pˇr´ıkaz key(t) := y dává binárn´ı vyhledávac´ı strom reprezentuj´ıc´ı S \ {x} a proto operace DELETE je korektn´ı. Korektnost operac´ı MIN, MAX a JOIN3 plyne z definice binárn´ıho vyhledavac´ıho stromu. Korektnost operace SPLIT plyne z korektnosti algoritmu Vyhledej a z faktu, ˇze u1 je otec nejpravˇejˇs´ıho listu stromu T1 a u2 je otec nejlevˇejˇs´ıho listu stromu T2 . Protoˇze ke stromu T1 se pˇridává ˇca´st stromu T reprezentuj´ıc´ı prvky, které jsou vˇetˇs´ı neˇz prvky reprezentované v T1 , a ke stromu T2 se pˇridává ˇca´st stromu T reprezentuj´ıc´ı prvky, které jsou menˇs´ı neˇz prvky reprezentované v T2 , korektnost algoritmu pro operaci SPLIT je jasná.

97

4.3.4

ˇ Casov´ a sloˇ zitost

Zpracován´ı jednoho vrcholu vyˇzaduje ˇcas O(1) a algoritmus se pohybuje po jedné cestˇe z koˇrene do nˇejakého listu. Oznaˇcme hloubka(T ) délku nejdelˇs´ı cesty z koˇrene do nˇejakého listu. Pak dostáváme Vˇ eta. Algoritmy pro operace MEMBER, INSERT, DELETE, MIN, MAX, JOIN3 a SPLIT v bin´ arn´ım vyhledávac´ım stromˇe T vyˇzaduj´ı ˇcas O(hloubka(T )). 4.3.5

Poˇ r´ adkov´ a statistika

Bohuˇzel ani struktura binárn´ıch vyhledávac´ıch strom˚ u nepodporuje efektivn´ı implementaci operace ord(k). Pro jej´ı efektivn´ı implentaci je vhodné rozˇs´ıˇrit datovou strukturu tak, ˇze u kaˇzdého vrcholu t je deklarován také u ´daj p(t) – poˇcet list˚ u v podstromu urˇceném vrcholem t. Po proveden´ı operac´ı INSERT, DELETE, JOIN3 a SPLIT je pak nutné aktualizovat tuto poloˇzku na cestˇe z vrcholu do koˇrene. Následuj´ıc´ı algoritmus pak realizuje operaci ord(k). ord(k) t :=koˇren stromu if k ≥ p(t) then k-t´ y prvek neexistuje, stop endif while true do if k > p(levy(t)) then k := k − p(levy(t)), t := pravy(t) else if k < p(levy(t) then t := levy(t) else key(t) je k-t´ y prvek reprezentované mnoˇziny, stop endif endif enddo Korektnost algoritmu plyne z následuj´ıc´ıho invariantu: Kdyˇz algoritmus má v daném okamˇziku v promˇenné t vrchol v a hodnota promˇenné k je k ′ , pak k-t´ y prvek v S se rovná k ′ -tému prvku v intervalu reprezentovaném v podstromu stromu T urˇceném vrcholem v. Protoˇze na poˇca´tku algoritmu je v koˇren stromu a interval je S (a k ′ = k), tak na poˇca´tku bˇehu algoritmu invariant plat´ı. Pˇredpokládejme, ˇze plat´ı v nˇekterém kroku. Necht’ u je lev´ y syn v, w je prav´ y syn v a Ia je interval reprezentovan´ y podstromem T urˇcen´ ym vrcholem a. Pak |Iu | = p(u) − 1, max Iu < key(v) < min Iw a Iv = Iu ∪ {key(v)} ∪ Iw . Odtud plyne, ˇze kdyˇz k ′ < p(u), pak k ′ -t´ y prvek v intervalu Iv je k ′ -t´ y prvek v intervalu Iu , kdyˇz k ′ > p(u), ′ ′ pak k -t´ y prvek v intervalu Iv je (k − p(u))-t´ y prvek v intervalu Iw , a kdyˇz k ′ = p(u), pak k ′ -t´ y prvek v intervalu Iv je key(v). Odtud plyne invariant a korektnost algoritmu. Podle stejn´ ych argument˚ u jako v pˇredchoz´ım pˇr´ıpadˇe dostaneme, ˇze ˇcasová sloˇzitost algoritmu je O(hloubka(T )). Tedy m˚ uˇzeme tato fakta shrnout. Vˇ eta. Algoritmy pro operace MEMBER, INSERT, DELETE, MIN, MAX, JOIN3, SPLIT a ord(k) pro vˇsechna k v rozˇs´ıˇrených bin´ arn´ıch vyhledávac´ıch stromech vyˇzaduj´ı ˇcas O(hloubka(T )), kde T je reprezentuj´ıc´ı strom. 4.3.6

Diskuze

Tento v´ ysledek motivuje pouˇz´ıván´ı binárn´ıch vyhledávac´ıch strom˚ u, které splˇ nuj´ı dalˇs´ı podm´ınku, která má zajistit, ˇze hloubka(T ) = O(log |S|). V takovémto pˇr´ıpadˇe mluv´ıme o vyv´ aˇzených bin´ arn´ıch vyhledávac´ıch stromech. Je vˇsak nutné pˇridat k operac´ım INSERT, DELETE, JOIN3 a SPLIT dalˇs´ı kroky, 98

které zaruˇc´ı, ˇze po jejich proveden´ı strom opˇet splˇ nuje poˇzadované podm´ınky. To vede k poˇzadavku, aby vyvaˇzovac´ı operace byly rychlé a provádˇelo se jich málo. Pˇri náhodné posloupnosti operac´ı INSERT a DELETE je velká pravdˇepodobnost, ˇze dostaneme náhodn´ y binárn´ı vyhledávac´ı strom. Je známo, ˇze oˇcekávaná hodnota promˇenné hloubka(T ) je O(log |S|). Protoˇze se nepouˇz´ıvaj´ı vyvaˇzovac´ı operace, m˚ uˇzeme dostat lepˇs´ı v´ ysledek (ˇcasovˇe) neˇz pro vyváˇzené binárn´ı vyhledávac´ı stromy. Tento problém se ted’ intenzivnˇe studuje. Velká pozornost je vˇenována pravdˇepodobnostn´ım modifikac´ım binárn´ıch vyhledávac´ıch strom˚ u. Hledaj´ı se vˇsak i dalˇs´ı moˇznosti. Studuj´ı se tzv. samoupravuj´ıc´ı struktury. Zde se pracuje s datovou strukturou bez dodateˇcn´ ych informac´ı, ale operace nad touto strukturou provád´ı vyvaˇzován´ı v závislosti na argumentu operace. Dokázalo se, ˇze existuje strategie vyvaˇzován´ı, která zajiˇst’uje dobré chován´ı bez ohledu na vstupn´ı data. Dalˇs´ı strategie je, ˇze se jen zjiˇst’uje, zda datová struktura nemá v´ yraznˇe ˇspatné chován´ı, a pokud ho má nebo po dlouhé ˇradˇe u ´spˇeˇsn´ ych aktualizaˇcn´ıch operac´ı se vybuduje nová datová struktura (s optimáln´ım chován´ım). Tˇret´ı, pomˇernˇe stará, strategie je zaloˇzena na pˇredpokladu, ˇze známe rozdˇelen´ı vstupn´ıch dat. Zde se datová struktura pˇredem upravuje pro toto rozdˇelen´ı. Ukazuje se, ˇze tyto strategie maj´ı u ´spˇech. Dalˇs´ı podrobnosti v letn´ım semestru. 4.3.7

Rotace

Nyn´ı si ukáˇzme dvˇe operace se stromy, na nichˇz jsou zaloˇzeny vyvaˇzovac´ı operace pro binárn´ı vyhledávac´ı stromy. Obˇe operace vyˇzaduj´ı ˇcas O(1). Mˇejme vrchol v binárn´ıho vyhledávac´ıho stromu T a jeho syna u, kter´ y je vnitˇrn´ı vrchol. Pak Rotace(v, u) je znázornˇena na obrázku 1 a provád´ı ji následuj´ıc´ı algoritmus. o

o

v

u u

v

A

C B

C

A

B

Obrázek 1: Rotace (v, u) Rotace(v, u) otec(u) := otec(v), if v = levy(otec(v)) then levy(otec(v)) := u else pravy(otec(v)) := u endif otec(v) := u if u = levy(v) then otec(pravy(u)) := v, levy(v) := pravy(u), pravy(u) := v else otec(levy(u)) := v, pravy(v) := levy(u), levy(u) := v endif Vˇsimnˇeme si, ˇze pˇri Rotace m˚ uˇzeme aktualizovat i funkci p. Pro vrchol w 6= u, v se jej´ı hodnota nemˇen´ı, 99

nová hodnota p(u) je rovná p˚ uvodn´ı hodnotˇe p(v) a novou hodnotu p(v) dostaneme jako p(levy(v)) + p(pravy(v)). Mˇejme vrchol w stromu T , jeho syna v a jeho syna u takového, ˇze u nen´ı list a v je prav´ y syn vrcholu w, právˇe kdyˇz u je lev´ y syn vrcholu v. Pak Dvojita-rotace(w, v, u) je znázornˇena na obrázku a provád´ı ji následuj´ıc´ı algoritmus. o w

o

v

u u

v

D

w

A B

C

A

B

C

D

Obrázek 2: Dvojita-rotace(w, v, u) Dvojita-rotace(w, v, u) otec(u) := otec(w) if w = levy(otec(w)) then levy(otec(w)) := u else pravy(otec(w)) := u endif otec(v) := u, otec(w) := u if v = levy(w) then levy(w) := pravy(u), otec(pravy(u)) := w, pravy(v) := levy(u) otec(levy(u)) := v, levy(u) := v, pravy(u) := w else pravy(w) := levy(u), otec(levy(u)) := w, levy(v) := pravy(u) otec(pravy(u)) := v, levy(u) := w, pravy(u) := v endif Také zde m˚ uˇzeme v ˇcase O(1) spoˇc´ıtat nové hodnoty p. Pro vrchol x 6= u, v, w se hodnota nemˇen´ı, nová hodnota p(u) je rovná p˚ uvodn´ı hodnotˇe p(w) a nové hodnoty p(v) a p(w) z´ıskáme podle stejného vzorce jako v Rotace. Dalˇs´ı kapitoly by technicky mˇely patˇrit pod binárn´ı stromy, pro pˇrehlednost jsem je ale nechal ve vlastn´ıch kapitolách.

4.4 4.4.1

AVL-stromy Definice

Binárn´ı vyhledávac´ı strom je AVL-strom, kdyˇz pro kaˇzd´ y vnitˇrn´ı vrchol v se délka nejdelˇs´ı cesty z jeho levého syna do listu a délka nejdelˇs´ı cesty z jeho pravého syna do listu liˇs´ı nejv´ yˇse o 1. Pro vnitˇrn´ı vrchol v stromu T oznaˇcme η(v) délku nejdelˇs´ı cesty z vrcholu v do listu. Struktura vnitˇrn´ıch vrchol˚ u v AVL-stromech je rozˇs´ıˇrena o hodnotu ω:

100

• ω(v) = −1, kdyˇz

η(lev´ y syn vrcholu v) = η(prav´ y syn vrcholu v) + 1;

• ω(v) = 0, kdyˇz

η(lev´ y syn vrcholu v) = η(prav´ y syn vrcholu v);

• ω(v) = +1, kdyˇz

η(lev´ y syn vrcholu v) + 1 = η(prav´ y syn vrcholu v).

Vˇsimnˇeme si, ˇze hodnota η(v) pro vnitˇrn´ı vrcholy v stromu T nen´ı nikde uloˇzena. Hodnoty η jsme schopni spoˇc´ıtat z hodnot ω, ale nen´ı to tˇreba. Staˇc´ı, kdyˇz po aktualizaˇcn´ıch operac´ıch budeme umˇet aktualizovat hodnoty ω a upravit binárn´ı vyhledávac´ı strom tak, aby byl opˇet AVL-strom. 4.4.2

Odhad v´ yˇ sky stromu

Odhad velikosti η(koˇren T ) =v´ yˇska stromu v závislosti na velikosti reprezentované mnoˇziny S. Pozorov´ an´ı. Kdyˇz T je AVL-strom a v je vnitˇrn´ı vrchol T , pak podstrom T urˇcený vrcholem v je opˇet AVL-strom. Definice. Oznaˇcme mn(i) velikost nejmenˇs´ı mnoˇziny reprezentované AVL-stromem T takovým, ˇze η(koˇren T ) = i. Definice. Oznaˇcme mx(i) velikost nejvˇetˇs´ı mnoˇziny reprezentované AVL-stromem T takovým, ˇze η(koˇren T ) = i. Pozorov´ an´ı. Z definice AVL-stromu plynou rekurze mn(i) = mn(i − 1) + mn(i − 2) + 1, mx(i) = 2mx(i − 1) + 1, a mn(1) = mx(1) = 1, mn(2) = 2, mx(2) = 3. Lemma (1). mx(i) = 2i − 1 D˚ ukaz. Tento vzorec je splnˇen pro i = 1, 2. Dále mx(i + 1) = 2mx(i) + 1 = 2(2i − 1) + 1 = 2i+1 − 1. T´ım je vzorec dokázán.

Abychom spoˇc´ıtali mn, pˇripomeneme si definici Fibonacciho ˇc´ısel. Definice. Fibonacciho ˇc´ıslo Fi je definov´ ano rekurenc´ı F1 = F2 = 1 a Fi+2 = Fi + Fi+1 pro vˇsechna i ≥ 3. √ i √ i 1+ 5 − 1−2 5 2 √ pro vˇsechna i ≥ 1 Lemma. Plat´ı Fi = 5 (dokáˇzeme si v ˇca´sti o haldách). 101

Lemma. Existuj´ı konstanty 0 < c1 < c2 takové, ˇze √ √ 1+ 5 i √ 1+ 5 i c1 ( ) < 5Fi < c2 ( ). 2 2 D˚ ukaz. Protoˇze −1 <

√ 1− 5 2

<0a

√ 1+ 5 2

> 1, dostáváme, ˇze √ √ 1 + 5 −n lim Fn 5( ) = 1. n7→∞ 2 √

Proto skuteˇcnˇe existuj´ı konstanty 0 < c1 < c2 takové, ˇze c1 ( 1+2 5 )i <

√

√

5Fi < c2 ( 1+2 5 )i .

Lemma (2). mn(i) = Fi+2 − 1 D˚ ukaz. Protoˇze F3 = 2 a F4 = 3, tvrzen´ı plat´ı pro i = 1 a i = 2. Dále mn(i + 2) =mn(i + 1) + mn(i) + 1 = Fi+3 − 1 + Fi+2 − 1 + 1 = Fi+4 − 1. Z toho indukc´ı plyne poˇzadovan´ y vztah.

Vˇ eta. i = Θ(log(n)) D˚ ukaz. Kdyˇz AVL-strom T o v´ yˇsce i reprezentuje mnoˇzinu S o velikosti n, pak plat´ı √ c1 1 + 5 i+2 √ ( ) − 1 < Fi+2 − 1 ≤ n ≤ 2i − 1. 2 5 Po zlogaritmován´ı z toho okamˇzitˇe dostáváme √ 1+ 5 c1 log( √ ) + (i + 2) log( ) < log(n + 1) < i. 2 5 √

1 Protoˇze log( 1+2 5 ) ≈ 0.69 ≈ 1.44 dostáváme, ˇze pro dostateˇcnˇe velká n plat´ı, ˇze 0.69i < log(n + 1) ≤ i. Odtud plyne, ˇze log(n + 1) ≤ i ≤ 1.44 log(n), a tedy i = Θ(log(n)).

η(koˇren T ) = Θ(log(n))

102

4.4.3

Algoritmy

Operace MEMBER(x) pro AVL-stromy je stejná jako operace MEMBER(x) pro nevyváˇzené binárn´ı vyhledávac´ı stromy. Aktualizaˇcn´ı operace pro AVL-stromy nejprve provedou pˇr´ısluˇsnou operaci pro nevyváˇzené binárn´ı vyhledávac´ı stromy a pak následuje jejich vyvaˇzovac´ı ˇca´st. Pˇri u ´spˇeˇsnˇe provedené operaci INSERT(x) v nevyváˇzen´ ych binárn´ıch stromech zmˇen´ıme vhodn´ y list t na vnitˇrn´ı vrchol stromu reprezentuj´ıc´ı x a pˇridáme k t dva syny, kteˇr´ı budou listy. D˚ usledkem je, ˇze ’ definujeme ω(t) = 0. Protoˇze se vˇsak zvˇetˇsila hodnota η(t) (bylo η(t) = 0 a ted je η(t) = 1), zavoláme proceduru Kontrola-INSERT(t), která zajist´ı správnou hodnotu funkce ω pro otce t. Nav´ıc, kdyˇz zjist´ı, ˇze se zvˇetˇsila hodnota η vrcholu otce t, pak zavolá sama sebe na vrchol otec t. Nejprve provedeme anal´ yzu situace. Mˇejme vrchol t, jeho η(t) = a (ale a neznáme), na zaˇca´tku operace INSERT bylo η(t) = a − 1. V podstromu urˇceném vrcholem t máme uˇz správné hodnoty ω. Vrchol v je otcem t, t = levy(v) a ω(v) má jeˇstˇe p˚ uvodn´ı hodnotu. Lemma. Kdyˇz se hodnota η(t) pˇri operaci INSERT zvˇetˇsila a t nebyl listem pˇred operaci, pak po operaci neplat´ı ω(t) = 0. D˚ ukaz. Skuteˇcnˇe, aby se zvˇetˇsila, mus´ı se zmˇenit z nuly na jednu ze stran.

Oznaˇcme u = pravy(v) – tj. v má dˇeti t, u, η(t) jsme právˇe zmˇenili z a − 1 na a a jdeme ˇreˇsit v: 1. ω(v) = 1, tj. pˇredt´ım byl prav´ y syn u vˇetˇs´ı – η(u) = a. Staˇc´ı poloˇzit ω(v) = 0, protoˇze synové jsou stejnˇe velc´ı, a η(v) = a + 1 se nezmˇenilo, takˇze zmˇena se nepropaguje v´ yˇs. 2. ω(v) = 0, tj. pˇredt´ım byl prav´ y syn u stejn´ y – η(u) = a − 1. Protoˇze jsme zvˇetˇsili levou stranu, poloˇz´ıme ω(v) = −1.

Protoˇze jsme zvˇetˇsili η(v) = a + 1, mus´ıme zavolat proceduru Kontrola-INSERT na vrchol v. 3. ω(v) = −1, pak máme problém – pˇredt´ım byl lev´ y syn vˇetˇs´ı a my jsme ho jeˇstˇe zvˇetˇsili (tj. η(u) = a−2 a η(v) = a + 1 se zmˇenilo). Takˇze ω(v) = −2 a to je zakázané. Oznaˇcme t1 = levy(t), t2 = pravy(t) (t je naposledy upravovan´ y vrchol) a podle toho, jaké je ω(t) budeme postupovat dál (ω(t) = 0 nenastane, viz Lemma). (a) ω(t) = −1, m˚ uˇzeme provést jednoduchou rotaci Rotace(v, t), tj. t p˚ ujde nahoru“, lev´ y syn ” z˚ ustane t1 , prav´ y syn bude v, kter´ y bude m´ıt za levého syna t2 . Pak staˇc´ı poloˇzit ω(v) = ω(t) = 0, nic nepropagujeme v´ yˇs. (b) ω(t) = 1 – jednoduchou rotaci neprovedeme, protoˇze by se levá vˇetev“ pˇr´ıliˇs zkrátila. Udˇeláme ” tedy Dvojita-rotace(v, t, t2 ) – t2 p˚ ujde nahoru“, zavˇes´ı se za nˇej v a t a rozdˇel´ı si jeho dˇeti“. ” ” Mus´ıme udˇelat anal´ yzu pro vˇsechny tˇri pˇr´ıpady ω(t2 ). i. ω(t2 ) = 1 =⇒ η(t3 ) = a − 3 a η(t4 ) = a − 2 a staˇc´ı poloˇzit ω(t) = −1, ω(v) = ω(t2 ) = 0, protoˇze η(t2 ) = a. ii. ω(t2 ) = 0 =⇒ η(t3 ) = η(t4 ) = a − 2 a staˇc´ı poloˇzit ω(t2 ) = ω(v) = ω(t) = 0, protoˇze η(t2 ) = a. 103

iii. ω(t2 ) = −1 =⇒ η(t3 ) = a − 2 a η(t4 ) = a − 3 a staˇc´ı poloˇzit ω(v) = 1, ω(t2 ) = ω(t) = 0, protoˇze η(t2 ) = a. Kdyˇz t je prav´ y syn v, pak situace je symetrická. Pop´ıˇseme proceduru Kontrola-INSERT (vycház´ı z anal´ yzy v´ yˇse) Kontrola-INSERT(t) v := otec(t) if t = levy(v) then Leva-Kontrola-INSERT(t) else Prava-Kontrola-INSERT(t) endif Leva-Kontrola-INSERT(t) if ω(v) = 1 then ω(v) := 0 else if ω(v) = 0 then ω(v) := −1, t := v, Kontrola-INSERT(t) else if ω(t) = −1 then Rotace(v, t), ω(v) := 0, ω(t) := 0 else w := pravy(t), Dvojita-rotace(v, t, w), if ω(w) = 0 then ω(t) := 0, ω(v) := 0 else if ω(w) = 1 then ω(v) := 0, ω(t) := −1 else ω(v) := 1, ω(t) := 0 endif endif ω(w) := 0 endif endif endif

104

Prava-Kontrola-INSERT(t) if ω(v) = −1 then ω(v) := 0 else if ω(v) = 0 then ω(v) := 1, t := v, Kontrola-INSERT(t) else if ω(t) = 1 then Rotace(v, t), ω(v) := 0, ω(t) := 0 else w := levy(t), Dvojita-rotace(v, t, w), if ω(w) = 0 then ω(t) := 0, ω(v) := 0 else if ω(w) = 1 then ω(v) := 0, ω(t) := −1 else ω(v) := 1, ω(t) := 0 endif endif ω(w) := 0 endif endif endif Vˇsimnˇeme si, ˇze po proveden´ı Rotace nebo Dvojita-rotace vyvaˇzován´ı v operaci INSERT konˇc´ı. Tedy operace INSERT provád´ı nejv´ yˇse jednu proceduru Rotace nebo Dvojita-rotace. Korektnost vyvaˇzovac´ı operace je zaloˇzena na faktu, ˇze kdyˇz se zvˇetˇs´ı hodnota η(t), pak nem˚ uˇze b´ yt ω(t) = 0. Pop´ıˇseme vyvaˇzovac´ı operaci pro operaci DELETE. Pˇredpokládejme, ˇze t je vrchol, jehoˇz otec se odstranil (tj. bratr t byl list) a hodnota η(t) je menˇs´ı neˇz byla hodnota η(otec(t)). Proto zavoláme proceduru Kontrola-DELETE(t). Tato procedura zajist´ı správnou hodnotu funkce ω pro otce t. Nav´ıc, kdyˇz zjist´ı, ˇze se zmenˇsila hodnota η vrcholu otce t, pak zavolá sama sebe na vrchol otec t. Pop´ıˇseme anal´ yzu situace, na n´ıˇz je zaloˇzena korektnost procedury Kontrola-DELETE(t). V anal´ yze je d˚ uleˇzité, ˇze kdyˇz procedura Kontrola-DELETE pˇresune vrchol x na m´ısto vrcholu y, pak skuteˇcná hodnota η(x) je bud’ p˚ uvodn´ı hodnota η(y) nebo je pˇresnˇe o 1 menˇs´ı. Vˇsimnˇete si, ˇze to plat´ı. Dán vrchol t, jehoˇz hodnota η(t) se zmenˇsila (o 1). V podstromu urˇceném vrcholem t jsou hodnoty ω aktualizovány, v = otec(t) a ω(v) je p˚ uvodn´ı. Pˇredpokládejme t = levy(v), u = pravy(v) a η(t) = a (a je neznámé). Nastávaj´ı pˇr´ıpady: 1. kdyˇz ω(v) = 0, tak jsme jen z vyváˇzeného“ vrcholu udˇelali nevyváˇzen´ y, tedy η(u) = a + 1 a ” η(v) = a + 2. Staˇc´ı poloˇzit ω(v) = 1 a skonˇcit. 2. Kdyˇz ω(v) = −1, tak jsme strom, vych´ ylen´ y“ doleva narovnali“ - tj. zmˇen´ıme ˇc´ıslo a propagujeme ” ” v´ yˇs. Tedy η(u) = a a η(v) = a + 2. Nyn´ı poloˇz´ıme ω(v) = 0 a zavoláme proceduru Kontrola-DELETE na vrchol v.

105

3. Kdyˇz ω(v) = 1, máme problém - ub´ıráme na uˇz kratˇs´ım konci. Opˇet vezmeme u1 = levy(u), u2 = pravy(u) a opˇet se podle ω(u) rozhodneme, co budeme dˇelat. (a) ω(u) = 1 =⇒ η(u1 ) = a, η(u2 ) = a + 1. Provedeme Rotace(v, u). Vrchol u1 je druh´ ym synem v a plat´ı η(t) = η(u1 ) = a, η(v) = η(u2 ) = a + 1 a η(u) = a + 2. Tedy poloˇzme ω(v) = ω(u) = 0 a zavolejme Kontrola-DELETE na vrchol u. (b) ω(u) = 0 =⇒ η(u1 ) = η(u2 ) = a + 1. Provedeme Rotace(v, u). Vrchol u1 je druh´ ym synem v a plat´ı η(t) = a, η(u1 ) = a + 1 = η(u2 ), η(v) = a + 2, η(u) = a + 3. Poloˇzme ω(v) = 1, ω(u) = −1 a konˇc´ıme. (c) ω(u) = −1 =⇒ η(u1 ) = a + 1, η(u2 ) = a. Provedeme Dvojita-rotace(v, u, u1 ). Opˇet ˇreˇs´ıme v´ıce pˇr´ıpad˚ u podle ω(u) = 1 u3 = levy(u1 ), u4 = pravy(u1 )

i. ω(u1 ) = −1 =⇒ η(u3 ) = a, η(u4 ) = a − 1 a tedy η(v) = η(u) = a + 1 a η(u1 ) = a + 2. Proto poloˇz´ıme ω(v) = ω(u1 ) = 0, ω(u) = 1 a zavoláme proceduru Kontrola-DELETE na vrchol u1 . ii. ω(u1 ) = 0 =⇒ η(u3 ) = η(u4 ) = a a tedy η(v) = η(u) = a + 1 a η(u1 ) = a + 2. Proto poloˇz´ıme ω(v) = ω(u1 ) = ω(u) = 0 a zavoláme proceduru Kontrola-DELETE na vrchol u1 . iii. ω(u1 ) = 1 =⇒ η(u3 ) = a − 1, η(u4 ) = a a tedy η(v) = η(u) = a + 1 a η(u1 ) = a + 2. Proto poloˇz´ıme ω(u) = ω(u1 ) = 0, ω(v) = −1 a zavoláme proceduru Kontrola-DELETE na vrchol u1 . Kontrola-DELETE(t) v := otec(t) if t = levy(v) then Leva-Kontrola-DELETE else Leva-Kontrola-DELETE endif

106

Leva-Kontrola-DELETE(t) if ω(v) = 1 then u := pravy(v) if ω(u) ≥ 0 then Rotace(v, u) if ω(v) = 0 then ω(v) := 1, ω(u) := −1 else ω(u) := ω(v) := 0, t := u, Kontrola-DELETE(t) endif else w := levy(u), Dvojita-rotace(v, u, w) if ω(w) = 1 then ω(u) := 0, ω(v) := −1 else if ω(w) := 0 then ω(u) := 0, ω(v) := 0 else ω(u) := 1, ω(v) := 0 endif endif ω(w) := 0, t := w, Kontrola-Delete(t) endif else if ω(v) = 0 then ω(v) := 1 else ω(v) := 0, t := v, Kontrola-DELETE(t) endif

107

Prava-Kontrola-DELETE(t) if ω(v) = −1 then u := levy(v) if ω(u) ≤ 0 then Rotace(v, u) if ω(u) = 0 then ω(v) := −1, ω(u) := 1 else ω(u) := ω(v) := 0, t := u, Kontrola-DELETE(t) endif else w := pravy(u), Dvojita-rotace(v, u, w) if ω(w) = 1 then ω(u) := −1, ω(v) := 0 else if ω(w) := 0 then ω(u) := 0, ω(v) := 0 else ω(u) := 0, ω(v) := 1 endif endif ω(w) := 0, t := w, Kontrola-Delete(t) endif else if ω(v) = 0 then ω(v) := −1 else ω(v) := 0, t := v, Kontrola-DELETE(t) endif endif V operaci DELETE se m˚ uˇze stát, ˇze procedury Rotace nebo Dvojita-rotace jsou volány aˇz log(|S|)krát. To je v´ yrazn´ y rozd´ıl proti operaci INSERT. Proto operace DELETE je pomalejˇs´ı neˇz operace INSERT, i kdyˇz asymptoticky jsou stejnˇe rychlé. Korektnost se ovˇeˇr´ı pˇr´ımo. Vˇ eta. Datová struktura AVL-strom umoˇzn ˇuje implementaci operac´ı MEMBER, INSERT a DELETE, které vyˇzaduj´ı ˇcas O(log(|S|)) (kde S je reprezentovaná mnoˇzina). Operace INSERT zavolá nejvýˇse jednu proceduru Rotace nebo Dvojita-rotace.

4.5 4.5.1

ˇ Cerveno-ˇ cern´ e stromy Definice

Binárn´ı vyhledávac´ı strom T reprezentuj´ıc´ı mnoˇzinu S, jehoˇz vrcholy jsou obarveny ˇcervenˇe nebo ˇcernˇe (kaˇzd´ y vrchol má právˇe jednu barvu) tak, ˇze jsou splnˇeny podm´ınky: • listy jsou obarveny ˇcernˇe, • kdyˇz v je vrchol obarven´ y ˇcervenˇe, pak je bud’ koˇren stromu nebo jeho otec je obarven ˇcernˇe, • vˇsechny cesty z koˇrene do list˚ u maj´ı stejn´ y poˇcet ˇcern´ ych vrchol˚ u 108

se naz´ yvá ˇcerveno-ˇcerný strom. Pozn studenta – já sám to vˇzdycky chápu tak, ˇze ˇcervené vrcholy jsou ˇspatné“ a ukazuj´ı nám odchylku ” od perfektn´ı vyváˇzenosti, takˇze jich tam nesm´ı b´ yt moc. 4.5.2

Vyv´ aˇ zenost

Nejprve ukáˇzeme, ˇze ˇcerveno-ˇcerné stromy jsou vyváˇzené stromy, tj. hloubka(T ) = O(log(|S|). Vˇ eta. Kdyˇz ˇcerveno-ˇcerný strom T reprezentuje mnoˇzinu S, pak hloubka(T ) ≤ 2 log(2|S| + 2) = 1 + log(|S| + 1). D˚ ukaz. Pˇredpokládejme, ˇze T je ˇcerveno-ˇcern´ y strom, kter´ y má na cestˇe z koˇrene do listu právˇe k ˇcern´ ych vrchol˚ u. Pak pro poˇcet vrchol˚ u #T stromu T plat´ı 2k − 1 ≤ #T ≤ 22k − 1. Nejmenˇs´ı takov´ y strom má vˇsechny vrcholy ˇcernˇe obarvené a je to u ´pln´ y pravideln´ y binárn´ı strom o v´ yˇsce k − 1, coˇz dává doln´ı odhad. Nejvˇetˇs´ı takov´ y strom má vˇsechny vrcholy v sud´ ych hladinách obarveny ˇcervenˇe a v lich´ ych hladinách ˇcernˇe, je to u ´pln´ y pravideln´ y binárn´ı strom o v´ yˇsce 2k − 1 a t´ım je dán horn´ı odhad. Tedy k ≤ log(1 + #T ) ≤ 2k. Protoˇze velikost S je poˇcet vnitˇrn´ıch vrchol˚ u, dostáváme, ˇze #T = 2|S| + 1. Z vlastnost´ı ˇcerveno-ˇcern´ ych strom˚ u plyne, ˇze k ≤ hloubka(T ) ≤ 2k.

4.5.3

Popis algoritm˚ u (kromˇ e vyvaˇ zov´ an´ı)

Pro ˇcerveno-ˇcerné stromy navrhneme algoritmy realizuj´ıc´ı operace z uspoˇra´daného slovn´ıkového problému. Operace MEMBER pro ˇcerveno-ˇcerné stromy je stejná jako pro nevyváˇzené binárn´ı vyhledávac´ı stromy. Operace INSERT a DELETE maj´ı dvˇe ˇca´sti: nejprve se provede operace INSERT nebo DELETE pro nevyváˇzené binárn´ı vyhledávac´ı stromy a pak následuj´ı vyvaˇzovac´ı operace, které zajist´ı, ˇze v´ ysledn´ y strom splˇ nuje podm´ınky pro ˇcerveno-ˇcerné stromy (stejné schéma jako pro AVL-stromy). Schéma operac´ı JOIN a SPLIT bude vycházet z jejich realizac´ı v (a, b)-stromech. V operaci JOIN prohledáván´ım nalezneme m´ısto, kde se stromy daj´ı spojit (a aplikujeme operaci JOIN pro nevyváˇzené binárn´ı vyhledávac´ı stromy), a pak pouˇzijeme vyvaˇzovac´ı operace. Algoritmus operace SPLIT rozdˇel´ı ˇcerveno-ˇcern´ y strom do nˇekolika menˇs´ıch podle cesty vyhledávaj´ıc´ı x (podobnˇe jako v (a, b)-stromech) a na tyto stromy pak aplikuje operaci JOIN a zkonstruuje hledané ˇcerveno-ˇcerné stromy. Algoritmy pro operace MIN a MAX jsou stejné jako pro nevyváˇzené binárn´ı vyhledávac´ı stromy.

109

4.5.4

Vyvaˇ zovac´ı operace

Nejprve pop´ıˇseme vyvaˇzovac´ı operace. Definice. Dvojice (T, v) se nazýv´ a 2-parciáln´ı ˇcerveno-ˇcern´ y strom, kdyˇz T je bin´ arn´ı vyhledávac´ı strom, kaˇzdý vrchol je obarven ˇcervenˇe nebo ˇcernˇe, v je vnitˇrn´ı vrchol stromu T obarvený ˇcervenˇe a plat´ı: • listy jsou obarveny ˇcernˇe, • kdyˇz t je vrchol obarvený ˇcervenˇe, pak je bud’ koˇren stromu nebo t = v nebo jeho otec je obarven ˇcernˇe, • vˇsechny cesty z koˇrene do list˚ u maj´ı stejný poˇcet ˇcerných vrchol˚ u. Tj. jde opˇet o o 1 ˇspatn´ y“ ˇcerveno-ˇcern´ y strom. ” Vyvaˇzován´ı 2-parciáln´ıho ˇcerveno-ˇcerného stromu (T ′ , v) provád´ı procedura Vyvaz-INSERT(v). Po jej´ım proveden´ı bud’ dostaneme ˇcerveno-ˇcern´ y strom nebo je procedura Vyvaz-INSERT zavolána na vrchol v ′ takov´ y, ˇze (T ′ , v ′ ) je 2-parciáln´ı ˇcerveno-ˇcern´ y strom a v ′ je dˇed v (tj. je o dvˇe hladiny bl´ıˇz ke koˇreni neˇz vrchol v). Definice. Obarven´ı je realizováno rozˇs´ıˇren´ım struktury vrcholu v o boolskou promˇennou b(v), kde b(v) = 0 znamená, ˇze v je obarven ˇcervenˇe, a b(v) = 1 znamená, ˇze v je obarven ˇcernˇe. Rozebereme pˇr´ıpady. Na obrázku b znaˇc´ı ˇcernou barvu a r znaˇc´ı ˇcervenou barvu. Otec vrcholu w je oznaˇcen t.

t,r

t,b u,r

w,r

u,b v,r

A B

w,b v,r

A

C

B

C

Obrázek 3

t,b

w,b w,r

u,b

v,r

t,r v,r

u,b

A

C B

C

A

Obrázek 4

1. Pokud je otec ˇcern´ y, nic neˇreˇs´ım. 110

B

t,b w,r

u,b v,r

D

v,b w,r

t,r u,b

A B

C

A

B

C

D

Obrázek 5 2. Pokud je otec koˇren, nemus´ıme nic ˇreˇsit a zmˇen´ıme otcovi barvu. 3. Tedy otec je urˇcitˇe ˇcerven´ y a nen´ı koˇren. 4. Pokud je str´ yc také ˇcerven´ y, pˇrebarv´ıme otce i str´ yce ( celou generaci“), ale kv˚ uli poˇct˚ um mus´ıme ” pˇrebarvit i dˇeda a propagovat v´ yˇse. (Viz obrázek 3) 5. Pokud je str´ yc ˇcerven´ y, pˇrebarvit generaci nem˚ uˇzeme – m´ısto toho udˇeláme rotaci. Pokud t − w − v je rovná“, udˇeláme jednoduchou rotaci (obrázek 4), pokud je lomená“, udˇeláme dvojitou rotaci ” ” (obrázek 5); potom pˇrebarv´ıme tak, aby v ˇza´dné cestˇe nepˇribyl ˇcern´ y uzel. Pop´ıˇseme formálnˇe proceduru Vyvaz-INSERT(v) (pˇredpokládáme, ˇze v je obarven ˇcervenˇe). Pro zjednoduˇsen´ı s(v) = levy, kdyˇz v = levy(otec(v)), a s(v) = pravy pro v = pravy(otec(v)). Vyvaz-INSERT(v). if v nen´ı koˇren T ′ a b(otec(v)) = 0 then if otec(v) je koˇren then b(otec(v)) := 1 else w := otec(v), u := bratr(w) if b(u) = 0 then v := otec(w), b(w) := 1, b(u) := 1 b(v) := 0, Vyvaz-INSERT(v) (Viz Obrázek 3) else t := otec(w) if s(w) = s(v) then Rotace(t, w), b(t) := 0, b(w) := 1 (Viz Obrázek 4) else Dvojita-rotace(t, w, v), b(t) := 0, b(v) := 1 (Viz Obrázek 5) endif endif endif endif 2-parciáln´ı ˇcerveno-ˇcerné stromy vznikaj´ı pˇri operac´ıch INSERT a JOIN. Pˇri operaci DELETE se poruˇs´ı struktura ˇcerveno-ˇcern´ ych strom˚ u jin´ ym zp˚ usobem a vznikne 3-parciáln´ı ˇcerveno-ˇcern´ y strom. ˇ Rekneme, ˇze dvojice (T, v) je 3 -parciáln´ı ˇcerveno-ˇcerný strom, kdyˇz T je binárn´ı vyhledávac´ı strom, kaˇzdému vrcholu je pˇriˇrazena právˇe jedna z dvojice barev ˇcervená – ˇcerná, v je vrchol ve stromu T a plat´ı následuj´ıc´ı podm´ınky: • listy a vrchol v jsou obarveny ˇcernˇe, 111

• kdyˇz t je vrchol obarven´ y ˇcervenˇe, pak je bud’ koˇren stromu nebo jeho otec je obarven ˇcernˇe, • existuje ˇc´ıslo k takové, ˇze vˇsechny cesty z koˇrene do list˚ u, které neobsahuj´ı vrchol v, obsahuj´ı právˇe k ˇcern´ ych vrchol˚ u, a vˇsechny cesty z koˇrene do list˚ u procházej´ıc´ı vrcholem v obsahuj´ı k − 1 ˇcern´ ych vrchol˚ u. Rozd´ıl je v tom, ˇze u 2-parciáln´ıch jsme slevili“ na následnosti ˇcerven´ ych, naopak tady slevujeme na ” stejném poˇctu ˇcern´ ych vrchol˚ u. Rozebereme pˇr´ıpady. V následuj´ıc´ıch obrázc´ıch jsou vrcholy, které nemaj´ı specifikovanou barvu (mohou b´ yt jak ˇcervené tak ˇcerné). Tyto barvy budeme oznaˇcovat a, a′ . D˚ uvod je, ˇze se tato barva m˚ uˇze pˇrenést do c´ılového stromu, ale i na jin´ y vrchol. V tomto smyslu jsou tyto barvy urˇceny vstupn´ım stromem a specifikuj´ı tyto barvy v c´ılovém stromˇe. V Obr. 7 se barva a v c´ılovém stromˇe neobjevuje.

t,b

u,b u,r

v,b

t,r v,b

A

C B

C

A

B

Obrázek 6

t,a

t,b

v,b w1 ,b

A

B

u,r

v,b

u,b w2 ,b

w1 ,b

A B

C

w2 ,b C

Obrázek 7

u,a

t,a v,b

u,b

t,b w2 ,r

w1 ,b

w2 ,b

v,b

w1 ,b

A

C B

C

A

B

Obrázek 8 1. pokud máme ˇcerveného bratra, udˇeláme rotaci, abychom ho mˇeli ˇcerného (algoritmus ale nekonˇc´ı). Obr. 6 112

t,a u,b w2 ,a’

w1 ,a

v,b w1 ,r

u,b

D

t,b

w2 ,a’

A B

C

A

v,b B

C

D

Obrázek 9 2. tedy bratr je ˇcern´ y. Pokud oba synovce ˇcerné, m˚ uˇzu bratra pˇrebarvit na ˇcerveno (Obr. 7) a: (a) Pokud je otec ˇcerven´ y, pˇrebarv´ıme ho na ˇcerno a problém˚ u jsme se zbavili: v cestách v podstromu v je o jednoho ˇcerného v´ıc, kdeˇzto v cestách jeho bratra nic nepˇribylo. (b) Pokud je otec ˇcern´ y, problém˚ u jsme se nezbavili, ale naopak jsme je pˇridali i do cest v bratru, tedy m˚ uˇzeme je delegovat o stupeˇ n v´ yˇs. 3. Pokud nejsou oba synovce ˇcerné, ale synovec bl´ıˇz ke mˇe“ ˇcern´ y je, udˇelám takovou rotaci, aby se ” stal m´ ym bratrem, a pˇrebarv´ıme tak, aby se jednak problémy vyˇreˇsily, ale aby vrˇsek“ vˇseho z˚ ustal ” stejn´ y. (Obr. 8) 4. Pokud nejsou oba synovce ˇcerné a synovec bl´ıˇz ke mˇe“ je ˇcerven´ y, udˇelám takovou rotaci, aby byl ” nahoˇre“, a takové pˇrebarven´ı, aby se problém vyˇreˇsil, ale vrˇsek“ byl poˇra´d stejn´ y. (Obr. 9) ” ” Formálnˇe op´ıˇseme proceduru Vyvaz-DELETE(v), která se pouˇzije na 3-parciáln´ı ˇcerveno-ˇcern´ y strom (T, v), kdyˇz v nen´ı jeho koˇren. V´ ysledkem procedury bude bud’ ˇcerveno-ˇcern´ y strom nebo zavolán´ı proce′ ′ dury Vyvaz-DELETE(v ), kde v je otcem vrcholu v. Z faktu, ˇze kdyˇz (T, v) je 3-parciáln´ı ˇcerveno-ˇcern´ y strom a v je jeho koˇren, pak T je ˇcerveno-ˇcern´ y strom, plyne, ˇze aplikac´ı Vyvaz-DELETE(v) na 3parciáln´ı ˇcerveno-ˇcern´ y strom (T, v) dostaneme ˇcerveno-ˇcern´ y strom.

113

Vyvaz-DELETE(v) u := bratr(v), t := otec(v) if b(u) = 0 then Rotace(t, u), b(u) := 1, b(t) := 0, u := bratr(v) endif (Viz Obr. 6, Komentáˇr: nyn´ı b(u) = 1) w1 je syn u takov´ y, ˇze s(v) = s(w1 ), w2 := bratr(w1 ) if b(w1 ) = b(w2 ) = 1 then b(u) := 0 if b(t) := 0 then b(t) := 1 else if t nen´ı koˇren stromu then v := t, Vyvaz-DELETE(v) endif endif (Viz Obr. 7) else if b(w1 ) = 1 then (Komentáˇr: b(w2 ) = 0) Rotace(t, u), b(w2 ) := 1, b(u) := b(t), b(t) := 1 (Viz Obr. 8) else Dvojita-rotace(t, u, w1 ), b(w1 ) := b(t), b(t) := 1 (Viz Obr. 9) endif endif 4.5.5

Popis nevyvaˇ zovac´ıch operac´ı

Nyn´ı pop´ıˇseme algoritmy realizuj´ıc´ı operace INSERT, DELETE, JOIN3 a SPLIT pro ˇcerveno-ˇcerné stromy. Pˇredpokládejme, ˇze T je ˇcerveno-ˇcern´ y strom reprezentuj´ıc´ı mnoˇzinu S a provád´ıme operaci INSERT(x) pro x ∈ / S. Kdyˇz operace INSERT(x) pro nevyváˇzené binárn´ı vyhledávac´ı stromy vytvoˇr´ı strom T ′ , kde vrchol v reprezentuje x, pak v obarv´ıme ˇcervenˇe a syny v (jsou to listy) obarv´ıme ˇcernˇe. Dostáváme, ˇze (T ′ , v) je 2-parciáln´ı ˇcerveno-ˇcern´ y strom, a pak aplikujeme proceduru Vyvaz-INSERT. Operace INSERT v ˇcerveno-ˇcern´ ych stromech volá nejv´ yˇse 2 + log(|S|)-krát proceduru Vyvaz-INSERT a provede nejv´ yˇse jednu rotaci nebo dvojitou rotaci. Operace DELETE je ˇreˇsena stejn´ ym zp˚ usobem jako operace INSERT, ale pˇri operaci DELETE je poruˇsena tˇret´ı podm´ınka v definici ˇcerveno-ˇcern´ ych strom˚ u a vyvaˇzován´ı je technicky nároˇcnˇejˇs´ı. Pˇredpokádejme, ˇze T je ˇcerveno-ˇcern´ y strom. Kdyˇz chceme provést operaci DELETE, pak nejprve provedeme algoritmus DELETE pro nevyváˇzené binárn´ı vyhledávac´ı stromy. Pˇri provádˇen´ı jsme odstranili vrchol u a jeho syna w, kter´ y je list. Na m´ısto vrcholu u se dostal jeho druh´ y syn v, kter´ y obarv´ıme ˇcernˇe. Pak jsou splnˇeny prvn´ı dvˇe podm´ınky v definici ˇcerveno-ˇcern´ ych strom˚ u a pokud vrchol u nebo vrchol v byl obarven ˇcervenˇe, pak je splnˇena i tˇret´ı podm´ınka. Pokud vrchol u i vrchol v byly obarveny ˇcernˇe, pak kaˇzdá cesta z koˇrene do listu obsahuj´ıc´ı vrchol v má o jeden ˇcern´ y vrchol ménˇe neˇz cesta z koˇrene do listu neobsahuj´ıc´ı vrchol v (chyb´ı ˇcern´ y vrchol u), a tedy (T, v) je 3-parciáln´ı ˇcerveno-ˇcern´ y strom. Nyn´ı aplikujeme proceduru Vyvaz-DELETE. Anal´ yza poskytuje rychl´ y test na to, zda vznikne ˇcerveno-ˇcern´ y strom nebo 3-parciáln´ı ˇcerveno-ˇcern´ y strom (pak v je list). Popiˇsme JOIN3(T1 , x, T2 ) . Mˇejme ˇcerveno-ˇcerné stromy T1 a T2 reprezentuj´ıc´ı mnoˇziny S1 a S2 a mˇejme prvek x ∈ U takov´ y, ˇze max S1 < x < min S2 . Nejprve zajist´ıme, ˇze koˇreny T1 i T2 jsou obarveny ˇcernˇe. 114

Pˇredpokládejme, ˇze ki je poˇcet ˇcern´ ych vrchol˚ u na cestˇe z koˇrene do list˚ u ve stromˇe Ti pro i = 1, 2. Kdyˇz k1 = k2 , pak staˇc´ı provést JOIN3(T1 , x, T2 ) pro nevyváˇzené binárn´ı vyhledávac´ı stromy (koˇren obarv´ıme ˇcervenˇe). Problém je, kdyˇz k1 6= k2 . Napˇr´ıklad pˇredpokládejme, ˇze k1 > k2 . Pak zaˇcneme v koˇreni stromu T1 a jdeme po prav´ ych synech dol˚ u tak dlouho, aˇz nalezneme ˇcern´ y vrchol v takov´ y, ˇze vˇsechny cesty z v do list˚ u v T1 obsahuj´ı právˇe k2 ˇcern´ ych vrchol˚ u. Pak provedeme JOIN3 pro nevyváˇzené binárn´ı vyhledavac´ı stromy na podstrom T1 urˇcen´ y vrcholem v, na x a na T2 . Koˇren w vzniklého stromu obarv´ıme ˇcervenˇe a tento strom vloˇz´ıme do T1 m´ısto podstromu urˇceného vrcholem v. Pak (T1 , w) je 2-parciáln´ı ˇcerveno-ˇcern´ y strom a aplikujeme proceduru Vyvaz-INSERT. Pˇr´ıpad k2 > k1 se ˇreˇs´ı symetricky. Algoritmus pro operaci SPLIT je velmi podobn´ y algoritmu pro (a, b)-stromy. Vyhledáváme vrchol reprezentuj´ıc´ı x. Kdyˇz jsme ve vrcholu t a pokraˇcujme akc´ı t := levy(t), pak dvojici key(t) a podstrom T urˇcen´ y prav´ ym synem t vloˇz´ıme do zásobn´ıku Z2 , kdyˇz pokraˇcujeme akc´ı t := pravy(t), pak do zásobn´ıku Z1 vloˇz´ıme dvojici podstrom T urˇcen´ y lev´ ym synem T a key(t). Kdyˇz key(t) = x, pak do Z1 vloˇz´ıme podstrom urˇcen´ y lev´ ym synem t a do Z2 podstrom urˇcen´ y prav´ ym synem t. Kdyˇz t je list, pak do Z1 i Z2 vloˇz´ıme jednoprvkové stromy. Ze zásobn´ıku Z1 pomoc´ı operace JOIN3 vytvoˇr´ıme strom T1 a ze zásobn´ıku Z2 pomoc´ı operace JOIN3 dostaneme strom T2 . Nyn´ı pop´ıˇseme algoritmy pro tyto operace. INSERT(x) Vyhledej(x) if t je list then t se zmˇen´ı na vnitˇrn´ı vrchol, key(t) := x pro vrchol t vytvoˇrme syny levy(t) a pravy(t) b(t) := 0, b(levy(t)) := 1, b(pravy(t)) := 1, Vyvaz-INSERT(t) endif

115

DELETE(x) Vyhledej(x) if t nen´ı list then vyv := f alse if levy(t) je list then v := pravy(t) if b(t) = 1 a b(v) = 1 then vyv := true endif odstran´ıme vrchol levy(t), otec(v) := otec(t) if t = levy(otec(t)) then levy(otec(t)) := v else pravy(otec(t)) := v endif b(v) := 1, odstran´ıme vrchol t else u := levy(t) while pravy(u) nen´ı list do u := pravy(u) enddo key(t) := key(u), v := levy(u) if b(u) = 1 a b(v) = 1 then vyv := true endif odstran´ıme vrchol pravy(u), otec(v) := otec(u) if u = levy(otec(u)) then levy(otec(u)) := v else pravy(otec(u)) := v endif b(v) := 1, odstran´ıme vrchol u endif if vyv then Vyvaz-DELETE(v) endif endif

116

JOIN3(T1 , x, T2 ) if b(koˇren T1 ) = 0 then b(koˇren T1 ) := 1 endif if b(koˇren T2 ) = 0 then b(koˇren T2 ) := 1 endif k1 je poˇcet ˇcern´ ych vrchol˚ u v T1 z koˇrene do list˚ u k2 je poˇcet ˇcern´ ych vrchol˚ u v T2 z koˇrene do list˚ u if k1 ≥ k2 then t := koˇren T1 , i := k1 − k2 while i > 0 do t := pravy(t) if b(t) = 1 then i := i − 1 endif enddo vytvoˇr vrchol u, b(u) := 0, key(u) := x if t nen´ı koˇren T1 then otec(u) := otec(t), pravy(otec(t)) := u endif otec(t) := u, otec(koˇren T2 ) := u pravy(u) := koˇren T2 , levy(u) := t, Vyvaz-INSERT(T1 , u) else t := koˇren T2 , i := k2 − k1 while i > 0 do t := levy(t) if b(t) = 1 then i := i − 1 endif enddo vytvoˇr vrchol u, b(u) := 0, key(u) := x otec(u) := otec(t), levy(otec(t)) := u, otec(t) := u otec(koˇren T1 ) := u, levy(u) := koˇren T1 pravy(u) := t, Vyvaz-INSERT(T2 , u) endif

117

SPLIT(x) Z1 a Z2 jsou prázdné zásobn´ıky, t := koˇren T while key(t) 6= x a t nen´ı list do if key(t) > x then vloˇz (key(t), pravy(t)) do Z2 , t := levy(t) else vloˇz (levy(t), key(t)) do Z1 , t := pravy(t) endif enddo if key(t) = x then V´ ystup: x ∈ S, T1 je podstrom T urˇcen´ y levy(t) T2 je podstrom T urˇcen´ y pravy(t) else V´ ystup: x ∈ / S, T1 a T2 jsou jednoprvkové stromy endif while Z1 6= ∅ do (t, x) je na vrcholu Z1 , odstraˇ n (t, x) ze Z1 ′ T je podstrom T urˇcen´ y t, T1 :=JOIN3(T ′ , x, T1 ) enddo while Z2 6= ∅ do (x, t) je na vrcholu Z2 , odstraˇ n (x, t) ze Z1 T ′ je podstrom T urˇcen´ y t, T2 :=JOIN3(T2 , x, T ′ ) enddo 4.5.6

Korektnost a sloˇ zitost

Korektnost algoritm˚ u je vidˇet z obrázk˚ u. Vˇsimnˇeme si pˇri operaci DELETE, ˇze kdyˇz u je obarven ˇcervenˇe, pak po proveden´ı Rotace(t, u) bude (T, v) opˇet 3-parciáln´ı ˇcerveno-ˇcern´ y strom a vrchol t bude obarven ˇcervenˇe. Pak z Obr. 5 je vidˇet, ˇze dostaneme ˇcerveno-ˇcern´ y strom. Tedy m˚ uˇzeme shrnout: Vˇ eta. Algoritmy operac´ı MEMBER, INSERT, DELETE, MIN, MAX, JOIN3 a SPLIT pro ˇcervenoˇcerné stromy vyˇzaduj´ı v nejhorˇs´ım pˇr´ıpadˇe ˇcas O(log(|S|), kde S je reprezentovaná mnoˇzina. Operace INSERT a JOIN3 zavolaj´ı nejvýˇse jednou bud’ Rotace nebo Dvojita-rotace a operace DELETE zavolá nejvýˇse dvakrát Rotace nebo Rotace a Dvojita-rotace. Vˇsimnˇete si, ˇze operace JOIN3 ve skuteˇcnosti vyˇzaduje ˇcas O(|k1 − k2 | + 1). Protoˇze Z1 a Z2 obsahuj´ı nejv´ yˇse log(|S|) poloˇzek, tak se odhad ˇcasové sloˇzitosti operace SPLIT provede stejn´ ym zp˚ usobem jako v (a, b)-stromech. V ostatn´ıch pˇr´ıpadech je odhad ˇcasové sloˇzitosti vidˇet z toho, ˇze hloubka(T ) = O(log(|S|)) a akce na kaˇzdé hladinˇe vyˇzaduj´ı jen O(1) ˇcasu. Pokud chceme m´ıt i algoritmus pro operaci ord(k), pak mus´ıme rozˇs´ıˇrit strukturu o funkci p. Pak lze pouˇz´ıt pˇr´ımo algoritmus pro ord(k) v nevyváˇzen´ ych binárn´ıch vyhledávac´ıch stromech. Pˇripomeˇ nme si, ˇze procedury Rotace a Dvojita-rotace mohou aktualizovat funkci p v ˇcase O(1). Proto dostáváme Vˇ eta. Algoritmy operac´ı MEMBER, INSERT, DELETE, MIN, MAX, JOIN3, SPLIT a ord(k) pro rozˇs´ıˇrenou strukturu ˇcerveno-ˇcerných strom˚ u vyˇzaduje v nejhorˇs´ım pˇr´ıpadˇe ˇcas O(log(|S|), kde S je reprezentovaná mnoˇzina. Operace INSERT a JOIN3 zavolaj´ı nejvýˇse jednou bud’ Rotace nebo Dvojitarotace a operace DELETE zavolá nejvýˇse dvakrát Rotace nebo jednou Rotace a Dvojita-rotace. Vzniká otázka, proˇc se tolik pozornosti vˇenuje procedurám Rotace a Dvojita-rotace. Sice vyˇzaduj´ı ˇcas O(1), ale jsou to nejsloˇzitˇejˇs´ı akce vyˇzaduj´ıc´ı nejv´ıce ˇcasu. V mnoha aplikac´ıch (pouˇz´ıvaj´ı se hlavnˇe ve 118

v´ ypoˇcetn´ı geometrii), tvar stromu spolu s parametry nesou jeˇstˇe dalˇs´ı zakódované informace. Pˇri zmˇenˇe tvaru stromu je tˇreba je pˇrepoˇc´ıtat. Rotace a Dvojita-rotace mˇen´ı tvar stromu, kdeˇzto posun smˇerem ke koˇreni pouze mˇen´ı obarven´ı. V tomto pˇr´ıpadˇe pak Rotace nebo Dvojita-rotace vyˇzaduje ˇcas O(|S|) (obvykle je tˇreba prohlédnout cel´ y strom) a nikoliv O(1).

4.6

V´ ahovˇ e vyv´ aˇ zen´ e stromy

V osmdesát´ ych letech se ve v´ ypoˇcetn´ı geometrii hodnˇe pouˇz´ıvaly BB(α)-stromy, proto se o nich alespoˇ n √ 2 1 orientaˇcnˇe zm´ın´ıme. Mˇejme reálné ˇc´ıslo α takové, ˇze 4 < α ≤ 2 . Pro strom T oznaˇcme p(T ) poˇcet list˚ u ve stromu T . Binárn´ı vyhledávac´ı strom T reprezentuj´ıc´ı mnoˇzinu S se naz´ yvá BB(α)-strom, kdyˇz pro kaˇzd´ y vnitˇrn´ı vrchol v plat´ı: p(Tl ) p(Tr ) α≤ =1− ≤1−α p(Tv ) p(Tv ) kde Tv je podstrom T urˇcen´ y vrcholem v, Tl je podstrom T urˇcen´ y lev´ ym synem vrcholu v, Tr je podstrom T urˇcen´ y prav´ ym synem vrcholu v. Plat´ı Tvrzen´ı. Kdyˇz T je BB(α)-strom reprezentuj´ıc´ı n-prvkovou mnoˇzinu, pak hloubka(T ) ≤ 1 +

log(n + 1) − 1 . 1 log 1−α

D˚ usledek je, ˇze BB(α)-stromy patˇr´ı do skupiny vyváˇzen´ ych binárn´ıch vyhledávac´ıch strom˚ u. Vyvaˇzován´ı se provad´ı opˇet pomoc´ı Rotace a Dvojita-rotace a popisuje ho následuj´ıc´ı technické tvrzen´ı. Tvrzen´ı. Pro kaˇzdé α existuje konstanta d takov´ a, ˇze α < d < 1 − α a pro kaˇzdý bin´ arn´ı vyhledávac´ı strom T s koˇrenem t splˇ nuj´ıc´ı podm´ınky 1. podstromy Tl a Tr stromu T urˇcené levým a pravým synem t jsou BB(α)-stromy; 2.

p(Tl ) p(T )

< α, ale α ≤

p(Tl ) p(T )−1

≤ 1 − α nebo α ≤

p(Tl )+1 p(T )+1

≤1−α

plat´ı: kdyˇz ρ ≤ d a provedeme Rotace(t, pravy(t)), nebo kdyˇz ρ > d a provedeme proceduru Dvojita-rotace(t, pravy(t), le p(T ′ ) pak dostaneme BB(α)-strom (zde ρ = p(T a T ′ je urˇcen levým synem pravého syna koˇrene t). r) Toto tvrzen´ı a jeho symetrické verze jednoznaˇcnˇe ukazuj´ı, jak vyvaˇzovat BB(α)-stromy pˇri aktualizaˇcn´ıch operac´ıch (podstrom BB(α)-stromu je BB(α)-strom). Pak dostáváme: Vˇ eta. Implementace operac´ı MEMBER, INSERT a DELETE v BB(α)-stromech vyˇzaduje v nejhorˇs´ım pˇr´ıpadˇe ˇcas O(log(|S|)), kde S je reprezentovaná mnoˇzina. Obliba BB(α)-strom˚ u byla zapˇr´ıˇcinˇena platnost´ı následuj´ıc´ı vˇety, která je analogi´ı vˇety o vyvaˇzovac´ıch operac´ıch pro (a, b)-stromy. √

avisl´ a jen na α Vˇ eta. Kdyˇz α je reálné ˇc´ıslo takové, ˇze 41 < α < 1 − 22 , pak existuje konstanta c > 0 z´ takov´ a, ˇze kaˇzdá posloupnost operac´ı INSERT a DELETE o délce m aplikovaná na pr´ azdný BB(α)strom volá nejvýˇse cm procedur Rotace a Dvojita-rotace.

119

4.7

Historick´ y pˇ rehled:

(a, b)-stromy zavedli Bayer a McGreght (1972), vˇety o poˇctu vyvaˇzovac´ıch operac´ı pro (a, b)-stromy dokázali Huddleston a Mehlhorn (1982). A-sort analyzovali Guibas, McGreight, Plass a Roberts (1977). Anal´ yza interpolaˇcn´ıho vyhledáván´ı pocház´ı od Perla, Itai a Avniho (1978), kvadratické vyhledáván´ı analyzovali Perl a Reingold (1977). Adelson-Velskij a Landis (1962) definovali AVL-stromy, ˇcerveno-ˇcerné stromy definovali Guibas a Sedgewick (1978), verze algoritmu DELETE pocház´ı od Tarjana (1983). BB(α)-stromy zavedli Nievergelt a Reingold (1973), vˇety o jejich vyvaˇzován´ı dokázali Blum a Mehlhorn (1980). Priorita AVL-strom˚ u se odráˇz´ı v jejim hojném pouˇz´ıván´ı, i kdyˇz ˇcerveno-ˇcerné stromy jsou efektivnˇejˇs´ı.

5 5.1 5.1.1

Haldy ´ Uvodn´ ı definice Motivace

V praxi se ˇcasto setkáváme s následuj´ıc´ım problémem, kter´ y vzniká na uspoˇra´daném univerzu, jehoˇz ´ uspoˇra´dán´ı se vˇsak v pr˚ ubˇehu ˇcasu mˇen´ı. Uloha se liˇs´ı od slovn´ıkového problému v tom, ˇze se nevyˇzaduje efektivn´ı operace MEMBER. Dokonce se pˇredpokládá, ˇze operace dostane spolu s argumentem informaci o uloˇzen´ı zpracovávaného prvku. Hlavn´ım poˇzadavkem je rychlost provededn´ı ostatn´ıch operac´ı a malé pamˇet’ové nároky. Pˇritom v praxi obvykle nestaˇc´ı znát jen asymptotickou sloˇzitost, d˚ uleˇzitou roli hraje skuteˇcná rychlost, kterou vˇsak neum´ıme obecnˇe spoˇc´ıtat, protoˇze je závislá na pouˇzitém systému a hardwaru. Pˇresto je pˇri pouˇzit´ı následuj´ıc´ıch struktur dobré m´ıt realistickou pˇredstavu o skuteˇcn´ ych rychlostech operac´ı a podle toho si vybrat vhodnou strukturu. 5.1.2

Zad´ an´ı

Zadán´ı problému: Necht’ U je univerzum. Je dána mnoˇzina S ⊆ U a funkce f : S → R, kde R jsou reálná ˇc´ısla (tato funkce realizuje uspoˇra´dán´ı na univerzu U – pro u, v ∈ U plat´ı u ≤ v, právˇe kdyˇz f (u) ≤ f (v); zmˇena uspoˇra´dán´ı se pak realizuje zmˇenou funkce f ). Máme navrhnout reprezentaci S a f , která umoˇzn ˇuje operace: INSERT(s, a) – pˇridá k mnoˇzinˇe S prvek s tak, ˇze f (s) = a, MIN – nalezne prvek s ∈ S s nejmenˇs´ı hodnotou f (s), DELETEMIN – odstran´ı prvek s ∈ S s nejmenˇs´ı hodnotou f (s), DELETE(s) – odstran´ı prvek s ∈ S z mnoˇziny S, DECREASE(s, a) – zmenˇs´ı hodnotu f (s) o a (tj. f (s) := f (s) − a), INCREASE(s, a) – zvˇetˇs´ı hodnotu f (s) o a (tj. f (s) := f (s) + a). Pˇri operaci INSERT(s, a) se pˇredpokládá, ˇze s ∈ / S, a tento pˇredpoklad operace INSERT neovˇeˇruje. Pˇri operac´ıch DELETE(s), DECREASE(s, a) a INCREASE(s, a) se pˇredpokládá, ˇze s ∈ S, a operace nav´ıc dostává informaci, jak naj´ıt prvek s v reprezentaci S a f . Haldy jsou typ struktury, která se pouˇz´ıvá pro ˇreˇsen´ı tohoto problému.

120

5.1.3

Definice haldy

Halda je stromová struktura, kde vrcholy reprezentuj´ı prvky z S a splˇ nuj´ı lokáln´ı podm´ınku na f . Obvykle se pouˇz´ıvá následuj´ıc´ı podm´ınka nebo jej´ı duáln´ı verze: (usp) Pro kaˇzd´ y vrchol v plat´ı: kdyˇz v reprezentuje prvek s ∈ S a otec(v) reprezentuje t ∈ S, pak f (t) ≤ f (s). Probereme nˇekolik verz´ı hald a budeme pˇredpokládat, ˇze vˇzdy splˇ nuj´ı tuto podm´ınku a ˇze poˇzadavek na proveden´ı operac´ı DELETE(s), DECREASE(s, a) a INCREASE(s, a) také zadává ukazatel na vrchol reprezentuj´ıc´ı s ∈ S. Nav´ıc budeme uvaˇzovat operace MAKEHEAP(S, f ) – operace vytvoˇr´ı haldu reprezentuj´ıc´ı mnoˇzinu S a funkci f , MERGE(H1 , H2 ) – pˇredpokládá, ˇze halda Hi reprezentuje mnoˇzinu Si a funkci fi pro i = 1, 2 a S1 ∩S2 = ∅. Operace vytvoˇr´ı haldu H reprezentuj´ıc´ı S1 ∪ S2 a f1 ∪ f2 , pˇriˇcemˇz neovˇeˇruje disjunktnost S1 a S2 .

5.2

Regul´ arn´ı haldy

Prvn´ı pouˇzité haldy byly binárn´ı neboli 2-regulárn´ı haldy. Tyto haldy jsou velmi obl´ıbené pro svou jednoduchost a názornost a pro velmi efektivn´ı implementaci. 5.2.1

d-regul´ arn´ı strom

Pˇredpokládejme, ˇze d > 1 je pˇrirozené ˇc´ıslo. d-regul´ arn´ı strom je koˇrenov´ y strom (T, r), pro kter´ y existuje poˇrad´ı syn˚ u jednotliv´ ych vnitˇrn´ıch vrchol˚ u takové, ˇze oˇc´ıslován´ı vrchol˚ u prohledáván´ım do ˇs´ıˇrky (koˇren r je ˇc´ıslován 1) splˇ nuje následuj´ıc´ı vlastnosti 1. kaˇzd´ y vrchol má nejv´ yˇse d syn˚ u, 2. kdyˇz vrchol nen´ı list, tak vˇsechny vrcholy s menˇs´ım ˇc´ıslem maj´ı právˇe d syn˚ u, 3. kdyˇz vrchol má ménˇe neˇz d syn˚ u, pak vˇsechny vrcholy s vˇetˇs´ımi ˇc´ısly jsou listy. Toto oˇc´ıslován´ı se naz´ yvá pˇrirozené oˇc´ıslován´ı d-regulárn´ıho stromu. 5.2.2

V´ yˇ ska

Tvrzen´ı. Kaˇzdý d-regul´ arn´ı strom má nejvýˇse jeden vrchol, který nen´ı list a má ménˇe neˇz d syn˚ u. D˚ ukaz. Plyne pˇr´ımo z poˇzadavku 2) na d-regulárn´ı strom.

Tvrzen´ı. Kdyˇz d-regul´ arn´ı strom má n vrchol˚ u, pak jeho výˇska je ⌈logd (n(d − 1) + 1)⌉. k−1 i D˚ ukaz. Má-li d-regulárn´ı strom v´ yˇsku k, pak má alespoˇ n Σi=0 d + 1 a nejv´ yˇse Σki=0 di vrchol˚ u. Proto

dk+1 dk − 1
,

dk − 1 < n(d − 1) ≤ dk+1 − 1 121

a zlogaritmován´ım dostaneme k < logd (n(d − 1) + 1) ≤ k + 1. Odtud jiˇz plyne.

5.2.3

Reprezentace pomoc´ı pole

Tvrzen´ı. Necht’ o je pˇrirozené oˇc´ıslován´ı vrchol˚ u d-regul´ arn´ıho stromu. Kdyˇz pro vrchol v je o(v) = k, pak vrchol w je syn vrcholu v, pr´ avˇe kdyˇz o(w) ∈ {(k − 1)d + 2, (k − 1)d + 3, . . . , kd + 1}, a vrchol u je otcem vrcholu v, pr´ avˇe kdyˇz o(u) = 1 + ⌊ k−2 ⌋. d D˚ ukaz. Dokáˇzeme indukc´ı podle oˇc´ıslován´ı. Synové koˇrene maj´ı ˇc´ısla 2, 3, . . . ,d + 1, protoˇze koˇren má ˇc´ıslo 1. Kdyˇz tvrzen´ı plat´ı pro vrchol s ˇc´ıslem k, pak synové vrcholu s ˇc´ıslem k + 1 maj´ı ˇc´ısla kd + 2, kd + 3, . . . , kd + d + 1, coˇz odpov´ıdá ˇc´ısl˚ um (k + 1 − 1)d + 2, (k + 1 − 1)d + 3, . . . , (k + 1)d + 1, a tedy tvrzen´ı plat´ı. Posledn´ı ˇca´st pak plyne z toho, ˇze kdyˇz i ∈ {(k − 1)d + 2, (k − 1)d + 3, . . . , kd + 1}, pak 1 + ⌊ i−2 ⌋ = k. d

Vˇsimnˇeme si, ˇze speciálnˇe pro d = 2 maj´ı synové vrcholu s ˇc´ıslem k ˇc´ısla 2k a 2k + 1 a otec vrcholu s ˇc´ıslem u a otce zvláˇstˇe jednoduch´ y. k má ˇc´ıslo ⌊ k2 ⌋. Tedy pro 2-regulárn´ı stromy je pˇredpis pro nalezen´ı syn˚

ˇ Rekneme, ˇze mnoˇzina S s funkc´ı f je reprezentována d-regulárn´ı haldou H, kde H je d-regulárn´ı strom (T, r), kdyˇz pˇriˇrazen´ı prvk˚ u mnoˇziny S vrchol˚ um stromu T je bijekce splˇ nuj´ıc´ı podm´ınku (usp). Toto pˇriˇrazen´ı je realizováno funkc´ı key, která vrcholu pˇriˇrazuje j´ım reprezentovan´ y prvek.

Defince d-regulárn´ıho stromu umoˇzn ˇuje velmi efektivn´ı implementace d-regulárn´ıch hald. Mˇejme mnoˇzinu S reprezentovanou d-regulárn´ı haldou H s pˇrirozen´ ym oˇc´ıslován´ım o d-regulárn´ıho stromu (T, r). Pak haldu H m˚ uˇzeme reprezentovat polem H[1..|S|], kde pro vrchol stromu v, pro kter´ y o(v) = i, je H(i) = (key(v), f (key(v)). Algoritmy budeme popisovat pro stromy, protoˇze je to názornˇejˇs´ı. Pˇreformulovat je pro pole je snadné (viz oˇc´ıslován´ı syn˚ u a otce vrcholu v). Pro jednoduchost budeme pro vrchol v psát f (v) m´ısto f (key(v)), neboli f (v) bude oznaˇcovat f (s), kde s je reprezentován vrcholem v. U d-regulárn´ıho stromu pˇredpokládáme, ˇze známe pˇrirozené oˇc´ıslován´ı, a fráze ‘posledn´ı vrchol’, ‘pˇredcházej´ıc´ı vrchol’ atd. se vztahuj´ı k tomuto oˇc´ıslován´ı. 5.2.4

Algoritmy

Pro d-regulárn´ı haldy nen´ı známa efektivn´ı implementace operace MERGE. Efektivn´ı implementace ostatn´ıch operac´ı jsou zaloˇzeny na pomocn´ ych operac´ıch UP(v) a DOWN(v). Operace UP(v) posunuje prvek s reprezentovan´ y vrcholem v smˇerem ke koˇreni, dokud vrchol reprezentuj´ıc´ı prvek s nesplˇ nuje podm´ınku (usp). Operace DOWN(v) je symetrická. UP(v): while v nen´ı koˇren a f (v) < f (otec(v)) do vymˇen ˇ key(v) a key(otec(v)) v := otec(v) enddo

122

DOWN(v): if v nen´ı list then w :=syn vrcholu v reprezentuj´ıc´ı prvek s nejmenˇs´ı hodnotou f (w) while f (w) < f (v) a v nen´ı list do vymˇen ˇ key(v) a key(w), v := w w :=syn vrcholu v reprezentuj´ıc´ı prvek s nejmenˇs´ı hodnotou f (w) enddo endif INSERT(s): v :=nov´ y posledn´ı list, key(v) := s, UP(v) MIN: V´ ystup key(koˇren(T )) DELETEMIN: v :=posledn´ı list, r :=koˇren, key(r) := key(v) odstraˇ nv DOWN(r) DELETE(s): v :=vrchol reprezentuj´ıc´ı s w :=posledn´ı list t := key(w), key(v) := t, odstraˇ nw if f (t) < f (s) then UP(v) else DOWN(v) endif DECREASE(s, a): v :=vrchol reprezentuj´ıc´ı s f (s) := f (s) − a, UP(v) INCREASE(s, a): v :=vrchol reprezentuj´ıc´ı s f (s) := f (s) + a, DOWN(v) MAKEHEAP(S, f ): T := d-regulárn´ı strom s |S| vrcholy zvol libovolnou reprezentaci S vrcholy stromu T v :=posledn´ı vrchol, kter´ y nen´ı list while v je vrchol T do DOWN(v) v :=vrchol pˇredcházej´ıc´ı vrcholu v enddo 5.2.5

Korektnost

Ovˇeˇr´ıme korektnost algoritm˚ u. Je zˇrejmé, ˇze pomocné operace jsou korektn´ı – skonˇc´ı, kdyˇz podm´ınku (usp) splˇ nuje prvek s, kter´ y byl p˚ uvodnˇe reprezentován vrcholem v. Korektnost operace MIN plyne pˇr´ımo z podm´ınky (usp), protoˇze koˇren reprezentuje nejmenˇs´ı prvek mnoˇziny S. U operace INSERT je podm´ınka (usp) splnˇena pro vˇsechny vrcholy s v´ yjimkou novˇe vytvoˇreného listu a operace UP zajist´ı jej´ı splnˇen´ı. Pˇri operaci DELETEMIN je podm´ınka (usp) splnˇena pro vˇsechny vrcholy s v´ yjimkou koˇrene a v tomto pˇr´ıpadˇe operace DOWN zajist´ı jej´ı splnˇen´ı. Po proveden´ı operac´ı DELETE(s), DECREASE(s, a) a 123

INCREASE(s, a) je podm´ınka (usp) splnˇena pro vˇsechny vrcholy s v´ yjimkou vrcholu v a jej´ı splnˇen´ı opˇet zajist´ı operace UP resp. DOWN. Pro operaci MAKEHEAP budeme uvaˇzovat duáln´ı formulaci podm´ınky (usp): (d-usp) kdyˇz s je prvek reprezentovan´ y vrcholem v, pak f (s) ≤ f (t) pro vˇsechny prvky reprezentované syny vrcholu v. Pokud kaˇzd´ y vrchol splˇ nuje podm´ınku (d-usp), pak splˇ nuje i podm´ınku (usp). Zˇrejmˇe kaˇzd´ y list splˇ nuje podm´ınku (d-usp) a kdyˇz operace MAKEHEAP provede proceduru DOWN(v), pak je podm´ınka (d-usp) splnˇena pro vˇsechny vrcholy s ˇc´ısly alespoˇ n tak velk´ ymi jako je ˇc´ıslo v. Operace MAKEHEAP konˇc´ı proveden´ım operace DOWN na koˇren a odtud plyne jej´ı korektnost. 5.2.6

Sloˇ zitost operac´ı

Vypoˇcteme ˇcasovou sloˇzitost operac´ı: Jeden bˇeh cyklu v operaci UP vyˇzaduje ˇcas O(1) a v operaci DOWN ˇcas O(d). Proto operace UP v nejhorˇs´ım pˇr´ıpadˇe vyˇzaduje ˇcas O(logd |S|) a operace DOWN ˇcas O(d logd |S|). Operace MIN vyˇzaduje ˇcas O(1), INSERT a DECREASE vyˇzaduj´ı ˇcas O(logd |S|) a DELETEMIN, DELETE a INCREASE ˇcas O(d logd |S|). Haldu m˚ uˇzeme vytvoˇrit iterac´ı operace INSERT, coˇz vyˇzaduje ˇcas O(|S| logd (|S|)). Ukáˇzeme, ˇze sloˇzitost operace MAKEHEAP je menˇs´ı, ale pro malé haldy je v´ yhodnˇejˇs´ı provádˇet opakovanˇe operaci INSERT. Vˇ eta. MAKEHEAP vyˇzaduje v nejhorˇs´ım pˇr´ıpadˇe jen ˇcas O(d2 |S|). D˚ ukaz. Operace DOWN(v) na vrchol ve v´ yˇsce h vyˇzaduje v nejhorˇs´ım pˇr´ıpadˇe ˇcas O(hd). Vrchol˚ u v hloubce i je nejv´ yˇse di . Pˇredpokládejme, ˇze strom má v´ yˇsku k, pak vrchol v hloubce i má v´ yˇsku nejv´ yˇse k − i. Tedy operace MAKEHEAP vyˇzaduje ˇcas O(

k−1 X i=0

Oznaˇcme A =

Pk−1 i=0

i

d (k − i)d) = O(

k−1 X i=0

di+1 (k − i)).

di+1 (k − i), pak

dA − A =

k−1 X

d

i+2

i=0

dk+1 +

(k − i) −

k X i=2

dk+1 + d2

d

k−1 X

d

i+1

i=0

(k − i) =

k+1 X i=2

i

d (k − i + 2) −

di (k − i + 2 − k + i − 1) − dk = dk+1 + k−1

−1 − dk. d−1

Tedy A=

k X i=2

k X i=1

di (k − i + 1) =

di − dk =

dk+1 dk+1 − d2 dk + − . 2 d−1 (d − 1) d−1

Protoˇze k = ⌈logd (|S|(d − 1) + 1)⌉, dostáváme, ˇze dk+1 ≤ d2 ((d − 1)|S| + 1), a proto A ≤ 2d2 |S|. Tedy MAKEHEAP vyˇzaduje v nejhorˇs´ım pˇr´ıpadˇe jen ˇcas O(d2 |S|).

124

5.2.7

Aplikace – heapsort

Tˇr´ıdˇen´ı: prostou posloupnost ˇc´ısel x1 , x2 , . . . , xn lze setˇr´ıdit následuj´ıc´ım algoritmem pouˇz´ıvaj´ıc´ım haldu (f bude v tomto pˇr´ıpadˇe identická funkce). d-HEAPSORT(x1 , x2 , . . . , xn ): MAKEHEAP({xi | i = 1, 2, . . . , n}, f ) i=1 while i ≤ n do yi :=MIN, DELETEMIN, i := i + 1 enddo V´ ystup: y1 , y2 , . . . , yn Teoreticky lze ukázat, ˇze pouˇzit´ı d-regulárn´ıch hald v algoritmu HEAPSORT pro d = 3 a d = 4 je v´ yhodnˇejˇs´ı neˇz d = 2. Experimenty ukázaly, ˇze optimáln´ı algoritmus pro posloupnosti délek do 1 000 000 by mˇel pouˇz´ıvat d = 6 nebo d = 7 (v experimentech byl mˇeˇren skuteˇcnˇe spotˇrebovan´ y ˇcas, nikoli poˇcet porovnán´ı a v´ ymˇen prvk˚ u). Pro delˇs´ı posloupnosti se optimáln´ı hodnota d m˚ uˇze zmenˇsit. 5.2.8

Aplikace – Dijkstra

ˇ sme následuj´ıc´ı u Dalˇs´ım pˇr´ıkladem je nalezen´ı nejkratˇs´ıch cest v grafu z daného bodu. Reˇ ´lohu: Vstup: orientovan´ y ohodnocen´ y graf (X, R, c), kde c je funkce z R do mnoˇziny kladn´ ych reáln´ ych ˇc´ısel, a vrchol z ∈ X. ´ Ukol: nalézt pro kaˇzd´ y bod x ∈ X délku nejkratˇs´ı cestu ze z do x, kde délka cesty je souˇcet c-ohodnocen´ı hran na cestˇe. Dijkstr˚ uv algoritmus: d(z) := 0, U := {z} for every x ∈ X \ {z} do d(x) := +∞ enddo while U 6= ∅ do najdi vrchol u ∈ U s nejmenˇs´ı hodnotou d(u) odstraˇ nuzU for every (u, v) ∈ R do if d(u) + c(u, v) < d(v) then if d(v) = +∞ then vloˇz v do U endif d(v) := d(u) + c(u, v) endif enddo enddo Korektnost algoritmu je zaloˇzena na kombinatorickém lemmatu, které ˇr´ıká, ˇze kdyˇz odstraˇ nujeme z U prvek x s nejmenˇs´ı hodnotou d(x), pak vzdálenost ze z do x je právˇe d(x). Proto kdyˇz U = ∅, pak d(x) jsou délky nejkratˇs´ıch cest ze z do x pro vˇsechna x ∈ X. Tedy práce s mnoˇzinou U vyˇzaduje nejv´ yˇse |X| operac´ı INSERT, MIN a DELETEMIN a |R| operac´ı DECREASE a vˇzdy plat´ı |U | ≤ |X|. Vypoˇcteme ˇcasovou sloˇzitost Dijkstrova algoritmu za pˇredpokladu, ˇze U reprezentujeme jako d-regulárn´ı haldu. Kdyˇz d = 2, pak dostáváme, ˇze algoritmus vyˇzaduje ˇcas O(|X| log(|X|) + |R| log(|X|)). Kdyˇz |R| d = max{2, ⌊ |X| ⌋}, pak algoritmus vyˇzaduje ˇcas O(|R| logd |X|). V pˇr´ıpadˇe, ˇze (X, R) je hust´ y graf, tj. 1+ε |R| > |X| pro ε > 0, pak logd |X| = O(1) a algoritmus je lineárn´ı (tj. vyˇzaduje ˇcas O(|R|)).

125

5.3 5.3.1

Leftist haldy ´ Uvod

Dalˇs´ım typem hald, se kter´ ymi se seznám´ıme, jsou lefist haldy (neznáme vhodn´ y ˇcesk´ y pˇreklad, proto z˚ ustáváme u anglického názvu). Je to velmi elegantn´ı a jednoduch´ y typ hald. Vˇsechny operace jsou stejnˇe jako u regulárn´ıch hald zaloˇzeny na dvou základn´ıch operac´ıch, z nichˇz v tomto pˇr´ıpadˇe hlavn´ı je MERGE a druhou je DECREASE. Pouˇzit´ı MERGE pˇri návrhu jin´ ych operac´ı je bˇeˇzné i v dalˇs´ıch haldách. Operace MERGE vyuˇz´ıvá speciáln´ıch vlastnost´ı leftist hald a idea operace DECREASE je stejná jako ve Fibonacciho haldách. Nejprve formálnˇe pop´ıˇseme strukturu leftist hald. 5.3.2

Defince

Mˇejme binárn´ı koˇrenov´ y strom (T, r) (to znamená, ˇze r je koˇren, kaˇzd´ y vrchol má nejv´ yˇse dva syny a u kaˇzdého syna v´ıme, zda je to prav´ y nebo lev´ y syn). Pro vrchol v oznaˇcme npl(v) délku nejkratˇs´ı cesty z v do vrcholu, kter´ y má nejv´ yˇse jednoho syna, takˇze napˇr. pro list l plat´ı npl(l) = 0. Mˇejme S ⊆ U a funkci f : S → R. Pak binárn´ı strom (T, r) takov´ y, ˇze 1. kdyˇz vrchol v má jen jednoho syna, pak je to lev´ y syn, 2. kdyˇz vrchol v má dva syny, pak npl(prav´ y syn v) ≤ npl(lev´ y syn v), 3. existuje jednoznaˇcné pˇriˇrazen´ı prvk˚ u S vrchol˚ um T , které splˇ nuje podm´ınku (usp) (toto pˇriˇrazen´ı je reprezentováno funkc´ı key, která vrcholu v pˇriˇrad´ı prvek z mnoˇziny S reprezentovan´ y vrcholem v) je leftist halda reprezentuj´ıc´ı mnoˇzinu S a funkci f . Struktura vrcholu v v leftist haldˇe: S vrcholem v jsou spojeny ukazatelé otec(v), levy(v) a pravy(v) na otce a na levého a pravého syna vrcholu v. Kdyˇz ukazatel nen´ı definován, pak p´ıˇseme, ˇze jeho hodnota je N IL. Dále jsou s vrcholem spojeny funkce npl(v) – promˇenná s hodnotou npl(v), key(v) – prvek reprezentovan´ y vrcholem v, f (v) – promˇenná obsahuj´ıc´ı hodnotu f (key(v)). 5.3.3

Z´ akladn´ı vlastnost

Uvedeme základn´ı vlastnost leftist haldy, která umoˇzn ˇuje efektivn´ı implementace operac´ı. Posloupnost vrchol˚ u v0 , v1 , . . . , vk se naz´ yvá prav´ a cesta z vrcholu v, kdyˇz v = v0 , vi+1 je prav´ y syn vi pro kaˇzdé i = 0, 1, . . . , k − 1 a vk nemá pravého syna. Pak podstrom vrcholu v do hloubky k je u ´pln´ y binárn´ı strom k+1 a má tedy alespoˇ n2 − 1 vrchol˚ u. Proto plat´ı Tvrzen´ı. V leftist haldˇe je délka pravé cesty z kaˇzdého vrcholu v nejvýˇse rovna log(velikost podstromu urˇceného vrcholem v).

126

5.3.4

Algoritmy

Základn´ı operac´ı pro leftist haldy je MERGE. Tato operace je definována rekurzivnˇe a hloubka rekurze je omezena právˇe délkami prav´ ych cest. MERGE(T1 , T2 ): if T1 = ∅ then V´ ystup= T2 stop endif if T2 = ∅ then V´ ystup= T1 stop endif if key(koˇren T1 ) > key(koˇren T2 ) then zamˇen ˇ T1 a T2 endif T ′ :=MERGE(podstrom pravého syna koˇrene T1 , T2 ) pravy(koˇren T1 ) := koˇren T ′ otec(koˇren T ′ ) := koˇren T1 if npl(pravy(koˇren T1 )) > npl(levy(koˇren T1 )) then vymˇen ˇ levého a pravého syna koˇrene T1 endif npl(koˇren T1 ) := npl(pravy(koˇren T1 ) + 1 INSERT(x): Vytvoˇr haldu T1 reprezentuj´ıc´ı {x} MERGE(T, T1 ) MIN: V´ ystup: key(koˇren T ) DELETEMIN: T1 :=podstrom levého syna koˇrene T T2 :=podstrom pravého syna koˇrene T MERGE(T1 , T2 ) MAKEHEAP(S, f ): Q :=prázdná fronta for every s ∈ S do vloˇz leftist haldu Ts reprezentuj´ıc´ı {s} do Q enddo while |Q| > 1 do vezmi haldy T1 a T2 z vrcholu Q (odstraˇ n je) MERGE(T1 , T2 ) vloˇz do Q enddo 5.3.5

ˇ Casov´ a sloˇ zitost

Vypoˇcteme ˇcasovou sloˇzitost pˇredchoz´ıch algoritm˚ u. Kaˇzd´ y bˇeh algoritmu MERGE (bez rekurzivn´ıho volán´ı) vyˇzaduje ˇcas O(1). Poˇcet rekurzivn´ıch volán´ı je souˇcet délek prav´ ych cest, proto algoritmus MERGE vyˇzaduje ˇcas O(log(|S1 | + |S2 |)), kde Si je mnoˇzina reprezentovaná haldou Ti pro i = 1, 2. Odtud dále plyne, ˇze ˇcas algoritm˚ u INSERT a DELETEMIN je v nejhorˇs´ım pˇr´ıpadˇe O(log(|S|)). Operace MIN vyˇzaduje ˇcas O(1). Vˇ eta. MAKEHEAP má ˇcasovou sloˇzitost O(|S|)

127

D˚ ukaz. Budeme uvaˇzovat, ˇze na zaˇca´tku algoritmu je na vrcholu fronty speciáln´ı znak, kter´ y se jen pˇrenese na konec fronty. Odhadneme ˇcas, kter´ y spotˇrebuj´ı while-cykly mezi dvˇema pˇrenesen´ımi speciáln´ıho znaku. Pˇredpokládejme, ˇze se speciáln´ı znak pˇrenesl po k-té. V tomto okamˇziku maj´ı vˇsechny haldy ve frontˇe aˇz na jednu velikost 2k−1 . Proto ve frontˇe Q je 2|S| hald a jelikoˇz jedna operace MERGE vyˇzaduje O(k) ˇcasu, tak while-cykly k−1 |S| vyˇzaduj´ı ˇcas O(k 2k−1 ). M˚ uˇzeme tedy shrnout, ˇze operace MAKEHEAP potˇrebuje ˇcas O(

∞ X k=1

k

∞ X |S| k ) = O(|S| ). k−1 2k−1 2 k=1

k ˇ r. podle pod´ılového d’Alambertova kritéria a lze jednoduˇse spoˇc´ıtat (napˇr. Rada k=1 2k−1 konverguje napˇ stejnou metodou jako pro regulárn´ı haldy), ˇze souˇcet je 4, tedy ˇcas je O(|S|).

P∞

5.3.6

Efektivn´ı DECREASE a INCREASE

Implementace operac´ı DECREASE a INCREASE pomoc´ı operac´ı UP a DOWN jako v d-regulárn´ıch haldách nen´ı efektivn´ı, protoˇze délka cesty z koˇrene do listu v leftist haldˇe m˚ uˇze b´ yt aˇz |S|. Proto navrhneme pro tyto operace efektivnˇejˇs´ı algoritmus zaloˇzen´ y na jiném principu. Tento princip je pak pouˇzit i pro Fibonacciho haldy. Nejprve pop´ıˇseme pomocnou operaci Oprav(T, v), která vytvoˇr´ı leftist haldu z binárn´ıho stromu T ′ vzniklého z leftist haldy T odtrˇzen´ım podstromu s koˇrenem ve vrcholu v. Oprav(T, v): t := otec(v), npl(t) := 0 if pravy(t) 6= v then levy(t) := pravy(t) endif pravy(t) := N IL while se zmenˇsilo npl(t) a t nen´ı koˇren do t := otec(t) if npl(pravy(t)) > npl(levy(t)) then vymˇen ˇ levy(t) a pravy(t) endif npl(t) := npl(pravy(t)) + 1 enddo Po proveden´ı operace Oprav maj´ı vˇsechny vrcholy správné ˇc´ıslo npl a podm´ınky kladené na leftist haldu jsou splnˇeny. Tedy po proveden´ı Oprav je T opˇet leftist halda. Kdyˇz t je posledn´ı vrchol, u kterého se zmenˇsilo npl, pak vˇsechny vrcholy, kde se zmenˇsilo npl, tvoˇr´ı pravou cestu z vrcholu t. To znamená, ˇze while-cyklus se provádˇel nejv´ yˇse log(|S|)-krát a kaˇzd´ y bˇeh while-cyklu vyˇzadoval ˇcas O(1). Proto algoritmus Oprav vyˇzaduje ˇcas O(log(|S|)). Pop´ıˇseme ostatn´ı algoritmy. DECREASE(s, a): v :=prvek reprezentuj´ıc´ı s T1 :=podstrom T urˇcen´ y vrcholem v, f (v) := f (v) − a T2 :=Oprav(T, v), T :=MERGE(T1 , T2 ) 128

INCREASE(s, a): v :=prvek reprezentuj´ıc´ı s T1 :=podstrom T urˇcen´ y vrcholem levy(v) T2 :=podstrom T urˇcen´ y vrcholem pravy(v) T3 :=leftist halda reprezentuj´ıc´ı prvek s f (v) := f (v) + a, T4 :=Oprav(T, v), T1 :=MERGE(T1 , T3 ) T2 :=MERGE(T2 , T4 ), T :=MERGE(T1 , T2 ) DELETE(s, a): v :=prvek reprezentuj´ıc´ı s T1 :=podstrom T urˇcen´ y vrcholem levy(v) T2 :=podstrom T urˇcen´ y vrcholem pravy(v) T3 :=MERGE(T1 , T2 ), T4 :=Oprav(T, v) T :=MERGE(T3 , T4 ) Protoˇze algoritmy MERGE a Oprav vyˇzaduj´ı ˇcas O(log(|S|) a protoˇze zbylé ˇca´sti algoritm˚ u pro operace DECREASE, INCREASE a DELETE vyˇzaduj´ı O(1) ˇcasu, m˚ uˇzeme shrnout v´ ysledky: Vˇ eta. V leftist haldách existuje implementace operace MIN, kter´ a v nejhorˇs´ım pˇr´ıpadˇe vyˇzaduje ˇcas O(1), implementace operac´ı INSERT, DELETEMIN, DELETE, MERGE, DECREASE a INCREASE, které vyˇzaduj´ı v nejhorˇs´ım pˇr´ıpadˇe ˇcas O(log(|S|)), a implementace operace MAKEHEAP, kter´ a vyˇzaduje ˇcas O(|S|), kde S je reprezentovaná mnoˇzina.

5.4

Amortizovan´ a sloˇ zitost

Pop´ıˇseme bankovn´ı paradigma pro poˇc´ıtán´ı s amortizovanou sloˇzitost´ı. 5.4.1

Idea

Idea je taková, ˇze si nˇejak ohodnot´ıme stavy (pˇredstava: u ´ˇcet v bance) a budeme dˇelat odhad upravené sloˇzitosti, ke které bud’ pˇriˇcteme to, co si do u ´ˇctu chceme nastˇra´dat (tj. podle definice dále h(D′ ) > ′ h(D), spoˇren´ı = h(D )−h(D) > 0, am(o) = t(o)+spoˇren´ı), nebo naopak odeˇcteme to, co jsme si nastˇra´dali a chceme utratit (tj. h(D′ ) < h(D), utrácen´ı = h(D) − h(D′ ) > 0, am(o) = t(o) − utrácen´ı). Odhad téhle upravené sloˇzitosti je pak i odhadem klasické sloˇzitosti. 5.4.2

Definice

Pˇredpokládejme, ˇze máme funkci h, která ohodnocuje konfigurace a kvantitativnˇe vystihuje jejich vhodnost pro proveden´ı operace o. Kdyˇz na konfiguraci D aplikujeme operaci o a dostaneme konfiguraci D′ , pak amortizovaná sloˇzitost am(o) operace o má vystihovat nejen ˇcasovou nároˇcnost operace, ale i to, jak se zmˇenila vhodnost konfigurace pro tuto operaci. Proto ji definujme jako am(o) = t(o) + h(D′ ) − h(D), kde t(o) je ˇcas potˇrebn´ y pro proveden´ı operace o. Pˇredpokládejme, ˇze chceme provést posloupnost operac´ı o1 , o2 , . . . , on na konfiguraci D0 . Znázorn´ıme si to takto: D0 →o1 D1 →o2 D2 →o3 · · · →on Dn . Vˇ eta. Odhad amortizované sloˇzitosti je odhadem sloˇzitosti.

129

D˚ ukaz. Pˇredpokládejme, ˇze pro kaˇzdé i = 1, 2, . . . , n máme odhad c(oi ) amortizované sloˇzitosti operace oi , tj. am(oi ) ≤ c(oi ) pro vˇsechna i = 1, 2, . . . , n. Pak n X

am(oi ) =

i=1

n X i=1

t(oi ) + h(Di ) − h(Di−1 ) = h(Dn ) − h(D0 ) +

Z toho plyne, ˇze

n X i=1

t(oi ) ≤

n X i=1

n X i=1

t(oi ) ≤

n X

c(oi ).

i=1

c(oi ) − h(Dn ) + h(D0 ).

Obvykle je h(D) ≥ 0 pro vˇsechny konfigurace D nebo naopak h(D) ≤ 0 pro vˇsechny konfigurace D. Kdyˇz h(D) ≥ 0, pak n n X X t(oi ) ≤ c(oi ) + h(D0 ),

kdyˇz h(D) ≤ 0, pak

i=1

i=1

n X

n X

i=1

t(oi ) ≤

i=1

c(oi ) − h(Dn ).

To znamená, ˇze odhad amortizované sloˇzitosti dává také odhad na ˇcasovou sloˇzitost posloupnosti operac´ı, kter´ y b´ yvá lepˇs´ı neˇz odhad sloˇzitosti v nejhorˇs´ım pˇr´ıpadˇe. Tato skuteˇcnost vysvˇetluje ˇradu pˇr´ıpad˚ u, kdy v´ ysledky byly lepˇs´ı neˇz teoretick´ y v´ ypoˇcet. Ukazuje se, ˇze sloˇzitost posloupnosti operac´ı v nejhorˇs´ım pˇr´ıpadˇe je ˇcasto podstatnˇe menˇs´ı neˇz souˇcet sloˇzitost´ı v nejhorˇs´ım pˇr´ıpadˇe pro jednotlivé operace.

5.5 5.5.1

Binomi´ aln´ı haldy Motivace

Dalˇs´ı typ hald je motivován sˇc´ıtán´ım pˇrirozen´ ych ˇc´ısel. Binomiáln´ı halda reprezentuj´ıc´ı n−prvkovou mnoˇzinu se totiˇz chová podobnˇe jako ˇc´ıslo n. Tento typ hald je také po zobecnˇen´ı v jistém smyslu vzorem pro Fibonacciho haldy. 5.5.2

Definice binomi´ aln´ıho stromu

Pro i = 0, 1, . . . definujeme rekurentnˇe binomiáln´ı stromy Hi . Jsou to koˇrenové stromy takové, ˇze H0 je jednoprvkov´ y strom a strom Hi+1 vznikne ze dvou disjunktn´ıch strom˚ u Hi , kde koˇren jednoho stromu se stane dalˇs´ım synem (nejlevˇejˇs´ım nebo nejpravˇejˇs´ım) koˇrene druhého stromu. Viz obrázek. 5.5.3

Vlastnosti binomi´ aln´ıho stromu

Nejprve uvedeme základn´ı vlastnosti tˇechto strom˚ u. Tvrzen´ı. Pro kaˇzdé pˇrirozené ˇc´ıslo i = 0, 1, . . . plat´ı:

130

H0

H1

H2 Hi Hi

H3

Hi+1

Obrázek 10: Binomiáln´ı stromy 1. strom Hi má 2i vrchol˚ u, 2. koˇren stromu Hi má i syn˚ u, 3. délka nejdelˇs´ı cesty z koˇrene do listu ve stromu Hi je i (tj. výˇska Hi je i), 4. podstromy urˇcené syny koˇrene stromu Hi jsou izomorfn´ı se stromy H0 , H1 , . . . , Hi−1 . D˚ ukaz. Tvrzen´ı plat´ı pro strom H0 a jednoduchou indukc´ı se dokáˇze i pro dalˇs´ı stromy. Skuteˇcnˇe, kdyˇz Hi má 2i vrchol˚ u, pak Hi+1 má 2(2i ) = 2i+1 vrchol˚ u. Koˇren stromu Hi+1 má o jednoho syna v´ıce neˇz koˇren stromu Hi a nejdelˇs´ı cesta do listu je o 1 delˇs´ı. Protoˇze podstrom syna, kter´ y pˇribyl koˇreni stromu Hi+1 , je izomorfn´ı s Hi a jinak se nic nemˇenilo, je d˚ ukaz kompletn´ı.

5.5.4

Definice binomi´ aln´ı haldy

Definice. Binomiáln´ı halda H reprezentuj´ıc´ı mnoˇzinu S je soubor (seznam) strom˚ u {T1 , T2 , . . . , Tk } takový, ˇze 1. celkový poˇcet vrchol˚ u v tˇechto stromech je roven velikosti S a existuje a je dáno jednoznaˇcné pˇriˇrazen´ı prvk˚ u z S vrchol˚ um strom˚ u takové, ˇze plat´ı podm´ınka (usp) – toto pˇriˇrazen´ı je realizováno funkc´ı key, kter´ a vrcholu stromu pˇriˇrazuje prvek j´ım reprezentovaný; 2. kaˇzdý strom Ti je izomorfn´ı s nˇejakým stromem Hj ; 3. Ti nen´ı izomorfn´ı s ˇza´dným Tj pro i 6= j. Z binárn´ıho zápisu pˇrirozen´ ych ˇc´ısel plyne, ˇzeP pro kaˇzdé pˇrirozené ˇc´ıslo n > 0 existuje prostá posloupnost i1 , i2 , . . . , ik pˇrirozen´ ych ˇc´ısel taková, ˇze n = kj=1 2ij . Z toho plyne, ˇze pro kaˇzdou neprázdnou mnoˇzinu S existuje binomiáln´ı halda reprezentuj´ıc´ı S. Tato halda obsahuje strom izomorfn´ı s Hi , právˇe kdyˇz v binárn´ım zápise ˇc´ısla |S| je na i-tém m´ıstˇe zprava 1.

131

5.5.5

Algoritmy, korektnost

Operace pro binomiáln´ı haldy jsou stejnˇe jako pro leftist haldy zaloˇzeny na operaci MERGE. Operace MERGE pro binomiáln´ı haldy je analogi´ı sˇc´ıtán´ı pˇrirozen´ ych ˇc´ısel v binárn´ım zápise. MERGE(H1 , H2 ): (komentáˇr: Hi reprezentuje mnoˇzinu Si pro i = 1, 2 a S1 ∩ S2 = ∅) i := 0, T :=prázdn´ y strom, H := ∅ while i < log(|S1 | + |S2 |) do if existuje U ∈ H1 izomorfn´ı s Hi then U1 := U else U1 :=prázdn´ y strom endif if existuje U ∈ H2 izomorfn´ı s Hi then U2 := U else U2 :=prázdn´ y strom endif case (existuje právˇe jeden neprázdn´ y strom V ∈ {T, U1 , U2 }) do: vloˇz V do H, T :=prázdn´ y strom (existuj´ı právˇe dva neprázdné stromy V1 , V2 ∈ {T, U1 , U2 }) do: T :=spoj(V1 , V2 ) (vˇsechny stromy T , U1 a U2 jsou neprázdné) do: vloˇz T do H, T :=spoj(U1 , U2 ) endcase i := i + 1 enddo if T 6=prázdn´ y strom then vloˇz T do H endif V´ ystup:H spoj(T1 , T2 ): if f (koˇren T1 ) > f (koˇren T2 ) then vymˇen ˇ stromy T1 a T2 endif vytvoˇr nového syna v koˇrene T1 v :=koˇren T2 Je vidˇet, ˇze kdyˇz oba stromy T1 a T2 jsou izomorfn´ı s Hi , pak v´ ysledn´ y strom operace spoj je izomorfn´ı s Hi+1 . Korektnost operace MERGE plyne z tohoto pozorován´ı a z faktu, ˇze Hj obsahuje strom izomorfn´ı s Hi , právˇe kdyˇz v binárn´ım zápise ˇc´ısla |Sj | je na i-tém m´ıstˇe zprava 1, a ˇze T je neprázdn´ y strom, kdyˇz se provád´ı posun ˇra´du pˇri sˇc´ıtán´ı. Implementace dalˇs´ıch algoritm˚ u je podobná jako pro leftist haldy. INSERT(x): Vytvoˇr haldu H1 reprezentuj´ıc´ı {x} MERGE(H, H1 )

132

MIN: Prohledej prvky reprezentované koˇreny vˇsech strom˚ uvH V´ ystup: nejmenˇs´ı z tˇechto prvk˚ u DELETEMIN: Prohledej prvky reprezentované koˇreny vˇsech strom˚ uvH T := strom, jehoˇz koˇren reprezentuje nejmenˇs´ı prvek H1 := H \ {T } H2 := halda tvoˇrená podstromy T urˇcen´ ymi syny koˇrene T MERGE(H1 , H2 ) Z podm´ınky (usp) je zˇrejmé, ˇze nejmenˇs´ı prvek v S je reprezentován v koˇreni nˇejakého stromu haldy. T´ım je dána korektnost operace MIN. Zu ´vodn´ıho tvrzen´ı plyne, ˇze H2 v operaci DELETEMIN je binomiáln´ı halda, a odtud plyne korektnost operace DELETEMIN. Operace DECREASE se implementuje pomoc´ı operace UP a operace INCREASE pomoc´ı operace DOWN stejnˇe jako v regulárn´ıch haldách. Struktura binomiáln´ı haldy nepodporuje pˇr´ımo operaci DELETE – ta se dá realizovat jedinˇe jako posloupnost operac´ı DECREASE(s, ∞) a DELETEMIN. Operace MAKEHEAP se provád´ı opakován´ım operace INSERT. 5.5.6

Sloˇ zitost

V´ ypoˇcet ˇcasové sloˇzitosti operac´ı pro binomiáln´ı haldy vyuˇz´ıvá nˇekolik znám´ ych fakt˚ u. Vˇ eta. Pro binomi´ aln´ı haldy algoritmy operac´ı INSERT, MIN, DELETEMIN, DECREASE a MERGE vyˇzaduj´ı ˇcas O(log(|S|)), algoritmus operace INCREASE vyˇzaduje ˇcas O(log2 (|S|)) a algoritmus operace MAKEHEAP ˇcas O(|S|). D˚ ukaz. Operace MERGE simuluje sˇc´ıtán´ı pˇrirozen´ ych ˇc´ısel v binárn´ım zápise a má tedy stejnou sloˇzitost. Protoˇze kaˇzd´ y bˇeh cyklu vyˇzaduje ˇcas O(1), algoritmus MERGE vyˇzaduje ˇcas O(log(|S1 | + |S2 |)). Odhad sloˇzitosti vytváˇren´ı haldy MAKEHEAP pˇriˇc´ıtán´ı 1 k binárn´ımu ˇc´ıslu je O(1).

vyuˇz´ıvá známého faktu, ˇze amortizovaná sloˇzitost

Odhad sloˇzitosti operac´ı MIN a DELETEMIN je zaloˇzen na pozorován´ı, ˇze binomiáln´ı halda reprezentuj´ıc´ı mnoˇzinu S má tolik strom˚ u, kolik je jedniˇcek v binárn´ım zápise |S|, a to je nejv´ yˇse log(|S|). Z tvrzen´ı také plyne, ˇze v´ yˇska vˇsech strom˚ u v binomiáln´ı haldˇe je ≤ log(|S|) a poˇcet syn˚ u koˇrene kaˇzdého stromu je také ≤ log(|S|), pˇriˇcemˇz tento odhad se nedá zlepˇsit. Odtud dostáváme sloˇzitost operac´ı DECREASE a INCREASE v nejhorˇs´ım pˇr´ıpadˇe.

Z tˇechto v´ ysledk˚ u je vidˇet, ˇze pˇredchoz´ı typy hald maj´ı efektivnˇejˇs´ı chován´ı neˇz binomiáln´ı haldy. V´ yznam binomiáln´ıch hald tak spoˇc´ıvá pˇredevˇs´ım v tom, ˇze se daj´ı dále zobecnit (t´ımto zobecnˇen´ım jsou Fibonacciho haldy) a ˇze na nich lze krásnˇe ilustrovat princip, ˇze s ˇradou u ´prav je v´ yhodné poˇckat a neprovádˇet je okamˇzitˇe.

133

5.5.7

L´ın´ a binomi´ aln´ı halda

Následuj´ıc´ı algoritmy jsou zaloˇzeny na ideji, ˇze vyvaˇzován´ı“ staˇc´ı provádˇet jen pˇri operac´ıch MIN a ” DELETEMIN, kdy je stejnˇe zapotˇreb´ı prohledat vˇsechny stromy. Z tohoto d˚ uvodu zeslab´ıme podm´ınky na binomiáln´ı haldy. L´ın´ a binomi´ aln´ı halda H reprezentuj´ıc´ı mnoˇzinu S je seznam strom˚ u {T1 , T2 , . . . , Tk } takov´ y, ˇze 1. celkov´ y poˇcet vrchol˚ u v tˇechto stromech je roven velikosti S a existuje jednoznaˇcné pˇriˇrazen´ı prvk˚ u mnoˇziny S vrchol˚ um strom˚ u, které splˇ nuje podm´ınku (usp) – toto pˇriˇrazen´ı je jako obvykle realizováno funkc´ı key; 2. kaˇzd´ y strom Ti je izomorfn´ı s nˇejak´ ym stromem Hj . V l´ıné binomiáln´ı haldˇe je vynechán pˇredpoklad neizomorfnosti strom˚ u tvoˇr´ıc´ıch haldu. Tento fakt se projev´ı ve velmi jednoduchém algoritmu pro operaci MERGE. MERGE(H1 , H2 ): Proved’ konkatenaci seznam˚ u H1 a H2 Samotn´ y algoritmus pro operaci INSERT se nezmˇen´ı, jen provede tuto implementaci operace MERGE. Operace MIN a DELETEMIN pouˇzij´ı následuj´ıc´ı pomocnou proceduru vyvaz. Jej´ım vstupem je soubor seznam˚ u {Oi | i = 0, 1, . . . , k}, kde seznam Oi obsahuje jen stromy izomorfn´ı se stromem Hi . Procedura vyvaz pak z tˇechto strom˚ u vytvoˇr´ı klasickou binomiáln´ı haldu. vyvaz({Oi | i = 0, 1, . . . , k}): i := 0, H := ∅ while existuje Oi 6= ∅ do while |Oi | > 1 do vezmi dva r˚ uzné stromy T1 a T2 z Oi odstraˇ n je z Oi spoj(T1 , T2 ) vloˇz do Oi+1 enddo if Oi 6= ∅ then strom T ∈ Oi odstraˇ n z Oi a vloˇz do H endif, i := i + 1 enddo V´ ystup: H MIN: Prohledej prvky reprezentované koˇreny vˇsech strom˚ uvH V´ ystup: nejmenˇs´ı z tˇechto prvk˚ u stromy rozdˇel do mnoˇzin Oi = {vˇsechny stromy v H izomorfn´ı s Hi } vyvaz({Oi | i = 0, 1, . . . , ⌊log(|S|)⌋}) DELETEMIN: Prohledej prvky reprezentované koˇreny vˇsech strom˚ uvH T := strom, jehoˇz koˇren reprezentuje nejmenˇs´ı prvek stromy rozdˇel do mnoˇzin Oi = {vˇsechny stromy v H izomorfn´ı s Hi r˚ uzné od T } ∪ {podstrom T urˇcen´ y nˇejak´ ym synem koˇrene T izomorfn´ı s Hi } vyvaz({Oi | i = 0, 1, . . . , ⌊log(|S|)⌋}) ˇ Casov´ a sloˇzitost operac´ı INSERT a MERGE pˇri l´ıné implementaci je O(1), ale ˇcasová sloˇzitost operac´ı 134

MIN a DELETEMIN je v nejhorˇs´ım pˇr´ıpadˇe O(|S|). Tento odhad je velmi ˇspatn´ y, ale ukáˇzeme, ˇze amortizovaná sloˇzitost má rozumné hodnoty. Pˇripom´ınáme, ˇze amortizovaná sloˇzitost je ˇcas operace plus ohodnocen´ı v´ ysledné struktury minus ohodnocen´ı poˇcáteˇcn´ı struktury. Konfiguraci ohodnot´ıme poˇctem strom˚ u v haldˇe. Tvrzen´ı. Amortizovaná sloˇzitost operac´ı MERGE a INSERT je O(1). D˚ ukaz. Protoˇze operace MERGE nemˇen´ı poˇcet strom˚ u a protoˇze operace INSERT pˇridá jen jeden strom, je amortizovaná sloˇzitost operac´ı MERGE a INSERT stále O(1).

Lemma. Operace vyvaz vyˇzaduje ˇcas O(k +

Pk

i=0

|Oi |)

D˚ ukaz. Plat´ı, protoˇze kaˇzd´ y bˇeh vnitˇrn´ıho while-cyklu v operaci vyvaz vyˇzaduje ˇcas O(1) a zmenˇs´ı poˇcet strom˚ u v seznamech Oi o 1.

Pozorov´ an´ı. Operace MIN bez podprocedury vyvaz vyˇzaduje ˇcas O(|H|) a operace DELETEMIN bez podprocedury vyvaz ˇcas O(H + i) pro takové i, ˇze T je izomorfn´ı s Hi . Ukáˇzeme, ˇze amortizovaná sloˇzitost operac´ı MIN a DELETEMIN pˇri l´ıné implementaci binomiáln´ıch hald je O(log(|S|). Lemma. Operace MIN vyˇzaduje ˇcas O(|H|) a operace DELETEMIN ˇcas O(|H| + log(|S|)) D˚ ukaz. Podle tvrzen´ı v ˇca´sti 5.5.3 je i ≤ log(|S|), dále plyne z pˇredchoz´ıho.

Vˇ eta. Amortizovaná sloˇzitost operace MIN a DELETEMIN je O(log(|S|)). D˚ ukaz. Ohodnocen´ı klasické binomiáln´ı haldy je nejv´ yˇse log(|S|) (obsahuje tolik strom˚ u, kolik je 1 v binárn´ım zápise ˇc´ısla |S|). Z toho dostáváme, ˇze amortizovaná sloˇzitost operace MIN je O(|H| − |H| + log(|S|)) = O(log(|S|)). Také amortizovaná sloˇzitost operace DELETEMIN je O(|H| + log(|S|) − |H| + log(|S|)) = O(log(|S|)).

Protoˇze si funkci ohodnocen´ı vol´ıme, m˚ uˇzeme pouˇz´ıt takové multiplikativn´ı koeficienty, aby jednotka ˇcasu odpov´ıdala jednotce v amortizované sloˇzitosti. Proto lze |H| od sebe odeˇc´ıst.

135

5.6 5.6.1

Fibonacciho haldy Motivace

V´ yznam Fibonacciho hald urˇcuje fakt, ˇze amortizovaná sloˇzitost operac´ı INSERT a DECREASE v tˇechto haldách je O(1) a amortizovaná sloˇzitost operace DELETEMIN je O(log(|S|). Proto se hodnˇe pouˇz´ıvaj´ı v grafov´ ych algoritmech, kde umoˇzn ˇuj´ı v mnoha pˇr´ıpadech dosáhnout asymptoticky témˇeˇr lineárn´ı sloˇzitosti. Neznáme vˇsak ˇza´dné experimentáln´ı v´ ysledky, které by porovnávaly pouˇzit´ı Fibonacciho hald a napˇr. d-regulárn´ıch hald v tˇechto grafov´ ych algoritmech v praxi. Takˇze neznáme podm´ınky, za kter´ ych jsou Fibonacciho haldy lepˇs´ı neˇz tˇreba d-regulárn´ı haldy, ani nev´ıme, do jaké m´ıry je to jen teoretick´ y v´ ysledek a do jaké m´ıry jsou opravdu prakticky pouˇzitelné. 5.6.2

Velmi neform´ aln´ı definice

Fibonacciho halda je opˇet kolekce strom˚ u. Jde tu ale o to, ˇze ve Fibonacciho haldˇe je v kaˇzdém stromˇe s k syny alespoˇ n Fk+2 prvk˚ u – toho dosáhneme tak, ˇze se halda straˇsnˇe ˇcasto“ rozpadá – kaˇzdému vrcholu ” m˚ uˇzeme odebrat maximálnˇe jednoho syna. Jakmile bychom mu chtˇeli odebrat dalˇs´ıho, tak ho m´ısto toho useknem a dáme jako dalˇs´ı strom. 5.6.3

M´ enˇ e neform´ aln´ı definice

Neformálnˇe ˇreˇceno, je Fibonacciho halda mnoˇzina strom˚ u, jejichˇz nˇekteré vrcholy r˚ uzné od koˇren˚ u jsou oznaˇceny, a kde existuje jednoznaˇcná korepondence mezi prvky S a vrcholy strom˚ u (realizována funkc´ı key), která splˇ nuje podm´ınku (usp). Toto je vˇsak jen pˇribliˇzné vyjádˇren´ı. Existuj´ı totiˇz struktury, na které se tento popis hod´ı, ale nevznikly z prázdné Fibonacciho haldy aplikac´ı posloupnosti haldov´ ych operac´ı. Pˇritom d˚ ukaz efektivity Fibonacciho hald se dosti v´ yraznˇe op´ırá o fakt, ˇze halda vznikla z prázdné haldy aplikac´ı algoritm˚ u pro Fibonacciho haldy. Proto nejprve pop´ıˇseme algoritmy pro tyto operace, a pak budeme definovat Fibonacciho haldy jako ty struktury vzniklé z prázdné haldy aplikac´ı posloupnosti tˇechto algoritm˚ u. 5.6.4

Algoritmy

V algoritmech pˇredpokládáme, ˇze Fibonacciho halda je seznam strom˚ u, kde nˇekteré vrcholy r˚ uzné od koˇren˚ u jsou oznaˇceny. Vrchol je oznaˇcen, právˇe kdyˇz nen´ı koˇren a kdyˇz mu byl nˇekdy dˇr´ıve odtrˇzen nˇekter´ y jeho syn. Toto se nezaznamenává pro koˇreny strom˚ u. Proto kdyˇz se vrchol stane koˇrenem (odtrˇzen´ım podstromu urˇceného t´ımto vrcholem), zapomene se tento u ´daj a zaˇcne se znovu zaznamenávat, aˇz kdyˇz ˇ vrchol pˇrestane b´ yt koˇrenem. Rekneme, ˇze strom má rank i, kdyˇz jeho koˇren má i syn˚ u. Tento fakt nahrazuje test pouˇz´ıvan´ y v binomiáln´ıch haldách, ˇze strom je izomorfn´ı se stromem Hi . Algoritmy pro operace MERGE, INSERT, MIN a DELETEMIN jsou zaloˇzeny na stejn´ ych idej´ıch jako algoritmy pro l´ınou implementaci v binomiáln´ıch haldách, pouze poˇzadavek, aby strom byl izomorfn´ı s Hi , je nahrazen poˇzadavkem, ˇze má rank i. Algoritmy pro operace DECREASE, INCREASE a DELETE vycházej´ı z algoritm˚ u pro tyto operace v leftist haldách. V algoritmech pˇredpokládáme, ˇze −1 3 c = log ( 2 ). MERGE(H1 , H2 ): Proved’ konkatenaci seznam˚ u H1 a H2 136

INSERT(x): Vytvoˇr haldu H1 reprezentuj´ıc´ı {x} MERGE(H, H1 ) MIN: Prohledej prvky reprezentované koˇreny vˇsech strom˚ uvH V´ ystup: nejmenˇs´ı z tˇechto prvk˚ u stromy rozdˇel do mnoˇzin Oi = {vˇ sechny stromy v H s rankem i} √ vyvaz1({Oi | i = 0, 1, . . . , ⌊c log( 5|S| + 1)⌋}) DELETEMIN: Prohledej prvky reprezentované koˇreny vˇsech strom˚ uvH T := strom, jehoˇz koˇren reprezentuje nejmenˇs´ı prvek stromy rozdˇel do mnoˇzin Oi = {vˇsechny stromy v H s rankem i r˚ uzné od T } ∪ {podstrom T urˇcen´ y nˇekter´ ym synem koˇrene T s rankem i} √ vyvaz1({Oi | i = 0, 1, . . . , ⌊c log( 5|S| + 1)⌋}) vyvaz1({Oi | i = 0, 1, . . . , k}): i := 0, H := ∅ while existuje Oi 6= ∅ do while |Oi | > 1 do vezmi dva r˚ uzné stromy T1 a T2 z Oi odstraˇ n je z Oi spoj(T1 , T2 ) vloˇz do Oi+1 enddo if Oi 6= ∅ then strom T ∈ Oi odstraˇ n z Oi a vloˇz ho do H endif i := i + 1 enddo V´ ystup: H spoj(T1 , T2 ): if f (koˇren T1 ) > f (koˇren T2 ) then vymˇen ˇ stromy T1 a T2 endif vytvoˇr nového syna v koˇrene T1 v :=koˇren T2 DECREASE(s, a): T :=strom v H, kter´ y obsahuje vrchol reprezentuj´ıc´ı s v :=vrchol stromu T reprezentuj´ıc´ı s if v nen´ı koˇren then odtrhni podstrom T ′ urˇcen´ y vrcholem v vyvaz2(T, v) if v byl oznaˇcen then zruˇs oznaˇcen´ı v endif vloˇz T ′ do H endif f (v) := f (v) − a

137

INCREASE(s, a): T :=strom v H, kter´ y obsahuje vrchol reprezentuj´ıc´ı s v :=vrchol stromu T reprezentuj´ıc´ı s if v nen´ı list then odtrhni podstrom T ′ urˇcen´ y vrcholem v if v nen´ı koˇren then vyvaz2(T, v) endif if v byl oznaˇcen then zruˇs oznaˇcen´ı v endif zruˇs oznaˇcen´ı vˇsech syn˚ u vrcholu v odtrhni podstromy T ′ urˇcené vˇsemi syny v a vloˇz je do H do H vloˇz strom maj´ıc´ı jen vrchol v endif f (v) := f (v) + a DELETE(s): T :=strom v H, kter´ y obsahuje vrchol reprezentuj´ıc´ı s v :=vrchol stromu T reprezentuj´ıc´ı s if v nen´ı list then zruˇs oznaˇcen´ı syn˚ u vrcholu v odtrhni podstromy urˇcené vˇsemi syny vrcholu v a vloˇz je do H endif if v nen´ı koˇren then vyvaz2(T, v) endif zruˇs vrchol v vyvaz2(T, v): u := otec v while u je oznaˇcen do u′ := otec(u), zruˇs oznaˇcen´ı u odtrhni podstrom T ′ urˇcen´ y vrcholem u ′ ′ vloˇz T do H, u := u enddo if u nen´ı koˇren T then oznaˇc u endif Vˇsimnˇeme si, ˇze kdyˇz stromy T1 a T2 maj´ı rank i, pak procedura spoj(T1 , T2 ) vytvoˇr´ı strom s rankem i + 1. Aby algoritmy pro operace MIN a DELETEMIN byly korektn´ı, mus´ ıme ukázat, ˇze vˇsechny stromy ve √ Fibonacciho haldˇe H reprezentuj´ıc´ı mnoˇzinu S maj´ı rank nejv´ yˇse c log( 5|S| + 1). Jen tak zajist´ıme, aby v´ ysledná halda reprezentovala S, respektive S \ {prvek s nejmenˇs´ı hodnotou f }.

Operace vyvaz2 zajiˇst’uje, ˇze od kaˇzdého vrcholu stromu r˚ uzného od koˇrene byl v tomto stromˇe odtrˇzen podstrom nejv´ yˇse jednoho syna – v tom pˇr´ıpadˇe je tento prvek oznaˇcen a kdyˇz se mu odtrhává podstrom dalˇs´ıho syna, bude odtrˇzen i cel´ y podstrom tohoto vrcholu (t´ım se tento vrchol stane koˇrenem stromu). Kdyˇz se pozdˇeji stane tento vrchol zase vrcholem r˚ uzn´ ym od koˇrene, cel´ y proces se opakuje. 5.6.5

Sloˇ zitost operac´ı

Naˇs´ım c´ılem bude odhadnout amortizovanou sloˇzitost tˇechto operac´ı, protoˇze sloˇzitost v nejhorˇs´ım pˇr´ıpadˇe nen´ı pouˇziteln´ y v´ ysledek. Abychom to mohli udˇelat, spoˇc´ıtáme parametry sloˇzitosti jednotliv´ ych operac´ı: MERGE – ˇcasová sloˇzitost O(1), nevzniká ˇza´dn´ y nov´ y strom, oznaˇcené vrcholy se nemˇen´ı; INSERT – ˇcasová sloˇzitost O(1), pˇribyl jeden strom, oznaˇcené vrcholy se nemˇen´ı; MIN – ˇcasová sloˇzitost O(|H|), po proveden´ı operace r˚ uzné stromy v haldˇe maj´ı r˚ uzné ranky, oznaˇcené vrcholy se nemˇen´ı; 138

DELETEMIN – ˇcasová sloˇzitost O(|H| + poˇcet syn˚ u v), kde v reprezentoval prvek s nejmenˇs´ı hodnotou f . Po proveden´ı operace r˚ uzné stromy v haldˇe maj´ı r˚ uzné ranky, ˇza´dn´ y nov´ y vrchol nebyl oznaˇcen, nˇekteré oznaˇcené vrcholy pˇrestaly b´ yt oznaˇcené; DECREASE – ˇcasová sloˇzitost O(1+c), kde c je poˇcet vrchol˚ u, které pˇrestaly b´ yt oznaˇcené. Bylo pˇridáno 1 + c nov´ ych strom˚ u a byl oznaˇcen nejv´ yˇse jeden vrchol; INCREASE – ˇcasová sloˇzitost O(1 + c + d), kde c je poˇcet vrchol˚ u, které pˇrestaly b´ yt oznaˇcené, d je poˇcet syn˚ u vrcholu v reprezentuj´ıc´ıho prvek, jehoˇz hodnota se zvyˇsuje. Bylo pˇridáno nejv´ yˇse 1 + c + d nov´ ych strom˚ u a byl oznaˇcen nejv´ yˇse jeden vrchol; DELETE – ˇcasová sloˇzitost O(1 + c + d), kde c je poˇcet vrchol˚ u, které pˇrestaly b´ yt oznaˇcené, d je poˇcet syn˚ u vrcholu v reprezentuj´ıc´ıho prvek, kter´ y se má odstranit. Bylo pˇridáno nejv´ yˇse c + d nov´ ych strom˚ u a byl oznaˇcen nejv´ yˇse jeden vrchol. Pro v´ ypoˇcet amortizované sloˇzitosti mus´ıme nejprve navrhnout funkci ohodnocuj´ıc´ı konfigurace. Pˇri vyˇsetˇrován´ı l´ıné implementace binomiáln´ıch hald se ukázalo, ˇze vhodn´ ym ohodnocen´ım je poˇcet strom˚ u v haldˇe. Kdyˇz si ale prohlédneme algoritmus pro operaci DECREASE, vid´ıme, ˇze zde je vhodné brát do ohodnocen´ı i poˇcet oznaˇcen´ ych vrchol˚ u, a to dokonce tak, aby se pokryl nejen ˇcas, ale i pˇr´ır˚ ustek strom˚ u. To vede k následuj´ıc´ımu ohodnocen´ı konfigurace: ohodnocen´ı je poˇcet strom˚ u v konfiguraci plus dvojnásobek poˇctu oznaˇcen´ ych vrchol˚ u. Tvrzen´ı. Necht’ ρ(n) je maxim´ aln´ı poˇcet syn˚ u vrcholu ve Fibonacciho haldˇe reprezentuj´ıc´ı n-prvkovou mnoˇzinu. Pak amortizovan´ a sloˇzitost operac´ı MERGE, INSERT a DECREASE je O(1) a operac´ı MIN, DELETEMIN, INCREASE a DELETE je O(ρ(n)). D˚ ukaz. Tohle mi v˚ ubec nen´ı jasné, z ˇceho by mˇelo plynout.

Abychom spoˇc´ıtali odhad ρ(n), vyuˇzijeme toho, ˇze Fibonacciho halda vznikla z prázdné haldy pomoc´ı popsan´ ych algoritm˚ u. Nejprve uvedeme jedno technické lemma. Lemma. Necht’ v je vrchol stromu ve Fibonacciho haldˇe a necht’ u je i-tý nejstarˇs´ı syn vrcholu v. Pak u má aspoˇ n i − 2 syn˚ u. D˚ ukaz. V momentˇe, kdy se u stával synem v, se aplikovala operace spoj, u a v byly koˇreny strom˚ u a mˇely stejn´ y poˇcet syn˚ u. Podle pˇredpoklad˚ u mˇel vrchol v alespoˇ n i − 1 syn˚ u (jinak by u nebyl i-t´ y nejstarˇs´ı syn), a protoˇze se od u mohl odtrhnout jen jeden syn, dostáváme, ˇze u mus´ı m´ıt alespoˇ n i − 2 syn˚ u.

Tvrzen´ı. Necht’ v je vrchol stromu ve Fibonacciho haldˇe, který má pr´ avˇe i syn˚ u. Pak podstrom urˇcený vrcholem v má aspoˇ n Fi+2 vrchol˚ u. D˚ ukaz. Tvrzen´ı dokáˇzeme indukc´ı podle maximáln´ı délky cesty z vrcholu v do nˇekterého listu. Tato délka je 0, právˇe kdyˇz v je list. V tom pˇr´ıpadˇe v nemá syna a podstrom urˇcen´ y vrcholem v má jedin´ y vrchol. Protoˇze 1 = F2 = F0+2 , tvrzen´ı plat´ı. Mˇejme nyn´ı vrchol v, kter´ y má k syn˚ u, a necht’ maximáln´ı délka cesty z vrcholu v do list˚ u je j. Pˇredpokládejme, ˇze tvrzen´ı plat´ı pro vˇsechny vrcholy, pro nˇeˇz tato délka je menˇs´ı neˇz j, tedy plat´ı i pro vˇsechny syny vrcholu v. Pak pro i > 1 má i-t´ y nejstarˇs´ı syn vrcholu v podle pˇredchoz´ıho lemmatu alespoˇ n i − 2 syn˚ u a podle indukˇcn´ıho pˇredpokladu podstrom urˇcen´ y t´ımto synem má alespoˇ n Fi vrchol˚ u. Odtud dostáváme, ˇze podstrom urˇcen´ y vrcholem v má alespoˇ n 1 + F2 +

k X

Fi = 1 +

i=2

139

k X i=1

Fi

vrchol˚ u, protoˇze F1 = F2 (na levé stranˇe prvn´ı 1 je za vrchol v a prvn´ı F2 je za nejstarˇs´ı vrchol). Indukc´ı pak dostaneme, ˇze n X 1+ Fi = Fn+2 i=1

pro vˇsechna n ≥ 0. Skuteˇcnˇe, pro n = 0 plat´ı 1+

0 X

Fi = 1 = F2 = F0+2 ,

i=1

pro n = 1 máme 1+

1 X

Fi = 1 + F1 = 2 = F3 = F1+2

i=1

a z indukˇcn´ıho pˇredpokladu a z vlastnost´ı Fibonacciho ˇc´ısel plyne, ˇze 1+

n X i=1

Fi = 1 +

n−1 X

Fi + Fn = Fn+1 + Fn = Fn+2 .

i=1

Kdyˇz shrneme tato fakta, dostáváme, ˇze podstrom urˇcen´ y vrcholem v má alespoˇ n Fi+2 vrchol˚ u, a tvrzen´ı je dokázáno.

Pozn. studenta – zde se naprosto ztrác´ım v toku vzorc˚ u. Snad aspoˇ n p´ıˇsu dobˇre, co se snaˇz´ıme dokazovat. Lemma. ρ(n) <

√ log2 ( 5n+1) (log2 3)−1

−2

D˚ ukaz. Vezmˇeme nyn´ı nejmenˇs´ı i takové, ˇze n < Fi . Protoˇze posloupnost {Fi }∞ ı, plyne z i=1 je rostouc´ pˇredchoz´ıho tvrzen´ı, ˇze kaˇzd´ y vrchol ve Fibonacciho haldˇe reprezentuj´ıc´ı n−prvkovou mnoˇzinu má ménˇe neˇz i − 2 syn˚ u (kdyˇz vrchol v Fibonacciho haldy má i − 2 syn˚ u, pak podstrom vrcholu v reprezentuje mnoˇzinu alespoˇ n s Fi prvky). Proto ρ(n) < i − 2. K odhadu velikosti i pouˇzijeme explicitn´ı vzorec pro i-té Fibonacciho ˇc´ıslo: √ √ √ √ 1− 5 i 1+ 5 i − 1 1 + 5 i 1 1 − 5 i 2 2 √ =√ −√ . Fi = 2 2 5 5 5 √ √ √ i Protoˇze 0 > 1−2 5 > − 43 a protoˇze 5 > 2, dostáváme, ˇze | √15 1−2 5 | < 38 pro vˇsechna i = 1, 2, . . . , a tedy √ √ 1 1 + 5 i 3 1 1 + 5 i 3 √ − < Fi < √ + . 2 8 2 8 5 5

Odtud plyne, ˇze kdyˇz i splˇ nuje

pak n < Fi . Pˇreveden´ım následuj´ıc´ı ekvivalenci:

3 8

√ 1 1 + 5 i 3 n≤ √ − , 2 8 5

na druhou stranu v´ yrazu, jeho vynásoben´ım

√ √ √ 1 + 5 3 5 ) ≤ i log2 log2 ( 5n + 8 2 140

⇔

√

5 a zlogaritmován´ım dostaneme

√ 1 1 + 5 i 3 n≤ √ − . 2 8 5

Z

√ 3 5 8

<1az

3 2

<

√ 1+ 5 2

plyne, ˇze √ log2 ( 5n +

√ 3 5 ) 8 √ 1+ 5 log2 2

√ log2 ( 5n + 1) . < log2 32

Tedy plat´ı následuj´ıc´ı implikace √ log2 ( 5n + 1)
√ log2 ( 5n+1) log2 3−1

=⇒

√ log2 ( 5n + log2

< i, pak n < Fi , a tedy ρ(n) < i − 2.

√ 3 5 ) 8 √ 1+ 5 2

< i.

V´ ysledky shrneme do následuj´ıc´ı vˇety: Vˇ eta. Ve Fibonacciho haldˇe, kter´ a reprezentuje n-prvkovou mnoˇzinu, má kaˇzdý vrchol stupeˇ n menˇs´ı neˇz √ log2 ( 5n + 1) − 2. (log2 3) − 1 Amortizovaná sloˇzitost operac´ı INSERT, MERGE a DECREASE je O(1) a amortizovan´ a sloˇzitost operac´ı MIN, DELETEMIN, INCREASE a DELETE je O(log n). Operace MIN a DELETEMIN jsou korektn´ı. √ 1+ 5 2

Pro u ´plnost dokáˇzeme, ˇze Fi =

i

− √ 5

√ 1− 5 2

i

.

D˚ ukaz. Pro i = 1 plat´ı √ 1+ 5 1 2

− √ 5

√ 1− 5 1 2

=

1+

√

5−1+ √ 2 5

√

5

√ 2 5 = √ = 1 = F1 . 2 5

Pro i = 2 plat´ı √ 1+ 5 2 2

− √ 5

√ 1− 5 2 2

√ √ √ 1+2 5+5−1+2 5−5 4 5 √ = = √ = 1 = F2 . 4 5 4 5

Indukˇcn´ı krok: √ 1+ 5 i 2

− √ 5

√ 1− 5 i 2

√ √ 1+ 5 i−2 3+ 5 2 2

=

√ √ 1+ 5 i−2 1+ 5 2 2 2

− √ 5

√ √ 1− 5 i−2 1− 5 2 2 2

=

√ √ i−2 3− 5 − 1−2 5 2 √ = 5 √ √ √ √ 1+ 5 i−2 1+ 5 1− 5 i−2 1− 5 1 + − 1 + 2 2 2 2 √ = 5 √ √ √ √ 1+ 5 i−2 1+ 5 i−1 1− 5 i−2 1− 5 i−1 + − − 2 2 2 2 √ = 5 √ √ √ √ 1+ 5 i−2 1+ 5 i−1 1− 5 i−2 1− 5 i−1 − − 2 2 2 2 √ √ + = Fi−2 + Fi−1 = Fi . 5 5

Tedy indukc´ı dostáváme poˇzadovan´ y vztah. 141

5.6.6

Aplikace

Vrát´ıme se k Dijkstrovˇe algoritmu. Mnoˇzinu U budeme reprezentovat pomoc´ı Fibonacciho haldy. Protoˇze ohodnocen´ı je nezáporné a ohodnocen´ı poˇca´teˇcn´ı haldy je 0, dává odhad amortizované sloˇzitosti také odhad ˇcasové sloˇzitosti (viz odstavec IV.). Proto Dijkstr˚ uv algoritmus s pouˇzit´ım Fibonacciho haldy vyˇzaduje v nejhorˇs´ım pˇr´ıpadˇe ˇcas O(|X|(1 + log |X|) + |R|) = O(|R| + |X| log |X|). Stejn´ y v´ ysledek dostaneme i pro konstrukci nejmenˇs´ı napnuté kostry grafu. Otázka je, kdy v Dijkstrovˇe algoritmu nebo v algoritmu konstruuj´ıc´ım nejmenˇs´ı napnutou kostru pouˇz´ıt Fibonacciho haldu a kdy napˇr. d-regulárn´ı haldy. Lze ˇr´ıci, ˇze Fibonacciho halda by mˇela b´ yt v´ yraznˇe lepˇs´ı pro vˇetˇs´ı, ale ˇr´ıdké grafy (tj. grafy s mal´ ym poˇctem hran). Dá se pˇredpokládat, ˇze d-regulárn´ı haldy budou lepˇs´ı (d´ıky sv´ ym jednoduˇsˇs´ım algoritm˚ um) pro husté grafy (tj. grafy, kde poˇcet hran je |X|1+ε pro vhodné ε > 0). Problém je, pro které hodnoty nastává zlom. Nev´ım o ˇza´dn´ ych experimentáln´ıch ani teoretick´ ych v´ ysledc´ıch tohoto typu. 5.6.7

Historick´ y pˇ rehled

Binárn´ı neboli 2-regulárn´ı haldy zavedl Williams 1964. Jejich zobecnˇen´ı na d-regulárn´ı haldy pocház´ı od Johnsona 1975. Leftist haldy definoval Crane 1972 a detailnˇe popsal Knuth 1975. Binomiáln´ı haldy navrhnl Vuillemin 1978, Brown 1978 je implementoval a prokázal jejich praktickou pouˇzitelnost. Fibonacciho haldy byly zavedeny Fredmanem a Tarjanem 1987.

6

Tˇ r´ıdic´ı algoritmy

Pozn. studenta – zde jsem to jiˇz vzdal; tedy zbytek skript je témˇeˇr neupraven. Moˇzná se k tomu nˇekdy dostanu. Jednou z nejˇcastˇeji ˇreˇsen´ ych u ´loh pˇri práci s daty je setˇr´ıdˇen´ı posloupnosti prvk˚ u nˇejakého typu. Proto velká pozornost byla a je vˇenována tˇr´ıdic´ım algoritm˚ um ˇreˇs´ıc´ım tuto u ´lohu, která sv´ ym charakterem a sv´ ymi poˇzadavky na algoritmy je ˇrazena do datov´ ych struktur. Byla navrˇzena ˇrada algoritm˚ u, které se stále jeˇstˇe analyzuj´ı a optimalizuj´ı. Anal´ yzy jsou velmi detailn´ı a algoritmy se studuj´ı za r˚ uzn´ ych vstupn´ıch pˇredpoklad˚ u. Kromˇe toho tˇr´ıdˇen´ı je jedna z mála u ´loh, pro kterou alespoˇ n za jist´ ych pˇredpoklad˚ u um´ıme spoˇc´ıtat doln´ı odhad sloˇzitosti. Formulace u ´lohy: ’ Necht U je totálnˇe uspoˇra´dané univerzum. Vstup: Prostá posloupnost {a1 , a2 , . . . , an } prvk˚ u z univerza U . V´ ystup: Rostouc´ı posloupnost {b1 , b2 , . . . , bn } taková, ˇze {ai | i = 1, 2, . . . , n} = {bi | i = 1, 2, . . . , n}. Tento problém se naz´ yvá tˇr´ıdˇen´ı. V praxi se setkáváme s ˇradou jeho modifikac´ı, a nichˇz asi nejbˇeˇznˇejˇs´ı je vynechán´ı pˇredpokladu, ˇze vstupem je prostá posloupnost. Pak jsou dvˇe varianty ˇreˇsen´ı – bud’ se ve v´ ystupn´ı posloupnosti odstran´ı duplicity nebo v´ ystupn´ı posloupnost zachová ˇcetnost prvk˚ u ze vstupn´ı posloupnosti. Základn´ı algoritmy, které ˇreˇs´ı tˇr´ıdic´ı problém, jsou QUICKSORT, MERGESORT a HEAPSORT. 6.0.8

HEAPSORT

S algoritmem HEAPSORT jsme se seznámili pˇri aplikac´ıch hald. Byl to prvn´ı algoritmus pouˇz´ıvaj´ıc´ı haldy (binárn´ı regulárn´ı haldy byly definovány právˇe pˇri návrhu HEAPSORTU). Pod´ıváme se detailnˇeji na jednu z jeho implementac´ı, která tˇr´ıd´ı takzvanˇe na m´ıstˇe. 142

Tˇr´ıdic´ı algoritmy se ˇcasto pouˇz´ıvaj´ı jako podprocedura pˇri ˇreˇsen´ı jin´ ych u ´loh. V takovém pˇr´ıpadˇe je obvykle vstupn´ı posloupnost uloˇzena v poli v pracovn´ı pamˇeti programu a poˇzadavkem je setˇr´ıdit ji bez pouˇzit´ı dalˇs´ı pamˇeti pouze s v´ yjimkou omezeného (malého) poˇctu pomocn´ ych promˇenn´ ych. Pro ˇreˇsen´ı tohoto problému se hod´ı HEAPSORT. Zvol´ıme implementaci HEAPSORTU pomoc´ı d-regulárn´ıch hald, které jsou reprezentovány polem, v nˇemˇz je uloˇzena vstupn´ı posloupnost (viz odstavec Aplikace v kapitole o d-regulárn´ıch haldách). Pouˇzijeme algoritmus s jedinou zmˇenou – budeme poˇzadovat duáln´ı podm´ınku na uspoˇra´dán´ı (to znamená, ˇze prvek reprezentovan´ y vrcholem bude menˇs´ı neˇz prvek reprezentovan´ y jeho otcem) a nahrad´ıme operace MIN a DELETEMIN operacemi MAX a DELETEMAX. V algoritmu vˇzdy um´ıst´ıme odebrané maximum na m´ısto prvku v posledn´ım listu haldy (tj. prvku, kter´ y ho pˇri operaci DELETEMAX nahradil) m´ısto toho, abychom ho vloˇzili do v´ ystupn´ı posloupnosti. Mus´ıme si ale pamatovat, kde v poli konˇc´ı reprezentovaná halda. Kaˇzdá aplikace operace DELETEMAX zkrát´ı poˇca´teˇcn´ı u ´sek pole reprezentuj´ıc´ıho haldu o jedno m´ısto a zároveˇ n o toto m´ısto zvˇetˇs´ı druhou ˇca´st, ve které je uloˇzena jiˇz setˇr´ıdˇená ˇca´st posloupnosti. HEAPSORTU je stále vˇenována velká pozornost a bylo navrˇzeno nˇekolik jeho modifikac´ı, snaˇz´ıc´ıch se napˇr. minimalizovat poˇcet porovnán´ı prvk˚ u apod. 6.0.9

MERGESORT

Nejstarˇs´ı z uveden´ ych algoritm˚ u je MERGESORT, kter´ y je starˇs´ı neˇz je poˇc´ıtaˇcová éra, nebot’ nˇekteré jeho verze se pouˇz´ıvaly uˇz pˇri mechanickém tˇr´ıdˇen´ı. Pop´ıˇseme jednu jeho iteraˇcn´ı verzi, tzv. pˇrirozen´ y MERGESORT. MERGESORT(a1 , a2 , . . . , an ): Q je prázdná fronta, i = 1 while i ≤ n do j := i while i < n a ai+1 > ai do i := i + 1 enddo posloupnost P = (aj , aj+1 , . . . , ai ) vloˇz do Q i := i + 1 enddo while |Q| > 1 do vezmi P1 a P2 dvˇe posloupnosti z vrcholu Q odstraˇ n P1 a P2 z Q MERGE(P1 , P2 ) vloˇz na konec Q enddo V´ ystup: posloupnost z Q MERGE(P1 = (a1 , a2 , . . . , an ), P2 = (b1 , b2 , . . . , bm )): P := je prázdná posloupnost, i := 1, j := 1, k := 1 while i ≤ n a j ≤ m do if ai < bj then ck := ai , i := i + 1, k := k + 1 else ck := bj , j := j + 1, k := k + 1 endif enddo while i ≤ n do ck := ai , i := i + 1, k := k + 1 enddo while j ≤ m do ck := bj , j := j + 1, k := k + 1 143

enddo V´ ystup: P = (c1 , c2 , . . . , cn+m ) Vˇsimnˇeme si, ˇze vˇsechny posloupnosti v Q jsou rostouc´ı a ˇze sjednocen´ım vˇsech jejich prvk˚ u je vˇzdy na zaˇca´tku bˇehu cyklu while |Q| > 1 do mnoˇzina {ai | i = 1, 2, . . . , n}. Protoˇze poˇcet posloupnost´ı ve frontˇe Q je nejv´ yˇse roven délce vstupn´ı posloupnosti a kaˇzd´ y pr˚ ubˇeh tohoto cyklu zmenˇs´ı jejich poˇcet o 1, je algoritmus MERGESORT korektn´ı. Spoˇc´ıtáme ˇcasovou sloˇzitost MERGESORTU. Nejprve vyˇsetˇr´ıme sloˇzitost podprocedury MERGE. Protoˇze urˇcen´ı prvku ck vyˇzaduje ˇcas O(1) (provede se nejv´ yˇse jedno porovnán´ı) a protoˇze maximáln´ı hodnota k je n + m, dostáváme, ˇze podprocedura MERGE vyˇzaduje ˇcas O(n + m) (nejv´ yˇse n + m porovnán´ı), kde n a m jsou délky vstupn´ıch posloupnost´ı. Nyn´ı vypoˇcteme sloˇzitost hlavn´ı procedury. Zˇrejmˇe prvn´ı cyklus vyˇzaduje lineárn´ı ˇcas. Vyˇsetˇr´ıme druh´ y cyklus prob´ıhaj´ıc´ı pˇres frontu Q. Pˇredpokládejme, ˇze pˇred prvn´ım bˇehem tohoto cyklu je na vrcholu Q speciáln´ı znak ♮, kter´ y se vˇzdy pouze pˇrenese z vrcholu Q na jej´ı konec. Protoˇze mezi dvˇema pˇrenosy ♮ projde kaˇzd´ y prvek vstupn´ı posloupnosti podprocedurou MERGE právˇe jednou, vyˇzaduj´ı jednotlivé bˇehy cyklu ˇcas O(n), kde n je délka vstupn´ı posloupnosti (a zároveˇ n souˇcet vˇsech délek posloupnost´ı v Q). Vˇsechny posloupnosti v Q maj´ı na poˇca´tku délku ≥ 1. Odtud jednoduchou indukc´ı dostaneme, ˇze po i-tém pˇrenosu znaku ♮ maj´ı délku ≥ 2i−1 . Proto poˇcet pˇrenos˚ u je nejv´ yˇse ⌈log2 n⌉, a tedy algoritmus MERGESORT vyˇzaduje ˇcas O(n log n) (provede se nejv´ yˇse n log n porovnán´ı). Vzhledem k poˇctu porovnán´ı je MERGESORT optimáln´ı tˇr´ıdic´ı algoritmus. Nav´ıc v této verzi je adaptivn´ı na pˇredtˇr´ıdˇené posloupnosti, které maj´ı jen mal´ y poˇcet dlouh´ ych setˇr´ıdˇen´ ych u ´sek˚ u (bˇeh˚ u). Pˇri konstantn´ım poˇctu bˇeh˚ u má sloˇzitost O(n). Jiná jeho verze, která zaˇc´ıná sléván´ı vˇzdy od jednoprvkov´ ych posloupnost´ı (tzv. pˇr´ım´ y MERGESORT) tuto vlastnost nemá. 6.0.10

QUICKSORT

Nyn´ı pop´ıˇseme patrnˇe v˚ ubec nejpouˇz´ıvanˇejˇs´ı tˇr´ıdic´ı algoritmus, kter´ ym je QUICKSORT. D˚ uvodem je, ˇze pro obecnou posloupnost je nejrychlejˇs´ı, pˇri rovnomˇerném rozloˇzen´ı vstupn´ıch polsoupnost´ı má nejmenˇs´ı oˇcekávan´ y ˇcas. Quick(ai , ai+1 , . . . , aj ): if i = j then V´ ystup: (ai ) else zvol k takové, ˇze i ≤ k ≤ j, a := ak , vymˇen ˇ ai a ak , l := i + 1, q := j while true do while al < a do l := l + 1 enddo while aq > a do q := q − 1 enddo if l ≥ q then exit else vymˇen ˇ al a aq , l := l + 1, q := q − 1 endif enddo if i + 1 = l then V´ ystup(a,Quick(aq+1 , aq+2 , . . . , aj )) else if j = q then V´ ystup(Quick(ai+1 , ai+2 , . . . , al−1 ), a) else 144

V´ ystup(Quick(ai+1 , ai+2 , . . . , al−1 ), a,Quick(aq+1 , . . . , aj )) endif endif endif QUICKSORT(a1 , a2 , . . . , an ): V´ ystup(Quick(a1 , a2 , . . . , an )) Algoritmus Quick setˇr´ıd´ı posloupnost (ai , ai+1 , . . . , aj ) tak, ˇze pro prvek a = ak vytvoˇr´ı posloupnost (ai , ai+1 , . . . , al−1 ) vˇsech prvk˚ u menˇs´ıch neˇz a a posloupnost (aq+1 , . . . , aj ) vˇsech prvk˚ u vˇetˇs´ıch neˇz a. Na tyto posloupnosti pak zavolá sám sebe a do v´ ysledné posloupnosti uloˇz´ı nejprve setˇr´ıdˇenou prvn´ı posloupnost, pak prvek a a nakonec setˇr´ıdˇenou druhou posloupnost. Korektnost procedury Quick i algoritmu QUICKSORT je tedy zˇrejmá, protoˇze l ≤ j a i ≤ q. Procedura Quick bez rekurzivn´ıho volán´ı vyˇzaduje ˇcas O(j − i). Tedy kdyby ak byl medián (tj. prostˇredn´ı prvek) posloupnosti (ai , ai+1 , . . . , aj ), pak by algoritmus QUICKSORT v nejhorˇs´ım pˇr´ıpadˇe vyˇzadoval ˇcas O(n log n). Jak uvid´ıme pozdˇeji, medián lze sice nalézt v lineárn´ım ˇcase, ale pouˇzit´ı jakékoli procedury pro jeho nalezen´ı má za následek, ˇze algoritmy MERGESORT a HEAPSORT budou rychlejˇs´ı (nikoliv asymptoticky, ale multiplikativn´ı konstanta bude v tomto pˇr´ıpadˇe vysoká). Proto je tˇreba vybrat prvek ak (tzv. pivot) co nejrychleji. P˚ uvodnˇe se bral prvn´ı nebo posledn´ı prvek posloupnosti. Pˇri této volbˇe a pˇri rovnomˇerném rozdˇelen´ı vstup˚ u je oˇcekávan´ y ˇcas QUICKSORTU O(n log n) a algoritmus je obvykle rychlejˇs´ı neˇz MERGESORT a HEAPSORT. Avˇsak ˇcas v nejhorˇs´ım pˇr´ıpadˇe je kvadratick´ y a dokonce pro urˇcitá rozdˇelen´ı vstupn´ıch dat je i oˇcekávan´ y ˇcas kvadratick´ y. Proto tuto volbu pivota nen´ı vhodné pouˇz´ıvat pro u ´lohy, kdy neznáme rozdˇelen´ı vstupn´ıch dat (mohlo by se stát, ˇze je nevhodné). Jednoduˇse to lze napravit tak, ˇze budeme volit k náhodnˇe. Bohuˇzel pouˇzit´ı pseudonáhodného generátoru také vyˇzaduje jist´ y ˇcas, a pak uˇz by algoritmus zase nemusel b´ yt rychlejˇs´ı neˇz algoritmy MERGESORT a HEAPSORT (nav´ıc takto náhodnˇe zvolen´ y prvek nen´ı skuteˇcnˇe náhodn´ y, ale to v tomto pˇr´ıpadˇe nevad´ı). D˚ usledkem je návrh vyb´ırat pivota jako medián ze tˇr´ı nebo pˇeti pevnˇe zvolen´ ych prvk˚ u posloupnosti. Praxe ukázala, ˇze tento v´ ybˇer pivota je nejpraktiˇctˇejˇs´ı, dá se provést rychle a zajiˇst’uje dostateˇcnou náhodnost. Protoˇze pˇri kaˇzdém volán´ı má Quick jako argument kratˇs´ı vstupn´ı posloupnost, lze ukázat, ˇze: 1. pˇri kaˇzdé volbˇe pivota je nejhorˇs´ı ˇcas algoritmu QUICKSORT O(n2 ), 2. pokud je pivot vybrán jednoduch´ ym a rychl´ ym zp˚ usobem (to plat´ı, i kdyˇz se vol´ı náhodnˇe), pak existuj´ı vstupn´ı posloupnosti, které vyˇzaduj´ı ˇcas O(n2 ), 3. oˇcekávan´ y ˇcas je O(n log n). Následná anal´ yza oˇcekávaného pˇr´ıpadu je pro náhodnˇe zvoleného pivota (bez dalˇs´ıho pˇredpokladu na vstupn´ı data) nebo pro pˇr´ıpad, kdy pivot je pevnˇe zvolen a data jsou rovnomˇernˇe rozdˇelena. Ukáˇzeme dva zp˚ usoby v´ ypoˇcty oˇcekávaného ˇcasu. Jeden je zaloˇzen na nˇekolika jednoduch´ ych pozorován´ıch a nen´ı v nˇem mnoho poˇc´ıtán´ı, druh´ y na rekurzivn´ım v´ ypoˇctu. Ten je poˇcetnˇe nároˇcnˇejˇs´ı, ale postup je standardn´ı. Hlavn´ı idea v obou pˇr´ıpadech spoˇc´ıvá v tom, ˇze oˇcekávan´ y ˇcas algoritmu QUICKSORT je u ´mˇern´ y oˇcekávanému poˇctu porovnán´ı v algoritmu QUICKSORT. Tento fakt plyne pˇr´ımo z popisu algoritmu. Budeme tedy poˇc´ıtat oˇcekávan´ y poˇcet porovnán´ı pro algoritmus QUICKSORT. Prvn´ı zp˚ usob v´ ypoˇctu: Kaˇzdé dva prvky ai a aj algoritmus QUICKSORT porovná pˇri tˇr´ıdˇen´ı posloupnosti (a1 , a2 , . . . , an ) nejv´ yˇse jednou, pˇriˇcemˇz kdyˇz porovnává ai a aj , pak pro nˇejak´ y bˇeh podprocedury Quick je ai nebo aj pivot, ale v pˇredchoz´ıch bˇez´ıch Quick ai ani aj nebyl pivotem (protoˇze pivot je vˇzdy vyˇrazen z následuj´ıc´ıch volán´ı této podprocedury). Necht’ (b1 , b2 , . . . , bn ) je v´ ysledná posloupnost. Oznaˇcme Xi,j boolskou promˇenou, která má hodnotu 1, kdyˇz QUICKSORT provedl porovnán´ı mezi prvky bi a bj , a jinak má hodnotu 0. Pˇredpokládejme, ˇze je 145

to náhodná veliˇcina. Kdyˇz pi,j je pravdˇepodobnost, ˇze Xi,j = 1, pak oˇcekávaná hodnota Xi,j je E(Xi,j ) = 0(1 − pi,j ) + 1pi,j = pi,j . Protoˇze poˇcet porovnán´ı pˇri bˇehu algoritmu QUICKSORT je n X n X

Xi,j

i=1 j=i+1

a protoˇze oˇcekávaná hodnota souˇctu náhodn´ ych promˇenn´ ych je souˇctem oˇcekávan´ ych hodnot, dostáváme, ˇze oˇcekávan´ y poˇcet porovnán´ı v algoritmu QUICKSORT je n X n X

E(Xi,j ) =

i=1 j=i+1

n X n X

pi,j .

i=1 j=i+1

Abychom spoˇc´ıtali pi,j , pop´ıˇseme chován´ı algoritmu QUICKSORT pomoc´ı modifikace stromu v´ ypoˇctu. Bude to binárn´ı strom, v nˇemˇz kaˇzd´ y vrchol odpov´ıdá jednomu bˇehu podprocedury Quick. Vrchol v bude vnitˇrn´ım vrcholem, kdyˇz odpov´ıdaj´ıc´ı podprocedura volila pivota, a tento pivot bude ohodnocen´ım v. V podstromu levého syna vrcholu v budou právˇe vˇsechna následuj´ıc´ı rekurzivn´ı volán´ı podprocedury Quick nad ˇca´st´ı posloupnosti, která pˇredcház´ı pivotu. Analogicky v podstromu pravého syna vrcholu v budou právˇe vˇsechna následuj´ıc´ı rekurzivn´ı volán´ı procedury Quick nad ˇca´st´ı posloupnosti, která následuje po pivotu. Listy stromu odpov´ıdaj´ı volán´ı procedury Quick nad jednoprvkov´ ymi posloupnostmi a kaˇzd´ y takov´ y jednotliv´ y prvek ohodnocuje pˇr´ısluˇsn´ y list. Kdyˇz vrchol v odpov´ıdá volán´ı Quick nad posloupnost´ı (ai , ai+1 , . . . , aj ), pak vrcholy v podstromu levého syna v jsou ohodnoceny prvky z posloupnosti (ai , ai+1 , . . . , al−1 ) a vrcholy v podstromu pravého syna vrcholu v jsou ohodnoceny prvky z posloupnosti (aq+1 , . . . , aj ) (po pˇrerovnán´ı). Dále plat´ı {al | i ≤ l ≤ j} = {bl | i ≤ l ≤ j}. Oˇc´ıslujeme vrcholy tohoto stromu prohledáván´ım do ˇs´ıˇrky za pˇredpokladu, ˇze lev´ y syn vrcholu pˇredcház´ı ’ pravému synu. Necht (c1 , c2 , . . . , cn ) je posloupnost prvk˚ u {ai | 1 ≤ i ≤ n} v poˇrad´ı daném t´ımto oˇc´ıslován´ım. Pak plat´ı, ˇze Xi,j = 1, právˇe kdyˇz prvn´ı prvek v posloupnosti (c1 , c2 , . . . , cn ) z mnoˇzi2 2 ny {bl | i ≤ l ≤ j} je bud’ bi nebo bj . Pravdˇepodobnost tohoto jevu je j−i+1 , tedy pi,j = j−i+1 pro 1 ≤ i < j ≤ n. Odtud oˇcekávan´ y poˇcet porovnán´ı v algoritmu QUICKSORT je n X n X

pi,j =

i=1 j=i+1

n X n X i=1

Z n n n−i+1 n X X X 2 1 1 2 = ≤ 2n( ) ≤ 2n dx = 2n ln n. j − i + 1 k k x 1 i=1 k=2 j=i+1 k=2

Druh´ y zp˚ usob v´ ypoˇctu: Oznaˇcme QS(n) oˇcekávan´ y poˇcet porovnán´ı proveden´ ych algoritmem QUICKSORT pˇri tˇr´ıdˇen´ı n-ˇclenné posloupnosti. Pak plat´ı QS(0) = QS(1) = 0 a n−1 n−1 2 X 1 X n − 1 + QS(k) + QS(n − k − 1) = n − 1 + ( QS(k)). QS(n) = n k=0 n k=0

Z toho dostáváme, ˇze nQS(n) = n(n − 1) + 2 Pˇrep´ıˇseme jeˇstˇe jednou tuto rovnici s n + 1 m´ısto n:

n−1 X

QS(k).

k=0

(n + 1)QS(n + 1) = (n + 1)n + 2

n X k=0

146

QS(k).

Od této rovnice odeˇcteme rovnici pˇredchoz´ı a po jednoduché u ´pravˇe z´ıskáme rekurentn´ı vztah QS(n + 1) =

2n n+2 + QS(n). n+1 n+1

Postupn´ ym dosazován´ım dostaneme ˇreˇsen´ı QS(n) =

n+1 X 1 1 = 2(n + 1) = i + 1 i i + 1 i i=3 i=2 i=2 Z n+1 n+1 X 1 1 1 1 2(n + 1) − ≤ 2(n + 1) ( dx) − = i 2 2 i=1 x i=2 n X n + 1 2(i − 1)

≤ 2(n + 1)

n X

2n ln(n + 1) + 2 ln(n + 1) − n − 1. Pro dostateˇcnˇe velká n tedy plat´ı

2n ln(n + 1) + 2 ln(n + 1) − n ≤ 2n ln n. 6.0.11

Porovn´ an´ı tˇ r´ıdic´ıch algoritm˚ u

Nyn´ı porovnáme sloˇzitost algoritm˚ u HEAPSORT, MERGESORT, QUICKSORT, A-sort (byl popsán v kapitole o (a, b)−stromech), SELECTIONSORT a INSERTIONSORT. Pˇripomeˇ nme si, ˇze SELECTIONSORT tˇr´ıd´ı posloupnost tak, ˇze jedn´ım pr˚ uchodem nalezne jej´ı nejmenˇs´ı prvek, kter´ y vyˇrad´ı a vloˇz´ı do v´ ysledné posloupnosti (ve verzi, která tˇr´ıd´ı na m´ıstˇe, ho vymˇen´ı s lev´ ym krajn´ım prvkem pole). Tento proces pak opakuje se zbytkem p˚ uvodn´ı posloupnosti. Tato idea byla základem algoritmu HEAPSORT. INSERTIONSORT tˇr´ıd´ı tak, ˇze do jiˇz setˇr´ıdˇeného zaˇca´tku posloupnosti vkládá dalˇs´ı prvek, kter´ y pomoc´ı v´ ymˇen zaˇrad´ı na správné m´ısto, a tento proces (zaˇc´ıná druh´ ym prvkem zleva) opakuje. QUICKSORT v nejhorˇs´ım pˇr´ıpadˇe vyˇzaduje ˇcas Θ(n2 ), oˇcekávan´ y ˇcas je 9n log n, v nejhorˇs´ım pˇr´ıpadˇe 2 provád´ı n2 porovnán´ı, oˇcekávan´ y poˇcet porovnán´ı je 1.44n log n. Potˇrebuje n + log n + konst pamˇeti, pouˇz´ıvá pˇr´ım´ y pˇr´ıstup k pamˇeti a nen´ı adaptivn´ı na pˇredtˇr´ıdˇené posloupnosti. HEAPSORT v nejhorˇs´ım pˇr´ıpadˇe vyˇzaduje ˇcas 20n log n, oˇcekávan´ y ˇcas je ≤ 20n log n, v nejhorˇs´ım i v oˇcekávaném pˇr´ıpadˇe provád´ı 2n log n porovnán´ı. Potˇrebuje n + konst pamˇeti, pouˇz´ıvá pˇr´ım´ y pˇr´ıstup k pamˇeti a nen´ı adaptivn´ı na pˇredtˇr´ıdˇené posloupnosti. MERGESORT v nejhorˇs´ım pˇr´ıpadˇe vyˇzaduje ˇcas 12n log n, oˇcekávan´ y ˇcas je ≤ 12n log n, v nejhorˇs´ım i v oˇcekávaném pˇr´ıpadˇe provád´ı n log n porovnán´ı (nejmenˇs´ı moˇzn´ y poˇcet). Potˇrebuje 2n + konst pamˇeti, pouˇz´ıvá sekvenˇcn´ı pˇr´ıstup k pamˇeti a má verzi, která je adaptivn´ı na pˇredtˇr´ıdˇené posloupnosti s mal´ ym poˇctem bˇeh˚ u. A-sort v nejhorˇs´ım pˇr´ıpadˇe i v oˇcekáném pˇr´ıpadˇe vyˇzaduje ˇcas O(n log Fn ), kde F je poˇcet inverz´ı ve vstupn´ı posloupnosti, v nejhorˇs´ım i v oˇcekávaném pˇr´ıpadˇe provád´ı O(n log Fn ) porovnán´ı. Potˇrebuje 5n + konst pamˇeti, pouˇz´ıvá pˇr´ım´ y pˇr´ıstup k pamˇeti a je adaptivn´ı na pˇredtˇr´ıdˇené posloupnosti s mal´ ym poˇctem inverz´ı. SELECTIONSORT v nejhorˇs´ım i v oˇcekávaném pˇr´ıpadˇe vyˇzaduje ˇcas 2n2 , poˇcet porovnán´ı v nejhorˇs´ım 2 i v oˇcekávaném pˇr´ıpadˇe je n2 . Potˇrebuje n+konst pamˇeti, pouˇz´ıvá pˇr´ım´ y pˇr´ıstup k pamˇeti a nen´ı adaptivn´ı na pˇredtˇr´ıdˇené posloupnosti. INSERTIONSORT v nejhorˇs´ım i v oˇcekávaném pˇr´ıpadˇe vyˇzaduje ˇcas O(n2 ), poˇcet porovnán´ı v ne2 2 jhorˇs´ım pˇr´ıpadˇe je n2 , v oˇcekávaném pˇr´ıpadˇe n4 . Potˇrebuje n + konst pamˇeti, pouˇz´ıvá sekvenˇcn´ı pˇr´ıstup k pamˇeti a má verzi, která je adaptivn´ı na pˇredtˇr´ıdˇené posloupnosti s mal´ ym poˇctem inverz´ı. Prezentované v´ ysledky byly spoˇc´ıtány pro model RAM (viz Mehlhorn 1984). Oˇcekávan´ y ˇcas pro HEAPSORT je prakticky stejn´ y jako jeho nejhorˇs´ı ˇcas. Byly navrˇzeny verze, které optimalizuj´ı poˇcet porovnán´ı, ale vˇetˇsinou maj´ı vˇetˇs´ı nároky na ˇcas, a proto aˇz na v´ yjimky nejsou pro 147

praktické pouˇzit´ı vhodné. Situace pro MERGESORT je komplikovanˇejˇs´ı, hodnˇe závis´ı na konkrétn´ı verzi algoritmu. Algoritmus MERGESORT je nejvhodnˇejˇs´ı pro extern´ı pamˇeti se sekvenˇcn´ım pˇr´ıstupem k dat˚ um, pro intern´ı pamˇet’ kv˚ uli velké prostorové nároˇcnosti nen´ı doporuˇcován (je napˇr. dvojnásobná proti HEAPSORTU a témˇeˇr dvojnásobná proti QUICKSORTU). Také se hod´ı pro návrh paraleln´ıch algoritm˚ u. Pro tˇr´ıdˇen´ı krátk´ ych posloupnost´ı je doporuˇcováno m´ısto QUICKSORTU pro posloupnosti délky ≤ 22 pouˇz´ıt SELECTIONSORT a pro posloupnosti délky ≤ 15 INSERTIONSORT. To vede k návrhu optimalizovanéh QUICKSORTU, kter´ y, kdyˇz volá rekurzivnˇe sám sebe na krátkou posloupnost, pak pouˇzije SELECTIONSORT nebo INSERTIONSORT. V algoritmu A-sort se doporuˇcuje pouˇz´ıt (2, 3)-strom. Pomˇer ˇcas˚ u spotˇrebovan´ ych algoritmy QUICKSORT, MERGESORT a HEAPSORT na klasick´ ych poˇc´ıtaˇc´ıch uvád´ı Mehlhorn (1984) jako 1 : 1.33 : 2.22. To vˇsak nemus´ı b´ yt pravda pro souˇcasné procesory, pamˇeti a operaˇcn´ı systémy. 6.0.12

Sl´ ev´ an´ı nestejnˇ e dlouh´ ych posloupnost´ı

V algoritmu MERGESORT jsme pouˇzili frontu, která ˇr´ıdila proces sluˇcován´ı rostouc´ıch posloupnost´ı. Tato metoda je uspokojuj´ıc´ı a dává optimáln´ı v´ ysledek (ve smyslu ˇcasové nároˇcnosti), pokud posloupnosti ve frontˇe jsou stejnˇe dlouhé. Pokud se ale jejich délky hodnˇe liˇs´ı, nedosáhneme t´ımto zp˚ usobem optimáln´ıho v´ ysledku. Pˇritom r˚ uzné verze tohoto problému se vyskytuj´ı v mnoha u ´lohách. Jednou z prvn´ıch u ´loh, kde jsme se s n´ım setkali, je konstrukce Huffmanova kódu – to je minimáln´ı redundantn´ı kód, kter´ y byl nalezen v roce 1952. K optimáln´ımu ˇreˇsen´ı vede napˇr. postup, kter´ y je kombinac´ı ‘mergeován´ı’ a optimalizace a pouˇz´ıvá metody dynamického programován´ı. Nejprve formálnˇe pop´ıˇseme abstraktn´ı verzi tohoto problému. Vstup: Mnoˇzina rostouc´ıch navzájem disjunktn´ıch posloupnost´ı. ´ Ukol: Pomoc´ı operace MERGE co nejrychleji spojit vˇsechny tyto posloupnosti do jediné rostouc´ı posloupnosti. Pˇredpokládejme, ˇze máme postup, kter´ y z dan´ ych rostouc´ıch posloupnost´ı vytvoˇr´ı jedinou rostouc´ı posloupnost. Tento postup urˇcuje u ´pln´ y binárn´ı strom T , jehoˇz listy jsou ohodnoceny vstupn´ımi posloupnostmi a kaˇzd´ y vnitˇrn´ı vrchol je ohodnocen posloupnost´ı, která je slouˇcen´ım vstupn´ıch posloupnost´ı ohodnocuj´ıc´ıch listy v podstromu urˇceném t´ımto vrcholem. Tedy koˇren je ohodnocen v´ ystupn´ı posloupnost´ı. Formálnˇe pro kaˇzd´ y vnitˇrn´ı vrchol v plat´ı: 1. ””kdyˇz v1 a v2 jsou synové v a P (v) je posloupnost ohodnocuj´ıc´ı vrchol v, pak P (v) =MERGE(P (v1 ), P (v2 )). Oznaˇcme l(P ) d´ elku posloupnosti P . Pak souˇcet ˇcas˚ u, které v tomto procesu vyˇzaduje podprocedura P MERGE, je O( {l(P (v)) | v je vnitˇrn´ı vrchol stromu T }). Indukc´ı lehce dostaneme, ˇze X X {l(P (v)) | v vnitˇrn´ı vrchol stromu T } = d(t)l(P (t)), {t je list T }

kde d(t) je hloubka listu t. Kdyˇz tedy T je u ´pln´ y binárn´ı strom, jehoˇz listy jsou ohodnoceny navzájem disjunktn´ımi rostouc´ımi posloupnostmi, pak následuj´ıc´ı algoritmus Slevani spoj´ı tyto posloupnosti do jediné rostouc´ı posloupnosti a procedury MERGE budou vyˇzadovat celkov´ y ˇcas X O( d(t)l(P (t))). {t je list T }

Slevani(T, {P (l) | l je list T }) while P (koˇren T ) nen´ı definováno do 148

v := vrchol T takov´ y, ˇze P (v) nen´ı definováno a pro oba syny v1 a v2 vrcholu v jsou P (v1 ) a P (v2 ) definovány P (v) :=MERGE(P (v1 ), P (v2 )) enddo Nyn´ı m˚ uˇzeme pˇreformulovat p˚ uvodn´ı problém: Vstup: n ˇc´ısel x1 , x2 , . . . , xn V´ ´pln´ y binárn´ı strom T s n listy a bijekce φ z mnoˇziny {1, 2, . . . , n} do list˚ u T taková, ˇze Pynstup: u d(φ(i))x je minim´ a ln´ ı (kde d(φ(i)) je hloubka listu φ(i)). i i=1 ˇ Rekneme, ˇze dvojice (T, φ) je optimáln´ı strom vzhledem k x1 , x2 , . . . , xn . V pˇreformulováné u ´loze uˇz nepracujeme s posloupnostmi, ale jen s jejich délkami. To znamená, ˇze kdyˇz pro p˚ uvodn´ı u ´lohu byly vstupem posloupnosti P1 , P2 , . . . , Pn , pak pro pˇreformulovanou u ´lohu jsou vstupem jen délky l(P1 ), l(P2 ), . . . , l(Pn ). Strom vytvoˇren´ y pro pˇreformulovanou u ´lohu je pouˇzit v algoritmu Slevani tak, ˇze posloupnost Pi ohodnocuje list, kter´ y byl v pˇreformulované u ´loze ohodnocen délkou l(Pi ), a hledaná posloupnost v p˚ uvodn´ı u ´loze ohodnocuje koˇren stromu. Mˇejme mnoˇzinu {xi | i = 1, 2, . . . , n}. Pro u ´pln´ y binárn´ı strom T s n listy a bijekci φ z mnoˇziny {1, 2, . . . , n} do list˚ u stromu T definujme n X Cont(T, φ) = d(φ(i))xi , i=1

kde d(φ(i)) je hloubka listu φ(i), tj. délka cesty z koˇrene do listu φ(i) pro i = 1, 2, . . . , n. Chceme zkonstruovat u ´pln´ y binárn´ı strom s n listy, kter´ y minimalizuje hodnotu Cont. K ˇreˇsen´ı pouˇzijeme následuj´ıc´ı algoritmus, kter´ y je upravenou verz´ı hladového algoritmu pro náˇs problém. Optim(x1 , x2 , . . . xn ): V je mnoˇzina n jednoprvkov´ ych strom˚ u φ je bijekce mezi {1, 2, . . . , n} a mnoˇzinou V for every v ∈ V do c(v) := xφ−1 (v) enddo while |V | > 1 do vezmi z V dva stromy v1 a v2 s nejmenˇs´ım ohodnocen´ım odstraˇ n je z V vytvoˇr nov´ y strom v spojen´ım strom˚ u v1 a v2 c(v) := c(v1 ) + c(v2 ), strom v vloˇz do V enddo V´ ystup: (T, φ), kde T je strom v mnoˇzinˇe V Vytvoˇren´ı nového stromu v spojen´ım strom˚ u v1 a v2 znamená vytvoˇren´ı nového vrcholu, kter´ y bude koˇrenem stromu v a jehoˇz synové budou koˇreny strom˚ u v1 a v2 . To je analogické proceduˇre spoj. Vˇ eta. Pro danou posloupnost ˇc´ısel (x1 , x2 , . . . , xn ) algoritmus Optim nalezne optimáln´ı strom pro mnoˇzinu x1 , x2 , . . . , xn a pokud je posloupnost (x1 , x2 , . . . , xn ) neklesaj´ıc´ı, pak vyˇzaduje ˇcase O(n). D˚ ukaz. D˚ ukaz má dvˇe ˇca´sti. V prvn´ı dokáˇzeme korektnost algoritmu a ve druhé pop´ıˇseme reprezentaci mnoˇziny V a vypoˇcteme ˇcasovou sloˇzitost. Nejprve pˇripomeˇ nme, ˇze φ(i) je list T pro kaˇzdé i ∈ {1, 2, . . . , n}. Protoˇze na zaˇca´tku V obsahuje jen jednoprvkové stromy, tak tvrzen´ı plat´ı. Kaˇzd´ y bˇeh cyklu while do zmenˇs´ı poˇcet strom˚ u V o jeden, ale nezmˇen´ı mnoˇzinu list˚ u. Proto T je strom s n listy, φ je bijekce z {1, 2, . . . , n} do mnoˇziny list˚ u T a algoritmus vˇzdy konˇc´ı. Dokáˇzeme indukc´ı podle n, ˇze zkonstruovaná dvojice (T, φ) je optimáln´ı strom vzhledem k (x1 , x2 , . . . , xn ). Kdyˇz n = 2, tvrzen´ı zˇrejmˇe plat´ı. Pˇredpokládejme, ˇze plat´ı pro kaˇzdou posloupnost ˇc´ısel (y1 , y2 , . . . ,yn−1 ), a necht’ x1 ≤ x2 ≤ · · · ≤ xn je neklesaj´ıc´ı posloupnost ˇc´ısel. Bez u ´jmy na obecnosti m˚ uˇzeme pˇredpokládat, ˇze v prvn´ım kroku algoritmus Optim zvolil stromy φ(1) a φ(2). Uvaˇzujme mnoˇzinu (y1 , y2 , . . . , yn−1 ), kde yi = xi+2 pro i = 1, 2, . . . , n − 2, yn−1 = x1 + x2 . Necht’ T ′ je strom z´ıskan´ y ze stromu T odstranˇen´ım list˚ u φ(1) a φ(2) a necht’ ψ je bijekce z mnoˇziny {1, 2, . . . , n − 1} taková, ˇze 149

ψ(i) = φ(i+2) pro i = 1, 2, . . . , n−2 a ψ(n−1) je otec listu φ(1). Pak m˚ uˇzeme pˇredpokládat, ˇze algoritmus ′ Optim(y1 , y2 , . . . , yn−1 ) zkonstruoval strom (T , ψ), a podle indukˇcn´ıho pˇredpokladu je to optimáln´ı strom pro (y1 , y2 , . . . , yn−1 ). Necht’ (U, θ) je optimáln´ı strom vzhledem k (x1 , x2 , . . . , xn ). Zvolme vnitˇrn´ı vrchol u stromu U takov´ y, ˇze délka cesty z koˇrene do vrcholu u je nejvˇetˇs´ı mezi vˇsemi vnitˇrn´ımi vrcholy stromu U . Necht’ u1 a u2 jsou synové u, pak nutnˇe u1 a u2 jsou listy stromu U . Necht’ i, j ∈ {1, 2, . . . , n} takové, ˇze θ(i) = u1 , θ(j) = u2 . Po eventuáln´ım pˇrejmenován´ı m˚ uˇzeme pˇredpokládat, ˇze kdyˇz i, j ∈ {1, 2}, pak i = 1 a j = 2. Definujme η z {1, 2, . . . , n} do list˚ u U tak, ˇze η(1) = u1 , η(2) = u2 , η(i) = θ(1), η(j) = θ(2) a η(k) = θ(k) pro vˇsechna k ∈ {3, 4, . . . , n} \ {i, j}. Pak η je bijekce a Cont(U, η) − Cont(U, θ) = (d(u1 ) − d(θ(1))(x1 − xi ) + (d(u2 ) − d(θ(2))(x2 − xj ). Z volby u plyne, ˇze d(u1 ) ≥ d(θ(1)), d(u2 ) ≥ d(θ(2)), x1 ≤ xi a x2 ≤ xj . Odtud (d(u1 ) − d(θ(1))(x1 − xi ) + (d(u2 ) − d(θ(2))(x2 − xj ) ≤ 0 a protoˇze (U, θ) je optimáln´ı strom pro (x1 , x2 , . . . , xn ), dostáváme, ˇze (U, η) je také optimáln´ı strom pro (x1 , x2 , . . . , xn ). Odstranˇen´ım list˚ u u1 a u2 ze stromu U dostaneme strom U ′ . Definujme τ z {1, 2, . . . , n−1} pˇredpisem τ (i) = η(i + 2) pro i = 1, 2, . . . , n − 2 a τ (n − 1) = u. Pak τ je bijekce z {1, 2, . . . , n − 1} do mnoˇziny list˚ u U ′ a protoˇze (T ′ , ψ) je optimáln´ı strom pro (y1 , y2 , . . . , yn−1 ), plat´ı, ˇze Cont(T ′ , ψ) ≤ Cont(U ′ , τ ). Protoˇze Cont(T, φ) = Cont(T, ψ) + x1 + x2 , Cont(U, η) = Cont(U ′ , τ ) + x1 + x2 pak závˇer je, ˇze (T, φ) je optimáln´ı strom pro (x1 , x2 , . . . , xn ). Pˇredpokládejme opˇet, ˇze x1 ≤ x2 ≤ · · · ≤ xn a ˇze v daném okamˇziku jsou v1 , v2 , . . . , vk postupnˇe vytvoˇrené v´ıceprvkové stromy (tj. strom vi byl vytvoˇren pˇred stromem vj , kdyˇz i < j). V tomto okamˇziku je mnoˇzina V sjednocen´ım mnoˇziny {v1 , v2 , . . . , vk } a mnoˇziny jednoprvkov´ ych strom˚ u, které nebyly jeˇstˇe zpracovány. Nyn´ı vytvoˇr´ıme strom w spojen´ım strom˚ u t1 a t2 s nejmenˇs´ım ohodnocen´ım. Z popisu algoritmu plyne, ˇze kdyˇz strom vi pro i = 1, 2, . . . , k vznikl spojen´ım strom˚ u u1 a u2 , pak max{c(u1 ), c(u2 )} ≤ min{c(t1 ), c(t2 )}, a proto c(w) ≥ c(vi ) pro kaˇzdé i = 1, 2, . . . , k. Pak indukc´ı okamˇzitˇe dostáváme, ˇze c(v1 ) ≤ c(v2 ) ≤ · · · ≤ c(vk ). Tedy staˇc´ı, abychom mˇeli rostouc´ı posloupnost list˚ u a v n´ı ukazatel na nejmenˇs´ı list, kter´ y je jeˇstˇe nezpracovan´ ym jednoprvkov´ ym stromem (tj. pˇred ukazatelem jsou listy, které uˇz nejsou stromy v mnoˇzinˇe V , za ukazatelem jsou listy, které jsou jeˇstˇe jednoprvkové stromy v mnoˇzinˇe V ) a frontu v´ıceprvkov´ ych strom˚ u (z n´ıˇz stromy ke zpracován´ı odeb´ıráme zpˇredu a novˇe vytvoˇrené ukládáme na konec). Udrˇzovat tyto struktury vyˇzaduje ˇcas O(1) stejnˇe jako nalezen´ı dvou strom˚ u s nejmenˇs´ım ohodnocen´ım. M˚ uˇzeme tedy shrnout, ˇze algoritmus Optim konstruuje optimáln´ı stromy v ˇcase O(n), kde n je poˇcet zadan´ ych ˇc´ısel xi .

Pro aplikaci na naˇsi p˚ uvodn´ı u ´lohu je tˇreba jeˇstˇe setˇr´ıdit vstupn´ı posloupnost délek pro pˇreformulovanou u ´lohu. Tato posloupnost je tvoˇrena pˇrirozen´ ymi ˇc´ısly a k jej´ımu setˇr´ıdˇen´ı m˚ uˇzeme pouˇz´ıt algoritmus BUCKETSORT (bude popsán dále v textu), kter´ y vyˇzaduje ˇcas O(n + m), kde n je poˇcet posloupnost´ı a m je maximáln´ı délka posloupnosti.

Vˇ eta. Uvedený algoritmus mnoˇzinu disjunktn´ıch ach l(P1 ), l(P2 ), . . . , l( Prostouc´ıch posloupnost´ı P1 , P2 , . . . , Pn o délk´ spoj´ı do jediné rostouc´ı posloupnosti v ˇcase O( ni=1 l(Pi )). 150

6.1

Rozhodovac´ı stromy

Vˇetˇsina obecn´ ych tˇr´ıdic´ıch algoritm˚ u pouˇz´ıvá jedinou primitivn´ı operaci mezi prvky vstupn´ı posloupnosti, a to jejich vzájemné porovnán´ı. To znamená, ˇze práci takového algoritmu lze popsat binárn´ım stromem, jehoˇz vnitˇrn´ı vrcholy jsou ohodnoceny porovnán´ımi dvojic prvk˚ u vstupn´ı posloupnosti (napˇr. ai < aj ). Bez u ´jmy na obecnosti pˇredpokládejme, ˇze vstupn´ı posloupnost je permutace π mnoˇziny {1, 2, . . . , n}. Tato permutace procház´ı stromem takto: 1. ””Zaˇc´ıná v koˇreni stromu. Kdyˇz je ve vnitˇrn´ım vrcholu v ohodnoceném porovnán´ım ai ≤ aj , pak kdyˇz π(i) < π(j), pokraˇcuje v levém synu vrcholu v, a kdyˇz π(j) < π(i), pokraˇcuje v pravém synu vrcholu v. Proces tˇr´ıdˇen´ı konˇc´ı, kdyˇz se dostane do listu. Aby byl algoritmus korektn´ı, mus´ı platit, ˇze dvˇe r˚ uzné permutace skonˇc´ı v r˚ uzn´ ych listech. Tedy strom popisuj´ıc´ı korektn´ı algoritmus pro setˇr´ıdˇen´ı n-prvkov´ yvh posloupnost´ı mus´ı m´ıt alespoˇ n n! list˚ u. Délka cesty z koˇrene do listu, kde skonˇcila permutace π, reprezentuje poˇcet porovnán´ı, které potˇrebuje dan´ y algoritmus k setˇr´ıdˇen´ı dané posloupnosti π. Protoˇze porovnán´ı vyˇzaduje alespoˇ n jednotku ˇcasu, dostáváme t´ım i doln´ı odhad na ˇcas potˇrebn´ y k setˇr´ıdˇen´ı této posloupnosti algoritmem odpov´ıdaj´ıc´ım danému stromu. Doln´ı odhad poˇctu porovnán´ı i ˇcasu pro dan´ y algoritmus a vˇsechny n-prvkové posloupnosti je pak délka nejdelˇs´ı cesty z koˇrene do listu v odpov´ıdaj´ıc´ım stromu. To nám umoˇzn ˇuje z´ıskat obecnˇe platn´ y doln´ı odhad ˇcasu potˇrebného k setˇr´ıdˇen´ı n−prvkové posloupnosti, kter´ ym je minimum pˇres vˇsechny binárn´ı stromy s alespoˇ n n! listy z jejich maximáln´ıch délek cest z koˇrene do listu. Korektnost tˇechto u ´vah plyne z pozorován´ı, ˇze kdyˇz porovnán´ı je jediná primitivn´ı operace, pak algoritmus nen´ı závisl´ y na konkrétn´ıch prvc´ıch vstupn´ı posloupnosti, ale jen na jejich vzájemném vztahu. Proto staˇc´ı uvaˇzovat pouze permutace n-prvkové mnoˇziny, protoˇze zachycuj´ı vˇsechny moˇzné vztahy v n-prvkové posloupnosti. Dále je tˇreba si uvˇedomit, ˇze vztah mezi stromem pro n-prvkové posloupnosti a stromem pro (n + 1)-prvkové posloupnosti je dán konkrétn´ım algoritmem a nedá se popsat obecnˇe. V nevhodném algoritmu se m˚ uˇze stát, ˇze v nˇekterém listu neskonˇc´ı ˇza´dná permutace. To nastane, kdyˇz strom pro n-prvkové posloupnosti má v´ıce neˇz n! list˚ u, nebo, jinak ˇreˇceno, kdyˇz porovnán´ı dvou stejn´ ych prvk˚ u se na nˇejaké cestˇe vyskytne alespoˇ n dvakrát. Následuj´ıc´ı obrázek ilustruje naˇse u ´vahy na SELECTIONSORTU pro 3-prvkové posloupnosti. Listy jsou ohodnoceny permutacemi vstupn´ı mnoˇziny {a1 , a2 , a3 }, které v nich skonˇc´ı, nebo jsou prázdné. a1 < a2 a1 < a3 a2 < a3

a1 , a2 , a3 a1 , a3 , a2 a3 , a1 , a2

a2 < a3

a1 < a2

a1 < a3

a2 , a1 , a3 a2 , a3 , a1

a1 < a2

a3 , a2 , a1

Obrázek 11: SELECTIONSORT - postup Definice. Mˇejme tˇr´ıdic´ı algoritmus A, který jako jedinou primitivn´ı operaci s prvky vstupn´ı posloupnosti ˇ pouˇz´ıvá jejich porovnán´ı. Rekneme, ˇze bin´ arn´ı strom T , jehoˇz vnitˇrn´ı vrcholy jsou ohodnoceny porovnán´ımi ai ≤ aj pro i, j = 1, 2, . . . , n, i 6= j, je rozhodovac´ım stromem algoritmu A pro n-prvkové posloupnosti, kdyˇz pro kaˇzdou permutaci π n-prvkové mnoˇziny plat´ı 151

1. ””posloupnost porovnán´ı pˇri tˇr´ıdˇen´ı permutace π algoritmem A je stejná jako posloupnost porovnán´ı pˇri pr˚ uchodu permutace π stromem T . Pak korektnost algoritmu zajiˇst’uje, ˇze dvˇe r˚ uzné permutace mnoˇziny {1, 2, . . . , n} skonˇc´ı v r˚ uzn´ ych listech stromu T a doln´ım odhadem pro ˇcas algoritmu A v nejhorˇs´ım pˇr´ıpadˇe je délka nejdelˇs´ı cesty z koˇrene do listu. Pˇri rovnomˇerném rozdˇelen´ı vstupn´ıch posloupnost´ı je oˇcekávan´ y ˇcas algoritmu A roven pr˚ umˇerné délce cesty z koˇrene do listu. Definujme S(n) jako minimum pˇres vˇsechny stromy T s alespoˇ n n! listy z délek nejdelˇs´ıch cest z koˇrene do listu v T , A(n) jako minimum pˇres vˇsechny stromy T s alespoˇ n n! listy z pr˚ umˇern´ ych délek cest z koˇrene do listu v T. Naˇs´ım c´ılem je spoˇc´ıtat doln´ı odhady tˇechto veliˇcin. Kdyˇz nejdelˇs´ı cesta z koˇrene do listu v binárn´ım stromˇe T má délku k, pak T má nejv´ yˇse 2k list˚ u. Proto S(n) n! ≤ 2 . Odtud plyne, ˇze S(n) ≥ log2 n!. Pˇripomeˇ nme si Stirling˚ uv vzorec pro faktoriál: n! =

√

2πn

n n 1 1 (1 + + O( 2 )). e 12n n

1 Protoˇze pro n ≥ 1 je 12n , n12 ≥ 0, m˚ uˇzeme pˇredpokládat, ˇze (1 + zlogaritmován´ı vzorce dostáváme

log2 n! ≥

1 12n

+ O( n12 )) ≥ 1 pro vˇsechna n ≥ 1. Po

√ 1 1 log2 n + n(log2 n − log2 e) + log2 2π ≥ (n + ) log2 n − n log2 e. 2 2

Protoˇze e1 = e = 2log2 e = (eln 2 )log2 e = eln 2 log2 e , plat´ı, ˇze

1 ln 2

= log2 e, a tedy

1 n S(n) ≥ log2 n! ≥ (n + ) log2 n − . 2 ln 2

Dále pro binárn´ı strom T oznaˇcme B(T ) souˇcet vˇsech délek cest z koˇrene do list˚ u a poloˇzme B(k) = min{B(T ) | T je binárn´ı strom s k listy}. Kdyˇz ukáˇzeme, ˇze B(k) ≥ k log2 k, pak bude A(n) ≥

n! log2 n! 1 n B(n!) ≥ = log2 n! ≥ (n + ) log2 n − . n! n! 2 ln 2

Dokaˇzme tedy, ˇze B(T ) ≥ k log2 k pro kaˇzd´ y binárn´ı strom T s k listy. Kdyˇz ve stromˇe T vynecháme kaˇzd´ y vrchol, kter´ y má jen jednoho syna, a tohoto syna spoj´ıme s jeho pˇredch˚ udcem, dostaneme u ´pln´ y binárn´ı strom T ′ s k listy takov´ y, ˇze B(T ′ ) ≤ B(T ). Proto se staˇc´ı omezit na u ´plné binárn´ı stromy. Kdyˇz T je u ´pln´ y binárn´ı strom s jedn´ım listem, pak B(T ) = 0 = 1 log2 1, kdyˇz T je u ´pln´ y binárn´ı strom se dvˇema listy, pak B(T ) = 2 = 2 log2 2. Tedy plat´ı B(1) ≥ 1 log2 1 a B(2) ≥ 2 log2 2. Pˇredpokládejme, ˇze B(i) ≥ i log2 i pro i < k, a necht’ T je u ´pln´ y binárn´ı strom s k listy. Necht’ T1 a T2 jsou podstromy urˇcené ’ syny koˇrene a necht Ti má ki list˚ u, kde i = 1, 2. Pak 1 ≤ k1 , k2 a k1 + k2 = k, tedy k1 , k2 < k a podle indukˇcn´ıho pˇredpokladu B(ki ) ≥ ki log2 ki . Odtud B(T ) = k1 + B(T1 ) + k2 + B(T2 ) ≥ k + B(k1 ) + B(k2 ) ≥ k + k1 log2 k1 + k2 log2 k2 . Tedy staˇc´ı ukázat, ˇze k + k1 log2 k1 + k2 log2 k2 ≥ k log2 k 152

pro vˇsechna k1 , k2 > 0 taková, ˇze k = k1 + k2 . To je ekvivalentn´ı s tvrzen´ım, ˇze pro k > 0 plat´ı f (x) = x log2 x + (k − x) log2 (k − x) + k − k log2 k ≥ 0, kde x ∈ (0, k). Abychom to dokázali, vˇsimnˇeme si, ˇze f ( k2 ) = 0 a poˇc´ıtejme derivaci f . f ′ (x) = log2 x + log2 e − log2 (k − x) − log2 e = log2

x . k−x

Nyn´ı kdyˇz x ∈ (0, k2 ), pak f ′ (x) < 0 a f je na tomto intervalu klesaj´ıc´ı, kdyˇz x ∈ ( k2 , k), pak f ′ (x) > 0 a f je na tomto intervalu rostouc´ı. Odtud plyne, ˇze f (x) ≥ 0 pro x ∈ (0, k). T´ım jsme dokázali, ˇze A(n) ≥ (n + 21 ) log2 n − lnn2 . Shrneme naˇse v´ ysledky. Vˇ eta. Kaˇzdý tˇr´ıdic´ı algoritmus, jehoˇz jedinou primitivn´ı operac´ı s prvky vstupn´ı posloupnosti je porovnán´ı, vyˇzaduje v nejhorˇs´ım i v oˇcekávaném pˇr´ıpadˇe alespoˇ n cn log n ˇcasu pro nˇejakou konstantu c > 0. V ne1 n jhorˇs´ım pˇr´ıpadˇe pouˇzije alespoˇ n ⌈(n+ 2 ) log2 n− ln 2 ⌉ porovnán´ı a oˇcekávaný poˇcet porovnán´ı pˇri rovnomˇerném rozdˇelen´ı vstupn´ıch posloupnost´ı je alespoˇ n (n + 21 ) log2 n − lnn2 . Tato vˇeta plat´ı i pro ˇsirˇs´ı tˇr´ıdu primitivn´ıch operac´ı, proto v n´ı lze oslabit pˇredpklady. Doln´ı odhad (v nejhorˇs´ım i pr˚ umˇerném pˇr´ıpadˇe) bude platit i za pˇredpokladu, ˇze tˇr´ıdic´ı algoritmus nepouˇz´ıvá nepˇr´ımé adresován´ı a celoˇc´ıselné dˇelen´ı. (Na druhé stranˇe následuj´ıc´ı klasick´ y algoritmus BUCKETSORT ukazuje, ˇze pˇredpoklady ve vˇetˇe nelze zcela vynechat.) Tato metoda pro nalezen´ı doln´ıho odhadu se pouˇz´ıvá i pro vyˇc´ıslován´ı algebraick´ ych funkc´ı a pˇri algoritmickém ˇreˇsen´ı geometrick´ ych u ´loh.

6.2

Pˇ rihr´ adkov´ e tˇ r´ıdˇ en´ı

V následuj´ıc´ıch algoritmech pˇredpokládáme, ˇze Qi jsou spojové seznamy, nov´ y prvek se vkládá na konec seznamu a konkatenace seznam˚ u závis´ı na jejich poˇrad´ı. V seznamech máme okamˇzit´ y pˇr´ıstup k prvn´ımu a posledn´ımu prvku (pomoc´ı ukazatel˚ u na tyto prvky). Algoritmus BUCKETSORT tˇr´ıd´ı posloupnost pˇrirozen´ ych ˇc´ısel a1 , a2 , . . . , an z intervalu < 0, m >. BUCKETSORT(a1 , a2 , . . . , an , m): for every i = 0, 1, . . . , m do Qi = ∅ enddo for every i = 1, 2, . . . , n do ai vloˇz na konec seznamu Qai enddo i := 0, P := ∅ while i ≤ m do P :=konkatenace P a Qi , i := i + 1 enddo V´ ystup: P je neklesaj´ıc´ı posloupnost prvk˚ u a 1 , a2 , . . . , a n Algoritmus nevyˇzaduje, aby prvky ve vstupn´ı posloupnosti byly r˚ uzné. Ve v´ ystupn´ı posloupnosti se dan´ y prvek opakuje tolikrát, kolikrát se opakoval ve vstupn´ı posloupnosti, se zachován´ım poˇrad´ı (tj. tˇr´ıdˇen´ı je stabiln´ı). Konkatenace dvou seznam˚ u a vloˇzen´ı prvku do seznamu vyˇzaduj´ı ˇcas O(1). Proto prvn´ı a tˇret´ı cyklus vyˇzaduj´ı ˇcas O(m) a druh´ y cyklus ˇcas O(n). Celkem algoritmus vyˇzaduje O(n + m) ˇcasu a pamˇeti. Zˇrejmˇe kdyˇz m = O(n), tak pro tento algoritmus neplat´ı tvrzen´ı vˇety z pˇredchoz´ıho odstavce. D˚ uvodem je, ˇze nejsou splnˇeny pˇredpoklady, protoˇze druh´ y cyklus pouˇz´ıvá nepˇr´ımé adresován´ı. Nyn´ı uvedeme dvˇe sofistikovanˇejˇs´ı verze tohoto algoritmu. V prvn´ı pˇredpokládáme, ˇze a1 , a2 , . . . , an je posloupnost navzájem r˚ uzn´ ych reáln´ ych ˇc´ısel z intervalu < 0, 1 > a α je pevnˇe zvolené kladné reálné ˇc´ıslo. HYBRIDSORT(a1 , a2 , . . . , an ): k := αn 153

for every i = 0, 1, . . . , k do Qi = ∅ enddo for every i = 1, 2, . . . , n do ai vloˇz na konec seznamu Q⌈kai ⌉ enddo i := 0, P := ∅ while i ≤ k do HEAPSORT(Qi ) P :=konkatenace P a Qi , i := i + 1 enddo V´ ystup: P je rostouc´ı posloupnost prvk˚ u a 1 , a2 , . . . , an Vˇ eta. Algoritmus HYBRIDSORT setˇr´ıd´ı posloupnost reálných ˇc´ısel z intervalu < 0, 1 > v nejhorˇs´ım pˇr´ıpadˇe v ˇcase O(n log n). Kdyˇz prvky ai maj´ı rovnomˇerné rozloˇzen´ı a jsou na sobˇe nez´ avislé, pak oˇcekávaný ˇcas je O(n). D˚ ukaz. Prvn´ı dva cykly v algoritmu vyˇzaduj´ı ˇcas O(n), i-t´ y bˇeh tˇret´ıho cyklu vyˇzaduje nejv´ yˇse ˇcas O(1 + |Qi | log |Qi |). Proto ˇcas celého tˇret´ıho cyklu je O(

k k k X X X (1 + |Qi | log |Qi |) = O( (1 + |Qi | log n) = O(k + ( |Qi |) log n) = O(n log n) i=0

i=0

i=0

a celkov´ y ˇcas HYBRIDSORTU v nejhorˇs´ım pˇr´ıpadˇe je nejv´ yˇse O(n log n). Nyn´ı odhadneme oˇcekávan´ y ˇcas. Poloˇzme Xi = |Qi |. Pak Xi je náhodná promˇenná a protoˇze pravdˇepodobnost, 1 ˇze x ∈ Qi , je k , dostáváme, ˇze 1 n 1 q Prob(Xi = q) = ( ) (1 − )n−q . k q k Oˇcekávan´ y ˇcas vyˇzadovan´ y tˇret´ım cyklem se pak rovná E(

k X i=0

n X

n 1 q 1 n(n − 1) n ( ) (1 − )n−q = k + k( 1 + Xi log Xi ) ≤ k + k q + ) = O(n), 2 q k k k k q=2 2

protoˇze k = αn a n n n−2 n−1 = (q(q − 1) + q) = n(n − 1) +n . q q q q−2 q−1 2

(Jedná se vlastnˇe o znám´ y v´ ypoˇcet 2. momentu binomického rozdˇelen´ı).

Poznámka: V d˚ ukazu jsme pouˇzili odhad q log q ≤ q 2 a d˚ usledkem toho je, ˇze jsme dokázali, ˇze oˇcekávaná sloˇzitost HYBRIDSORTU z˚ ustane lineárn´ı, i kdybychom v nˇem m´ısto HEAPSORTU pouˇzili nˇejak´ y tˇr´ıdic´ı algoritmus s kvadratickou sloˇzitost´ı, napˇr. INSERTIONSORT. Nyn´ı pouˇzijeme modifikaci BUCKETSORTU pro tˇr´ıdˇen´ı slov. Máme totálnˇe uspoˇra´danou abecedu a chceme lexikograficky setˇr´ıdit slova a1 , a2 , . . . , an nad touto abecedou. Pˇripomeˇ nme, ˇze kdyˇz a = x1 x2 . . . xn a b = y1 y2 . . . ym jsou dvˇe slova nad totálnˇe uspoˇra´danou abecedou Σ, pak a < b v lexikografickém uspoˇra´dán´ı, právˇe kdyˇz existuje i = 0, 1, . . . , min{n, m} takové, ˇze xj = yj pro kaˇzdé j = 1, 2, . . . , i a bud’ l(i) n = i < m nebo i < min{n, m} a xi+1 < yi+1 . Pˇredpokládejme, ˇze ai = a1i a2i . . . ai , kde aji ∈ Σ a l(i) je délka i-tého slova ai . 154

WORDSORT(a1 , a2 , . . . , an ): for every i = 1, 2, . . . , n do l(i) :=délka slova ai enddo l = max{l(i) | i = 1, 2, . . . , n} for every i = 1, 2, . . . , l do Li = ∅ enddo for every i = 1, 2, . . . , n do ai vloˇz do Ll(i) enddo Komentáˇr: Pro kaˇzdé i obsahuje Li vˇsechna slova z mnoˇziny {a1 , a2 , . . . , an } délky i. P := {(j, aji ) | 1 ≤ i ≤ n, 1 ≤ j ≤ l(i)} P1 :=BUCKETSORT(P ) podle druhé komponenty P2 :=BUCKETSORT(P1 ) podle prvn´ı komponenty for every i = 1, 2, . . . , l do Si = ∅ enddo (i, x) :=prvn´ı prvek P2 while (i, x) 6= N IL do (i, x) vloˇz do Si while(i, x) =následn´ık (i, x) v P2 do (i, x) :=následn´ık (i, x) v P2 enddo (i, x) :=následn´ık (i, x) v P2 enddo Komentáˇr: V Si jsou vˇsechny dvojice (i, x) takové, ˇze x je i-t´ ym p´ısmenem nˇekterého vstupn´ıho slova a kdyˇz x < y, pak (i, x) je pˇred (i, y). for every s ∈ Σ do Ts := ∅ enddo T := ∅, i := l while i > 0 do T := konkatenace Li a T , a :=prvn´ı slovo v T while a 6= N IL do s := i-té p´ısmeno a, vloˇz a do Ts a :=následn´ık a v T enddo (i, x) :=prvn´ı prvek v Si , T := ∅ while (i, x) 6= N IL do T := konkatenace T a Tx , Tx := ∅ (i, x) :=následn´ık (i, x) v Si enddo i := i − 1 enddo V´ ystup: T je setˇr´ıdˇená posloupnost slov a1 , a2 , . . . , an Uvaˇzujme jeden bˇeh posledn´ıho cyklu algortimu pro urˇcité i. Po jeho skonˇcen´ı jsou v T vˇsechna slova z mnoˇziny a1 , a2 , . . . , an , která maj´ı délku alespoˇ n i, a kdyˇz slovo ar je pˇred aq v seznamu T , pak existuje k k j = i − 1, i, . . . , l takové, ˇze ar = aq pro kaˇzdé k = i, i + 1, . . . , j a bud’ l(r) = j ≤ l(q) nebo j < min{l(r), l(q)} a aj+1 < aj+1 ı algoritmu BUCKETSORT indukc´ı podle i. Jedin´ y r q . To plyne z vlastnost´ a hlavn´ı rozd´ıl proti BUCKETSORTU je, ˇze neprocház´ıme vˇsechny pˇrihrádky Tx , ale pouze neprázdné. To nám zajiˇst’uje mnoˇzina Si (viz Komentáˇr). P Oznaˇcme L = ni=1 l(i) a pˇripomeˇ nme, ˇze l = max{l(i) | i = 1, 2, . . . , n}. Pak prvn´ı cyklus (v´ ypoˇcet délek slov) vyˇzaduje ˇcas O(L). Druh´ y cyklus (inicializace seznam˚ u Li ) vyˇzaduje ˇcas O(l) = O(L) a tˇret´ı cyklus (zaˇrazen´ı slov do Li podle délek) ˇcas O(n) = O(L). Vytvoˇren´ı seznamu P vyˇzaduje ˇcas O(L) a jeho setˇr´ıdˇen´ı podle obou komponent ˇcas O(L + l) = O(L), protoˇze P i P1 maj´ı nejv´ yˇse L prvk˚ u. Dalˇs´ı cyklus (zaloˇzen´ı seznam˚ u Si ) vyˇzaduje ˇcas O(l) a následuj´ıc´ı cyklus vytváˇrej´ıc´ı seznamy Si ˇcas O(L). Cyklus zakládaj´ıc´ı seznamy Tx vyˇzaduje ˇcas O(|Σ|). Bˇehy dalˇs´ıho cyklu jsou indexovány i = 1, 2, . . . , l. Pro kaˇzdé i oznaˇcme 155

P mi poˇcet slov z mnoˇziny {a1 , a2 , . . . , an }, která maj´ı délku alespoˇ n i. Pak L = li=1 mi a prvn´ı vnitˇrn´ı cyklus v i-tém bˇehu vnˇejˇs´ıho cyklu vyˇzaduje ˇcas O(mi ) a druh´ y vnitˇrn´ı cyklus ˇcas O(|Si |) = O(mi ). Tedy celkov´ y ˇcas algoritmu je O(L + m), kde m = |Σ| a L je souˇcet délek vˇsech slov z mnoˇziny a1 , a2 , . . . , an .

6.3

Poˇ r´ adkov´ e statistiky

Na závˇer pop´ıˇseme dva algoritmy pro hledán´ı k-tého nejmenˇs´ıho prvku v dané podmnoˇzinˇe totálnˇe uspoˇra´daného univerza. Prvn´ı z nich vyuˇz´ıvá stejn´ y princip jako QUICKSORT. Nejprve zadáme pˇresné znˇen´ı naˇs´ı u ´lohy (´ uloha i algoritmy se daj´ı snadno pˇreformulovat pro pˇr´ıpad, kdy hledáme k−t´ y nejvˇetˇs´ı prvek). Pracujeme s totálnˇe uspoˇra´dan´ ym univerzem U . Vstup: mnoˇzina prvk˚ u M = {a1 , a2 , . . . , an } ⊆ U a ˇc´ıslo i takové, ˇze 1 ≤ i ≤ n. V´ ystup: prvek ak takov´ y, ˇze |{j | 1 ≤ j ≤ n, aj ≤ ak }| = i. n Kdyˇz i = 2 , pak ak se naz´ yvá medián. FIND(M = (a1 , a2 , . . . , an ), i): zvol a ∈ M M1 := {b ∈ M | b < a}, M2 := {b ∈ M | b > a} if |M1 | > i − 1 then FIND(M1 , i) else if |M1 | < i − 1 then FIND(M2 , i − |M1 | − 1) else V´ ystup: a je hledan´ y prvek endif endif D˚ ukaz korektnosti algoritmu je zaloˇzen na následuj´ıc´ım jednoduchém pozorován´ı: mˇejme mnoˇzinu M a prvek x a poloˇzme M1 = {m ∈ M | m < x}. Kdyˇz k ≤ |M1 |, pak k-t´ y nejmenˇs´ı prvek v M1 je stejn´ y jako k-t´ y nejmenˇs´ı prvek v M . Kdyˇz k > |M1 |, pak (k − |M1 |)-t´ y nejmenˇs´ı prvek v M \ M1 je k-t´ y nejmenˇs´ı prvek v M . Zb´ yvá vyˇsetˇrit sloˇzitost. V nejhorˇs´ım pˇr´ıpadˇe voláme FIND n-krát a jedno volán´ı vyˇzaduje ˇcas O(|M |). Tedy ˇcasová sloˇzitost algoritmu FIND v nejhorˇs´ım pˇr´ıpadˇe je O(n2 ). Dobré volby prvku a mohou algoritmus znaˇcnˇe zrychlit. V tomto pˇr´ıpadˇe plat´ı stejná diskuse jako pro QUICKSORT. Spoˇc´ıtáme oˇcekávan´ y ˇcas za pˇredpokladu, ˇze prvek a byl vybrán náhodnˇe. Pak pravdˇepodobnost, ˇze je k-t´ ym nejmenˇs´ım prvkem, je n1 , kde n = |M |. Oznaˇcme T (n, i) oˇcekávan´ y ˇcas algoritmu FIND pro nalezen´ı i-tého nejmenˇs´ıho prvku v n-prvkové mnoˇzinˇe M . Plat´ı i−1 n X 1 X T (n, i) = n + ( T (n − k, i − k) + T (k, i)), n k=1 k=i+1 protoˇze procedura FIND bez rekurzivn´ıho volán´ı sebe sama vyˇzaduje ˇcas O(n). Pˇredpokládejme, ˇze T (m, i) ≤ 4m pro kaˇzdé m < n a kaˇzdé i takové, ˇze 1 ≤ i ≤ m. Pak i−1 i−1 n n X X 1 X 1 X T (n − k, i − k) + 4(n − k) + T (k, i)) ≤ n + ( 4k) = T (n, i) =n + ( n k=1 n k=1 k=i+1 k=i+1

4 n2 + 2ni − n − 2i2 4 (2n − i)(i − 1) (n + i + 1)(n − i) + )=n+ ( ). n+ ( n 2 2 n 2

V´ yraz v ˇcitateli zlomku nab´ yvá svého maxima pro i = 156

n 2

a jeho maximaln´ı hodnota je 32 n2 − n =

3n2 −2n . 2

Tedy

4 3n2 − 2n ( ) = n + 3n − 2 = 4n − 2 < 4n. n 4 Protoˇze tento odhad plat´ı také pro n = 1 a n = 2, dokázali jsme indukc´ı, ˇze T (n, i) ≤ 4n pro vˇsechna n a vˇsechna i taková, ˇze 1 ≤ i ≤ n. Plat´ı tedy T (n, i) ≤ n +

Vˇ eta. Algoritmus FIND nalezne i-tý nejmenˇs´ı prvek v n prvkové tot´ alnˇe uspoˇrádané mnoˇzinˇe a v ne2 jhorˇs´ım pˇr´ıpadˇe vyˇzaduje ˇcas O(n ). Kdyˇz se pivot vol´ı n´ ahodnˇe nebo kdyˇz vˇsechny vstupn´ı mnoˇziny maj´ı stejnou pravdˇepodobnost, pak oˇcekávaný ˇcas je O(n). Pro velmi malá i nebo pro i velmi bl´ızká n pracuje rychleji pˇr´ım´ y pˇrirozen´ y algoritmus (udrˇzuje si posloupnost i nejmenˇs´ıch nebo n − i nejvˇetˇs´ıch prvk˚ u a k n´ı pˇridává dalˇs´ı tak, ˇze ten prvek, kter´ y pˇrekroˇcil danou hranici, je zapomenut). Tento algoritmus vˇsak nen´ı efektivn´ı pro obecná i. Následuj´ıc´ı algoritmus nalezne i-t´ y nejmenˇs´ı prvek v lineárn´ım ˇcase i v nejhorˇs´ım pˇr´ıpadˇe. Vstupem je opˇet podmnoˇzina M totálnˇe uspoˇra´daného univerza U a pˇrirozené ˇc´ıslo i takové, ˇze 1 ≤ i ≤ |M |. SELECT(M, i): n := |M | if n ≤ 100 then setˇrid’ mnoˇzinu M , m := i-t´ y nejmenˇs´ı prvek M else rozdˇel M do navzájem disjunktn´ıch pˇetiprvkov´ ych podmnoˇzin A1 , A2 , . . . , A⌈ n5 ⌉ (posledn´ı z podmnoˇzin m˚ uˇze m´ıt ménˇe neˇz 5 prvk˚ u). n for every j = 1, 2, . . . , ⌈ 5 ⌉ do najdi medián mj mnoˇziny Aj enddo n m ¯ :=SELECT({mj | j = 1, 2, . . . , ⌈ n5 ⌉}, ⌈ 10 ⌉) M1 := {m ∈ M | m < m}, ¯ M2 := {m ∈ M | m ¯ < m} if |M1 | > i − 1 then m :=SELECT(M1 , i) else if |M1 | < i − 1 then m :=SELECT(M2 , i − |M1 | − 1) else m := m ¯ endif endif V´ ystup: m endif D˚ ukaz korektnosti algoritmu je stejn´ y jako u algoritmu FIND. Zb´ yvá vyˇsetˇrit sloˇzitost. Nejprve dokáˇzeme následuj´ıc´ı lemma. Lemma. Kdyˇz n ≥ 100, pak |M1 |, |M2 | ≤

8n . 11

¯ pak |Aj ∩ M1 | ≥ 3, kdyˇz mj > m, ¯ pak |Aj ∩ M2 | ≥ 3, kdyˇz D˚ ukaz. Pro j ≤ ⌊ n5 ⌋ plat´ı, ˇze kdyˇz mj < m, n mj = m, ¯ pak |Aj ∩ M1 | = |Aj ∩ M2 | = 2. Protoˇze |{j = 0, 1, . . . , ⌊ 5 ⌋ | mj < m}|, ¯ |{j = 0, 1, . . . , ⌊ n5 ⌋ | mj > n 3n m}| ¯ ≥ ⌊ 10 ⌋, dostáváme, ˇze |M1 |, |M2 | ≥ ⌊ 10 ⌋ − 1. Dále plat´ı M1 ∩ M2 = ∅, M1 ∪ M2 = M \ {m} ¯ a protoˇze 8n 3n 113n + ⌊ 10 ⌋ − 1 ≥ 110 − 2 ≥ n kdyˇz n > 100, dostáváme poˇzadovan´ y odhad. 11

Maximáln´ı ˇcas vyˇzadovan´ y algoritmem SELECT(M, i) pro |M | = n oznaˇcme T (n). Kdyˇz n ≤ 100, pak zˇrejmˇe existuje konstanta a taková, ˇze T (n) ≤ an. Kdyˇz n > 100, pak ⌈ n5 ⌉ ≤ 21n , a protoˇze SELECT(M, i) 100 157

pro |M | > 100 bez rekurentn´ıch volán´ı vyˇzaduje ˇcas O(|M |), plat´ı, ˇze T (n) ≤ T ( 21n ) + T ( 8n ) + bn pro 100 11 1100b nˇejakou konstantu b. Zvolme c ≥ max{a, 69 }. Ukáˇzeme, ˇze T (n) ≤ cn pro vˇsechna n. Kdyˇz n ≤ 100, tak tvrzen´ı zˇrejmˇe plat´ı, protoˇze a ≤ c. Kdyˇz n > 100, pak ⌈ 21n ⌉, ⌈ 8n ⌉ < n, a protoˇze z volby c plyne 100 11 69 c, dostáváme b ≤ 1100 21n 8n 1031c T (n) ≤ c + c + bn = ( + b)n ≤ cn. 100 11 1100 Tedy Vˇ eta. Algoritmus SELECT nalezne i-tý nejmenˇs´ı prvek v line´ arn´ım ˇcase. Algoritmus FIND je ve velké vˇetˇsinˇe pˇr´ıpad˚ u rychlejˇs´ı neˇz algoritmus SELECT, proto je v praxi doporuˇcován, i kdyˇz existuj´ı pˇr´ıpady (velmi ˇr´ıdké), kdy potˇrebuje kvadratick´ y ˇcas. Je známo, ˇze medián nprvkové mnoˇziny lze nalézt s ménˇe neˇz 3n porovnán´ımi a ˇze kaˇzd´ y algoritmus hledaj´ıc´ı medián a pouˇz´ıvaj´ıc´ı porovnán´ı jako jedinou primitivn´ı operaci mezi prvky mnoˇziny vyˇzaduje v´ıce neˇz 2n porovnán´ı. 6.3.1

Historick´ y pˇ rehled

Algoritmus HEAPSORT navrhl v roce 1964 Williams a vylepˇsil Floyd (rovnˇeˇz 1964). Návrh na pouˇzit´ı dregulárn´ıch hald je folklor stejnˇe tak jako algoritmus MERGESORT. Algoritmy QUICKSORT a FIND zavedl Hoare (1962). Anal´ yza operace MERGE a hledán´ı optimáln´ıho stromu pocház´ı od Huffmana (1952) a lineárn´ı implementaci algoritmu navrhl van Leeuwen (1976). Anal´ yza rozhodovac´ıch strom˚ u je folklor. Algoritmus HYBRIDSORT navrhli Meijer a Akl (1980), vylepˇsená verze BUCKETSORTU (nazvaná WORDSORT) pocház´ı od Aho, Hopcrofta a Ullmana (1974). Algoritmus SELECT byl navrˇzen Blumem, Floydem, Prattem, Rivestem a Tarjanem (1972).

158

Datové struktury Algoritmy operací Jednoduché důsledky předpokladů... 9

Recommend Documents