Kovariance, 76. Kritická hodnota. souboru, 65 Kritický obor, 121 Kvantil. souboru, 64 Kvartil. souboru, 68. Median

Index χ2 -test, 133 dobré shody, 134 nezávislosti, 135 ´ Upln´ a pravdˇepodobnost, 50

Kovariance, 76 datov´ ych soubor˚ u, Kritická hodnota datového souboru, souboru, 65 Kritick´ y obor, 121 Kvantil datového souboru, souboru, 64 Kvartil datového souboru, souboru, 68

Alternativn´ı hypotéza, 118 ANOVA, 157 nevysvˇetlen´ y rozptyl, 159 pˇr´ıklad, 160 vysvˇetlen´ y rozptyl, 158 ANOVA 2, 161 pˇr´ıklad, 162 Bayes˚ uv vzorec, 51 Binomick´ a pravdˇepodobnost, 48 Bodov´ y odhad, 98 konzistence, 102 nestrannost, 100 vydatnost, 103

25 33

31

32

Median datového souboru, 21 souboru, 63 Metoda maximáln´ı vˇerohodnosti, 106 Metoda moment˚ u, 105 Mezikvartilové rozpˇet´ı, 30 Modus datového souboru, 22 souboru, 62 Moment centráln´ı, souboru, 67 centráln´ı, v´ ybˇerov´ y, 92 obecn´ y, souboru, 66 obecn´ y, v´ ybˇerov´ y, 91 MSE, 104

Centráln´ı limitn´ı vˇeta, 82 Charakteristiky souborové, 93 v´ ybˇerové, 94 Chyba I a II druhu, 120 Data, 14 Datov´ y soubor, 15 Distribuˇcn´ı funkce, 56 náhodného vektoru, 71

Náhodná veliˇcina, 52 diskrétn´ı, 53 spojitá, 54 Náhodn´ y jev, 39 Náhodn´ y pokus, 35 diskrétn´ı, 36 spojit´ y, 37 Náhodn´ y v´ ybˇer, 85 Náhodn´ y vektor, 70 Nekorelovanost, 77 Nezávislost, 47 Nulová hypotéza, 117

Empirick´ a distribuˇcn´ı funkce, 34 Hladina v´ yznamnosti, 119 Hp, 57 hustota pravdˇepodobnosti, 58 margin´ aln´ı, 73 náhodného vektoru, 72 podm´ınˇen´ a, 74 Intervalov´ y odhad, 99 Jevová algebra, 41 Jevové pole, 40

Odhad dvou pod´ıl˚ u, 115 Odhad dvou stˇredn´ıch hodnot nesdruˇzen´ y, 113 párov´ y, 114

Korelaˇcn´ı koeficient datov´ ych soubor˚ u, 26 Kovarianˇcn´ı matice, 78 1

geometrické, 3 log-normáln´ı, 7 normáln´ı, 6 poissonovo, 2 rovnomˇerné, 4 Rozdˇelen´ı náhodné veliˇciny, 55 Rozptyl datového souboru, 23 souboru, 60

sdruˇzen´ y, 112 Odhad pod´ılu, 111 Odhad rozptylu, 110 Odhad stˇredn´ı hodnoty neznám´ y rozptyl, 109 znám´ y rozptyl, 108 Operátorov´ y poˇcet s E a D, 69 p-hodnota, 123 Parametr rozdˇelen´ı, 84 PCA singul´ arn´ı ˇc´ısla, 164 vlastn´ı ˇc´ısla, 165 Poˇrad´ı dat, 17 Pr˚ umˇer, 18 Pr˚ umˇer ˇctverc˚ u, 19 Pravdˇepodobnost, 42 klasick´ a, 43 sloˇzen´ ych jev˚ u, 46 statistick´ a, 44 Pravdˇepodobnostn´ı strom, 49 Predikce exponenci´ aln´ı, 154 lineárn´ı, 144 polynomi´ aln´ı, 156 Proces, 13

Sloˇzené jevy, 45 Smˇerodatná odchylka datového souboru, 24 souboru, 61 Smˇerován´ı testu, 122 Souˇcet ˇctverc˚ u, 20 centráln´ı, 28 vzájemn´ y, centráln´ı, 29 Soubor, 83 Stˇredn´ı hodnota náhodného vektoru, 75 souboru, 59 Statistika, 95 odhadová, 96 testová, 97 Test dvou pod´ıl˚ u, 132 Test dvou rozptyl˚ u, 131 Test dvou stˇredn´ıch hodnot nesdruˇzen´ y, 129 párov´ y, 130 sdruˇzen´ y, 128 Test nezávislosti prvk˚ u v´ ybˇeru, 137 Test nezávislosti soubor˚ u, Kendal, 140 Test nezávislosti soubor˚ u, Pearson, 138 Test nezávislosti soubor˚ u, Spearman, 139 Test parametru rozdˇelen´ı, 116 Test pod´ılu, 127 Test rozdˇelen´ı, Kolmogorov-Smirnov, 141 Test rozptylu, 126 Test stˇredn´ı hodnoty neznám´ y rozptyl, 125 znám´ y rozptyl, 124 Transformace náhodné veliˇciny, 79 náhodného vektoru, 80

Regrese exponenci´ aln´ı, 153 F-test, 149 interval pro regresn´ı pˇr´ımku, 146 nevysvˇetlen´ y rozptyl, 151 polynomi´ aln´ı, 155 predikˇcn´ı interval, 145 t-test korelaˇcn´ıho koeficientu, 148 t-test smˇernice regresn´ı pˇr´ımky, 147 v´ıcen´ asobn´ a, 152 vysvˇetlen´ y rozptyl, 150 Regresn´ı pˇr´ımka, 142 koeficienty, 143 Rozdˇelen´ı χ2 , 9 F (Fisherovo), 10 t (Studentovo), 8 beta, 12 binomické, 1 exponenci´ aln´ı, 5 gama, 11

Uspoˇrádan´ y datov´ y soubor, 16

2

V´ ybˇerov´ y pod´ıl, 90 V´ ybˇerov´ y pr˚ umˇer, 86 rozptyl, 88 stˇredn´ı hodnota, 87 V´ ybˇerov´ y rozptyl, 89 Variaˇcn´ı rozpˇet´ı, 27 Vych´ ylen´ı bodového odhadu, 101 Základn´ı prostor, 38 Zákon velk´ ych ˇc´ısel, 81 Znaˇcen´ı pro odhady a testy, 107 Znaménkov´ y test medi´ anu, 136

3

Rozdˇ elen´ı! binomick´ e

[ binomial ]

Bi (x, n, p) - urˇ cuje pravdˇ epodobnost k u ´spˇ ech˚ u pˇ ri n pokusech, kter´ e maj´ı pouze dva moˇ zn´ e v´ ysledky (´ uspˇ ech a ne´ uspˇ ech). x n p

poˇcet u ´spˇech˚ u x ∈ {0, 1, 2, · · · , n} poˇcet pokus˚ u n∈N pravdˇepodobnost u ´spˇechu v jednom pokusu p ∈ (0, 1)

ˇ ´ı k l a d: Pravdˇepodobnost výbˇeru tˇr´ı dobrých výrobku z velké série, kde je 5% vadných, Pr pˇri náhodné kontrole deseti výrobku.

Hustota pravdˇ epodobnosti n x n−x f (x) = p (1 − p) x

Funkce • binomial pdf(x,n,p) - hustota pravdˇepodobnosti v hodnotˇe x • binomial cdf(x,n,p) - distribuˇcn´ı funkce v hodnotˇe x • binomial inv(α,n,p) - kvantil pro pravdˇepodobnost α • binomial rnd(n,p,nr,ns) - generátor náhodné matice rozmˇeru nr, ns

Jdi na Index nebo pomoc´ı ˇsipky Pˇ redch´ azej´ıc´ı zobrazen´ı na minulou obrazovku

4

Rozdˇ elen´ı! poissonovo P o (x, λ) x λ

-

[ poisson ]

je limitn´ım pˇ r´ıpadem binomick´ eho rozdˇ elen´ı, pro n → ∞ a p → 0

poˇcet u ´spˇech˚ u x ∈ {0, 1, 2, · · ·} intenzita n · p = λ ∈ R+

ˇ ´ı k l a d: Popisuje pohyb vozidel po vozovce pri malé intenzitˇe provozu. Pouˇz´ıvá se napˇr. pˇri Pr návrhu kapacitn´ıho uspoˇrádán´ı zatáˇcek na vorovce tak, aby pˇrij´ıˇzdˇej´ıc´ı vozidla mˇela volný pr˚ ujezd.

Hustota pravdˇ epodobnosti f (x) = e−λ

λx x!

Funkce • poisson pdf(x,λ) - hustota pravdˇepodobnosti v hodnotˇe x • poisson cdf(x,λ) - distribuˇcn´ı funkce v hodnotˇe x • poisson inv(α,λ) - kvantil pro pravdˇepodobnost α • poisson rnd(λ,nr,ns) - gener´ ator náhodné matice rozmˇeru nr, ns


5

Rozdˇ elen´ı! geometrick´ e

[ geometric ]

Ge (x, p) - sleduje poˇ cet ne´ uspˇ eˇ sn´ ych pokus˚ u, kter´ e pˇ redch´ azej´ı prvn´ı u ´spˇ ech. Pravdˇ epodobnost u ´spˇ echu je p a je pˇ ri kaˇ zd´ em pokuse stejn´ a x p

poˇcet ne˚ uspˇech˚ u pˇred prvn´ım u ´spˇechem x ∈ {0, 1, 2, · · ·} pravdˇepodobnost u ´spˇechu v jednom pokusu p ∈ (0, 1)

ˇ ´ı k l a d: Pˇr´ı j´ızdˇe autem v mˇestˇe sledujeme poˇcet volných pr˚ Pr ujezd˚ u pˇres semafor nˇeˇz budeme poprvé v kˇriˇzovatce zastaveni. Troch paradoxnˇe zde za u ´spˇech povaˇzujeme zastaven´ı semaforem.

Hustota pravdˇ epodobnosti x

f (x) = p (1 − p)

Funkce • geometric pdf(x,p) - hustota pravdˇepodobnosti v hodnotˇe x • geometric cdf(x,p) - distribuˇcn´ı funkce v hodnotˇe x • geometric inv(α,p) - kvantil pro pravdˇepodobnost α • geometric rnd(p,nr,ns) - generátor náhodné matice rozmˇeru nr, ns


6

Rozdˇ elen´ı! rovnomˇ ern´ e Ro (x, a, b)

-

[ d.uniform ]

toto rozdˇ elen´ı m´ a dvˇ e z´ asadn´ı charakteristiky

• uvnitˇ r intervalu (a, b) nem´ ame ˇ z´ adn´ e preference, • mimo interval (a, b) je naprost´ y z´ akaz hodnot. x a b

hodnoty rozdˇelen´ı x ∈ (a, b) nejmenˇs´ı hodnota a ∈ R nejvˇetˇs´ı hodnota b ∈ R, b > a

ˇ ´ı k l a d: Doba ˇcekán´ı na autobus, který má pˇresnˇe pˇeti minutové intervaly, jestliˇze na Pr stanici jsme pˇriˇsli v náhodný okamˇzik. Pak a = 0 a b = 5.

Hustota pravdˇ epodobnosti

f (x) =

1 pro x ∈ (a, b) , jinde 0. b−a

Funkce • uniform pdf(x,a,b) - hustota pravdˇepodobnosti v hodnotˇe x • uniform cdf(x,a,b) - distribuˇcn´ı funkce v hodnotˇe x • uniform inv(α,a,b) - kvantil pro pravdˇepodobnost α • uniform rnd(a,b,nr,ns) - generátor náhodné matice rozmˇeru nr, ns


7

Rozdˇ elen´ı! exponenci´ aln´ı Exp (x, δ) x δ

[ exponential ]

- bezporuchov´ a doba fungov´ an´ı pˇ r´ıstroje. hodnoty rozdˇelen´ı x ≥ 0 stˇredn´ı ˇzivotnost δ > 0

ˇ ´ı k l a d: Délka fungován´ı náhodnˇe zakoupeného pˇr´ıstroje, u nˇehoˇz pravdˇepodobnost poruchy Pr je v ˇcase stále stejná (tj. zanedbává opotˇreben´ı, zdrojem poruchy je nˇejaká vnˇejˇs´ı pˇr´ıˇcina, která p˚ usob´ı stále stejnˇe.)

Hustota pravdˇ epodobnosti

f (x) =

n x n−x p (1 − p) x

Funkce • binomial pdf(x,n,p) - hustota pravdˇepodobnosti v hodnotˇe x • binomial cdf(x,n,p) - distribuˇcn´ı funkce v hodnotˇe x • binomial inv(α,n,p) - kvantil pro pravdˇepodobnost α • binomial rnd(n,p,nr,ns) - generátor náhodné matice rozmˇeru nr, ns


8

Rozdˇ elen´ı! norm´ aln´ı

[ normal ]

N x, µ, σ 2 vznik´ a tam, kde se na v´ ysledn´ e n´ ahodˇ e pod´ıl´ı velk´ e mnoˇ zstv´ı vz´ ajemnˇ e nez´ avisl´ ych ˇ c´ asteˇ cn´ ych neurˇ citost´ı. x µ σ2

hodnoty rozdˇelen´ı x ∈ R stˇredn´ı hodnota µ ∈ R rozptyl σ 2 ≥ 0

ˇ ´ı k l a d: Opakovaná mˇeˇren´ı délky; intenzita a hustota dopravn´ıho toku pˇri velkém provozu; Pr sypán´ı p´ısku na hromadu a celá ˇrada dalˇs´ıch.

Hustota pravdˇ epodobnosti f (x) = √

1 2πσ 2

e− 2 ( 1

x−µ σ

2

)

Funkce • normal pdf(x,µ,σ 2 ) - hustota pravdˇepodobnosti v hodnotˇe x • normal cdf(x,µ,σ 2 ) - distribuˇcn´ı funkce v hodnotˇe x • normal inv(α,µ,σ 2 ) - kvantil pro pravdˇepodobnost α • normal rnd(µ,σ 2 ,nr,ns) - generátor náhodné matice rozmˇeru nr, ns


9

Rozdˇ elen´ı! log-norm´ aln´ı

[ lognormal ]

LN x, µ, σ 2 pro velk´ a µ se podob´ a norm´ aln´ımu rozdˇ elen´ı, pro mal´ a µ je asymetrick´ e (omezen´ e jen na kladn´ e hodnoty). x µ σ2

hodnoty rozdˇelen´ı x ∈ R stˇredn´ı hodnota µ ∈ R rozptyl σ 2 ≥ 0

ˇ ´ı k l a d: Rozdˇelen´ı charakteristik dopravn´ıho proudu pˇri velkém provozu (vˇetˇsina z nich má Pr prakticky normáln´ı rozdˇelen´ı, ale omezené jen na kladné hodnoty).

Hustota pravdˇ epodobnosti 1 ln(x)−µ 2 1 e− 2 ( σ ) f (x) = √ x 2πσ 2

Funkce • lognormal pdf(x,µ,σ 2 ) - hustota pravdˇepodobnosti v hodnotˇe x • lognormal cdf(x,µ,σ 2 ) - distribuˇcn´ı funkce v hodnotˇe x • lognormal inv(α,µ,σ 2 ) - kvantil pro pravdˇepodobnost α • lognormal rnd(µ,σ 2 ,nr,ns) - generátor náhodné matice rozmˇeru nr, ns


10

Rozdˇ elen´ı! t (Studentovo) t (x, n) x n

-

[ student ]

umˇ el´ e rozdˇ elen´ı pro odhady a testy hypot´ ez

hodnoty rozdˇelen´ı x ∈ R poˇcet stupˇ n˚ u volnosti n ∈ N

ˇ ´ı k l a d: Popisuje statistiku pro odhad stˇredn´ı hodnoty pˇri neznámém rozptylu a dále vˇetˇsinu Pr statistik v lineárn´ı regresi.

Gener´ ator t (x; n) =

N (x; 0, 1) χ2 (n) n

Funkce • t pdf(x,n) - hustota pravdˇepodobnosti v hodnotˇe x • t cdf(x,n) - distribuˇcn´ı funkce v hodnotˇe x • t inv(α,n) - kvantil pro pravdˇepodobnost α • t rnd(n,nr,ns) - gener´ ator n´ ahodné matice rozmˇeru nr, ns


11

Rozdˇ elen´ı! χ2 χ2 (x, n) x n

-

[ chi2 ]


hodnoty rozdˇelen´ı x ≥ 0 poˇcet pokus˚ u n∈N

ˇ ´ı k l a d: Popisuje statistiku pro odhad rozptylu a dále statistiky χ2 -test˚ Pr u.

Gener´ ator 2

χ (x; n) =

n X

2

(Ni (x; 0, 1))

i=1

Funkce • chisquare pdf(x,n) - hustota pravdˇepodobnosti v hodnotˇe x • chisquare cdf(x,n) - distribuˇcn´ı funkce v hodnotˇe x • chisquare inv(α,n) - kvantil pro pravdˇepodobnost α • chisquare rnd(n,nr,ns) - generátor náhodné matice rozmˇeru nr, ns


12

Rozdˇ elen´ı! F (Fisherovo) F (x, n1 , n2 ) x n1 n2

-

[ fisher ]


hodnoty rozdˇelen´ı x ≥ 0 poˇcet stupˇ n˚ u volnosti v ˇcitateli n1 ∈ N poˇcet stupˇ n˚ u volnosti ve jmenovateli n2 ∈ N

ˇ ´ı k l a d: Popisuje statistiky pˇri analýze rozptylu (ANOVA). Pr

Gener´ ator

F (x; n1 , n2 ) =

χ21 (x;n1 ) n1 χ22 (x;n2 ) n2

Funkce • F pdf(x,n,p) - hustota pravdˇepodobnosti v hodnotˇe x • F cdf(x,n,p) - distribuˇcn´ı funkce v hodnotˇe x • F inv(α,n,p) - kvantil pro pravdˇepodobnost α • F rnd(n,p,nr,ns) - gener´ ator n´ ahodné matice rozmˇeru nr, ns


13

Rozdˇ elen´ı! gama Γ (x, z) x z

-

[ gamma ]

pomocn´ e rozdˇ elen´ı

hodnoty rozdˇelen´ı parametr z > 0

x≥0

Hustota pravdˇ epodobnosti f (x; z) ∝ e−x xz−1

Funkce • gamma pdf(x,z) - hustota pravdˇepodobnosti v hodnotˇe x • gamma cdf(x,z) - distribuˇcn´ı funkce v hodnotˇe x • gamma inv(α,z) - kvantil pro pravdˇepodobnost α • gamma rnd(z,nr,ns) - gener´ ator náhodné matice rozmˇeru nr, ns


14

Rozdˇ elen´ı! beta Bi (x; a, b) x a, b

-

[ ]

pomocn´ e rozdˇ elen´ı

hodnoty rozdˇelen´ı x ∈ (0, 1) parametry a, b ∈ (0, 1)

Hustota pravdˇ epodobnosti f (x) ∝ xa−1 (1 − x)

b−1

Funkce • beta pdf(x,a,b) - hustota pravdˇepodobnosti v hodnotˇe x • beta cdf(x,a,b) - distribuˇcn´ı funkce v hodnotˇe x • beta inv(α,a,b) - kvantil pro pravdˇepodobnost α • beta rnd(a,b,nr,ns) - gener´ ator náhodné matice rozmˇeru nr, ns


15

Proces

[ proces ]

Proces je ˇ c´ ast reality, kterou sledujeme, abychom ji poznali, pˇ r´ıpadnˇ e mohli pˇ redpov´ıdat nebo ovlivˇ novat.

ˇ ´ı k l a d: Kˇriˇzovatka v mˇestské dopravn´ı oblasti. Mˇeˇr´ıme intenzity a obsazenosti na detekPr torech, pˇr´ıpadné ovlivˇ nován´ı lze provádˇet pomoc´ı svˇetelné signalizace.


16

Data

[ data ]

Data jsou hodnoty, kter´ e mˇ eˇ r´ıme na sledovan´ em procesu. Mohou to b´ yt skal´ arn´ı data - jednotliv´ e mˇ eˇ ren´ e hodnoty, nebo vektorov´ a data - mˇ eˇ r´ıme-li vˇ zdy nˇ ekolik hodnot najednou. Mˇ eˇ ren´ a data povaˇ zujeme za realizace n´ ahodn´ e veliˇ ciny, kterou je sledovan´ y proces pops´ an. Data mohou b´ yt: 1. Prost´ a - vektor hodnot tak, jak jsme je namˇeˇrili. 2. Tˇr´ıdˇen´ a - bud’ podle hodnot nabo podle interval˚ u. (a) tˇr´ıdˇen´ı podle hodnot - jsou dána taulkou, kde v prvn´ım ˇr´ıdku jsou r˚ uzné hodnoty datového souboru a v druhém ˇrádku jejich ˇcetnosti. Napˇr. hodnoty Xi 2 4 6 ˇcetnosti ni 13 28 9 (b) tˇr´ıdˇen´ı podle interval˚ u - je podobné jako ˇr´ıdˇen´ı podle dat s t´ım, ˇze kaˇzd´ y interval je reprezentov´ am nˇejak´ ym ˇc´ıslem (vˇetˇsinou hodnotou jeho stˇredu).


17

Datov´ y soubor

[ dat.soub ]

Datov´ y soubor je mnoˇ zina dat, zmˇ eˇ ren´ a na sledovan´ em procesu. Pokud mˇeˇr´ıme jen jednu veliˇcinu, m´ a datov´ y soubor tvar vektoru. Pokud mˇeˇr´ıme datov´ y vektor, je datov´ y soubor matice. Data do matice vˇetˇsinou ukládáme po sloupc´ıch - co sloupec to vektor namˇeˇren´ ych dat.


18

Uspoˇr´ adan´ y datov´ y soubor

[ usp.dat.s ]

Uspoˇ r´ adan´ y datov´ y soubor je takov´ y datov´ y soubor, kde jsou data seˇ razena od nejmenˇ s´ıho po nejvˇ etˇ s´ı.

ˇ ´ı k l a d: Zmˇeˇrili jsme datový soubor Pr x = {5, 2, 8, 2, 4} Uspoˇrádaný datový soubor je xusp = {2, 2, 4, 5, 8}


19

Poˇrad´ı dat

[ poradi ]

V poˇ rad´ı dat nevystupuj´ı data sam´ a, ale jejich poˇ rad´ı v uspoˇ r´ adan´ em datov´ em souboru. Poˇrad´ı datového souboru x budeme znaˇcit qx .

ˇ ´ı k l a d: Z´ıskali jsme datový soubor Pr x = {5, 2, 8, 2, 4}. Poˇrad´ı pˇr´ısluˇsné tomuto vektoru je qx = {4, 1, 5, 2, 3}, protoˇze uspoˇrádaný datový soubor je xusp = {2, 2, 4, 5, 8}.


20

Pr˚ umˇ er

[ prumer ]

Aritmetick´ y pr˚ umˇ er je d´ an souˇ ctem hodnot datov´ eho souboru, dˇ elen´ ym poˇ ctem zmˇ eˇ ren´ ych dat. Aritmetick´ y pr˚ umˇer lze poˇc´ıtat dvˇema zp˚ usoby 1. Prost´ y aritmetick´ y pr˚ umˇ er z netˇr´ıdˇen´ ych dat n

1X xi , n i=1

x= kde xi jsou prost´ a data.

2. V´ aˇ zen´ y aritmetick´ y pr˚ umˇ er z tˇr´ıdˇen´ ych dat N X

1

x = PN

i=1

ni

Xi · ni ,

i=1

kde Xi jsou r˚ uzné hodnoty datového souboru , r˚ uzn´ ych hodnot datového souboru..

ni jsou jejich ˇcetnosti a

N je poˇcet

´ m k a: V´ Pozna aˇzen´ y aritmetick´ y pr˚ umˇer lze také vyjádˇrit takto x=

N X

Xi · pi

i=1

kde pi =

PNni

i=1

ni

jsou pravdˇepodobnosti jednotliv´ ych r˚ uzn´ ych hodnot xi datového souboru.


21

Pr˚ umˇ er ˇ ctverc˚ u

[ prum.ctv ]

Je to pr˚ umˇ er z kvadr´ at˚ u hodnot datov´ eho souboru n

x2 =

1X 2 x , n i=1 i

nebo s pouˇzit´ım v´ aˇzeného pr˚ umˇeru PN x2

=

i=1

PN

Xi2 ni

i=1

ni


22

Souˇ cet ˇ ctverc˚ u

[ souc.ctv ]

Je to souˇ cet kvadr´ at˚ u hodnot datov´ eho souboru Σx2 =

n X

x2i ,

i=1

nebo s pouˇzit´ım v´ aˇzeného souˇctu Σx2 =

N X

Xi2 ni

i=1

viz v´ aˇzen´ y pr˚ umˇer.


23

Median! datov´ eho souboru

[ median ]

Je to prostˇ redn´ı hodnota uspoˇ r´ adan´ eho souboru.

ˇ ´ı k l a d: Je dán soubor x = [5, 3, 8, 4, 1] . Uspoˇrádaný soubor xusp = [1, 3, 4, 5, 8] . Pr Medián (prostˇredn´ı hodnota) je 4.

´ m k a: V pˇr´ıpadˇe sudého poˇctu dat se jako medián bere pr˚ Pozna umˇer ze dvou prostˇredn´ıch hodnot.


24

Modus! datov´ eho souboru

[ modus ]

Je to hodnota datov´ eho souboru, kter´ a m´ a maxim´ aln´ı ˇ cetnost v´ yskytu.

ˇ ´ı k l a d: Je dán tˇr´ıdˇený soubor Pr Xi ni

5 12

7 8

9 10

pak medi´ an je 5 (protoˇze se vyskytuje v maximáln´ım poˇctu - 12x)

´ m k a: Jestliˇze hodnot s maximáln´ım v´ Pozna yskytem je v´ıce, mluv´ıme o multimodáln´ım datovém souboru a za modus povaˇzujeme mnoˇzinu vˇsech takov´ ych.


25

Rozptyl! datov´ eho souboru

[ rozptyl ]

Rozptylem datov´ eho souboru se vˇ etˇ sinou mysl´ı v´ ybˇ erov´ y rozptyl, definovan´ y vzorcem n

s2x =

1 X (xi − x) , n − 1 i=1

ybˇerov´ y pr˚ umˇer kde x je v´

´ m k a: Pozna ovateli.

V´ ybˇerov´ y pr˚ umˇer se od druhého centráln´ıho momentu liˇs´ı jen -1 ve jmen-


26

Smˇ erodatn´ a odchylka! datov´ eho souboru Je to odmocnina z rozptylu sx =

p s2x


27

[ sm.odch ]

Kovariance! datov´ ych soubor˚ u

[ kovariance ]

Kovariance je definov´ ana vzorcem n

cx,y =

1 X (xi − x) (yi − y) . n − 1 i=1

ˇ ım je jej´ı hodnota vˇetˇs´ı (at’ uˇz Kovariance vyjadˇruje vazbu mezi datov´ ymi soubory x a y. C´ kladn´ a nebi z´ aporn´ a) je vazba silnˇejˇs´ı. Je-li kovariance nula, datové soubory spolu nesouvis´ı - jsou nekorelované.


28

Korelaˇ cn´ı koeficient! datov´ ych soubor˚ u

[ kor.koef ]

Korelaˇ cn´ı koeficient je normovan´ a kovariance r=

cx,y sx sy

Korelaˇcn´ı koeficient nab´ yv´ a hodnot z intervalu (−1, 1) . Hodnota r = 0 vyjadˇruje nekorelovanost.


29

Variaˇ cn´ı rozpˇ et´ı

[ var.rozp ]

Je rozd´ıl mezi nejvˇ etˇ s´ı a nejmenˇ s´ı hodnotou datov´ eho souboru R = max (x) − min (x)


30

Souˇ cet ˇ ctverc˚ u! centr´ aln´ı

[ souc.ctv.c ]

Souˇ cet ˇ ctverc˚ u (centr´ aln´ı) je definov´ an vztahem Sx =

n X

(xi − x ¯ )2

i=1


31

Souˇ cet ˇ ctverc˚ u! vz´ ajemn´ y, centr´ aln´ı

[ vz.souc.ctv.c ]

Vz´ ajemn´ y souˇ cet ˇ ctverc˚ u (centr´ aln´ı) je definov´ an vztahem Sxx

n X = (xi − x ¯)(yi − y¯) i=1


32

Mezikvartilov´ e rozpˇ et´ı

[ mezikv.rozp ]

Je rozd´ıl mezi horn´ım a doln´ım kvartilem iqr = ζ0.75 − ζ0.25


33

Kvantil! datov´ eho souboru

[ kvantil ]

α-kvantil ζα je takov´ a hodnota datov´ eho souboru, pro kterou plat´ı, ˇ ze kdyˇ z soubor uspoˇ ra ´d´ ame vzestupnˇ e podle velikosti, pak vlevo od t´ eto hodnoty leˇ z´ı (pˇ ribliˇ znˇ e) α · 100% hodnot menˇ s´ıch.

ˇ ´ı k l a d: Je dán datový soubor x = [5, 8, 4, 1, 9] . Uspoˇrádaný soubor je xusp = [1, 4, 5, 8, 9] . Pr Kvantil 0.38 je hodnota, která je na pozici uspoˇrádaného souboru, která odpov´ıdá fiktivn´ımu poˇrad´ı 5 × 0.38 = 1.9; nejbliˇzˇs´ı celé ˇc´ıslo (poˇrad´ı) je tedy 2 a kvantil 0.38 je 4 (druhá hodnota uspoˇrádaného souboru).


34

Kvartil! datov´ eho souboru

[ kvartil ]

Kvartily jsou speci´ aln´ı pˇ r´ıpady kvantil˚ u pro α = 0, 0.25, 0.5, 0.75, 1.

kvantil kvantil kvantil kvantil kvantil

0 0.25 0.5 0.75 1

ζ0 ζ0.25 ζ0.5 ζ0.75 ζ1

minimum doln´ı kvartil prostˇ redn´ı kvartil (medián) horn´ı kvartil maximum


35

Kritick´ a hodnota! datov´ eho souboru

[ krit.hod ]

Pro kritickou hodnotu plat´ı tot´ eˇ z co pro kvantil s t´ım rozd´ılem, ˇ ze od kritick´ e hodnoty leˇ z´ı α · 100% hodnot datov´ eho souboru vpravo, a tedy vˇ etˇ s´ıch neˇ z kritick´ a hodnota.


36

Empirick´ a distribuˇ cn´ı funkce

[ emp.d.f ]

Empirickou distribuˇ cn´ı funkci z n´ ahodn´ eho v´ ybˇ eru o rozsahu n oznaˇ c´ıme Fn (x) cn´ı funkci konstruujeme z´ısk´ ame tak, ˇ ze v´ ybˇ er uspoˇ r´ ad´ ame, a empirickou distribuˇ jako schodovou funkce s konstantn´ı v´ yˇ skou schod˚ u, kter´ e jsou um´ıstˇ eny v poloze jednotliv´ ych dat.

ˇ ´ı k l a d: Pro uspoˇrádaný datový soubor Pr xusp = [3, 5, 8] bude empirická distribuˇcn´ı funkce  0,    1/3, Fn (x) =  2/3,   1,

pro pro pro pro

x ∈ (−∞, 3) x ∈ (3, 5) x ∈ (5, 8) x ∈ (8, ∞)


37

N´ ahodn´ y pokus

[ nah.pok ]

Je urˇ cit´ y experiment, kter´ y i za relativnˇ e st´ al´ ych podm´ınek, d´ av´ a r˚ uzn´ e v´ ysledky. Podle mnoˇzstv´ı v´ ysledk˚ u dˇel´ıme n´ ahodné pokusy na diskrétn´ı a spojité.


38

N´ ahodn´ y pokus! diskr´ etn´ı

[ nah.pok.dis ]

Je n´ ahodn´ y pokus, kter´ y m´ a koneˇ cn´ y nebo spoˇ cetn´ y poˇ cet v´ ysledk˚ u.

ˇ ´ı k l a d: Mezi diskrétn´ı pokusy patˇr´ı napˇr. hod minc´ı (dva výsledky), hod kostkou (6 Pr výsledk˚ u), taˇzen´ı korálku (poˇcet výsledk˚ u je dán poˇctem r˚ uzných barev), ale také poˇcet aut v kolonˇe, který m˚ uˇze být reprezentován libovolným nezáporným, celým ˇc´ıslem - je to nekoneˇcnˇe, ale spoˇcetnˇe mnoho výsledk˚ u)


39

N´ ahodn´ y pokus! spojit´ y

[ nah.pok.spo ]

Je n´ ahodn´ y pokus, kter´ y m´ a nespoˇ cetn´ y poˇ cet v´ ysledk˚ u.

ˇ ´ı k l a d: Mezi spojité pokusy patˇr´ı napˇr. doba ˇcekán´ı na tramvaj, bezporuchová doba funkce Pr pˇr´ıstroje nebo opakované mˇeˇren´ı urˇcitého rozmˇeru, provádˇené s chybami.


40

Z´ akladn´ı prostor

[ zak.prost ]

Z´ akladn´ı prostor Ω tvoˇ r´ı vˇ sechny moˇ zn´ e bezprostˇ redn´ı v´ ysledky n´ ahodn´ eho pokusu.

ˇ ´ı k l a d: Pro pokus hod minc´ı je Ω = {rub, l´ıc}, pro hod kostkou je Ω = {1, 2, 3, 4, 5, 6}. Pr


41

N´ ahodn´ y jev

[ nah.jev ]

N´ ahodn´ y jev je libovoln´ a podmnoˇ zina z´ akladn´ıho prostoru, tj. urˇ cit´ a mnoˇ zina v´ ysledk˚ u n´ ahodn´ eho pokusu.

ˇ ´ı k l a d: Jev padne sudé ˇc´ıslo“ je zadán mnoˇzinou {2, 4, 6} (coˇz je podmnoˇzina prostoru Pr ” {1, 2, 3, 4, 5, 6} .


42

Jevov´ e pole

[ jev.pole ]

Jevov´ e pole A je mnoˇ zina vˇ sech jev˚ u n´ ahodn´ eho pokusu. Je to tedy mnoˇ zina vˇ sech podmnoˇ zin z´ akladn´ıho prostoru

ˇ ´ı k l a d: Pro hod minc´ı s výsledky R a L je jevové pole Pr A = {∅, {R} , {L} , {R, L}}

´ m k a: Jevové pole nemus´ı b´ Pozna yt nutnˇe mnoˇzina vˇsech podmnoˇzin základn´ıho prostoru. Staˇc´ı, jestliˇze tvoˇr´ı tzv. algebru jev˚ u. To je mnoˇzina podmnoˇzin základn´ıho prostoru, kter´ a je uzavˇrena na doplˇ nky a sjednocen´ı.


43

Jevov´ a algebra

[ jev.alg ]

Jevov´ a algebra je nepr´ azdn´ a mnoˇ zina podmnoˇ zin z´ akladn´ıho prostoru, pro kterou plat´ı: • s kaˇ zdou podmnoˇ zinou obsahuje i jej´ı doplnˇ ek do z´ akladn´ıho prostoru, • s kaˇ zd´ ymi dvˇ ema mnoˇ zinami obsahuje i jejich sjednocen´ı.

ˇ ´ı k l a d: Mˇejme základn´ı prostor Ω = {a, b, c} . Pak A = {∅, {a} , {b, c} , {a, b, c}} je Pr algebra jev˚ u (tzv. algebra generovaná prvkem a).


44

Pravdˇ epodobnost

[ prp ]

Pravdˇ epodobnost je re´ aln´ a funkce, definovan´ a na jevov´ em poli, pro kterou plat´ı • P (J) ≥ 0, ∀J ∈ A - tj. je nez´ aporná, • P (Ω) = 1 - tj. je normovan´ a • ∀J1 , J2 nesluˇcitelné → P (J1 ∪ J2 ) = P (J1 ) + P (J2 ) - tj. je aditivn´ı.

´ m k a: Posledn´ı vlastnost m´ Pozna a platit pro vˇsechny koneˇcné nebo i spoˇcetné systémy jev˚ u. V pˇr´ıpadˇe spoˇcetného systému jev˚ u mluv´ıme o σ-aditivitˇe.

ˇ ´ı k l a d: Definujeme-li pravdˇepodobnosti pˇri hodu minc´ı bˇeˇzným zp˚ Pr usobem, tj. P (R) = P (L) = 0.5, pak jsme splnili vˇsechny poˇzadavky na pravdˇepodobnost. Obˇe hodnoty jsou nezáporné. P (Ω) = P (padne cokoliv) = 1 a P ({R} ∪ {L}) = P ({R}) + P {L} = 1.


45

Pravdˇ epodobnost! klasick´ a

[ prp.klas ]

Klasick´ a pravdˇ epodobnost se op´ır´ a o teoretickou anal´ yzu n´ ahodn´ eho pokusu a pravdˇ epodobnost urˇ cuje jako pod´ıl pˇ r´ızniv´ ych moˇ znost´ı ku poˇ ctu vˇ sech moˇ znost´ı. Plat´ı pro ni vzorec m P = , n kde m je poˇ cet moˇ znost´ı, pˇ ri kter´ ych nastane sledovan´ y jev a n je poˇ cet vˇ sech moˇ znost´ı, kter´ e nab´ız´ı n´ ahodn´ y pokus.

ˇ ´ı k l a d: Pravdˇepodobnost sudého ˇc´ısla pˇri hodu kostkou je P = Pr

3 6


46

= 12 .

Pravdˇ epodobnost! statistick´ a

[ prp.stat ]

Statistick´ a pravdˇ epodobnost se op´ır´ a o experimenty a pravdˇ epodobnost urˇ cuje jako pod´ıl poˇ ctu experiment˚ u s pˇ r´ızniv´ ym v´ ysledkem ku poˇ ctu vˇ sech proveden´ ych pokus˚ u. Plat´ı pro ni vzorec N+ P = , N kde N + je poˇ cet pˇ r´ızniv´ ych experiment˚ u a N je poˇ cet vˇ sech proveden´ ych experiment˚ u.

ˇ ´ı k l a d: Pravdˇepodobnost sudého ˇc´ısla pˇri hodu kostkou : Provedli jsme 1000 pokus˚ Pr uaz 521 = 0.521. toho 521 krát padl l´ıc. Potom statistická pravdˇepodobnost padnut´ı l´ıce je P = 1000 ´ m k a: Pro velk´ Pozna y poˇcet pokus˚ u se statistická pravdˇepodobnost bl´ıˇz´ı klasické pravdˇepodobnosti (viz z´ akon velk´ ych ˇc´ısel)


47

Sloˇ zen´ e jevy

[ slo.jev ]

Jev opaˇ cn´ y Je to doplnˇek jevu do z´ akladn´ıho prostoru J0 = Ω − J

Pr˚ unik dvou jev˚ u J1 ∩ J2 um. je jev, obsahuj´ıc´ı v´ ysledky n´ ahodného pokusu, které jsou spoleˇcné obˇema jev˚

Sjednocen´ı dvou jev˚ u J1 ∪ J2 n v jednom z jev˚ u. je jev, obsahuj´ıc´ı v´ ysledky n´ ahodného pokusu, které jsou obsaˇzeny alespoˇ


48

Pravdˇ epodobnost! sloˇ zen´ ych jev˚ u

[ p.slo.jev ]

Jevy ch´ apeme jako mnoˇziny a lze na nˇe aplikovat mnoˇzinové operace: doplnˇek (jev opaˇcn´ y), pr˚ unik a sjednocen´ı. Pro jejich pravdˇepodobnosti plat´ı

Pravdˇ epodobnost opaˇ cn´ eho jevu P (J 0 ) = 1 − P (J) , kde J 0 je jev opaˇcn´ y k jevu J.

Pravdˇ epodobnost pr˚ uniku jev˚ u P (J1 , J2 ) = P (J1 ∩ J2 ) je pravdˇepodobnost v´ ysledk˚ u, které jsou spoleˇcné obˇema jev˚ um J1 a J2 . Pro nesluˇcitelné jevy plat´ı P (J1 , J2 ) = 0. Pro nez´ avislé jevy plat´ı P (J1 , J2 ) = P (J1 ) P (J2 ) .

Pravdˇ epodobnost sjednocen´ı jev˚ u P (J1 ∪ J2 ) = P (J1 ) + P (J2 ) − P (J1 , J2 ) Pro nesluˇcitelné jevy plat´ı P (J1 ∪ J2 ) = P (J1 ) + P (J2 ) . Pro nez´ avislé jevy plat´ı P (J1 ∪ J2 ) = P (J1 ) + P (J2 ) − P (J1 ) P (J2 ) .


49

Nez´ avislost

[ nezav ]

Jevy J1 a J2 jsou nez´ avisl´ e, jestliˇ ze plat´ı P (J1 |J2 ) = P (J1 ) . Odtud plyne kriterium nez´ avislosti P (J1 , J2 ) = P (J1 ) P (J2 )

´ m k a: Aˇckoliv z definice nez´ Pozna avislosti by se mohlo zdát, ˇze nezávislost je vlastnost asymetrick´ a, jej´ı symetrie je patrna z kriteria nezávislosti. Jestliˇze je tedy J1 nezávisl´ y na J2 , je také J2 nez´ avisl´ y na J1 .


50

Binomick´ a pravdˇ epodobnost

[ bin.prp ]

Binomick´ a pravdˇ epodobnost popisuje seri´ al nez´ avisl´ ych pokus˚ u s alternativn´ım rozdˇ elen´ım (dva v´ ysledky: u ´spˇ ech, ne´ uspˇ ech) s v´ ysledkem: poˇ cet u ´spˇ ech˚ u v n pokusech. Tato pravdˇ epodobnost se ˇ r´ıd´ı vzorcem n x n−x P (x; n, p) = p (1 − p) , x = 0, 1, · · · , n, x kde x n p

je poˇcet u ´spˇech˚ u v proveden´ ych pousech je poˇcet proveden´ ych pokus˚ u je pravdˇepodobnost u ´spˇechu v jednom pokuse

ˇ ´ı k l a d: Jaká ke pravdˇepodobnost, ˇze v rodinˇe s pˇeti dˇetmi budou dva kluci, jestliˇze Pr pravdˇepodobnost narozen´ı chlapce je 0.52? 5 5−2 P (2; 5, 0.52) = · 0.522 (1 − 0.52) = 0.299. 2


51

Pravdˇ epodobnostn´ı strom

[ prp.strom ]

Pravdˇ epodobnostn´ı strom je vhodn´ y n´ astroj pro ˇ reˇ sen´ı u ´loh o opakovan´ ych z´ avisl´ ych experimentech. Konstrukci stromu ukáˇzeme na pˇr´ıkladˇe.

ˇ ´ı k l a d: V krabici je 5 b´ılých korálk˚ Pr u a tˇri modré. Postupnˇe, bez vracen´ı, vybereme dva korálky. Jaká je pravdˇepodobnost, ˇze budou m´ıt r˚ uznou barvu. ˇ sen´ı je v n´ Reˇ asleduj´ıc´ı tabulce (kter´ a se postupnˇe rozv´ıj´ı d podoby stromu). Kolonka stav oznaˇcuje poˇcet b´ıl´ ych a modr´ ych pˇred nebo po pokusu. Mezi stavy je kolonka pravdˇ epodobnosti toho, ˇze pˇrejdeme j jednoho konkrétn´ıho stavu do druhého (posun nahoru znamená taˇzen´ı b´ılého a posun dolu modrého korálku). Kolonka vybr´ ano ukazuje, jaké barvy byly taˇzeny a kolonka pravdˇ ep. ud´ av´ a pravdˇepodobnost tohoto tahu (je to souˇcin pravdˇepodobnost´ı po cestˇe od zaˇc´ atku aˇz do pˇr´ısluˇsného konce). Na závˇer vybereme vˇsechny konce, které odpov´ıdaj´ı naˇsim poˇzadavk˚ um a jejich pravdˇepodobnosti seˇcteme.

stav 0

pokus 1 P (0 → 1)

stav 1

pokus 2 P (1 → 2) P = 47

stav 2

vybráno

pravdˇep.

3b3m

→

b,b

P (b, b) =

54 87

4b3m P =

5 8

P =

3 7

4b2m

→

b,m

P (b, m) =

53 87

P =

3 8

P =

5 7

5b1m

→

m,b

P (m, b) =

35 87

P =

2 7

4b2m

→

m,m

P (b, b) =

5b3m 5b2m

R˚ uzné barvy jsou v ˇr´ adku 2 a 3, a tedy P =

53 87

·

35 87

= 0.536.


52

32 87

´ a pravdˇ Upln´ epodobnost

[ up.prp ]

Je d´ an jev J a jevy K1 , K2 , · · · Kn které tvoˇr´ı u ´pln´ y rozklad základn´ıho prostoru, tj jsou nesluˇcitelné a jejich sjednocen´ı je cel´ y prostor Ω. Potom P (J) = P (J|K1 ) P (K1 ) + P (J|K2 ) P (K2 ) + · · · + P (J|Kn ) P (Kn )

ˇ ´ı k l a d: Na skladˇe je 350 výrobk˚ Pr u od prvého výrobce, s poruchovost´ı 12,5%; 200 výrobk˚ u od druhého výrobce, který ma poruchovost 5,4% a 450 výrobk˚ u od tˇret´ıho výrobce, který má poruchovost jen 2,7%. Náhodnˇe vybereme jeden výrobek. Jaká je pravdˇepodobnost, ˇze bude m´ıt poruchu? P (K1 ) =

350 = 0.35; P (K2 ) = 0.2; P (K3 ) = 0.45 1000

P (J|K1 ) = 0.125; P (J|K2 ) = 0.054; P (J|K3 ) = 0.027; P (J) = 0.125 · 0.35 + 0.054 · 0.2 + 0.027 · 0.45 = 0.067


53

Bayes˚ uv vzorec

[ bayes ]

ˇ ´ı k l a d: Je dán jev J a jevy K1 , K2 , · · · Kn které tvoˇr´ı u Pr ´plný rozklad základn´ıho prostoru, tj jsou nesluˇcitelné a jejich sjednocen´ı je celý prostor Ω. Potom P (Ki |J) =

P (J|Ki ) P (J|K1 ) P (K1 ) + P (J|K2 ) P (K2 ) + · · · + P (J|Kn ) P (Kn )

ˇ ´ı k l a d: Na skladˇe je 350 výrobk˚ Pr u od prvého výrobce, s poruchovost´ı 12,5%; 200 výrobk˚ u od druhého výrobce, který ma poruchovost 5,4% a 450 výrobk˚ u od tˇret´ıho výrobce, který má poruchovost jen 2,7%. Náhodnˇe vybereme jeden výrobek a ten má poruchu. Jaká je pravdˇepodobnost, ˇze je to výrobek od prvn´ıho výrobce? P (K1 ) =

350 = 0.35; P (K2 ) = 0.2; P (K3 ) = 0.45 1000

P (J|K1 ) = 0.125; P (J|K2 ) = 0.054; P (J|K3 ) = 0.027; P (K1 |J) =

0.125 · 0.35 = 0.656 0.125 · 0.35 + 0.054 · 0.2 + 0.027 · 0.45 = 0.067


54

N´ ahodn´ a veliˇ cina

[ nah.vel ]

N´ ahodn´ a veliˇ cina je zobrazen´ı ze z´ akladn´ıho prostoru do mnoˇ ziny re´ aln´ ych ˇ c´ısel, riˇ razuje re´ aln´ aˇ c´ısla. kter´ e v´ ysledk˚ um n´ ahodn´ eho pokusu pˇ

ˇ ´ı k l a d: Pro hod minc´ı jsou pˇrirozené výsledky rub“ (R) a l´ıc“ (L). Náhodnou veliˇcinu lze Pr ” ” pˇriˇradit napˇr. takto rub l´ıc

→ →

0 1

´ m k a: Zat´ımco v p˚ Pozna uvodn´ım oznaˇcen´ı (R, L) nelze poˇc´ıtat pr˚ umˇer, pro náhodnou veliˇcinu je to moˇzné.


55

N´ ahodn´ a veliˇ cina! diskr´ etn´ı

[ nah.vel.dis ]

Diskr´ etn´ı n´ ahodn´ a veliˇ cina m´ a koneˇ cn´ y nebo spoˇ cetn´ y poˇ cet r˚ uzn´ ych realizac´ı. Je popisem pro diskr´ etn´ı n´ ahodn´ y pokus.

ˇ ´ı k l a d: Pr Pˇriˇrad´ıme-li výsledk˚ um náhodného pokusu hod minc´ı 0 a jedniˇcku, z´ıskáme diskrétn´ı náhodnou veliˇcinu.


56

N´ ahodn´ a veliˇ cina! spojit´ a

[ nah.vel.spo ]

Spojit´ a n´ ahodn´ a veliˇ cina m´ a realizace z oboru re´ aln´ ych ˇ c´ısel, tedy nespoˇ cetnˇ e mnoho. Popisuje spojit´ y n´ ahodn´ y pokus.

ˇ ´ı k l a d: Doba ˇcekán´ı na na zastávce autobusu s pevným intervalem po náhodném pˇr´ıchodu Pr je spojitou náhodnou veliˇcinou.


57

Rozdˇ elen´ı n´ ahodn´ e veliˇ ciny

[ rozdel ]

Rozdˇ elen´ı n´ ahodn´ e veliˇ ciny je u ´pln´ ym popisem n´ ahodn´ e veliˇ ciny. Vymezuje obor hodnot (tj. mnoˇ zinu vˇ sech realizac´ı) n´ ahodn´ e veliˇ ciny a rozloˇ zen´ı pravdˇ epodobnost´ı na t´ eto mnoˇ zinˇ e. Rozdˇelen´ı je konkrétnˇe zad´ ano distribuˇcn´ı funkc´ı nebo hustotou pravdˇepodobnosti.

58

Distribuˇ cn´ı funkce

[ dist.fce ]

Distribuˇ cn´ı funkce FX (x) je u ´pln´ ym pravdˇ epodobnostn´ım popisem n´ ahodn´ e veliˇ ciny X. Je definov´ ana vztahem FX (x) = P (X ≤ x) , kde x je re´ aln´ a promˇenn´ a.


59

Hp

[ hp ]

Hp je zkratka pro hustotu pravdˇepodobnosti


60

Hp! hustota pravdˇ epodobnosti

[ hus.prp ]

Hustota pravdˇ epodobnosti (hp) fX (x) je u ´pln´ ym popisem n´ ahodn´ e veliˇ ciny X. Je ahodnou veliˇ cinu. definov´ ana zvl´ aˇ st’ pro diskr´ etn´ı a spojitou n´

Hp diskr´ etn´ı n´ ahodn´ e veliˇ ciny Je definov´ ana vztahem fX (x) = P (X = x) nebo FX (x) =

X

fX (xi )

xi ≤x

ˇ ´ı k l a d: Pro pokus hod minc´ı definujeme náhodnou veliˇcinu takto: rub → 0, l´ıc → 1. Pr Hustota pravdˇepodobnosti této náhodné veliˇciny je x fx (x)

0 0.5

1 0.5

Hp spojit´ e n´ ahodn´ e veliˇ ciny Je definov´ ana takto dFX (x) nebo FX (x) = fX (x) = dx

Z

x

fX (t) dt −∞

x

ˇ ´ı k l a d: Distribuˇcn´ı funkce exponenciáln´ıho rozdˇelen´ı je FX (x) = 1 − e− δ . Odpov´ıdaj´ıc´ı Pr 1 −x X δ . hustota pravdˇepodobnosti je fX (x) = dF dx = δ e


61

Stˇredn´ı hodnota! souboru

[ stred.hod.s ]

Stˇ redn´ı hodnota E [X] diskr´ etn´ı n´ ahodn´ e veliˇ ciny X je definov´ ana vztahem E [X] =

n X

xi f (xi ) .

i=1

Definice stˇredn´ı hodnoty spojité n´ ahodné veliˇciny je Z

∞

xf (x) dx.

E [X] = −∞

ˇ ´ı k l a d: Pro diskrétn´ı náhodnou veliˇcinu s hustotou pravdˇepodobnosti Pr xi f (xi )

2 0.3

4 0.5

6 0.2

je stˇredn´ı hodnota E [X] = 2 · 0.3 + 4 · 0.5 + 6 · 0.2 = 3.8

ˇ ´ı k l a d: Pro spojitou náhodnou veliˇcinu s rovnomˇerným rozdˇelen´ım na intervalu (−1, 1) Pr 1 R1 R1 je stˇredn´ı hodnota E [X] = −1 xf (x) dx = −1 x · 0.5dx = 41 x2 −1 = 0.


62

Rozptyl! souboru

[ rozptyl.s ]

Rozptyl n´ ahodn´ e veliˇ ciny X je druh´ y centr´ aln´ı moment Z

∞

2

(x − E [X]) f (x) dx

D [X] = −∞

ˇ ´ı k l a d: Rozptyl náhodné veliˇciny s rovnomˇerným rozdˇelen´ım na intervalu (−1, 1) je Pr Z

1

2

(x − 0) 0.5dx =

D [X] = −1

2 3

´ m k a: Rozptyl je také moˇzno poˇc´ıtat podle vzorce Pozna 2 D [X] = E X 2 − (E [X]) .


63

Smˇ erodatn´ a odchylka! souboru

[ sm.odch.s ]

Smˇ erodatn´ a odchylka je odmocnina z rozptylu p σ = D [X] =

sZ

∞

(x − E [X]) f (x) dx −∞


64

Modus! souboru

[ modus.s ]

Modus x ˆ je ”nejˇ cetnˇ ejˇ s´ı realizace” n´ ahodn´ e veliˇ ciny X definovan´ a vztahem f (ˆ x) ≥ f (x) , ∀x ∈ X

ˇ ´ı k l a d: Náhodná veliˇcina s hustotou pravdˇepodobnosti f (x) = 1 − |x − 1|, pro x ∈ (0, 2) Pr má modus x ˆ = 1, protoˇze f (1) = 1 ≥ f (x) , ∀x ∈ (0, 2) .

´ m k a: Je-li maxim hustoty pravdˇepodobnosti v´ıce, hovoˇr´ıme o multimodáln´ım Pozna rozdˇelen´ı a za mody povaˇzujeme argumenty vˇsech maxim.


65

Median! souboru

[ median.s ]

Median x ˜ je ”prostˇ redn´ı realizace” n´ ahodn´ e veliˇ ciny X definovan´ a vztahem Z

x ˜

f (x) dx = 0.5. −∞

ˇ ´ı k l a d: Náhodná veliˇcina X s hustotou pravdˇepodobnosti f (x) = Pr R x˜ x x ˜ median x ˜ = δ ln (2), protoˇze 0 1δ e− δ dx = 1 − e− δ = 0.5


66

1 −x δ , δe

x ≥ 0 má

Kvantil! souboru

[ kvantil.s ]

Kvantil pravdˇ epodobnosti α znaˇ c´ıme ζα a je definov´ an vztahem Z

ζα

f (x) dx = α −∞

ˇ ´ı k l a d: Kvantil pro α = 0.5 je median. Pr

´ m k a: Kvantil je takov´ Pozna a realizace náhodné veliˇciny X, pro kterou plat´ı, ˇze vlevo od n´ı (tedy realizac´ı menˇs´ıch neˇz ζα ) je právˇe α · 100%. Podobnou definici, ale pro hodnoty vpravo (tedy vˇetˇs´ı) m´ a kritick´ a hodnota.


67

Kritick´ a hodnota! souboru

[ krit.hod.s ]

Kritickou hodnotu pravdˇ epodobnosti α znaˇ c´ıme zα a je definov´ ana vztahem Z ∞ f (x) dx = α zα

ˇ ´ı k l a d: Kritická hodnota exponenciáln´ıho rozdˇ Pr hustotou pravdˇepodobnosti f (x) = R e∞len´ı1s − zα x x ∞ 1 −x δ pro α = 0.05 je z δ dx = −e− δ = e− δ = 0.05 e = −δ ln (0.05), protoˇ z e e 0.05 δ z0.05 δ z α

´ m k a: Kritick´ Pozna a hodnota je taková realizace náhodné veliˇciny X, pro kterou plat´ı, ˇze vpravo od n´ı (tedy realizac´ı vˇetˇs´ıch neˇz zα ) je právˇe α · 100%. Podobnou definici, ale pro hodnoty vlevo (tedy menˇs´ı) m´ a kvantil.


68

Moment! obecn´ y, souboru

[ mom.obec.s ]

0

Obecn´ y souborov´ y moment ˇ r´ adu k znaˇ c´ıme mk je definov´ an Z ∞ 0 mk = xk f (x) dx −∞

´ m k a: Druh´ Pozna a varianta moment˚ u je centráln´ı moment.


69

Moment! centr´ aln´ı, souboru

[ mom.cent.s ]

Centr´ aln´ı souborov´ y moment ˇ r´ adu k znaˇ c´ıme mk je definov´ an Z ∞ k mk = (x − E [X]) f (x) dx, −∞

kde E [X] je stˇredn´ı hodnota

´ m k a: Druh´ Pozna a varianta moment˚ u je obecn´ y moment.


70

Kvartil! souboru

[ kvartil.s ]

Kvartil je kvantil pro pravdˇ epodobnost α = 0.25; 0.5; 0.75. Tak definujeme Doln´ı kvartil je ζ0.25 Prostˇ redn´ı kvartil (median) je ζ0.5 Horn´ı kvartil je ζ0.75 kde ζ je kvantil.


71

Oper´ atorov´ y poˇ cet s E a D

[ op.pocet ]

Pro oper´ atorov´ y poˇcet se stˇredn´ı hodnotou a rozptylem plat´ı následuj´ıc´ı pravidla: (X, Y ) jsou n´ ahodné veliˇciny, α, β jsou konstanty.)

Stˇ redn´ı hodnota 1. E [α] = α, 2. E [α + X] = α + E [X], 3. E [αX] = αE [X], 4. E [X + Y ] = E [X] + E [Y ] Z pˇredchoz´ıho plyne linearita oper´ atoru stˇredn´ı hodnota, tj. vzorec E [αX + βY ] = αE [X] + βE [Y ]

Rozptyl 1. D [α] = 0, 2. D [α + X] = D [X], 3. D [αX] = α2 D [X], 4. D [X + Y ] = D [X] + D [Y ]

!!! jen pro X, Y nekorelované !!!


72

N´ ahodn´ y vektor

[ nah.vekt ]

N´ ahodn´ y vektor je vektor n´ ahodn´ ych veliˇ cin.

ˇ ´ı k l a d: Zjiˇst’ujeme dopravn´ı stav urˇcité kˇriˇzovatky. V kaˇzdém rameni je zabudován dePr tektor, mˇeˇr´ıc´ı intenzitu dopravn´ıho proudu. Kaˇzdé mˇeˇren´ı dá 4 zmˇeˇrené hodnoty intenzity, coˇz je realizace vektorové náhodné veliˇciny intenzita v ramenech sledované kˇriˇzovatky“. ”


73

Distribuˇ cn´ı funkce! n´ ahodn´ eho vektoru

[ d.f.vekt ]

0

Distribuˇ cn´ı funkce n´ ahodn´ eho vektoru X = [X1 , X2 , · · · , Xn ] je definov´ ana takto F (x) = P (X1 ≤ x1 , X2 ≤ x2 , · · · , Xn ≤ xn ) , 0

kde x=[x1 , x2 , · · · , xn ] je re´ aln´ y vektor.


74

Hp! n´ ahodn´ eho vektoru

[ h.p.vekt ]

Hustota pravdˇ epodobnosti f (x) diskr´ etn´ıho n´ ahodn´ eho vektoru X je f (x) = P (X1 = x1 , X2 = x2 , · · · , Xn = xn ) .

´ m k a: Pomoc´ı distribuˇcn´ı funkce lze hustotu pravdˇepodobnosti popsat implicitnˇe Pozna takto X X X f (k1 , k2 , · · · , kn ) ··· F (x1 , x2 , · · · , xn ) = k1 ≤x1 k2 ≤x2

kn ≤xn

Hustota pravdˇepodobnosti f (x) spojitého náhodného vektoru X je f (x) =

∂ n F (x) ∂x1 ∂x2 · · · ∂xn

´ m k a: Pomoc´ı distribuˇcn´ı funkce lze hustotu pravdˇepodobnosti popsat implicitnˇe Pozna takto Z x1 Z x2 Z xn F (x1 , x2 , · · · , xn ) = ··· f (t1 , t2 , · · · , tn ) dt1 dt2 · · · dtn −∞

−∞

−∞


75

Hp! margin´ aln´ı

[ h.p.marg ]

Necht’ f (x, y) je sdruˇ zen´ a hustota pravdˇ epodobnosti n´ ahodn´ ych veliˇ cin X, Y . Potom f (x) nazveme margin´ aln´ı hustotou pravdˇ epodobnosti, jestliˇ ze plat´ı Z ∞ f (x) = f (x, y) dy −∞

ˇ ´ı k l a d: Pr −X e .

Pro f (x, y) = e−x−y , x, y ≥ 0 je margináln´ı hustota pravdˇepodobnosti f (x) =


76

Hp! podm´ınˇ en´ a

[ h.p.podm ]

Necht’ f (x, y) je sdruˇ zen´ a hustota pravdˇ epodobnosti n´ ahodn´ ych veliˇ cin X, Y a en´ a hustota pravdˇ epodobnosti n´ ahodn´ e f (x) je pˇ r´ısluˇ sn´ a margin´ ala. Potom Podm´ınˇ veliˇ ciny Y za podm´ınky zn´ am´ e realizace n´ ahodn´ e veliˇ ciny X je f (y|x) =

f (x, y) . f (x)

ˇ ´ı k l a d: Pro f (x, y) = e−x−y , x, y ≥ 0 je margináln´ı hustota pravdˇepodobnosti f (x) = Pr e−X . Podm´ınˇená hustota pravdˇepodobnosti je f (y|x) =

e−x−y = e−y e−x


77

Stˇredn´ı hodnota! n´ ahodn´ eho vektoru

[ s.h.vekt ]

Je definov´ ana jako vektor stˇ redn´ıch hodnot jednotliv´ ych sloˇ zek. Pro X = [X1 , X2 , · · · , Xn ]0 je 0 E [X] = [E [X1 ] , E [X2 ] , · · · , E [Xn ]] .

´ m k a: Jednotlivé stˇredn´ı hodnoty poˇc´ıtáme pomoc´ı margináln´ı hustoty pravdˇepodobnosti. Pozna


78

Kovariance

[ kovariance ]

Kovariance ud´ av´ a vz´ ajemn´ y vztah dvou n´ ahodn´ ych veliˇ cin X a Y. Ke-li kovariance nulov´ a, jsou nekorelovan´ e. Definice kovariance C [X, Y ] je n´ asleduj´ıc´ı C [X, Y ]

= E [(X − E [X]) (Y − E [Y ])] Z ∞Z ∞ (x − E [X]) (y − E [Y ]) f (x, y) dxdy. = −∞

−∞

´ m k a: V pˇr´ıpadˇe diskrétn´ıch náhodn´ Pozna ych veliˇcin se integrály nahrad´ı sumou.


79

Nekorelovanost

[ nekor ]

N´ ahodn´ e veliˇ ciny X a Y jsou nekorelovan´ e, jestliˇ ze pro jejich kovarianci plat´ı C [X, Y ] = 0. Je-li C [X, Y ] > 0 n´ ahodné veliˇciny naz´ yváme pozitivnˇe korelované (jejich zmˇeny maj´ı shodné tendence), pro C [X, Y ] < 0 jsou negativnˇe korelované (zmˇeny maj´ı protich˚ udné tendence).

ˇ ´ı k l a d: Náhodné veliˇciny X a Y = 5 · X jsou pozitivnˇe korelované, náhodné veliˇciny X Pr a Y = −5 · X jsou negativnˇe korelované.

ˇ ´ı k l a d: Nezávislé náhodné veliˇciny jsou vˇzdy nekorelované. Pr Z Z Z Z C [X, Y ] = (x − Ex) (y − Ey) f (x, y) dxdy = (x − Ex) (y − Ey) f (x) f (y) dxdy = Z =

Z (x − Ex) f (x) dx

(y − Ey) f (y) dy = (Ex − Ex) (Ey − Ey) = 0


80

Kovarianˇ cn´ı matice

[ kov.mat ]

Kovarianˇ cn´ı matice CX je symetrick´ a pozitivnˇ e definitn´ı matice definovan´ a   D[X1 ] C[X1 , X2 ] · · · C[X1 Xn ]  C[X2 , X1 ] D[X2 ] · · · C[X2 , Xn ]   CX =    ··· ··· ··· ··· C[Xn , X1 ] C[Xn , X2 ] · · · D[Xn ]

Vz´ ajemn´ a kovarianˇ cn´ı matice CX,Y je obdéln´ıková matice  C[X1 Y1 ] C[X1 Y2 ] · · · C[X1 Yn ]  C[X2 Y1 ] C[X2 Y2 ] · · · C[X2 Yn ]  CX,Y =  ··· ··· ··· ··· C[Xm Y1 ] C[Xm Y2 ] · · · C[Xm Yn ]


81

   

Transformace! n´ ahodn´ e veliˇ ciny

[ t.nah.vel ]

M´ ame n´ ahodnou veliˇcinu X a jej´ı hustotu pravdˇepodobnosti fX (x) . Dále je dána monotónn´ı (bud’ rostouc´ı nebo klesaj´ıc´ı) re´ aln´ a funkce y = h (x) . Potom hustota pravdˇ epodobnosti fY (y) n´ ahodn´ e veliˇ ciny Y , definovan´ e jako Y = h (X) je ∂h−1 (y) | fY (y) = fX h−1 (y) | ∂y

ˇ ´ı k l a d: Náhodnou veliˇcinu X transformujeme pomoc´ı funkce y = σx, σ > 0 na náhodnou Pr veliˇcinu Y . Inverzn´ı funkce je x =

1 σy

a jej´ı derivace y 0 =

1 σ

> 0 Hustota Y je

fY (y) = fX

y 1 σ σ


82

Transformace! n´ ahodn´ eho vektoru

[ t.nah.vekt ]

0

Je d´ an n´ ahodn´ y vektor X = [X1 , X2 , · · · , Xn ] , jeho hustota pravdˇepodobnosti fX (x) a vzájemnˇe jednoznaˇcn´ a vektorov´ a funkce Rn → Rn : y = h (x) . Potom hustota pravdˇ epodobnosti n´ ahodn´ eho vektoru Y = h (X) je fY (y) = fX h−1 (y) |J|, kde |J|je determinant z Jacobiho matice  ∂h

∂h1 ∂y2 ∂h2 ∂y2

1

∂y

 ∂h12  J =  ∂y1  ···

··· ··· ··· ···

··· ∂hn ∂y2

∂hn ∂y1

∂h1 ∂yn ∂h2 ∂yn



   ··· 

∂hn ∂yn

0

ˇ ´ı k l a d: Náhodný vektor X 0 = [X1 , X2 ] transformujeme funkc´ı Pr y1 1 1 x1 = y2 0 1 x2 0

na náhodný vektor Y = [Y1 , Y2 ] . Hustota pravdˇepodobnosti náhodného vektoru X je fX (x). Inverzn´ı funkce je

x1 x2

=

−1 1

1 0

x1

=

y1 − y2

x2

=

y2

y1 y2

a Jakobián je |J| = 1. Hustota Y je fY (y1 , y2 ) = fX (y1 − y2 , y2 )


83

Z´ akon velk´ ych ˇ c´ısel

[ z.v.c ]

Tento z´ akon d´ av´ a do souvislosti odpov´ıdaj´ıc´ı si souborové a v´ ybˇerové charakteristiky. Jeho znˇen´ı je n´ asleduj´ıc´ı: Pˇ ri rostouc´ım rozsahu v´ ybˇ eru se v´ ybˇ erov´ e charakteristiky bl´ıˇ z´ı odpov´ıdaj´ıc´ım charakteristik´ am souborov´ ym.

ˇ ´ı k l a d: Pro velký výbˇer je x → E [X] . Pr


84

Centr´ aln´ı limitn´ı vˇ eta

[ c.l.v ]

Centr´ aln´ı limitn´ı vˇeta ˇr´ık´ a: Souˇ ctov´ e v´ ybˇ erov´ e charakteristiky (jako napˇ r. v´ ybˇ erov´ y pr˚ umˇ er) pˇ ri yvaj´ı norm´ aln´ıho rozdˇ elen´ı, a to bez rostouc´ım rozsahu v´ ybˇ eru nab´ ohledu na to, jak´ e bylo rozdˇ elen´ı souboru.

ˇ ´ı k l a d: Uvaˇzujeme hod kostkou a jako náhodnou veliˇcinu výbˇerové pr˚ Pr umˇery z 30 hod˚ u. Tato náhodná veliˇcina má pˇribliˇznˇe normáln´ı rozdˇelen´ı se stˇredn´ı hodnotou 3.5 a rozptylem 0.1.


85

Soubor

[ soubor ]

Soubor je n´ azev pro n´ ahodnou veliˇ cinu kterou sledujeme na zkouman´ em procesu a jej´ıˇ z vlastnosti se snaˇ z´ıme odhadnout nebo testovat na z´ akladˇ e v´ ybˇ eru.

´ m k a: Soubor si lze pˇredstavit jak velikou (vˇetˇsinou nekoneˇcnou) mnoˇzinu vˇsech Pozna potenci´ aln´ıch realizac´ı sledované n´ ahodné veliˇciny. Tyto realizace vymezuj´ı nejen obor hodnot n´ ahodné veliˇciny, ale sv´ ymi ˇcetnostmi (na mal´ ych intervalech) urˇcuj´ı také jej´ı rozdˇelen´ı a souborové charakteristiky.


86

Parametr rozdˇ elen´ı

[ param ]

Rozdˇelen´ı (zde m´ ame na mysli pˇredevˇs´ım hustotu pravdˇepodobnosti) je funkce, která rozdˇeluje pravdˇepodobnost v´ yskytu realizac´ı n´ ahodné veliˇciny v celém jej´ım oboru hodnot. Toto rozdˇelen´ı m˚ uˇze b´ yt z´ avislé na nˇejakém parametru θ. Tomuto parametru (nebo i vektoru parametr˚ u) ˇr´ık´ ame parametr rozdˇelen´ı a pˇr´ısluˇsnou hustotu pravdˇepodobnosti oznaˇcujeme f (x; θ)

ˇ ´ı k l a d: Exponenciáln´ı rozdˇelen´ı má tvar Pr f (x; δ) =

1 −x e δ, δ

kde parametr rozdˇelen´ı δ pˇredstavuje stˇredn´ı hodnotu.


87

N´ ahodn´ y v´ ybˇ er

[ vyber ]

N´ ahodn´ y v´ ybˇ er je vektor nez´ avisl´ ych stejnˇ e rozdˇ elen´ ych n´ ahodn´ ych veliˇ cin.

´ m k a: Poˇzadavek nez´ Pozna avislosti zaruˇcuje reprezentativnost dat, stejné rozdˇelen´ı ukazuje na skuteˇcnost, ˇze data mˇeˇr´ıme stále na tomtéˇz procesu.

´ m k a: N´ Pozna ahodn´ y v´ ybˇer nese informaci o procesu, ze které proces poznáváme.


88

V´ ybˇ erov´ y pr˚ umˇ er

[ vyb.prum ]

V´ ybˇ erov´ y pr˚ umˇ er je definov´ an vztahem n

X ¯= 1 X Xi , n i=1 ybˇeru. kde Xi jsou n´ ahodné veliˇciny z n´ ahodného v´ ybˇeru a n je rozsah v´

´ m k a: Pozna veliˇcina.

V´ ybˇerov´ y pr˚ umˇer je pr˚ umˇer náhodn´ ych veliˇcin a tedy, je to také náhodná


89

V´ ybˇ erov´ y pr˚ umˇ er! stˇredn´ı hodnota

[ v.p.prum ]

Stˇ redn´ı hodnota v´ ybˇ erov´ eho pr˚ umˇ eru ze souboru se stˇ redn´ı hodnotou µ a rozptylem σ 2 je n n X 1X ¯ = E[ 1 E[X] Xi ] = E[Xi ] = µ n i=1 n i=1


90

V´ ybˇ erov´ y pr˚ umˇ er! rozptyl

[ v.p.rozpt ]

Rozptyl v´ ybˇ erov´ eho pr˚ umˇ eru ze souboru se stˇ redn´ı hodnotou µ a rozptylem σ 2 je "

# n n X 1 1 X σ2 ¯ =D D[X] Xi = 2 D[Xi ] = . n i=1 n i=1 n


91

V´ ybˇ erov´ y rozptyl

[ v.rozpt ]

V´ ybˇ erov´ y rozptyl je definov´ an vztahem n

s2 =

1 X (xi − x ¯ )2 n − 1 i=1

´ m k a: V´ Pozna ybˇerov´ y rozptyl se podobá druhému centráln´ımu momentu v´ ybˇeru, liˇs´ı se ale -1 ve jmenovateli. Tento tvar v´ ybˇerového rozptylu dává nestrann´ y odhad rozptylu souboru σ 2 .


92

V´ ybˇ erov´ y pod´ıl

[ v.podil ]

V´ ybˇ erov´ y pod´ıl je definov´ an vztahem n

p=

1X xi n i=1


93

Moment! obecn´ y, v´ ybˇ erov´ y

[ v.mom.obec ]

k-t´ y v´ ybˇ erov´ y obecn´ y moment je definov´ an vztahem n

Mk0 =

1X k x n i=1 i


94

Moment! centr´ aln´ı, v´ ybˇ erov´ y

[ v.mom.cent ]

k-t´ y v´ ybˇ erov´ y centr´ aln´ı moment je definov´ an vztahem n

Mk =

1X (xi − x ¯)k n i=1

´ m k a: Druh´ Pozna y centr´ aln´ı moment se podobá v´ ybˇerovému rozptylu. Na rozd´ıl od nˇeho m´ a ale ve jmenovateli n a nikoliv n − 1.


95

Charakteristiky! souborov´ e

[ ch.soub ]

Jsou to charakteristiky (stˇredn´ı hodnota, rozptyl, modus, median apod.) t´ ykaj´ıc´ı se souboru, tedy procesu, kter´ y sledujeme, kter´ y nejsme schopni teoreticky pˇresnˇe popsat a jehoˇz popis chceme odhadnout na z´ akladˇe v´ ybˇeru..

ˇ ´ı k l a d: Je-li X náhodná veliˇcina s rovnomˇerným rozdˇelen´ı na intervalu (0, 2) , tedy z Pr hustotou pravdˇepodobnosti f (x) = 0.5 na tomto intervalu, pak souborová stˇredn´ı hodnota je 2

Z E [X] =

x.0.5dx = 1 0


96

Charakteristiky! v´ ybˇ erov´ e

[ ch.vyb ]

Jsou to charakteristiky (stˇredn´ı hodnota, rozptyl, modus, median apod.) t´ ykaj´ıc´ı se v´ ybˇeru, ybˇeru. tj. datového souboru, kter´ y zmˇeˇr´ıme na procesu (souboru) jako realizaci v´

ˇ ´ı k l a d: Na procesu jsme zmˇeˇrili data a roztˇr´ıdili je podle r˚ Pr uzných hodnot xi ni

3 27

5 45

8 28

Potom výbˇerová stˇredn´ı hodnota je

x=

3 · 27 + 5 · 45 + 8 · 28 = 5.3 27 + 45 + 28


97

Statistika

[ stat ]

Statistika je funkce v´ ybˇ eru.

´ m k a: Statistika se definuje jako libovolná funkce v´ Pozna ybˇeru. Pokud chceme, aby statistika mˇela dobré odhadovac´ı nebo testovac´ı vlastnosti, mus´ıme ji definovat tak, aby splˇ novala nˇekteré dalˇs´ı poˇzadavky. Viz nestrannost, konzistence a vydatnost.

ˇ ´ı k l a d: Statistika, vhodná pro odhad nebo test stˇredn´ı hodnoty je výbˇerový pr˚ umˇer. Pr


98

Statistika! odhadov´ a

[ stat.odh ]

Odhadov´ a statistika slouˇz´ı k odhadu neznámého parametru rozdˇelen´ı.


99

Statistika! testov´ a

[ stat.tes ]

Testov´ a statistika slouˇz´ı k testu nezn´ amého parametru rozdˇelen´ı nebo dalˇs´ıch jeho vlastnost´ı.


100

Bodov´ y odhad

[ bod.odhad ]

Bodov´ y odhad θˆ parametru θ je hodnota statistiky s dosazenou realizac´ı v´ ybˇ eru.

ˇ ´ı k l a d: Sledujeme stˇredn´ı hodnotu rozdˇelen´ı. Provedli jsme výbˇer Pr X = [3.2; 5.2; 2.8; 4.2; 3.9] Odhad stˇredn´ı hodnoty je ˆ¯ = x

1 (3.2 + 5.2 + 2.8 + 4.2 + 3.9) = 3.86 5


101

Intervalov´ y odhad

[ int.sp ]

Intervalov´ y odhad (interval spolehlivosti IS) je interval, ve kter´ em leˇ z´ı nezn´ am´ y parametr s danou pravdˇ epodobnost´ı 1 − α. Ekvivalentn´ı definice je n´ asleduj´ıc´ı: IS je interval, ve kterém leˇz´ı (1−α)·100% vˇsech bodov´ ych odhad˚ u. Jednotlivé druhy parametrick´ ych odhad˚ u jsou: • stˇredn´ı hodnota se zn´ am´ ym rozptylem, • stˇredn´ı hodnota s nezn´ am´ ym rozptylem, • rozptyl, • pod´ıl, • dvˇe stˇredn´ı hodnoty, sdruˇzen´ y test, • dvˇe stˇredn´ı hodnoty, nesdruˇzen´ y test, • dvˇe stˇredn´ı hodnoty, p´ arov´ y test, • dva pod´ıly.


102

Bodov´ y odhad! nestrannost

[ b.o.nestr ]

Statistika T (X) d´ av´ a nestrann´ y bodov´ y odhad parametru θ, jestliˇ ze plat´ı E[T (X)] = θ

´ m k a: Protoˇze n´ Pozna ahodn´ y v´ ybˇer X je náhodn´ y, je statistika T (X) náhodná veliˇcina. Proto m´ a smysl hovoˇrit o jej´ı stˇredn´ı hodnotˇe. N´ ahodn´ a podstata statistiky je také patrná z pˇredstavy opakovaného v´ ybˇeru. Provedeme prvn´ı v´ ybˇer a spoˇcteme hodnotu statistiky. Dalˇs´ı v´ ybˇer da trochu jinou hodnotu a tak dále. Je to tedy veliˇcina, kter´ a d´ av´ a r˚ uzné v´ ysledky – náhodná veliˇcina.


103

Vych´ ylen´ı bodov´ eho odhadu

[ b.o.vychyl ]

Vych´ ylen´ı bodov´ eho odhadu B je definov´ ano B = E[T (X) − θ]

´ m k a: Je-li B = 0 je odhad T (X) nestrann´ Pozna y.

104

Bodov´ y odhad! konzistence

[ b.o.konz ]

Statistika T (X) d´ av´ a konzistentn´ı bodov´ y odhad parametru θ, jestliˇ ze plat´ı lim P (|T (X) − θ| < ) = 1

n→∞

´ m k a: Tato definice ˇr´ık´ Pozna a, ˇze pro rozsah v´ ybˇeru jdouc´ı k nekoneˇcnu se bodov´ y odhad nejen neomezenˇe bl´ıˇz´ı ke spr´ avné hodnotˇe, ale jeˇstˇe roste jeho pˇresnost (rozptyl jde k nule).


105

Bodov´ y odhad! vydatnost

[ b.o.vydat ]

Nestrann´ a statistika T (X) d´ av´ a t´ım vydatnˇ ejˇ s´ı bodov´ y odhad parametru θ, ˇ c´ım m´ a menˇ s´ı rozptyl.

ˇ ´ı k l a d: Odhadujeme stˇredn´ı hodnotu souboru a k odhadu pouˇzijeme realizaci výbˇeru o Pr rozsahu (i) n = 100 a (ii) n = 1000. Který odhad bude vydatnˇejˇs´ı? 2

2

σ , rozptyl druhého Rozptyl prvého odhadu bude σn = 100 odhadu je menˇs´ı, a tedy druhý odhad je vydatnˇejˇs´ı.

σ2 n

=

σ2 1000 .

Vid´ıme, ˇze rozptyl druhého

´ m k a: Jestliˇze statistika nen´ı nestranná, nelze pro posouzen´ı vydatnosti pouˇz´ıt jen Pozna jej´ı rozptyl. V tomto pˇr´ıpadˇe je mˇeˇr´ıtkem vydatnosti tzv. charakteristika MSE (mean square error).


106

MSE

[ m.s.e ]

MSE - mean square error (stˇredn´ı kvadratická chyba) je definována M SE = E[(T (X) − θ)2 ], kde T (X) = θˆ je bodov´ y odhad a θ je odhadovan´ y parametr.

´ m k a: Charakteristika MSE pomˇeˇruje jak rozptyl statistiky, tak i jej´ı vych´ Pozna ylen´ı.


107

Metoda moment˚ u

[ met.mom ]

Metoda moment˚ u slouˇz´ı ke konstrukci odhadové statistiky. Je zaloˇzena na porovnán´ı souborov´ ych a v´ ybˇerov´ ych moment˚ u. Oznaˇc´ıme-li µk (θ) kt´ y obecn´ y souborov´ y moment a µ0k kt´ y obecn´ y v´ ybˇerov´ y moment, pak odhad parametru θ dostaneme ˇreˇsen´ım rovnic µk (θ) = µ0k , pro k = 1, 2, . . . , ν, kde ν je poˇcet nezn´ am´ ych parametr˚ u (dimenze vektoru θ).

´ m k a: Pozna Odhadujeme-li pouze jeden neznám´ y parametr, pouˇzijeme jen jedinou ybˇerov´ ym pr˚ umˇerem. rovnice, a to pro nulté momenty. Porovnáme stˇredn´ı hodnotu s v´

108

Metoda maxim´ aln´ı vˇ erohodnosti

[ met.veroh ]

Metoda maxim´ aln´ı vˇerohodnosti slouˇz´ı ke konstrukci odhadové statistiky. Je zaloˇzena na maximalizaci vˇerohodnostn´ı funkce L(θ) L(θ) =

n Y

f (xi ; θ),

i=1

ym parametrem θ, xi jsou prvky v´ ybˇeru a n je kde f (x, θ) je zkoumané rozdˇelen´ı s neznám´ rozsah v´ ybˇeru. Plat´ı: Bodov´ y odhad je θˆ = θ∗ , kde pro θ∗ plat´ı L(θ∗ ) ≥ L(θ),

∀θ,

tj. bodov´ y odhad je takové θ, pro které L(θ) nab´ yvá svého maxima.

ˇ ´ı k l a d: Uvaˇzujme exponenciáln´ı rozdˇelen´ı Pr f (x; δ) =

1 −x e δ. δ

Vˇerohodnostn´ı funkce je L(δ) =

n Y 1

δ i=1

Derivace L0 = −

e−

xi δ

=

1 − e δ

Pn i−1 xi δ

=

1 − n¯x e δ δ

n¯ x n − n¯x n¯ x e δ + n+2 e− δ δ n+1 δ

Stacionárn´ı bod: L0 = 0

→

δˆ = x ¯

´ m k a: Protoˇze je extrém jedin´ Pozna y mus´ı se jednat o maximum.

109

Znaˇ cen´ı pro odhady a testy

[ znaceni ]

Pro odhady a testy pouˇz´ıv´ ame n´ asleduj´ıc´ı znaˇcen´ı. Obecn´ e • n - rozsah v´ ybˇeru, • ν - stupnˇe volnosti, • pval - p-hodnota. Parametry: • µ - souborov´ a stˇredn´ı hodnota, • σ, σ 2 - souborov´ a sm. odchylka, rozptyl, • π - souborov´ y pod´ıl, Statistiky: • x ¯ - v´ ybˇerov´ y pr˚ umˇer, • s, s2 - v´ ybˇerov´ a smˇerodatn´ a odchylka, rozptyl, • p - v´ ybˇerov´ y pod´ıl, Kritick´ e hodnoty • zα - norm´ aln´ı rozdˇelen´ı, • tα - Studentovo rozdˇelen´ı, • χ2α - chi2 rozdˇelen´ı, • Fα - F rozdˇelen´ı.

110

Odhad stˇredn´ı hodnoty! zn´ am´ y rozptyl

[ o.str1.zn ]

Bodov´ y odhad µ ˆ=x ¯ Intervalov´ y odhad

σ µ ˆ=x ¯ ± √ zα/2 n

Rozdˇ elen´ı N (0, 1)

———————————————————————————Funkce MATLAB:

z int

Odpov´ıdaj´ıc´ı test je tady.

´ m k a: Zde je shrnuto spoleˇcné znaˇcen´ı pro odhady i testy hypotéz. Pozna


111

Odhad stˇredn´ı hodnoty! nezn´ am´ y rozptyl

[ o.str1.nezn ]

Bodov´ y odhad µ ˆ=x ¯ Intervalov´ y odhad

s µ ˆ=x ¯ ± √ tα/2 n

Rozdˇ elen´ı t(n − 1))

———————————————————————————Funkce MATLAB:

t int




112

Odhad rozptylu

[ o.rozp1 ]

Bodov´ y odhad σˆ2 = s2 Intervalov´ y odhad σˆ2 ∈

(n − 1)s2 (n − 1)s2 , 2 χ2α/2 χ1−α/2

!

Rozdˇ elen´ı χ2 (n − 1)

———————————————————————————Funkce MATLAB:

var int




113

Odhad pod´ılu

[ o.pod1 ]

Bodov´ y odhad π ˆ=p Intervalov´ y odhad r π ˆ =p±

p(1 − p) zα/2 n


———————————————————————————Funkce MATLAB:

prop int




114

Odhad dvou stˇredn´ıch hodnot! sdruˇ zen´ y

[ o.str2.sdr ]

Bodov´ y odhad µ ˆ1 − µ ˆ2 = x ¯1 − x ¯2 Intervalov´ y odhad r µ ˆ1 − µ ˆ2 = x ¯1 − x ¯2 ± Sp kde Sp2 = a s21 , s22

1 1 + · tα/2 , n1 n2

(n1 − 1)s21 + (n2 − 1)s22 . n1 + n2 − 2

jsou v´ ybˇerové rozptyly.

Rozdˇ elen´ı t(n − 1)

———————————————————————————Funkce MATLAB:

t int 2s




115

Odhad dvou stˇredn´ıch hodnot! nesdruˇ zen´ y

[ o.str2.nesdr ]

Bodov´ y odhad µ ˆ1 − µ ˆ2 = x ¯1 − x ¯2 Intervalov´ y odhad s µ ˆ1 − µ ˆ2 = x ¯1 − x ¯2 kde

s21 , s22

s21 s2 + 2 · tα/2 , n1 n2


Rozdˇ elen´ı t(δ) kde 2

δ = (k1 + k2 ) /

k12 n1 −1

+

k22 n2 −1

,

ki =

s2i ni ,

i = 1, 2

———————————————————————————Funkce MATLAB:

t int 2n




116

Odhad dvou stˇredn´ıch hodnot! p´ arov´ y

[ o.str2.par ]

Bodov´ y odhad µ ˆ1 − µ ˆ2 = x ¯1 − x ¯2 Intervalov´ y odhad

kde

SD ¯±√ µ ˆ1 − µ ˆ2 = D · tα/2 , n ˆ 2. ˆ = 1 Pn Di S 2 = 1 Pn (Di − D) Di = x1,i − x2,i , D D i=1 i=1 n n−1


———————————————————————————Funkce MATLAB:

t int 2p




117

Odhad dvou pod´ıl˚ u

[ o.pod2 ]

Bodov´ y odhad π ˆ1 − π ˆ2 = p1 − p2 Intervalov´ y odhad s π ˆ1 − π ˆ 2 = p1 − p2 ±

π1 (1 − π1 ) π2 (1 − π2 ) + · zα/2 , n1 n2


———————————————————————————Funkce MATLAB:

prop int 2




118

Test parametru rozdˇ elen´ı

[ test.par ]

Mˇejme rozdˇelen´ı f (x; θ), z´ avislé na skal´ arn´ım nebo vektorovém parametru θ. O tomto parametru vyslov´ıme dvˇe tvrzen´ı (hypotézy) a obhajuje stávaj´ıc´ı stav vˇec´ı • Nulovou hypotézu, kter´ • Alternativn´ı hypotézu, kter´ a pop´ırá nulovou hypotézu. Podle typu testovaného parametru vol´ıme testovou statistiku • stˇredn´ı hodnota se zn´ am´ ym rozptylem, • stˇredn´ı hodnota s nezn´ am´ ym rozptylem, • rozptyl, • pod´ıl, • dvˇe stˇredn´ı hodnoty, sdruˇzen´ y test, • dvˇe stˇredn´ı hodnoty, nesdruˇzen´ y test, • dvˇe stˇredn´ı hodnoty, p´ arov´ y test, • dva rozptyly, • dva pod´ıly. Podle rozdˇelen´ı statistiky a smˇerov´ an´ı testu zkonstruujeme kritick´ y obor. Z´ avˇ er: Jestliˇze hodnota testové statistiky (po dosazen´ı v´ ybˇeru) padne do kritického oboru, nulovou hypotézu zam´ıt´ ame. Jinak ˇrekneme, ˇze data nenesou dostatek informac´ı pro zam´ıtnut´ı (nulové hypotézy).

´ m k a: Pozor! Alternativn´ı hypotéza se testem nikdy nepotvrd´ı ani nevyvrát´ı. Pozna Slouˇz´ı jen jako z´ aminka pro pˇr´ıpadné zam´ıtnut´ı nulové hypotézy. Stejnˇe tak nelze testem potvrdit nulovou hypotézu. Jediné, co lze z testu vyvodit, je zam´ıtnut´ı nulové hypotézy.


119

Nulov´ a hypot´ eza

[ nul.hyp ]

Nulov´ a hypot´ eza H0 je tvrzen´ı, kter´ e obhajuje stav vˇ ec´ı tak, jak doposud byl a tvrd´ı, ˇ ze st´ ale je. Toto tvrzen´ı se m˚ uˇ ze t´ ykat urˇ cit´ eho parametru rozdˇ elen´ı (stˇ redn´ı hodnota, rozptyl, pod´ıl) nebo vlastnost´ı cel´ eho rozdˇ elen´ı (napˇ r. typu rozdˇ elen´ı). Proti nulové hypotéze stoj´ı alternativn´ı hypotéza a pop´ırá ji.

ˇ ´ı k l a d: Firma, která vyráb´ı televizn´ı obrazovky, tvrd´ı, ˇze jejich ˇzivotnost je 1200 hod. Pr Vývojové oddˇelen´ı provedlo urˇcité u ´pravy a ˇr´ıká, ˇze ˇzivotnost obrazovek vzrostla na 1260 hod. Nulová hypotéza H0 je: stˇredn´ı hodnota je 1200.


120

Alternativn´ı hypot´ eza

[ alt.hyp ]

Alternativn´ı hypot´ eza HA je tvrzen´ı, kter´ e vyvrac´ı nulovou hypot´ ezu. Toto vyvracen´ı lze prov´ adˇet tˇremi zp˚ usoby (je-li H0 : θ = θ0 ) • HA : θ 6= θ0 ,

(test oboustrann´ y),

• HA : θ > θ 0 ,

(test pravostrann´ y),

• HA : θ < θ 0 ,

(test levostrann´ y).

ˇ ´ı k l a d: Firma, která vyráb´ı televizn´ı obrazovky, tvrd´ı, ˇze jejich ˇzivotnost je 1200 hod. Pr Vývojové oddˇelen´ı provedlo urˇcité u ´pravy a ˇr´ıká, ˇze ˇzivotnost obrazovek vzrostla na 1260 hod. Alternativn´ı hypotéza (pravostranná) je: stˇredn´ı hodnota je vˇetˇs´ı neˇz 1200.

121

Hladina v´ yznamnosti

[ hl.vyz ]

Hladina v´ yznamnosti α je pravdˇ epodobnost chyby prvn´ıho druhu, tj. pravdˇ epocnosti pravdiv´ a. dobnost toho, ˇ ze nulovou hypot´ ezu zam´ıtneme a ona je ve skuteˇ


122

Chyba I a II druhu

[ chyba12 ]

Chyba I druhu spoˇc´ıv´ a v tom, ˇze nulovou hypotézu zam´ıtneme i kdyˇz ve skuteˇcnosti je pravdiv´ a. Pravdˇepodobnost chyby I druhu znaˇc´ıme α. Chyba II druhu vznikne, kdyˇz nulovou hypotézu nezam´ıtneme a ona ve skuteˇcnosti neplat´ı. Jej´ı pravdˇepodobnost se v testech nesleduje.


123

Kritick´ y obor

[ krit.obor ]

Kritick´ y obor je interval hodnot testov´ e statistiky, pro kter´ e se zam´ıt´ a nulov´ a hypot´ eza. Kritick´ y obor m˚ uˇze b´ yt levostrann´ y, pravostrann´ y nebo oboustrann´ y.


124

Smˇ erov´ an´ı testu

[ test.smer ]

Podle formulace alternativn´ı hypotézy m˚ uˇze b´ yt test levo, pravo nebo oboustrann´ y. To lze y znaˇc´ıme W . vyj´ adˇrit kritick´ ym oborem, kter´ Souvislost formulace alternativn´ı hypotézy a z toho plynouc´ı kritick´ y obor je v následuj´ıc´ı tabulce: Alternativn´ı hypot´ eza θ < θ0 θ > θ0 θ 6= θ0

Kritick´ y obor W = (−∞, k1−α ) W = (kα , ∞) W = (−∞, k1−α ) ∪ (kα , ∞)

y parametr a θ0 je hodnota testovaného parametru kde kα je kritick´ a hodnota, θ je testovan´ podle nulové hypotézy.


125

p-hodnota

[ p.hodnota ]

p-hodnota pval je pravdˇ epodobnost toho, ˇ ze dalˇ s´ı z´ıskan´ e hodnoty testov´ e statistiky budou jeˇ stˇ e nepˇ r´ıznivˇ ejˇ s´ı pro nulovou hypot´ ezu neˇ z ta, kterou jsme spoˇ c´ıtali z proveden´ eho v´ ybˇ eru. Pro pravostrann´ y test plat´ı pval = P (T > Tr |H0 ) = pvalP , pro levostrann´ y test je pval = P (T < Tr |H0 ) = pvalL , a pro oboustrann´ y test plat´ı pval = 2 min{pvalP , pvalL }. V uveden´ ych vzorc´ıch T je testov´ a statistika, Tr je realizovaná hodnota statistiky pro proveden´ y v´ ybˇer a H0 oznaˇcuje platnost nulové hypotézy.


126

Test stˇredn´ı hodnoty! zn´ am´ y rozptyl Normovan´ a statistika z=

[ t.str1.zn ]

x ¯ − µ√ n σ


———————————————————————————Funkce MATLAB:

z test

Odpov´ıdaj´ıc´ı odhad je tady.



127

Test stˇredn´ı hodnoty! nezn´ am´ y rozptyl Normovan´ a statistika t=

[ t.str1.nezn ]

x ¯ − µ√ n s


———————————————————————————Funkce MATLAB:

t test




128

Test rozptylu

[ t.rozp1 ]

Normovan´ a statistika χ2 =

(n − 1)s2 σ2

Rozdˇ elen´ı χ2 (n − 1)

———————————————————————————Funkce MATLAB:

var test




129

Test pod´ılu

[ t.pod1 ]

Normovan´ a statistika z=p

p−π p(1 − p)

√

n


———————————————————————————Funkce MATLAB:

prop test




130

Test dvou stˇredn´ıch hodnot! sdruˇ zen´ y Normovan´ a statistika t= kde Sp2 = a s21 , s22

[ t.str2.sdr ]

x ¯1 − x ¯2 − (µ1 − µ2 ) q Sp n11 + n12

(n1 − 1)s21 + (n2 − 1)s22 . n1 + n2 − 2


———————————————————————————Funkce MATLAB:

t test 2s




131

Test dvou stˇredn´ıch hodnot! nesdruˇ zen´ y Normovan´ a statistika t= kde

s21 , s22

[ t.str2.nesdr ]

x ¯1 − x ¯ − (µ1 − µ2 ) q2 2 s22 s1 n1 + n2


Rozdˇ elen´ı t(δ) kde 2

δ = (k1 + k2 ) /

k12 n1 −1

+

k22 n2 −1

,

ki =

s2i ni ,

i = 1, 2

———————————————————————————Funkce MATLAB:

t test 2n




132

Test dvou stˇredn´ıch hodnot! p´ arov´ y

[ t.str2.par ]

Normovan´ a statistika

ˆ − (µ1 − µ2 ) D SD P Pn n 1 2 ˆ 2 ˆ = 1 SD = n−1 Di = x1,i − x2,i , D i=1 Di i=1 (Di − D) . n t=

kde


———————————————————————————Funkce MATLAB:

t int 2p




133

Test dvou rozptyl˚ u

[ t.rozp2 ]

Normovan´ a statistika F =

σ12 σ22

Rozdˇ elen´ı F (n1 − 1, n2 − 1)

———————————————————————————Funkce MATLAB:

var test 2



134

Test dvou pod´ıl˚ u Normovan´ a statistika

[ t.pod2 ]

p1 − p2 − (π1 − π2 ) z=q π1 (1−π1 ) 2) + π2 (1−π n1 n2


———————————————————————————Funkce MATLAB:

prop test 2




135

χ2 -test

[ t.ch2 ]

χ2 -test je spoleˇcn´ y n´ azev pro testy, vyuˇz´ıvaj´ıc´ı následuj´ıc´ı statistiku χ2 =

n X (Oi − Ei )2 i=1

Ei

,

kter´ a m´ a χ2 rozdˇelen´ı a kde Oi jsou pozorované absolutn´ı ˇcetnosti ve v´ ybˇeru, Ei jsou teoretické ˇcetnosti, tj. ˇcetnosti zachovávaj´ıc´ı stejn´ y poˇcet dat jako je ve v´ ybˇeru a splˇ nuj´ıc´ı pˇresnˇe poˇzadavky nulové hypotézy.

´ m k a: V´ Pozna yznam statistiky je patrn´ y: Budou-li se pozorované ˇcetnosti pˇresnˇe rovnat ˇ ım v´ıce se budou oboje ˇcetnosti liˇsit, t´ım bude teoretick´ ym, bude hodnota statistiky nula. C´ hodnota statistiky vˇetˇs´ı. V okamˇziku, kdy hodnota statistiky vstoup´ı do pravostranného kritického oboru, nulovou hypotézu zam´ıtáme.

136

χ2 -test! dobr´ e shody

[ t.ch2.shoda ]

Jednotlivé typy χ2 -test˚ u se liˇs´ı konstrukc´ı teoretick´ ych ˇcetnost´ı Ei . Test dobré shody uk´ aˇzeme na pˇr´ıkladu - testu rovnomˇernosti.

ˇ ´ı k l a d: Pˇredpokládáme, ˇze rozdˇelen´ı testovaného souboru je rovnomˇerné. Provedli jsme Pr výbˇer a data roztˇr´ıdili na zvolených intervalech. Výsledky jsou v tabulce interval ˇcetnost (O)

(0,1) 5

(1,5) 24

(5,7) 14

(7,10) 17

Teoretické ˇcetnosti zkonstruujeme tak, aby se jejich souˇcet rovnal souˇctu pozorovaných ˇcetnost´ı, a aby vyjadˇrovaly rovnomˇernost tj., aby byly u ´mˇerné délce pˇr´ısluˇsného intervalu. Nejprve spoˇcteme pravdˇepodobnosti interval˚ u (tj. délky interval˚ u dˇelené celkovou délkou) a dostaneme interval pravdˇepodobnost

(0,1) 1/10 = 0.1

(1,5) 4/10 = 0.4

(5,7) 2/10 = 0.2

(7,10) 3/10 = 0.3

Celkový poˇcet mˇeˇren´ı, tj. 50, nyn´ı rozdˇel´ıme v pomˇeru pravdˇepodobnost´ı. Tak dostaneme teoretické ˇcetnosti E interval ˇcetnost (E)

(0,1) 5

(1,5) 20

(5,7) 10

(7,10) 15

Kriterium χ2 testu je χ2 =

(5 − 5)2 (24 − 20)2 (14 − 10)2 (17 − 15)2 + + + = 2.67 5 20 10 15

Kritický obor χ2 testu je vˇzdy pravostranný W = (χ2α (n − 1), ∞) = (χ20.05 (4 − 1), ∞) = (7.815, ∞), kde n je poˇcet interval˚ u pro výpoˇcet ˇcetnost´ı. Závˇer: χ2 ∈ /W

→ H0 nezam´ıtáme. Výbˇer jsme provedli z rovnomˇerného rozdˇelen´ı.


137

χ2 -test! nez´ avislosti

[ t.ch2.nezav ]

Jednotlivé typy χ2 -test˚ u se liˇs´ı konstrukc´ı teoretick´ ych ˇcetnost´ı Ei . Test nez´ avislosti uk´ aˇzeme na pˇr´ıkladu.

ˇ ´ı k l a d: Zjiˇst’ujeme Bydliˇstˇe (Sever, Jih) a Platovou tˇr´ıdu (I, II, III) obyvatel dané oblasti. Pr Dotázali jsme se náhodnˇe stovky obyvatel a z´ıskali následuj´ıc´ı ˇcetnosti odpovˇed´ı (kontingenˇcn´ı tabulku) I. 6 15

B\ P S J

II. 32 12

III. 17 18

Tvrd´ıme, ˇze platy jsou nezávislé na bydliˇsti. Tabulka ˇcetnost´ı (po znormován´ı) pˇredstavuje empirickou sdruˇzenou hustotu pravdˇepodobnosti náhodných veliˇcin B a P a odpov´ıdá pozorovaným ˇcetnostem O pro χ2 -test. Teoretické ˇcetnosti z´ıskáme tak, aby poˇcet dat byl stejný a teoretická sdruˇzená hustota pravdˇepodobnosti byla nezávislá. Pouˇzijeme pˇritom definici nezávislosti: B a P jsou nezávislé, kdyˇz f (B, P ) = f (B) · f (P ). Normovaná hustota a jej´ı marginály jsou f (B, P ) = O S J f (P )

I. 0.06 0.15 0.21

II. 0.32 0.12 0.44

III. 0.17 0.18 0.35

f (B) 0.55 0.45

Novou, nezávislou, tabulku (hustotu pravdˇepodobnosti) dostaneme násoben´ım marginál fnez (B, P ) S J

I. 0.116 0.095

II. 0.242 0.198

III. 0.193 0.158

Po vynásoben´ı p˚ uvodn´ım poˇctem mˇeˇren´ı n = 100 dostaneme teoretické ˇcetnosti f (B, P ) = E S J

I. 11.6 09.5

II. 24.2 19.8

III. 19.3 15.8

Kriterium sestav´ıme podle χ2 -testu, kam postupnˇe dosazujeme vˇsechny prvky tabulky. Kritický obor je pravostranný, poˇcet stupˇ n˚ u volnosti je (poˇcet ˇrádk˚ u - 1)·(poˇcet sloupc˚ u - 1).


138

Znam´ enkov´ y test medi´ anu

[ t.znam ]

Pomoc´ı znam´ enkov´ eho testu ovˇ eˇ rujeme nulovou hypot´ ezu H0 : median sledovan´ eho e x0 . Pˇri testu postupujeme takto: souboru je roven hodnotˇ • vypoˇcteme diference Di = xi − x0 , i = 1, 2, . . . n, kde xi jsou prvky realizace v´ ybˇeru, • p´ısmenem b oznaˇc´ıme poˇcet kladn´ ych diferenc´ı. Normovan´ a testov´ a statistika, kter´ a m´ a normáln´ı rozdˇelen´ı, se vypoˇcte podle vzorce z=

2b − n √ ∼ N (0, 1) n

y Kritick´ y obor je oboustrann´ W = (−∞, −zα/2 ) ∪ (zα/2 , ∞)


139

Test nez´ avislosti prvk˚ u v´ ybˇ eru

[ t.wz ]

Tento test slouˇ z´ı k ovˇ eˇ ren´ı nulov´ e hypot´ ezy H0 : prvky v´ ybˇ eru (jako n´ ahodn´ e veliˇ ciny) jsou nez´ avisl´ e. Postup pˇri testu je n´ asleduj´ıc´ı: ˆ0 , • z realizace v´ ybˇeru vypoˇcteme medián a oznaˇc´ıme ho x • vypoˇcteme diference Di = xi − x ˆ0 , i = 1, 2, . . . , n, • p´ısmenem b oznaˇc´ıme poˇcet séri´ı v diferenc´ıch (série je posloupnost diferenc´ı se stejn´ ym znaménkem) a m´ a normáln´ı rozdˇelen´ı, se vypoˇcte podle vzorce Normovan´ a testov´ a statistika, kter´ z=

2b − (n − 2) √ ∼ N (0, 1) n−1

Kritick´ y obor je levostrann´ y W = (−∞, −zα ).


140

Test nez´ avislosti soubor˚ u, Pearson

[ t.pears ]

Tento test ovˇ eˇ ruje nulovou hypot´ ezu H0 : dva sledovan´ e soubory jsou nez´ avisl´ e. Postup pˇri testu je n´ asleduj´ıc´ı: • vypoˇcteme korelaˇcn´ı koeficient r Normovan´ a testov´ a statistika, kter´ a m´ a t-rozdˇelen´ı s n − 2 stupni volnosti, se vypoˇcte podle vzorce r ∼ t(n − 2) t= q 1−r 2 n−2

Kritick´ y obor je oboustrann´ y W = (−∞, −tα ) ∪ (tα , ∞).


141

Test nez´ avislosti soubor˚ u, Spearman

[ t.spear ]

Spearman˚ uv test je stejn´ y jako Pearson˚ uv test jen s t´ım rozd´ılem, ˇze m´ısto s daty pracuje s jejich poˇrad´ım.


142

Test nez´ avislosti soubor˚ u, Kendal

[ t.kend ]

Tento test ovˇ eˇ ruje nulovou hypot´ ezu H0 : dva sledovan´ e soubory jsou nez´ avisl´ e. Postup pˇri testu je n´ asleduj´ıc´ı: • k z´ıskan´ ym v´ ybˇer˚ um x a y urˇc´ıme poˇrad´ı qx a qy , • z poˇrad´ı sestav´ıme dvouˇr´ adkovou matici a jej´ı sloupce pˇreház´ıme tak, aby prvky v prvn´ım ˇr´ adku byly uspoˇr´ ad´ any podle velikosti, • prvky druhého ˇr´ adku po uspoˇr´ adán´ı oznaˇc´ıme r1 , r2 , . . ., rn . • symbolem ki oznaˇc´ıme poˇcet prvk˚ u ri+1 , ri+2 , . . ., rn , Pn−1 • p´ısmenem K oznaˇc´ıme K = i=1 ki . Normovan´ a testov´ a statistika, kter´ a m´ a t-rozdˇelen´ı s n − 2 stupni volnosti, se vypoˇcte podle vzorce 4K t= ∼ t(n − 2) n(n − 1) − 1 Kritick´ y obor je oboustrann´ y W = (−∞, −tα ) ∪ (tα , ∞).


143

Test rozdˇ elen´ı, Kolmogorov-Smirnov

[ t.ks ]

Test typu rozdˇ elen´ı (Kolmogorov-Smirnov˚ uv test) ovˇ eˇ ruje zda soubor m´ a pˇ redpokl´ adan´ e rozdˇ elen´ı. Je zaloˇzen na porovnán´ı pˇredpokládané distribuˇcn´ı funkce F (x) a empirické distribuˇcn´ı funkce. Nulov´ a hypotéza tvrd´ı, ˇze sledovan´ y soubor má dané rozdˇelen´ı. a pˇredpokl´ adané rozdˇelen´ı. Nulov´ a hypotéza: soubor m´ Normovan´ a testov´ a statistika, kter´ a m´ a speciáln´ı rozdˇelen´ı se vypoˇcte podle vzorce ks = sup {|Fn (xi ) − F (xi )|} xi ∈X

y Kritick´ y obor je pravostrann´ W = (ksα , ∞).


144

Regresn´ı pˇr´ımka

[ r.primka ]

Regresn´ı anal´ yza slouˇ z´ı k odhadu line´ arn´ı z´ avislosti dvou n´ ahodn´ ych veliˇ cin x a y a moˇ znosti pˇ redpovˇ edi hodnot y z mˇ eˇ ren´ ych hodnot x. Geometrick´ a interpretace: • data [xi , yi ], i = 1, 2, . . . , n pˇredstavuj´ı body v rovinˇe xy, • line´ arn´ı z´ avislost veliˇcin x a y znamená, ˇze body leˇz´ı na jedné pˇr´ımce, • pokud neleˇz´ı na jedné pˇr´ımce, je jejich závislost volná, tj. body splˇ nuj´ı pˇr´ımku ale s chybami. Pˇr´ımka, kterou body prokl´ ad´ ame se naz´ yvá regresn´ı pˇ r´ımka. Jej´ı tvar je y = b0 + b1 x. nuj´ı s chybami ei Body datového souboru [xi , xi ] ji obecnˇe splˇ yi = b0 + b1 + ei . u vˇsech chyb (rezidu´ı) byl minKoeficienty regresn´ı pˇr´ımky se urˇc´ı tak, aby souˇcet kvadrát˚ im´ aln´ı n X e2i → min i−1


145

Regresn´ı pˇr´ımka! koeficienty

[ r.koef ]

S regresn´ı pˇr´ımkou jsou spojeny n´ asleduj´ıc´ı koeficienty: • smˇ ernice regresn´ı pˇ r´ımky b1 , která urˇcuje sklon (trend) pˇr´ımky. Plat´ı b1 =

Sxy Sxx

´ m k a: Pro b1 > 0 je regresn´ı pˇr´ımka rostouc´ı, pro b1 < 0 je klesaj´ıc´ı. Pro Pozna b1 = 0 je regresn´ı pˇr´ımka vodorovná, coˇz vypov´ıdá o skuteˇcnosti, ˇze ˇzádná závislost mezi x a y neexistuje. • absolutn´ı ˇ clen regresn´ı pˇ r´ımky b0 , kter´ y urˇcuje svisl´ y posun pˇr´ımky. Vzorec je b0 = y¯ − b1 x ¯

´ m k a: Absolutn´ı ˇclen nen´ı pro regresn´ı anal´ Pozna yzu pˇr´ıliˇs v´ yznamn´ y. • korelaˇ cn´ı koeficient r, kter´ y urˇcuje kvalitu lineárn´ı aproximace. Spoˇcte se takto Sxy r= p Sx Sy

´ m k a: Korelaˇcn´ı koeficient je r ∈ (0, 1). Pro r > 0 je pˇr´ımka rostouc´ı, pro Pozna r < 0 je klesaj´ıc´ı a pro r = 0 vodorovná (a tedy x a y jsou bez závislosti.

V pˇredchoz´ıch vzorc´ıch je pouˇzito následuj´ıc´ı znaˇcen´ı: X x ¯, y¯ jsou v´ ybˇerové pr˚ umˇery, X Sxx a Syy - jsou souˇcty ˇctverc˚ u, X Sxy

je vz´ ajemn´ y souˇcet ˇctverc˚ u.


146

Predikce! line´ arn´ı

[ pred.lin ]

Pˇ redpovˇ ed’ hodnoty y pro zmˇ eˇ renou hodnotu x z´ısk´ ame jako stˇ redn´ı hodnotu regresn´ı pˇ r´ımky v bodˇ e x. Tuto stˇredn´ı hodnotu vypoˇcteme tak, ˇze poloˇz´ıme chybu v regresn´ı rovnici rovnu nule. Tedy pˇredpovˇed’ yˆ je yˆ = b0 + b1 x kde b0 a b1 jsou regresn´ı koeficienty


147

Regrese! predikˇ cn´ı interval

[ r.pred.int ]

Predikˇ cn´ı interval vymezuje interval spolehlivosti pro hodnoty y v pevnˇ e zvolen´ em bodˇ e x = xp . Jeho konstrukce se provede podle vzorce s y(xp ) ∈ yˆp ± se

1 (xp − x ˆ )2 + n Sxx

kde yˆ je predikce, x ¯ je v´ ybˇerov´ y pr˚ umˇer, Sxx je souˇcet ˇctverc˚ u se je rezidu´ aln´ı rozptyl, definovan´ y s 2 /S Syy − Sxy xx ee = n−2 a Sxy je vz´ ajemn´ y souˇcet ˇctverc˚ u.

´ m k a: Pro uvaˇzovan´ Pozna y interval se bere v u ´vahu potenciáln´ı opakován´ı v´ ybˇer˚ u.


148

Regrese! interval pro regresn´ı pˇr´ımku

[ r.int.reg.pr ]

Interval pro regresn´ı pˇ r´ımku vymezuje interval spolehlivosti pro hodnoty regresn´ıch pˇ r´ımek v pevnˇ e zvolen´ em bodˇ e x = xp . Jeho konstrukce se provede podle vzorce s y(xp ) ∈ yˆp ± se

1+

1 (xp − x ˆ )2 + n Sxx

kde yˆ je predikce, x ¯ je v´ ybˇerov´ y pr˚ umˇer, Sxx je souˇcet ˇctverc˚ u se je rezidu´ aln´ı rozptyl, definovan´ y s 2 /S Syy − Sxy xx ee = n−2 a Sxy je vz´ ajemn´ y souˇcet ˇctverc˚ u.

´ m k a: Pro uvaˇzovan´ Pozna y interval se bere v u ´vahu potenciáln´ı opakován´ı v´ ybˇer˚ u.


149

Regrese! t-test smˇ ernice regresn´ı pˇr´ımky

[ r.t.test.smer ]

Vhodnost line´ arn´ı regresn´ı anal´ yzy je moˇzno zkoumat pomoc´ı t-testu, zaloˇzeném na zkoumán´ı smˇernice regresn´ı pˇr´ımky. Nulov´ a hypotéza: smˇernice se rovn´ a nule, tj. data nejsou vhodná pro lineárn´ı regresn´ı anal´ yzu. a t-rozdˇelen´ı s n − 2 stupni volnosti Normovan´ a testov´ a statistika m´ t=

b1 p Sxx ∼ t(n − 2), se

kde b1 je smˇernice regresn´ı pˇr´ımky, a Sxx =

n X (xi − x ˆ)2 ,

n

s2e =

i=1

1 X (yi − yî )2 . n − 2 i=1

Kritick´ y obor je oboustrann´ y W = (−∞, −tα/2 ) ∪ (tα/2 , ∞).


150

Regrese! t-test korelaˇ cn´ıho koeficientu

[ r.t.test.kor ]

Vhodnost line´ arn´ı regresn´ı anal´ yzy je moˇzno zkoumat pomoc´ı t-testu, zaloˇzeném na zkoumán´ı korelaˇcn´ıho koeficientu. Nulov´ a hypotéza: korelaˇcn´ı koeficient se rovná nule, tj. data nejsou vhodná pro lineárn´ı regresn´ı anal´ yzu. a t-rozdˇelen´ı s n − 2 stupni volnosti Normovan´ a testov´ a statistika m´ t= q

r 1−r 2 n−2

∼ t(n − 2)

Kritick´ y obor je oboustrann´ y W = (−∞, −tα/2 ) ∪ (tα/2 , ∞).


151

Regrese! F-test

[ r.f.test ]

Vhodnost regresn´ı anal´ yzy je moˇzno zkoumat pomoc´ı t-testu. Test je zaloˇzen na porovnán´ı vysvˇetleného a nevysvˇetleného rozptylu. Nulov´ a hypotéza: pomˇer vysvˇetleného rozptylu a nevysvˇetleného rozptylu se rovná nule, tj. z mˇeˇren´ ych dat nelze vztah mezi veliˇcinami vysvˇetlit. Normovan´ a testov´ a statistika je rovna pod´ılu vysvˇetleného a nevysvˇetleného rozptylu a má rozdˇelen´ı F se stupni volnosti 1 a n − 2 F =

(n − 2) Seˆ ∼ F (1, n − 2), S yˆ

kde Syˆ je vysvˇetlen´ y rozptyl a Seˆ je nevysvˇetlen´ y rozptyl.


152

Regrese! vysvˇ etlen´ y rozptyl

[ r.rozpt.vys ]

ˇ ım je rozptyl vˇetˇs´ı, t´ım v´ıce se sleVysvˇetlen´ y rozptyl vypov´ıd´ a o sledované vlastnosti. C´ dovan´ a vlastnost prokazuje. Vysvˇetlen´ y rozptyl se rovn´ a Syˆ =

n X

2 (ˆ yi − y¯)2 = Sxy /Sxx ,

i=1

kde • yî

jsou predikce,

• y¯ je v´ ybˇerov´ y pr˚ umˇer, • Sxy

je vz´ ajemn´ y souˇcet ˇctverc˚ u,

• Sxx

je souˇcet ˇctverc˚ u.


153

Regrese! nevysvˇ etlen´ y rozptyl

[ r.rozpt.nevys ]

ˇ ım je tento Nevysvˇetlen´ y rozptyl vypov´ıd´ a o neurˇcitosti, kterou nelze niˇc´ım vysvˇetlit. C´ rozptyl vˇetˇs´ı, t´ım v´ıce pˇrekr´ yv´ a vysvˇetlen´ y rozptyl a sledovaná vlastnost se neprokazuje. Nevysvˇetlen´ y rozptyl se rovn´ a Seˆ =

n X 2 (yi − yî )2 = Syy − Sxy /Sxx , i=1

kde • yî • Sxy

jsou predikce, je vz´ ajemn´ y souˇcet ˇctverc˚ u,

• Sxx , Syy

jsou souˇcty ˇctverc˚ u.


154

Regrese! v´ıcen´ asobn´ a

[ r.vicenas ]

V´ıcen´ asobn´ a regrese hled´ a vztah mezi jednou z´ avisle promˇ ennou y a n nez´ avisle promˇ enn´ ymi x1 , x2 , . . . , xn . Rovnice, popisuj´ıc´ı tento vztah je yt = b0 + b1 x1;t + . . . + bn xn;t + et kde t je ˇcasov´ y okamˇzik vzorkov´ an´ı dat a b0 , b1 , . . . , bn jsou regresn´ı koeficienty. Konstrukce regresn´ı rovnice: Zmˇeˇrili jsme N dvojic [xt , yt ]. Zkonstruujeme a oznaˇc´ıme 

 y1  y2   Y =  ... , yN



1  1 X=  ... 1

x1;1 x2;1 ... xN ;1

 . . . x1;n . . . x1;n  , ... ...  . . . xN ;n

 b0  b1   θ=  ...  bn

Potom optim´ aln´ı odhad θˆ regresn´ıch koeficientu θ je θˆ = (X 0 X)−1 X 0 Y kde

0

znaˇc´ı transpozici.


155



Regrese! exponenci´ aln´ı

[ r.exp ]

Exponenci´ aln´ı regrese zkoum´ a exponenci´ aln´ı vztah mezi nez´ avisle promˇ ennou x a z´ avisle promˇ ennou y Regresn´ı kˇrivka m´ a tvar exponenci´ aly y = b0 eb1 x

´ m k a: Tuto regresi je moˇzno pˇrevést na lineárn´ı tak, ˇze obˇe strany rovnice logarPozna itmujeme. Dostaneme ln(y) = ln(b0 ) + b1 x


156

Predikce! exponenci´ aln´ı

[ pred.exp ]

Exponenci´ aln´ı predikci poˇ c´ıt´ ame na regresn´ı exponenci´ ale y = b0 eb1 x .


157

Regrese! polynomi´ aln´ı

[ r.pol ]

Polynomi´ aln´ı regrese zkoum´ a polynomi´ aln´ı vztah mezi nez´ avisle promˇ ennou x a z´ avisle promˇ ennou y Regresn´ı kˇrivka m´ a tvar polynomu y = b0 + b1 x + b2 x2 + . . . + bk xk kde k je stupeˇ n polynomu.

´ m k a: Pˇri v´ Pozna ypoˇctu koeficient˚ u polynomiáln´ı regrese lze postupovat stejnˇe, jako pro v´ıcen´ asobné regresi. V roli r˚ uzn´ ych promˇenn´ ych xi vystupuj´ı mocniny xi .


158

Predikce! polynomi´ aln´ı

[ pred.pol ]

Polynomi´ aln´ı predikci poˇ c´ıt´ ame na regresn´ım polynomu y = b0 + b1 x + b2 x2 + . . . + bk xk .


159

ANOVA

[ anova ]

Pˇri anal´ yze rozptylu (ANOVA) sledujeme nˇekolik soubor˚ u a z mˇeˇren´ ych dat ovˇeˇrujeme, zda tyto soubory maj´ı shodné stˇredn´ı hodnoty. Test je zaloˇzen na porovnán´ı v´ ybˇerov´ ych pr˚ umˇer˚ u z jednotliv´ ych soubor˚ u. Tyto v´ ybˇerové pr˚ umˇery vykazuj´ı neurˇcitost, která je vyjádˇrena poy rozptyl v´ yraznˇe vˇetˇs´ı neˇz moc´ı vysvˇetleného a nevysvˇetleného rozptylu. Je-li vysvˇetlen´ nevysvˇetlen´ y, prokazuje se r˚ uznost stˇredn´ıch hodnot soubor˚ u. Nulov´ a hypotéza: pomˇer vysvˇetleného rozptylu a nevysvˇetleného rozptylu se rovná nule, tj. vˇsechny soubory maj´ı shodné stˇredn´ı hodnoty. Normovan´ a statistika, kter´ a m´ a F -rozdˇelen´ı se stupni volnosti ”poˇcet soubor˚ u - 1” a ”poˇcet soubor˚ u × (poˇcet dat - 1)” je F =

n · s2xˆ ∼ F (a − 1, a(n − 1)), s2P

kde • s2xˆ • s2P

je vysvˇetlen´ y rozptyl, je nevysvˇetlen´ y rozptyl.


160

ANOVA! vysvˇ etlen´ y rozptyl

[ a.rozpt.vys ]

ˇ ım je rozptyl vˇetˇs´ı, t´ım v´ıce se sleVysvˇetlen´ y rozptyl vypov´ıd´ a o sledované vlastnosti. C´ dovan´ a vlastnost prokazuje. Vysvˇetlen´ y rozptyl se rovn´ a n

s2xˆ

1 X ¯ 2 ), = (¯ xi − x a − 1 i=1

kde • a je poˇcet sledovan´ ych soubor˚ u, • x î

ybˇer˚ u na jednotliv´ ych souborech, jsou pr˚ umˇery z v´

¯ je pr˚ umˇer˚ u dat na souborech. • x umˇer z pr˚


161

ANOVA! nevysvˇ etlen´ y rozptyl

[ a.rozpt.nevys ]

ˇ ım je tento Nevysvˇetlen´ y rozptyl vypov´ıd´ a o neurˇcitosti, kterou nelze niˇc´ım vysvˇetlit. C´ rozptyl vˇetˇs´ı, t´ım v´ıce pˇrekr´ yv´ a vysvˇetlen´ y rozptyl a sledovaná vlastnost se neprokazuje. Nevysvˇetlen´ y rozptyl se rovn´ a a

1X 2 sP = s , a i=1 i kde • a je poˇcet sledovan´ ych soubor˚ u, • s2i

ych na jednotliv´ ych souborech. jsou v´ ybˇerové rozptyly z dat, mˇeˇren´


162

ANOVA! pˇr´ıklad

[ a.pri ]

Testujeme tˇri automobily stejné znaˇcky pro závod do vrchu. Vlivem nestejn´ ych podm´ınek (r˚ uzn´ı ˇridiˇci, povrch vozovky, atd.) se namˇeˇrené ˇcasy liˇs´ı. Naˇs´ım u ´kolem je zjistit, zda rozd´ıly v r˚ uzn´ ych pr˚ umˇern´ ych ˇcasech pˇri opakovan´ ych j´ızdách jsou zp˚ usobeny rozd´ılnou kvalitou automobil˚ u nebo je lze pˇriˇc´ıst na vrub náhodn´ ym vliv˚ um. Data, která jsme namˇeˇrili, jsou v tabulce ˇ Casy pˇri opakovan´ ych j´ızdách automobil˚ u (min) automobil 1 5.32 5.24 5.47 4.98 5.16 automobil 2 5.88 5.31 4.86 5.45 5.12 automobil 3 5.32 4.21 5.44 5.33 5.24 Vypoˇcteme: • a = 3 je poˇcet tˇr´ıd (automobil˚ u),

n = 5 je poˇcet mˇeˇren´ı,

• xi , i = 1, 2, . . . , 5 data od jednotliv´ ych automobil˚ u (ˇrádky tabulky), • xi

pr˚ umˇery dat od jednotliv´ ych automobil˚ u, x1 = 5.23, x2 = 5.32, x3 = 5.11;

• s2i v´ ybˇerové rozptyly dat jednotliv´ ych automobil˚ u, s21 = 0.033, s22 = 0.145, s23 = 0.257, • x=

1 a

Pa

i=1

xi = 5.22 pr˚ umˇer z pr˚ umˇer˚ u pro jednotlivé automobily,

• s2x = 0.0118 je rozptyl mezi tˇr´ıdami (vysvˇetlen´ y rozptyl), • s2P = 0.145 je rozptyl uvnitˇr tˇr´ıd (nevysvˇetlen´ y rozptyl). Statistika pro test m´ a rozdˇelen´ı F (a − 1, a(n − 1)) a je dána pod´ılem rozptylu vysvˇetleného tˇr´ıdami a rozptylu nevysvˇetleného F == 0.405. y. Nulov´ a hypotéza H0 : ”stˇredn´ı hodnoty tˇr´ıd jsou stejné”. Test je pravostrann´ p-hodnota: pv = P (F > Fr ) = 0.676 pˇri pouˇzit´ı rozdˇelen´ı F (2, 12). Z´ avˇ er testu: automobily jsou stejné.


163

ANOVA 2

[ anova2 ]

ANOVA 2 ˇreˇs´ı stejnou u ´lohu jako ANOVA, ale pˇri porovnán´ı stˇredn´ıch hodnot jednotliv´ ych soubor˚ u uvaˇzuje dva vysvˇetluj´ıc´ı faktory. Pro bliˇzˇs´ı n´ ahled viz Pˇr´ıklad Nulové hypotézy pro oba faktory: pomˇer vysvˇetleného rozptylu a nevysvˇetleného rozptylu se rovn´ a nule, tj. dan´ y faktor nevysvˇetluje rozd´ıly v testovan´ ych pr˚ umˇerech. y z obou faktor˚ u, které oznaˇc´ıme A a B, maj´ı F -rozdˇelen´ı se Normované statistiky pro kaˇzd´ stupni volnosti a − 1 a (a − 1)(b − 1), resp., b − 1 a (a − 1)(b − 1), jsou rovny FA =

sA2 ∼ F (a − 1, a(n − 1)), s2R

FB =

sA2 ∼ F (a − 1, a(n − 1)), s2R

kde pouˇzité symboly jsou vysvˇetleny v Pˇr´ıkladˇe


164

ANOVA 2! pˇr´ıklad

[ a.pri2 ]

Testujeme tˇri automobily stejné znaˇcky pro závod do vrchu a máme k dispozici pˇet ˇridiˇc˚ u. Kaˇzdého z ˇridiˇc˚ u nech´ ame vyjet z´ avodn´ı dráhu se vˇsemi automobily a zaznamenáme jejich ˇcasy. Ty jsou uvedeny v tabulce ˇ Casy pˇri j´ızdách automobil˚ u (min) ˇridiˇc 1 ˇridiˇc 2 ˇridiˇc 3 ˇridiˇc 4 automobil 1 5.32 5.24 5.47 4.98 automobil 2 5.88 5.31 4.86 5.45 5.32 4.21 5.44 5.33 automobil 3

ˇridiˇc 5 5.16 5.12 5.24

Naˇs´ım u ´kolem je zjistit, zda rozd´ıly v r˚ uzn´ ych pr˚ umˇern´ ych ˇcasech pˇri j´ızdách automobil˚ u jsou zp˚ usobeny rozd´ılnou kvalitou automobil˚ u, nebo je lze pˇriˇc´ıst na vrub rozd´ıl˚ um mezi ˇridiˇci, nebo zda jsou nahodilé a ani auta ani ˇridiˇci na nˇe nemaj´ı vliv. Oznaˇc´ıme: • a poˇcet automobil˚ u, b poˇcet ˇridiˇc˚ u, • xi,j je ˇcas i-tého automobilu s j-t´ ym ˇridiˇcem P n • x•j = a1 i axi,j je pr˚ umˇern´ y ˇcas j-tého ˇridiˇce (pˇres vˇsechny automobily), Pn 1 • xi• = b j bxi,j je pr˚ umˇern´ y ˇcas i-tého automobilu (se vˇsemi ˇridiˇci), y pr˚ umˇern´ y ˇcas z celé tabulky. • x je celkov´ Definujeme: rozptyl mezi pr˚ umˇ ery automobil˚ u n

s2A =

b X a(xi• − x)2 , a−1 i

rozptyl mezi pr˚ umˇ ery ˇ ridiˇ c˚ u n

s2B =

a X b(x•j − x)2 , b−1 j

rezidu´ aln´ı rozptyl (uvnitˇr tˇr´ıd) n

s2R =

n

X X 1 a b(xi,j − xi• − x•j + x)2 , (a − 1)(b − 1) i j

kter´ y je vypoˇcten z rezidu´ı – rozd´ıl˚ u mezi daty xi,j a jejich pˇredpovˇed’mi x î,j , kde x î,j =

x |{z}

celkov´ y pr˚ umˇer

+

(xi• − x) | {z }

efekt auta

165

+

(x•j − x) | {z }

efekt ˇridiˇce

Statistika pro test automobil˚ u je d´ ana pod´ılem FA =

s2A s2R

∼ F (a − 1, (a − 1)(b − 1)),

coˇz je pod´ıl rozptylu vysvˇetleného rozd´ıly v automobilech a rozptylu nevysvˇetleného. Statistika m´ a rozdˇelen´ı F se stupni volnosti a − 1 a (a − 1)(b − 1). Nulov´ a hypotéza H0 : ”stˇredn´ı hodnoty pro automobily jsou stejné”. Test je pravostrann´ y. Statistika pro test ˇ ridiˇ c˚ u je d´ ana pod´ılem FB =

s2B s2R

∼ F (b − 1, (a − 1)(b − 1)),

coˇz je pod´ıl rozptylu vysvˇetleného rozd´ıly v ˇridiˇc´ıch a rozptylu nevysvˇetleného. Statistika má rozdˇelen´ı F se stupni volnosti b − 1 a (a − 1)(b − 1). Nulov´ a hypotéza H0 : ”stˇredn´ı hodnoty pro ˇridiˇce jsou stejné”. Test je pravostrann´ y. V naˇsem pˇr´ıkladˇe o z´ avodn´ıch automobilech je: a = 3, b = 5, xi• : 5.23 5.32 5.11, pr˚ umˇery pro automobily: x•j : 5.51 4.92 5.26 5.25 5.17. pr˚ umˇery pro ˇridiˇce: rozptyl mezi automobily s2A = 0.059,

rozptyl mezi ˇridiˇci s2B = 0.132,

rezidu´ aln´ı rozptyl s2R = 0.152. Statistika: Faut = 0.388, Statistika: Frid = 0.874,

p-hodnotaaut = 0.69 p-hodnotarid = 0.52

Z´ avˇer testu: ani automobily ani ˇridiˇci nejsou odliˇsn´ı.

´ m k a: Na prvn´ı pohled by se mohlo zdát, ˇze ANOVA s dvojn´ Pozna ym tˇr´ıdˇen´ım provád´ı pouze dva paraleln´ı testy pro dvˇe veliˇciny, které maj´ı vliv na sledovaná data. Nen´ı to vˇsak pravda. V kaˇzdém z obou test˚ u se berou v u ´vahu vlivy obou veliˇcin. To co jsme dˇr´ıve museli prohl´ asit za nevysvˇetlen´ y rozptyl (kter´ y byl tˇreba proti vysvˇetlenému pˇr´ıliˇs velik´ y), lze nyn´ı vysvˇetlit pomoc´ı druhé veliˇciny. T´ım se nevysvˇetlen´ y rozptyl zmenˇs´ı a test m˚ uˇze dopadnout zcela jinak.


166

PCA! singul´ arn´ı ˇ c´ısla

[ pca.sing ]

Str´ anka je ve v´ ystavbˇe


167

PCA! vlastn´ı ˇ c´ısla

[ pca.eig ]

Str´ anka je ve v´ ystavbˇe


168

Kovariance, 76. Kritická hodnota. souboru, 65 Kritický obor, 121 Kvantil. souboru, 64 Kvartil. souboru, 68. Median

Recommend Documents