Pravdˇ epodobnost a statistika pro FEL ˇ ˇ Blanka Sediv´ a, Patrice Marek, Tom´aˇs Toupal, Eva Wagnerov´a C´ıl kurzu: Z´ akladn´ı poˇ cet pravdˇ epodobnosti, n´ ahodn´ a promˇ enn´ a, n´ ahodn´ y vektor, limitn´ı vˇ ety, statistick´ e soubory, n´ ahodn´ y v´ ybˇ er, odhady parametr˚ u, testov´ an´ı hypot´ ez, regresn´ı anal´ yza, statistick´ a kontrola kvality.
Posledn´ı aktualizace:17. bˇrezna 2011
Obsah 1 Cviˇ cen´ı 1 - N´ ahodn´ y pokus, n´ ahodn´ y jev 1.1 Teoretick´a ˇca´st . . . . . . . . . . . . . . . 1.1.1 Definice z´akladn´ıch pojm˚ u . . . . . 1.1.2 Definice pravdˇepodobnosti . . . . . 1.1.3 Z´akladn´ı kombinatorick´e vzorce . . 1.2 Pˇr´ıklady . . . . . . . . . . . . . . . . . . . 1.3 Literatura s dalˇs´ımi pˇr´ıklady . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
2 Cviˇ cen´ı 2 - Podm´ınˇ en´ a ppst, z´ avislost a nez´ avislost jev˚ u 2.1 Teoretick´a ˇca´st . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Podm´ınˇen´a pravdˇepodobnost . . . . . . . . . . . . . . . . 2.1.2 Z´avislost a nez´avislost jev˚ u. . . . . . . . . . . . . . . . . . 2.1.3 Spolehlivost paralelnˇe a s´eriovˇe ˇrazen´ ych nez´avisl´ ych prvk˚ u 2.2 Pˇr´ıklady . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Literatura s dalˇs´ımi pˇr´ıklady . . . . . . . . . . . . . . . . . . . . . 3 Cviˇ cen´ı 3 - Vˇ eta o u ´ pln´ e ppsti, Bayesova vˇ eta 3.1 Teoretick´a ˇca´st . . . . . . . . . . . . . . . . . . . 3.1.1 Vˇeta o u ´pln´e pravdˇepodobnosti . . . . . . 3.1.2 Bayesova vˇeta o inverzn´ı pravdˇepodobnosti 3.2 Pˇr´ıklady . . . . . . . . . . . . . . . . . . . . . . . 3.3 Literatura s dalˇs´ımi pˇr´ıklady . . . . . . . . . . . . 1
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . . .
. . . . . .
. . . . .
. . . . . .
. . . . . .
. . . . .
. . . . . .
. . . . . .
. . . . .
. . . . . .
. . . . . .
. . . . .
. . . . . .
. . . . . .
. . . . .
. . . . . .
. . . . . .
. . . . .
. . . . . .
. . . . . .
. . . . .
. . . . . .
. . . . . .
. . . . .
. . . . . .
. . . . . .
. . . . .
. . . . . .
. . . . . .
. . . . .
. . . . . .
4 . 4 . 4 . 5 . 6 . 8 . 10
. . . . . .
. . . . . .
11 11 11 11 12 13 15
. . . . .
16 16 16 16 16 19
. . . . .
4 Cviˇ cen´ı 4 - N´ ahodn´ a veliˇ cina 4.1 Teoretick´a ˇca´st . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Pˇr´ıklady . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Literatura s dalˇs´ımi pˇr´ıklady . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Cviˇ cen´ı 5 - Alternativn´ı, hypergeometrick´ e nosti. 5.1 Teoretick´a ˇca´st . . . . . . . . . . . . . . . . 5.2 Pˇr´ıklady . . . . . . . . . . . . . . . . . . . . 5.3 Literatura s dalˇs´ımi pˇr´ıklady . . . . . . . . . 6 Cviˇ cen´ı 6 - Poissonovo rozdˇ elen´ı 6.1 Teoretick´a ˇca´st . . . . . . . . . 6.1.1 Poissonovo rozdˇelen´ı . . 6.1.2 Aproximace binomick´eho 6.2 Pˇr´ıklady . . . . . . . . . . . . . 6.3 Literatura s dalˇs´ımi pˇr´ıklady . .
a binomick´ e rozdˇ elen´ı pravdˇ epodob25 . . . . . . . . . . . . . . . . . . . . . . . . 25 . . . . . . . . . . . . . . . . . . . . . . . . 27 . . . . . . . . . . . . . . . . . . . . . . . . 30
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . rozdˇelen´ı Poissonovo rozdˇelen´ım . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7 Cviˇ cen´ı 7 - Rozdˇ elen´ı spojit´ eho typu 7.1 Teoretick´a ˇca´st . . . . . . . . . . . . . . . . . . 7.1.1 Spojit´a n´ahodn´a veliˇcina . . . . . . . . . 7.1.2 Charakteristky spojit´e n´ahodn´e veliˇciny 7.2 Pˇr´ıklady . . . . . . . . . . . . . . . . . . . . . . 7.3 Literatura s dalˇs´ımi pˇr´ıklady . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
8 Cviˇ cen´ı 8 - Rovnomˇ ern´ e rozdˇ elen´ı. Exponenci´ aln´ı rozdˇ elen´ı. 8.1 Teoretick´a ˇca´st . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1.1 Rovnomˇern´e rozdˇelen´ı . . . . . . . . . . . . . . . . . . . 8.1.2 Exponenci´aln´ı rozdˇelen´ı . . . . . . . . . . . . . . . . . . 8.2 Pˇr´ıklady . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3 Literatura s dalˇs´ımi pˇr´ıklady . . . . . . . . . . . . . . . . . . . . 9 Cviˇ cen´ı 9 - Norm´ aln´ı rozdˇ elen´ı 9.1 Teoretick´a ˇca´st . . . . . . . . . . . . . . . . . . . 9.1.1 Norm´aln´ı (Gaussovo) rozdˇelen´ı N (µ; σ 2 ) . 9.1.2 Normovan´e norm´aln´ı rozdˇelen´ı N (µ = 0; σ 2 9.1.3 Pouˇzit´ı norm´aln´ıho rozdˇelen´ı . . . . . . . . 9.1.4 Centr´aln´ı limitn´ı vˇeta . . . . . . . . . . . . 9.2 Pˇr´ıklady . . . . . . . . . . . . . . . . . . . . . . . 9.3 Literatura s dalˇs´ımi pˇr´ıklady . . . . . . . . . . . . 10 Cviˇ cen´ı 10 - Statistick´ y soubor. parametr˚ u. 10.1 Teoretick´a ˇca´st . . . . . . . . . 10.1.1 Statistika . . . . . . . . 10.1.2 Z´akladn´ı soubor . . . . .
20 20 23 24
. . . . . . = 1) . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . .
. . . . .
. . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
31 31 31 33 34 35
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
36 36 36 37 38 40
. . . . .
41 41 41 42 42 45
. . . . . . .
46 46 46 47 48 49 49 51
. . . . .
. . . . . . .
. . . . .
. . . . . . .
. . . . .
. . . . . . .
. . . . .
. . . . . . .
. . . . .
. . . . . . .
. . . . .
. . . . . . .
. . . . .
. . . . . . .
. . . . .
. . . . . . .
. . . . .
. . . . . . .
. . . . .
. . . . . . .
. . . . .
. . . . . . .
N´ ahodn´ y v´ ybˇ er a v´ ybˇ erov´ e statistiky. Odhady 52 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2
10.1.3 V´ ybˇerov´ y soubor (statistick´ y soubor) 10.1.4 Popisn´a statistika . . . . . . . . . . . 10.2 Pˇr´ıklady . . . . . . . . . . . . . . . . . . . . 10.3 Literatura s dalˇs´ımi pˇr´ıklady . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
11 Cviˇ cen´ı 11 - Testov´ an´ı statistick´ ych hypot´ ez 11.1 Teoretick´a ˇca´st . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.1 Testov´an´ı statistick´ ych hypot´ez . . . . . . . . . . . . . . . . . . . . . . . . 11.1.2 Z´akladn´ı pojmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.3 Postup pˇri testov´an´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.4 Test hypot´ezy µ = µ0 pˇri zn´am´em rozptylu (z-test) . . . . . . . . . . . . . 11.1.5 Test hypot´ezy µ = µ0 pˇri nezn´am´em rozptylu (t-test) . . . . . . . . . . . . 11.1.6 P´arov´ y t-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.7 t-test pro dva nez´avisl´e v´ ybˇery z norm´aln´ıch rozdˇelen´ı se stejn´ ymi rozptyly 11.1.8 Test o rozptylu norm´aln´ıho rozdˇelen´ı . . . . . . . . . . . . . . . . . . . . . 11.1.9 Test shody dvou rozptyl˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Pˇr´ıklady . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3 Literatura s dalˇs´ımi pˇr´ıklady . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . .
12 Cviˇ cen´ı 12 - χ2 test dobr´ e shody, kontingenˇ cn´ı tabulky, kovariance a korelace 12.1 Teoretick´a ˇca´st . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.1.1 χ2 test dobr´e shody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.1.2 Test nez´avislosti v dvourozmˇern´ ych kontingenˇcn´ıch tabulk´ach . . . . . . . . 12.1.3 Kovariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.1.4 Korelace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.1.5 Test nez´avislosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2 Pˇr´ıklady . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.3 Literatura s dalˇs´ımi pˇr´ıklady . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 CViˇ cen´ı 13 - Regresn´ı anal´ yza. Jednoduch´ a a v´ıcen´ asobn´ a regrese. terminace. 13.1 Teoretick´a ˇca´st . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.1.1 Jednoduch´a a v´ıcen´asobn´a regrese . . . . . . . . . . . . . . . . . 13.1.2 Maticov´ y z´apis regrese a metody nejmenˇs´ıch ˇctverc˚ u . . . . . . 13.1.3 Hodnocen´ı kvality regrese a koeficient determinace R2 . . . . . . 13.2 Pˇr´ıklady . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.3 Literatura s dalˇs´ımi pˇr´ıklady . . . . . . . . . . . . . . . . . . . . . . . .
3
. . . .
. . . . . . . . . . . .
. . . . . . . .
. . . .
52 53 54 55
. . . . . . . . . . . .
56 56 56 56 56 57 57 58 58 59 59 60 63
. . . . . . . .
64 64 64 64 65 66 67 68 72
Koeficient de. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
73 73 73 75 76 77 79
1
Cviˇ cen´ı 1 - N´ ahodn´ y pokus, n´ ahodn´ y jev
N´ahodn´ y pokus, n´ahodn´ y jev. Operace s jevy. Definice pravdˇepodobnosti jevu, vlastnosti ppsti. Klasick´a definice pravdˇepodobnosti a jej´ı pouˇzit´ı, z´akladn´ı kombinatorick´e vzorce.
1.1 1.1.1
Teoretick´ aˇ c´ ast Definice z´ akladn´ıch pojm˚ u
N´ ahodn´ y pokus je kaˇzd´ y proces, jehoˇz v´ ysledek je pˇri jinak stejn´ ych poˇc´ateˇcn´ıch podm´ınk´ach nejist´ y; v´ ysledek nejsme schopni s jistotou pˇredpovˇedˇet; mnoˇzinu vˇsech moˇzn´ ych v´ ysledk˚ u n´ahodn´eho pokusu oznaˇcujeme Ω. N´ ahodn´ y jev je jev A je podmnoˇzina mnoˇziny Ω (A ⊂ Ω); n´ahodn´e jevy znaˇc´ıme velk´ ymi latinsk´ ymi p´ısmeny z poˇca´tku abecedy A,B,C, . . . ; cel´a mnoˇzina Ω je jev jist´ y; pr´azdn´a mnoˇzina ∅ je jev nemoˇzn´ y. Element´ arn´ı jevy jsou ωi jsou minim´aln´ı jevy r˚ uzn´e od jevu nemoˇzn´eho (ω je element´arn´ı jev: ∀A ⊂ ω ⇒ (A ≡ ω) nebo (A ≡ ∅); element´arn´ı jevy jsou p´arovˇe nesluˇciteln´e (ω1 , ω2 r˚ uzn´e element´arn´ı jevy, pak ω1 ∩ ω2 ≡ ∅); kaˇzd´ y jev A lze vyj´adˇrit jako mnoˇzinu element´arn´ıch jev˚ u (A ≡ {ω1 , ω2 , . . . }). Operace s jevy , protoˇze jevy maj´ı charakter mnoˇzin, m˚ uˇzeme je graficky zn´azorˇ novat pomoc´ı V´ennov´ ych diagram˚ u • A ≡ B rovnocenn´e jevy • A¯ (nebo Ac nebo A0 ) ≡ Ω\A jev opaˇcn´ y, doplnˇek jevu • A ⊂ B jev A je podjevem jevu B • A ∩ B pr˚ unik jev˚ u ,jev A a z´aroveˇ n jev B • A ∪ B sjednocen´ı jev˚ u, jev A nebo jev B (nebo oba jevy) • A\B rozd´ıl jev˚ u , plat´ı jev A, ale nikoliv jev B • A ∩ B ≡ ∅ jevy disjunktn´ı, jevy nesluˇciteln´e [ • Ai ≡ Ω u ´pln´ y syst´em jev˚ u • z´akon jedineˇcnosti: ∀A, B ∃! A ∩ B a ∃! A ∪ B • z´akon komutativn´ı: A ∪ B ≡ B ∪ A, resp. A ∩ B ≡ B ∩ A • z´akon asociativn´ı: (A ∪ B) ∪ C ≡ A ∪ (B ∪ C) resp. (A ∩ B) ∩ C ≡ A ∩ (B ∩ C) • z´akon identity: A ∪ ∅ ≡ A
A ∩ ∅ ≡ ∅, resp. A ∪ Ω ≡ Ω • z´akon komplementu: A ∪ A¯ ≡ Ω, resp. A ∩ A¯ ≡ ∅
A∩Ω≡A
• z´akon distributivn´ı: (A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C) resp. (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C) • de Morganovy vzorce: A ∪ B ≡ A ∩ B, resp. A ∩ B ≡ A ∪ B obecnˇeji necht’ Ai , i = 1, 2, . . . , An jsou jevy 4
n [
Ai ≡
i=1
1.1.2
n \
n \
Ai ,
i=1
Ai ≡
i=1
n [
Ai
i=1
Definice pravdˇ epodobnosti
Pravdˇ epodobnost jevu - kaˇzd´emu jevu A pˇriˇrazujeme re´aln´e ˇc´ıslo P(A); pravdˇepodobnost (ppst) lze ch´apat jako pˇredpovˇed’ pomˇern´ ych ˇcetnost´ı v´ ysledk˚ u pˇri mnohon´asobn´em opakov´an´ı dan´eho pokusu; ppst lze ch´apat jako kvantitativn´ı ohodnocen´ı stupnˇe jistoty. Existuj´ı r˚ uzn´e moˇznosti matematick´eho zaveden´ı pravdˇepodobnosti - klasick´a ppst, geometrick´a ppst, statistick´a ppst a axiomatick´a ppst. Klasick´ a definice pravdˇ epodobnosti - pˇredpoklady: • Ω = {ω1 , ω2 , ω3 , . . . , ωN } mnoˇzina moˇzn´ ych v´ ysledk˚ u pokusu je koneˇcn´a a nepr´azdn´a (0 < N < ∞); • p1 , p2 , p3 , . . . , pN jsou nez´aporn´a ˇc´ısla splˇ nuj´ıc´ı
N X
pi = 1;
i=1
1 vˇsechny v´ ysledky pokusu jsou stejnˇe moˇzn´e; N • kaˇzd´ y jev A lze popsat mnoˇzinou jev˚ u {ωi1 , ωi2 , . . . , ωik } kde ωi jsou v´ ysledky pokusu pˇr´ızniv´e jevu A; pak • p1 = p2 = · · · = pN =
P(A) =
NA N
kde NA je poˇcet v´ ysledk˚ u pˇr´ızniv´ ych jevu A N je poˇcet vˇsech moˇzn´ ych v´ ysledk˚ u Geometrick´ a definice pravdˇ epodobnosti - pˇredpoklady • Ω jsme schopni vyj´adˇrit jako nepr´azdnou omezenou oblast v Rn (napˇr´ıklad pomoc´ı omezen´e pˇr´ımky v R1 , omezen´e plochy v R2 , omezen´eho tˇelesa v R3 ) • jev A jsme schopni vyj´adˇrit jako podoblast oblasti Ω, pak P(A) =
λ(A) λ(Ω)
kde λ(A) je m´ıra oblasti A (d´elka, obsah plochy, objem tˇelesa) a λ(Ω) je m´ıra oblasti Ω (d´elka, obsah plochy, objem tˇelesa).
5
Vlastnosti pravdˇ epodobnosti - pro vˇsechny jevy Ai , i = 1, 2, 3, . . . plat´ı • 0 ≤ P(Ai ) ≤ 1 • jsou-li Ai a Aj nesluˇciteln´e, potom P(A ) = P(Ai ) + P(Aj ) resp. obecnˇeji jsou-li [ i ∪ Aj X Ai , i = 1, 2, . . . nesluˇciteln´e, potom P( Ai ) = P(Ai ) i
i
• P(Ω) = 1, P(∅) = 0 • Ai ⊂ Aj ⇒ P(Ai ) ≤ P(Aj ) • P(Ai ) = 1 − P(Ai ) • Ai ⊂ Aj ⇒ P(Aj \Ai ) = P(Aj ) − P(Ai ) • P(Ai ∪ Aj ) ≤ P(Ai ) + P(Aj ) • P(Ai ∪ Aj ) = P(Ai ) + P(Aj ) − P(Ai ∩ Aj ) 1.1.3
Z´ akladn´ı kombinatorick´ e vzorce
Pro urˇcov´an´ı poˇctu moˇzn´ ych v´ ysledk˚ u pouˇz´ıv´ame vzorce pro permutace, variace a kombinace. • permutace n prvk˚ u (kolika zp˚ usoby lze uspoˇra´dat ntici prvk˚ u ); uspoˇra´d´an´ı prvk˚ u skupiny M v dan´em poˇrad´ı – poˇcet permutac´ı Pn = n! – pokud M se skl´ad´a z i1 , i2 , . . . , ik stejn´ ych prvk˚ u, je poˇcet permutac´ı Pn =
n! i1 !i2 ! . . . ik !
– poˇcet permutac´ı s opakov´an´ım Pn = nn • variace n prvk˚ u kt´e tˇr´ıdy (kolika zp˚ usoby lze z ntici prvk˚ u vybrat ktici, pˇriˇcemˇz z´aleˇz´ı na poˇrad´ı v´ ybˇeru) – poˇcet variac´ı Vnk =
n! = n(n − 1) . . . (n − k + 1) (n − k)!
– poˇcet variac´ı s opakov´an´ım Vnk = nk • kombinace n prvk˚ u kt´e tˇr´ıdy (kolika zp˚ usoby lze z ntici prvk˚ u vybrat ktici, pˇriˇcemˇz nez´aleˇz´ı na poˇrad´ı v´ ybˇeru) n n! k – poˇcet kombinac´ı Cn = = k (n − k)!k! n+k−1 k – poˇcet kombinac´ı s opakov´an´ım Cn = k • binomick´e ˇc´ıslo lze pˇribliˇznˇe urˇcit za pouˇzit´ı Stirlingovy formule pro urˇcen´ı hodnoty k! √ log k! ≈ log 2πk + k(log k − log e) 6
• vlastnosti kombinaˇcn´ıch ˇc´ısel n n – = k n−k n n – = =1 0 n n n n+1 – + = k k+1 k+1 n n n – + + ··· + = 2n 0 1 n n n n n – − + · · · + (−1) =0 0 1 n
7
1.2
Pˇ r´ıklady
1. 120 student˚ u absolvovalo zkouˇsku z matematiky a fyziky. 82 student˚ u udˇelalo zkouˇsku z matematiky, 85 student˚ u zkouˇsku z fyziky, 77 student˚ u udˇelalo obˇe zkouˇsky. Urˇcete: (a) Kolik student˚ u udˇelalo zkouˇsku z fyziky nebo z matematiky ? (b) Kolik student˚ u neudˇelalo zkouˇsku z fyziky ? (c) Kolik student˚ u neudˇelalo zkouˇsku z matematiky ? (d) Kolik student˚ u udˇelalo zkouˇsku z fyziky a neudˇelalo zkouˇsku z matematiky ? (e) Kolik student˚ u udˇelalo zkouˇsku z matematiky a neudˇelalo zkouˇsku z fyziky ? 2. Jev A spoˇc´ıv´a v tom, ˇze n´ahodnˇe vybran´e pˇrirozen´e ˇc´ıslo je dˇeliteln´e pˇeti a jev B v tom, ˇze toto ˇc´ıslo m´a na posledn´ım m´ıstˇe nulu. Urˇcete, co znamenaj´ı jevy (a) A ∩ B ; (b) A ∪ B ; ¯ ∩ B; (c) A ¯; (d) A ∪ B ¯. (e) A ∩ B 3. V´ yrobek je v r´amci v´ ystupn´ı kontroly podroben tˇrem r˚ uzn´ ym zkouˇsk´am. Jev A spoˇc´ıv´a v tom, ˇze v´ yrobek obstoj´ı pˇri prvn´ı zkouˇsce, jev B spoˇc´ıv´a v tom, ˇze v´ yrobek obstoj´ı pˇri druh´e zkouˇsce a jev C v tom, ˇze v´ yrobek obstoj´ı pˇri tˇret´ı zkouˇsce. Vyj´adˇrete v mnoˇzinov´e symbolice, ˇze v´ yrobek obstoj´ı (a) jen v prvn´ı zkouˇsce; (b) v prvn´ı a druh´e zkouˇsce, ale neobstoj´ı ve tˇret´ı zkouˇsce; (c) ve vˇsech tˇrech zkouˇsk´ach; (d) alespoˇ n v jedn´e zkouˇsce; (e) alespoˇ n ve dvou zkouˇsk´ach; (f) maxim´alnˇe ve dvou zkouˇsk´ach. 4. Charakterizujte mnoˇzinu element´arn´ıch n´ahodn´ ych jev˚ u pro n´ahodn´e pokusy (a) hod dvˇemi mincemi; (b) otoˇcen´ı ruletou. 5. Kolik r˚ uzn´ ych ˇc´ısel lze vytvoˇrit z ˇc´ıslic 0, 1, 2, 3 a 4. (a) sm´ı-li kaˇzd´a z ˇc´ıslic b´ yt v ˇc´ısle obsaˇzena nejv´ yˇse jednou, (b) je-li poˇcet stejn´ ych ˇc´ıslic v ˇc´ısle neomezen´ y. 6. V s´erii 12 v´ yrobk˚ u jsou 3 vadn´e. Kolika zp˚ usoby lze vybrat 8
[261] [nekoneˇcnˇe]
Obr´azek 1: Pˇr´ıklad 8 - u ´loha o setk´an´ı
(a) ˇsest v´ yrobk˚ u,
[924]
(b) ˇsest v´ yrobk˚ u, vˇsechny bez vady,
[84]
(c) ˇsest v´ yrobk˚ u, z toho jeden vadn´ y,
[378]
(d) ˇsest v´ yrobk˚ u, z toho nejv´ yˇse dva vadn´e,
[840]
(e) ˇsest v´ yrobk˚ u, z toho alespoˇ n dva vadn´e.
[462]
7. V urnˇe je 6 b´ıl´ ych a 3 ˇcern´e koule. Kolika zp˚ usoby lze z urny vyt´ahnout 4 koule, maj´ı-li mezi nimi b´ yt alespoˇ n dvˇe b´ıl´e ? [120] ´ 8. Uloha o setk´an´ı: Dva pˇr´atel´e (X a Y) se domluvili, ˇze pˇrijdou na urˇcit´e m´ısto v dobˇe mezi polednem a jednou hodinou odpoledne. Na m´ısto pˇrijde v tomto ˇcasov´em intervalu kaˇzd´ y z nich zcela n´ahodnˇe a nez´avisle na pˇr´ıchodu toho druh´eho. Kaˇzd´ y bude ˇcekat patn´act minut na ´ pˇr´ıchod druh´eho, ne d´ele neˇz do jedn´e hodiny odpoledne. Ukolem je urˇcit ppst., ˇze se za tˇechto podm´ınek sejdou. Pravdˇepodobnost setk´an´ı odpov´ıd´a pod´ılu obsahu vyˇsrafovan´e plochy vzhledem k celkov´e ploˇse 7 a je P = . 16
9
1.3
Literatura s dalˇ s´ımi pˇ r´ıklady
• Trial KMA – kapitola 30.1 Kombinatorika • Trial KMA – kapitola 30.2 N´ahodn´e jevy • Trial KMA – kapitola 30.2 Definice pravdˇepodobnosti • Pol´ak, Josef: Stˇredoˇskolsk´a matematika v u ´loh´ach. Strana 74–126 ´ • Reif, Jiˇr´ı – Kobeda, Zdenˇek: Uvod do pravdˇepodobnosti a spolehlivosti. Strana 9–16
10
2
Cviˇ cen´ı 2 - Podm´ınˇ en´ a ppst, z´ avislost a nez´ avislost jev˚ u
u, podm´ınˇen´a pravdˇepodobPravdˇepodobnost jev˚ u A∩B, A∪B, A−B, A, . . . . Z´avislost a nez´avislost jev˚ nost.
2.1 2.1.1
Teoretick´ aˇ c´ ast Podm´ınˇ en´ a pravdˇ epodobnost
Necht’ A, B ∈ A jsou jevy a necht’ P(B) > 0. Podm´ınˇenou pravdˇepodobnost jevu A za podm´ınky jevu B definujeme vztahem P(A ∩ B) P(A|B) = P(B) • je-li A ∩ B = ∅, pak P(A|B) = 0 • P(A|B) 6= P(B|A) • P(A|B) P(B) = P(B|A) P(A) 2.1.2
Z´ avislost a nez´ avislost jev˚ u
Nez´ avislost dvou jev˚ u Jevy A, B ∈ A se naz´ yvaj´ı nez´avisl´e, jestliˇze plat´ı P(A ∩ B) = P(A) P(B) Jevy, kter´e nejsou nez´avisl´e, jsou z´avisl´e. N´asleduj´ıc´ı tvrzen´ı jsou ekvivalentn´ı pro P(A) 6= 0 a P(B) 6= 0 • A a B jsou nez´avisl´e • P(A|B) = P(A) • P(B|A) = P(B) • A a B jsou nez´avisl´e • A a B jsou nez´avisl´e • A a B jsou nez´avisl´e Nez´ avislost v´ıce jev˚ u Necht’ {Ai , i ∈ I} je mnoˇzina jev˚ u. Jevy t´eto mnoˇziny se naz´ yvaj´ı nez´avisl´e, jestliˇze pro kaˇzd´e pˇrirozen´e n a kaˇzdou podmnoˇzinu {i1 , i2 , . . . , in } ⊂ I plat´ı P(
n \
Aij ) = P(Ai1 ) P(Ai2 ) . . . P(Ain )
j=1
11
Obr´azek 2: Paraleln´ı zapojen´ı prvk˚ u
2.1.3
Spolehlivost paralelnˇ e a s´ eriovˇ eˇ razen´ ych nez´ avisl´ ych prvk˚ u
Necht’ p1 , p2 , ...pn jsou pravdˇepodobnosti poruch prvk˚ u P1 , P2 , ..., Pn . Pˇredpokl´ad´ame, ˇze poruchy jednotliv´ ych prvk˚ u jsou na sobˇe nez´avisl´e. Pravdˇepodobnost poruchy cel´eho syst´emu znaˇc´ıme P a spolehlivost cel´eho syst´emu R = 1 − P n Y P = p1 · p2 · · · · · pn = pi i=1
R = 1 − p1 · p 2 · · · · · pn = 1 −
n Y
pi
i=1
Obr´azek 3: S´eriov´e zapojen´ı prvk˚ u
P = 1 − (1 − p1 ) · (1 − p2 ) · · · · · (1 − pn ) = 1 −
n Y (1 − pi ) i=1
n Y R = (1 − p1 ) · (1 − p2 ) · · · · · (1 − pn ) = (1 − pi ) i=1
12
2.2
Pˇ r´ıklady
1. Uvaˇzujme n´asleduj´ıc´ı jevy (a) jev A: na kostce padlo ˇc´ıslo 1“ nebo 2“; ” ” (b) jev B: na kostce padlo ˇc´ıslo sud´e ( 2“, 4“, 6“); ” ” ” Spoˇctˇete pravdˇepodobnosti jev˚ u A, B, A ∩ B, A ∪ B, A|B a B|A a rozhodnˇete, zda jsou jevy A a B nez´avisl´e. ˇ sen´ı: Reˇ Jev A ∩ B, plat´ı jev A a z´aroveˇ n jev B odpov´ıd´a situaci, kdy na kostce padlo ˇc´ıslo 2“. ” P(A) = 1/3, P(B) = 1/2, P(A ∩ B) = 1/6 1/6 P(A ∩ B) = = 1/3, P(A|B) = P(B) 1/2 P(B|A) = 1/2 1 1 1 Protoˇze plat´ı P (A) · P (B) = · = = P (A ∩ B), jsou jevy A a B nez´avisl´e. 3 2 6 2. Uk´azka pˇr´ıkladu, kdy jsou jevy po dvou nez´avisl´e, ale jsou celkovˇe z´avisl´e. Uvaˇzujme n´ahodn´ y pokus hod dvˇemi mincemi“, kdy sledujeme zda na minc´ıch padl l´ıc (L) nebo (R). Mnoˇzina vˇsech ” moˇzn´ ych v´ ysledk˚ u (element´arn´ıch jev˚ u) je tedy Ω = {LL, LR, RL, RR} a vˇsechny element´arn´ı 1 jevy jsou stejnˇe pravdˇepodobn´e, tj. maj´ı pravdˇepodobnost . 4 Najdˇete pravdˇepodobnost a zjistˇete zda jsou nez´avisl´e a po dvou nez´avisl´e jevy (a) A1 na prvn´ı mince padne l´ıc; (b) A2 na druh´e minci padne l´ıc; (c) A3 na obou minc´ıch padne tot´eˇz. ˇ sen´ı: Ω = {ω1 , ω2 , ω3 , ω4 }, P(ωi ) = 1/4 A1 = {ω1 , ω2 }, P(A1 ) = 1/2 Reˇ A2 = {ω1 , ω3 }, P(A2 ) = 1/2 A3 = {ω1 , ω4 }, P(A3 ) = 1/2 jevy A1 a A2 jsou nez´avisl´e, protoˇze A1 ∩ A2 = {ω1 } a P(A1 ∩ A2 ) = 1/4 = 1/2 · 1/2 jevy A1 a A3 jsou nez´avisl´e, protoˇze A1 ∩ A3 = {ω1 } a P(A1 ∩ A3 ) = 1/4 = 1/2 · 1/2 jevy A2 a A3 jsou nez´avisl´e, protoˇze A2 ∩ A3 = {ω1 } a P(A2 ∩ A3 ) = 1/4 = 1/2 · 1/2 jevy A1 ,A2 a A3 jsou z´avisl´e, protoˇze A1 ∩ A2 ∩ A3 = {ω1 } a P(A1 ∩ A2 ∩ A3 ) = 1/4 6= 1/2 · 1/2 · 1/2 3. Pˇr´ıklad o zapomenut´em deˇstn´ıku 1 Roztrˇzit´ y profesor zapom´ın´a v obchodˇe deˇstn´ık s ppst´ı. , tedy za podm´ınky, ˇze s deˇstn´ıkem do 4 13
obchodu doraz´ı. Postupnˇe navˇst´ıvil tˇri obchody a cestou dom˚ u zjist´ı, ˇze deˇstn´ık nem´a. Urˇcete ppsti., ˇze deˇstn´ık zapomnˇel v jednotliv´ ych obchodech. ˇ sen´ı: Reˇ jevy Ai : deˇstn´ık zapomnˇel v it´em obchodˇe (jevy jsou disjunktn´ı) jev A = A1 ∪ A2 ∪ A3 : dˇeˇstn´ık v nˇekter´em z obchod˚ u zapomnˇel jevy Ai |A: deˇstn´ık zapomnˇel v it´em obchodˇe za podm´ınky, ˇze deˇstn´ık v nˇekter´em obchodˇe zapomnˇel 1 3 1 3 3 1 P(A1 ) = , P(A2 ) = · , P(A3 ) = · · 4 4 4 4 4 4 37 P(A) = P(A1 ) + P(A2 ) + P(A3 ) = 64 P(Ai ) P(Ai ∩ A) = P(Ai |A) = P(A) P(A) 16 12 9 P(A1 |A) = , P(A2 |A) = , P(A3 |A) = 37 37 37 4. Vl´ad’a a Jarda hraj´ı ruletu. V´ıme, ˇze 0 nevyhr´ala. Vl´ad’a vsadil ˇsestici ˇc´ısel 22 − 27, Jarda vsadil na velkou (tzn. 19 − 36). (a) Jak´a je pravdˇepodobnost, ˇze Vl´ad’a vyhr´al, jestliˇze Jarda vyhr´al. (b) Jak´a je pravdˇepodobnost, ˇze Jarda vyhr´al, jestliˇze Vl´ad’a vyhr´al. (c) Jsou jevy Vl´ad’a vyhr´al“ a Jarda vyhr´al“ nez´avisl´e? ” ” ˇ sen´ı: Reˇ Oznaˇcme A jev Vl´ad’a vyhr´al“ a B jev Jarda vyhr´al“. ” ” Ze zad´an´ı v´ıme, ˇze vyhr´av´a jedno ˇc´ıslo z 36. 18 6 Pak P (A) = = 0.167 a P (B) = = 0.5 36 36 Vyj´adˇr´ıme element´arn´ı jevy jevu A ∩ B. A ∩ B = {22, 23, 24, 25, 26, 27} a spoˇcteme P (A ∩ B) =
6 = 0.167 36
(a) Poˇc´ıt´ame pravdˇepodobnost P (A|B) =
P (A ∩ B) 0.167 = = 0.333 P (B) 0.5
(b) Poˇc´ıt´ame pravdˇepodobnost P (B|A) =
P (A ∩ B) 0.167 = =1 P (A) 0.167
14
(c) Pro nez´avisl´e jevy plat´ı P (A) · P (B) = P (A ∩ B) P (A) · P (B) =
6 6 18 · 6 = = P (A ∩ B) 36 36 36
Rovnost neplat´ı, tedy jevy A a B jsou z´avisl´e. 5. Zjistˇete pravdˇepodobnost, ˇze naˇcrtnut´e zaˇr´ızen´ı pˇrestane bˇehem doby ∆t fungovat, jestliˇze pravdˇepodobnost, ˇze it´a souˇc´astka pˇrestane fungovat bˇehem doby ∆t je pi .
Obr´azek 4: Sch´ema zapojen´ı ˇ sen´ı: Reˇ Nejprve urˇc´ıme pravdˇepodobnost selh´an´ı bloku (tento blok oznaˇcme A) sloˇzen´eho z prvk˚ u P2 a P3 : . pA = 1 − (1 − p1 ) · (1 − p2 ) = 1 − (1 − 0.159) · (1 − 0.091) = 0.236. D´ale spoˇcteme pravdˇepodobnost selh´an´ı bloku (tento blok oznaˇcme B) sloˇzen´eho z prvk˚ u P1 a A: . pB = p1 · pA = 0.164 · 0.236 = 0.041 Nakonec spoˇcteme pravdˇepodobnost selh´an´ı bloku sloˇzen´eho z prvk˚ u B, P4 a P5 : . p = 1 − (1 − pB ) · (1 − p4 ) · (1 − p5 ) = 1 − (1 − 0.041) · (1 − 0.145) · (1 − 0.053) = O.224 Pravdˇepodobnost selh´an´ı naˇcrtnut´eho zaˇr´ızen´ı je 22.4%
2.3
Literatura s dalˇ s´ımi pˇ r´ıklady
• Trial KMA – kapitola 30.4.1 Podm´ınˇen´a pravdˇepodobnost • Trial KMA – kapitola 30.4.2 Nez´avislost jev˚ u ´ • Reif, Jiˇr´ı – Kobeda, Zdenˇek: Uvod do pravdˇepodobnosti a spolehlivosti. Strana 17–19.
15
3
Cviˇ cen´ı 3 - Vˇ eta o u ´ pln´ e ppsti, Bayesova vˇ eta
3.1
Teoretick´ aˇ c´ ast
3.1.1
Vˇ eta o u ´ pln´ e pravdˇ epodobnosti
• Necht’ B1 , B2 , . . . tvoˇr´ı u ´pln´ y syst´em disjunktn´ıch jev˚ u, • necht’ P (Bi ) > 0 pro i = 1, 2, . . . , • necht’ jev A je libovoln´ y jev pˇr´ısluˇsn´ y t´emuˇz n´ahodn´emu pokusu. Pak plat´ı P (A) =
X
P (A|Bi ) P (Bi )
i
D˚ ukaz: Pouˇzijeme definice podm´ınˇen´e pravdˇepodobnosti P (A|B) =
P (A ∩ B) a vyuˇzijeme vlastnosti pravdˇepodobP (B)
nosti ı disjunktn´ıch jev˚ u [ pro sjednocen´ X P ( Ai ) = P (Ai ). i
3.1.2
i
Bayesova vˇ eta o inverzn´ı pravdˇ epodobnosti
• Necht’ B1 , B2 , . . . , Bn tvoˇr´ı u ´pln´ y syst´em disjunktn´ıch jev˚ u, • necht’ P (Bi ) > 0 pro i = 1, 2, . . . , n a • necht’ jev A je libovoln´ y jev pˇr´ısluˇsn´ y t´emuˇz n´ahodn´emu pokusu takov´ y, ˇze P (A) > 0. Pak plat´ı pro vˇsechna k = 1, 2, . . . , n P (A|Bk ) P (Bk ) P (Bk |A) = P n P (A|Bi ) P (Bi ) i=1
D˚ ukaz: Pouˇzijeme definici podm´ınˇen´e pravdˇepodobnosti a v´ ysledky vˇety o u ´pln´e pravdˇepodobnosti. Pozn´ amka: Z hypot´ez B1 , B2 , . . . , Bn nastane pˇri proveden´ı pokusu pr´avˇe jedna. Jejich pravdˇepodobnost P (Bi ) je zn´ ama pˇred proveden´ım pokusu - a priori (nez´ avisle na zkuˇsenosti - na z´akladˇe rozumu). V´ıme-li ale, zda pˇri proveden´ı pokusu nastal jev A ˇci nikoli, pak tento fakt mˇen´ı pravdˇepodobnosti alternativ na P (Bi |A) - pravdˇepodobnost a posteriori (podle zkuˇsenosti).
3.2
Pˇ r´ıklady
1. V´yrobn´ı linky. Na tˇrech v´ yrobn´ıch link´ach jsou vyr´abˇeny identick´e v´ yrobky.Prvn´ı v´ yrobn´ı linka zajiˇst’uje 60% produkce a ppst. vyroben´ı vadn´eho v´ yrobku je 1%, druh´a v´ yrobn´ı linka zajiˇst’uje 30% produkce a ppst. vyroben´ı vadn´eho v´ yrobku je 2%, tˇret´ı v´ yrobn´ı linka zajiˇst’uje 10% produkce a ppst. vyroben´ı vadn´eho v´ yrobku je 3%. 16
(a) Urˇcete ppst., ˇze n´ahodnˇe vybran´ y v´ yrobek bude vadn´ y. (b) Necht’ v´ yrobek je vadn´ y. Urˇcete ppst., ˇze n´ahodnˇe vybran´ y vadn´ y v´ yrobek poch´az´ı z 1., 2. resp. 3. linky. ˇ sen´ı: Oznaˇcme Reˇ - jev Bi v´ yrobek je v´ yrobek na i-t´e lince - jev A v´ yrobek je vadn´ y - P (B1 ) = 0.6, P (B2 ) = 0.3, P (B3 ) = 0.1 - P (A|B1 ) = 0.01 - P (A|B2 ) = 0.02 - P (A|B3 ) = 0.03 Ppst., ˇze n´ahodnˇe vybran´ y v´ yrobek bude vadn´ y je urˇcena podle vˇety o u ´pln´e ppsti, kde plat´ı P (A) = 0.6 · 0.01 + 0.3 · 0.02 + 0.1 · 0.03 = 0.015. Ppst., ˇze n´ahodnˇe vybran´ y vadn´ y v´ yrobek poch´az´ı z 1., 2. resp. 3. linky, je urˇcena na z´akladˇe vˇety o inverzn´ı pravdˇepodobnosti. 0.6 · 0.01 P (A|B1 ) P (B1 ) = = 0.4 P (A) 0.015 0.3 · 0.02 - P (B2 |A) = = 0.4 0.015 0.1 · 0.03 - P (B3 |A) = = 0.2 0.015 - P (B1 |A) =
2. O v´ystˇredn´ım ˇzal´aˇrn´ıkovi. V ˇzal´aˇri je vˇezeˇ n odsouzen´ y k smrti. V´ ystˇredn´ı ˇzal´aˇrn´ık vˇsak d´a vˇezni ˇsanci. Pˇrinese 12 ˇcern´ ych a 12 b´ıl´ ych kuliˇcek. Pak mu d´a dvˇe pr´azdn´e urny a sdˇel´ı mu, ˇze z´ıtra pˇrijde kat a n´ahodnˇe si vybere jednu urnu a z n´ı n´ahodnˇe vybere jednu kuliˇcku. Bude-li b´ıl´a, dostane vˇezeˇ n milost. Jak m´a vˇezeˇ n rozdˇelit kuliˇcky, aby maximalizoval pravdˇepodobnost udˇelen´ı milosti?
17
ˇ sen´ı: Oznaˇcme Reˇ - jev Bj kat vybral jtou urnu (j = 1, 2) - n poˇcet kuliˇcek v prvn´ı urnˇe - i poˇcet b´ıl´ ych kuliˇcek v prvn´ı urnˇe - jev A kat vyt´ahl b´ılou kuliˇcku, P (A(n,i) ) ppst. vytaˇzen´ı b´ıl´e kuliˇcky. Pak plat´ı - P (B1 ) = 1/2, P (B2 ) = 1/2 12 − i i - P (A|B1 ) = , P (A|B2 ) = n 24 − n 1 i 12 − i a podle vˇety o u ´pln´e ppsti plat´ı P (A(n,i) ) = ( + ) 2 n 24 − n 3. Pˇr´ıklad z l´ekaˇrsk´e diagnostiky Oznaˇcme jev CH, ˇze n´ahodnˇe vybran´a osoba m´a sledovanou chorobu. P (CH) = 0.5%. Pˇredpokl´adejme, ˇze urˇcit´ y test na odhalen´ı choroby m´a n´asleduj´ıc´ı v´ ysledky: • M´a-li osoba sledovanou chorobu, poskytne test pozitivn´ı v´ ysledek v 95% pˇr´ıpad˚ u (senzitivita testu). • Nem´a-li osoba sledovanou chorobu, poskytne test negativn´ı v´ ysledek v 90% pˇr´ıpad˚ u (specificita testu). Jestliˇze u n´ahodnˇe vybran´e osoby byl v´ ysledek testu pozitivn´ı, jak´a je ppst., ˇze skuteˇcnˇe m´a sledovanou chorobu? ˇ sen´ı: Reˇ - jev +: v´ ysledek testu byl pozitivn´ı, - jev - : byl negativn´ı Zn´ame ppsti - P (+|CH) = 0.95 : osoba, kter´a m´a danou chorobu, m´a pozitivn´ı v´ ysledek testu - P (−|CH) = 0.05 : osoba, kter´a m´a danou chorobu, m´a negativn´ı v´ ysledek testu - P (+|CH) = 0.10 : osoba, kter´a nem´a danou chorobu, m´a pozitivn´ı v´ ysledek testu - P (−|CH) = 0.90 : osoba, kter´a nem´a danou chorobu, m´a negativn´ı v´ ysledek testu Podle vˇety o u ´pln´e ppsti plat´ı 18
P (+) = 0.95 · 0.005 + 0.10 · 0.995 = 0.10425 a podle Bayesovy vˇety plat´ı P (CH|+) =
P (+|CH) P (CH) 0.95 · 0.005 . = = 4.56% P (+) 0.10425
a d´ale plat´ı P (−|CH) P (CH) 0.05 · 0.005 . = = 0.03% P (−) 1 − 0.10425 P (+|CH) P (CH) 0.10 · 0.995 . P (CH|+) = = = 95.44% P (+) 0.10425 0.90 · 0.995 . P (−|CH) P (CH) = P (CH|−) = = 99.97 P (−) 1 − 0.10425 P (CH|−) =
4. Vadn´e v´yrobky Ve skladu je 1000 v´ yrobk˚ u, pˇriˇcemˇz 100 v´ yrobk˚ u poch´az´ı od 1. dodavatele, 600 od 2. dodavatele a zbytek od 3. dodavatele. Pravdˇepodobnost, ˇze 1. dodavatel dodal vadn´ y v´ yrobek, je 1%, u 2. je to 0,5% a u 3. dodavatele 2%. Ze skladu n´ahodnˇe vybereme jeden v´ yrobek a tento v´ yrobek je vadn´ y. S jakou pravdˇepodobnost´ı poch´az´ı od 1. dodavatele? 5. N´akup auta ˇ Manˇzelka jde do autosalonu Skoda pro nov´ y v˚ uz. Nem˚ uˇze se vˇsak rozhodnout mezi Octavi´ı a Passatem. Rozhodne se tedy, ˇze si z voz˚ u, kter´e jsou na prodejnˇe, jeden vybere zcela n´ahodnˇe. Z tˇechto voz˚ u je 60% Octavi´ı a 40% Passat˚ u, d´ale v´ıme, ˇze dieslov´ y motor m´a 30% Octavi´ı a 50% Passat˚ u. (a) S jakou pravdˇepodobnost´ı manˇzelka pˇrijede vozem s dieslov´ ym motorem? (b) Manˇzelka si vybrala v˚ uz s dieslov´ ym motorem. S jakou pravdˇepodobnost´ı se jedn´a o Passata?
3.3
Literatura s dalˇ s´ımi pˇ r´ıklady
• Trial KMA – kapitola 30.4.3. Vˇeta o u ´pln´e pravdˇepodobnosti • Trial KMA – kapitola 30.4.4. Inverzn´ı Bayesova vˇeta • Brousek, Jan – Ryj´aˇcek, Zdenˇek: Sb´ırka ˇreˇsen´ ych pˇr´ıklad˚ u z poˇctu pravdˇepodobnosti. Strana 23, 24, 42–47.
19
4 4.1
Cviˇ cen´ı 4 - N´ ahodn´ a veliˇ cina Teoretick´ aˇ c´ ast
N´ ahodn´ a veliˇ cina (NV) je libovoln´a re´aln´a funkce X definovan´a na mnoˇzinˇe element´arn´ıch jev˚ uω pravdˇepodobnostn´ıho prostoru Ω. N´ahodn´a veliˇcina je funkce X : Ω → R takov´a, ˇze pro B ⊂ R plat´ı X −1 (B) ∈ A N´ahodnou veliˇcinu znaˇc´ıme velk´ ymi p´ısmeny: X, Y, Z, ... nebo X1 , X2 nebo vybran´ ymi p´ısmeny ˇreck´e abecedy ξ(ksi), η(eta), ζ(dzeta). Konkr´etn´ı realizaci n´ahodn´e promˇenn´e znaˇc´ıme mal´ ymi p´ısmeny x, y, z nebo x1 , x2 apod. Pˇr´ıklad n´ahodn´e veliˇciny: - poˇcet z´akazn´ık˚ u obslouˇzen´ ych v supermarketu za 1 hodinu prodeje - poˇcet ˇclen˚ u dom´acnosti v souboru plzeˇ nsk´ ych dom´acnost´ı - poˇcet novorozenc˚ u v porodnici za 24 hodin Distribuˇ cn´ı funkce kaˇzd´emu re´aln´emu ˇc´ıslu pˇriˇrazuje pravdˇepodobnost, ˇze n´ahodn´a veliˇcina nabude hodnoty menˇs´ı nebo rovn´e neˇz toto ˇc´ıslo. F (x) = P {X ≤ x} pro vˇsechna x ∈ R Pomoc´ı distribuˇcn´ı funkce je charakterizov´ano pravdˇepodobnostn´ı chov´an´ı n´ahodn´e veliˇciny. Vlastnosti distribuˇcn´ı funkce: • 0 ≤ F (x) ≤ 1 (hodnoty distribuˇcn´ı funkce leˇz´ı mezi 0 a 1) • F (x1 ) ≤ F (x2 ) ∀x1 < x2 (je neklesaj´ıc´ı funkc´ı) • lim F (x) = 0 x→−∞
• lim F (x) = 1 x→+∞
• F (x) je zprava spojit´a • F (x) m´a nejv´ yˇse spoˇcetnˇe bod˚ u nespojitosti Stˇ redn´ı hodnota E(X) je jednou z charakteristik polohy n´ahodn´e veliˇciny X. Vlastnosti stˇredn´ı hodnoty: pro n´ahodn´e veliˇciny X a Y (E(X), E(Y ) < ∞) a a, b ∈ R plat´ı • E(a) = a • E(a · X) = a · E(X) • E(X + Y ) = E(X) + E(Y ) • pro X, Y nez´avisl´e: E(X · Y ) = E(X) · E(Y ) • P (X ≥ 0) = 1 ⇒ E(X) ≥ 0 Rozptyl D(X) je jednou z charakteristik variability n´ahodn´e veliˇciny X. Rozptyl D(X) (dalˇs´ı oznaˇcen´ı var(X) nebo σ 2 (X)) je definov´an jako: D(X) = E((X − E(X))2 ) 20
Pro v´ ypoˇcet se pouˇz´ıv´a v´ ypoˇcetn´ı tvar rozptylu: D(X) = E(X 2 ) − E 2 (X) Vlastnosti rozptylu: pro n´ahodn´e veliˇciny X a Y (D(X), D(Y ) < ∞) a a, b ∈ R plat´ı • D(X) ≥ 0 • D(a) = 0 • D(a · X) = a2 · D(X) • D(X + Y ) = D(X) + D(Y ) • D(X − Y ) = D(X) + D(Y ) p Smˇ erodatn´ a odchylka σ(X) = D(X)
Nejˇcastˇeji se vyskytuj´ı n´asleduj´ıc´ı dva pˇr´ıpady n´ahodn´ ych veliˇcin • diskr´etn´ı pˇr´ıpad (diskr´etn´ı n´ahodn´a veliˇcina) • spojit´ y pˇr´ıpad (absolutnˇe spojit´a n´ahodn´a veliˇcina) Diskr´ etn´ı n´ ahodn´ a veliˇ cina m˚ uˇze nab´ yvat koneˇcnˇe nebo spoˇcetnˇe hodnot {x1 , x2 , . . . , xn , . . . } Napˇr.: Poˇcet bod˚ u z´ıskan´ ych z jedn´e z´apoˇctov´e pr´ace z PSE je diskr´etn´ı n´ahodn´a veliˇcina, kter´a m˚ uˇze nab´ yvat hodnot 0, 1, 2, ... 20. Pravdˇepodobnost toho, ˇze n´ahodn´a veliˇcina X bude m´ıt hodnotu xi s pravdˇepodobnost´ı pi budeme zapisovat P (X = xi ) = pi . X Mus´ı platit pi = 1. i
Pravdˇepodobnostn´ı funkce P je pro diskr´etn´ı n´ahodnou veliˇcinu definov´ana: pi pro x = xi i = 1, 2, . . . P (x) = 0 pro x 6= xi Distribuˇcn´ı funkce diskr´etn´ı n´ahodn´e veliˇciny je po ˇc´astech konstantn´ı: X F (x) = pi xi ≤x
Vztahy pro diskr´etn´ı distribuˇcn´ı funkci (realizace n´ahodn´e veliˇciny {x1 , x2 , . . . , xn , . . . }) • definice P (X ≤ xi ) = F (xi ) • P (X < xi ) = P (X ≤ xi−1 ) = F (xi−1 ) • P (X ≥ xi ) = 1 − P (X < xi ) = 1 − F (xi−1 ) 21
Obr´azek 5: Pravdˇepodobnostn´ı funkce
Obr´azek 6: Distribuˇcn´ı funkce
• P (X > xi ) = 1 − P (X ≤ xi ) = 1 − F (xi ) • P (X = xi ) = P (X ≤ xi ) − P (X < xi ) = F (xi ) − F (xi−1 ) • P (xa < X < xb ) = F (xb−1 ) − F (xa ) Stˇredn´ı hodnota E(X) se pro diskr´etn´ı n´ahodnou veliˇcinu vypoˇcte: X E(X) = xi · p i i
Rozptyl D(X) se pro diskr´etn´ı n´ahodnou veliˇcinu vypoˇcte: X D(X) = x2i · pi − E 2 (X) i
22
4.2
Pˇ r´ıklady
1. Nakreslete pravdˇepodobnostn´ı a distribuˇcn´ı funkci pro hod kostkou. 2. V d´ılnˇe pracuj´ı 2 stroje (nez´avisle na sobˇe). Pravdˇepodobnost, ˇze se porouch´a prvn´ı stroj je 0.2. Pravdˇepodobnost, ˇze se porouch´a druh´ y stroj je 0.3. N´ahodn´a veliˇcina X bude oznaˇcovat poˇcet porouchan´ ych stroj˚ u. (a) Urˇcete pravdˇepodobnostn´ı a distribuˇcn´ı funkci t´eto n´ahodn´e veliˇciny. (b) Vypoˇctˇete stˇredn´ı hodnotu a rozptyl t´eto n´ahodn´e veliˇciny. ˇ sen´ı: Ω = {ω1 , ω2 , ω3 } = {0, 1, 2} Reˇ A...porouch´a se prvn´ı stroj ... P (A) = 0.2 A...neporouch´a se prvn´ı stroj ... P (A) = 1 − 0.2 = 0.8 B...porouch´a se druh´ y stroj ... P (B) = 0, 3 B...neporouch´a se druh´ y stroj ... P (B) = 1 − 0.3 = 0.7 a) P (0) = P (A) · P (B) = 0.8 · 0.7 = 0.56 P (1) = P (A) · P (B) + P (A) · P (B) = 0.2 · 0.7 + 0.8 · 0.3 = 0.38 P (2) = P (A ∩ B) = P (A) · P (B) = 0.06 F (0) = P (x ≤ 0) = 0.56 F (1) = P (x ≤ 1) = 0.94 F (2) = P (x ≤ 2) = 1 b) E(X) = ω1 · P (ω1 ) + ω2 · P (ω2 ) + ω3 · P (ω3 ) = 0 · 0.56 + 1 · 0.38 + 2 · 0.06 = 0.5 E(X 2 ) = ω12 · P (ω1 ) + ω22 · P (ω2 ) + ω32 · P (ω3 ) = 02 · 0.56 + 12 · 0.38 + 22 · 0.06 = 0.62 D(X) = E(X 2 ) − E(X)2 = 0.62 − 0.52 = 0.37 3. V osud´ı je 5 kuliˇcek - 2 b´ıl´e a 3 ˇcern´e. Postupnˇe jsou vytahov´any kuliˇcky (bez vracen´ı zpˇet) dokud nen´ı vyt´ahnuta ˇcern´a kuliˇcka. (a) Vypoˇctˇete pravdˇepodobnostn´ı funkci a distribuˇcn´ı funkci a nakreslete. (b) Vypoˇctˇete stˇredn´ı hodnotu a rozptyl poˇctu tah˚ u potˇrebn´ ych pro vytaˇzen´ı ˇcern´e kuliˇcky. ˇ sen´ı: N´ahodn´a veliˇcina X je tah, ve kter´em bude vytaˇzena ˇcern´a kuliˇcka, n´ahodn´a veliˇcina Reˇ nab´ yv´a hodnot 1, 2, 3 a) P (1) = 3/5 = 0.6 P (2) = (1 − 3/5) · 3/4 = 0.3 P (3) = (2/5) · (1/4) · 3/3 = 0.1 F (0) = P (x ≤ 0) = 0.6 F (1) = P (x ≤ 1) = 0.9 23
F (2) = P (x ≤ 2) = 1 b) E(X) = ω1 · P (ω1 ) + ω2 · P (ω2 ) + ω3 · P (ω3 ) = 1 · 0.6 + 2 · 0.3 + 3 · 0.1 = 1, 5 E(X 2 ) = ω12 · P (ω1 ) + ω22 · P (ω2 ) + ω32 · P (ω3 ) = 12 · 0.6 + 22 · 0.3 + 32 · 0.1 = 2.7 D(X) = E(X 2 ) − E(X)2 = 2.7 − 1.52 = 0.45 4. Z dan´eho grafu distribuˇcn´ı funkce nakreslete graf pravdˇepodobnostn´ı funkce.
Obr´azek 7: Distribuˇcn´ı funkce (pˇr´ıklad 4) 5. Necht’ n´ahodn´a veliˇcina X nab´ yv´a hodnot 6,7,8,9 a 10 s pravdˇepodobnost´ı P (6) = 0.67, P (7) = 0.05, P (8) = 0.06, P (9) = 0.16 a P (10) =??? (a) Spoˇctˇete P (10), E(X) a D(X). (b) Naˇcrtnˇete graf pravdˇepodobnostn´ı a distribuˇcn´ı n´ahodn´e veliˇciny X. ˇ sen´ı: P (10) = 0.06; E(X) = 6.89; D(X) = 1.898 Reˇ C . Urˇcete hodnotu X! C tak, aby se jednalo o pravdˇepodobnostn´ı funkci. Spoˇctˇete E(X), D(X).
6. N´ahodn´a veliˇcina X nab´ yv´a hodnot {1, 2, 3}. Je d´ana funkce P (X) =
ˇ sen´ı. P (1) = C , P (2) = C , P (3) = C Reˇ 1! 2! 3! C = 6/10; E(X) = 1.5; D(X) = 0.45
4.3
Literatura s dalˇ s´ımi pˇ r´ıklady
• Trial KMA – kapitola 30.5.4. Obecn´a diskr´etn´ı rozdˇelen´ı • Brousek, Jan – Ryj´aˇcek, Zdenˇek: Sb´ırka ˇreˇsen´ ych pˇr´ıklad˚ u z poˇctu pravdˇepodobnosti. Strana 22–32.
24
5 5.1
Cviˇ cen´ı 5 - Alternativn´ı, hypergeometrick´ e a binomick´ e rozdˇ elen´ı pravdˇ epodobnosti. Teoretick´ aˇ c´ ast
Alternativn´ı rozdˇ elen´ı A(p): 0 < p < 1 N´ahodn´a veliˇcina X nab´ yv´a pouze dvou hodnot X = 0, pokud jev nenastal a X = 1 pokud jev nastal. p tedy oznaˇcuje pravdˇepodobnost toho, ˇze jev nastane. 1 − p pro x = 0 p pro x = 1 Pravdˇepodobnostn´ı funkce: P (x) = 0 jinde pro x < 0 0 1 − p pro 0 ≤ x < 1 Distribuˇcn´ı funkce: F (x) = 1 pro x ≥ 1 Stˇredn´ı hodnota: E(X) = 0 · (1 − p) + 1 · p = p Rozptyl: D(X) = 02 · (1 − p) + 12 · p − p2 = p (1 − p) Pouˇzit´ı: teoretick´ y z´aklad pro dalˇs´ı typy rozdˇelen´ı Binomick´ e rozdˇ elen´ı Bi(p; n): 0 < p < 1; n ∈ N Binomick´e rozdˇelen´ı popisuje ˇcetnost v´ yskytu n´ahodn´eho jevu v n nez´avisl´ ych pokusech, v nichˇz m´a jev st´ale stejnou pravdˇepodobnost. N´ahodn´a veliˇcina X nab´ yv´a hodnot {0 ; 1 ; 2 ; . . . , n}. n x Pravdˇepodobnostn´ı funkce: P (x) = p (1 − p)n−x pro x = 0, 1, . . . , n x 0 pro x < 0 x X n t p (1 − p)n−t pro 0 ≤ x < n Distribuˇcn´ı funkce: F (x) = t 1t=0 pro x ≥ n Stˇredn´ı hodnota: E(X) = n · p Rozptyl: D(X) = n · p (1 − p) Pouˇzit´ı: • pravdˇepodobnost u ´spˇechu v jednom pokusu je p, n´ahodn´a veliˇcina X ∼ Bi(p, n) charakterizuje poˇcet u ´spˇeˇsn´ ych pokus˚ u pˇri n nez´avisl´ ych opakov´an´ıch • pod´ıl v´ yrobk˚ u z danou vlastnost´ı v z´akladn´ım souboru je p, n´ahodn´a veliˇcina X ∼ Bi(p, n) charakterizuje poˇcet v´ yrobk˚ u s danou vlastnost´ı ve v´ ybˇeru rozsahu n, pokud prvky po v´ ybˇeru vrac´ıme zpˇet Pozn´amky: • alternativn´ı rozdˇelen´ı je Bi(p; n = 1)
25
• Ai ∼ A(p), i = 1, 2, . . . , n nez´avisl´e jevy X =
n X
Ai ∼ Bi(p; n). Binomick´e rozdˇelen´ı lze
i=1
ch´apat jako rozdˇelen´ı souˇctu n vz´ajemnˇe nez´avisl´ ych n´ahodn´ ych veliˇcin, ˇr´ıd´ıc´ıch se t´ ymˇz alternativn´ım rozdˇelen´ım. Hypergeometrick´ e rozdˇ elen´ı H(N ; M ; n): 0 < M < N ; 0 < n ≤ N ; n, N, M ∈ N Hypergeometrick´e rozdˇelen´ı je rozdˇelen´ı n´ahodn´e veliˇciny, kdy pˇri opakov´an´ı n´ahodn´eho pokusu je v´ yskyt sledovan´eho jevu z´avisl´ y na v´ ysledc´ıch pˇredch´azej´ıc´ıch pokus˚ u. Jde tedy o pokusy, kter´e jsou na sobˇe z´avisl´e. Typick´ ym pˇredstavitelem je v´ ybˇer prvk˚ u bez vracen´ı. V takov´em pˇr´ıpadˇe m˚ uˇzeme N povaˇzovat za celkov´ y poˇcet prvk˚ u souboru a M za poˇcet prvk˚ u souboru, kter´e maj´ı sledovanou vlastnost. Poˇcet prvk˚ u vybran´ ych z tohoto souboru bez vracen´ı je pak n. N´ahodn´a veliˇcina X nab´ yv´a hodnot: {0 ; 1 ; 2 ; . . . min(n, M )} M N −M Pravdˇepodobnostn´ı funkce: P (x) =
x
n−x N n
pro x = 0, 1, . . . , min(n, M )
M Stˇredn´ı hodnota: E(X) = n N M M N −n Rozptyl: D(X) = n 1− N N N −1 Pozn´amka: • Binomick´e rozdˇelen´ı je limitn´ım pˇr´ıpadem hypergeometrick´eho rozdˇelen´ı pro n → ∞ a M M → 0 je HG(N ; M ; n) ≈ Bi(p = ; n) N N Pouˇzit´ı: • v souboru N prvk˚ u m´a M prvk˚ u sledovanou vlastnost, provedeme v´ ybˇer n prvk˚ u, pˇriˇcemˇz vybran´ y prvek do souboru nevrac´ıme, n´ahodn´a veliˇcina X ∼ HG(N ; M ; n) charakterizuje poˇcet prvk˚ u se sledovanou vlastnost´ı ve v´ ybˇeru n M • pokud znaˇc´ıme p = procento prvk˚ u se sledovanou vlastnost´ı v souboru a d´ale uvaˇzujme, N ˇze vyb´ıran´ ych prvk˚ u je tak moc“, ˇze nez´aleˇz´ı na tom, zda po v´ ybˇeru prvek vrac´ıme nebo ” M nevrac´ıme, pak HG(N ; M ; n) ≈ Bi(p = ; n), staˇc´ı n ≥ 30 a p ≤ 0.1 N
26
5.2
Pˇ r´ıklady
1. U hodu jednou kostkou sledujeme, zda padla 6, tj. X=1 v pˇr´ıpadˇe, ˇze na kostce padla 6 a X=0 v pˇr´ıpadˇe, ˇze na kostce nepadla 6. (a) Nakreslete pravdˇepodobnostn´ı a distribuˇcn´ı funkci n´ahodn´e veliˇciny X. (b) Vypoˇctˇete stˇredn´ı hodnotu a rozptyl n´ahodn´e veliˇciny X. ˇ sen´ı: E(X) = 1 ; D(X) = 1 · 5 = 5 Reˇ 6 6 6 36 2. U hodu tˇremi kostkami sledujeme, kolikr´at padla 6. (a) Nakreslete pravdˇepodobnostn´ı a distribuˇcn´ı funkci n´ahodn´e veliˇciny. (b) Vypoˇctˇete stˇredn´ı hodnotu a rozptyl n´ahodn´e veliˇciny. ˇ sen´ı: nkr´at opakujeme pokus, pˇri kaˇzd´em pokusu je pravdˇepodobnost sledovan´eho jevu Reˇ 1 stejn´a. Pouˇzijeme tedy binomick´e rozdˇelen´ı. N´ahodn´a veliˇcina X ∼ Bi(n, p), n = 3, p = 6 ud´av´a poˇcet hod˚ u, pˇri kter´ ych padla na kostce 6. 0 1 1 3 . 1 2 . 3 1 3 1 (1 − ) = 0.578; P (1) = (1 − ) = 0.347 (a) P (0) = 6 6 1 6 0 6 2 1 1 . 3 13 1 0 . 3 1 (1 − ) = 0.069; P (3) = (1 − ) = 0.0046 P (2) = 3 6 6 6 2 6 . . F (0) = P (0) = 0.578; F (1) = P (0) + P (1) = 0.925; . F (2) = 0.9954; F (3) = 1 (b) E(X) = n · p = 3 ·
3 1 5 . = 0.6; D(X) = n · p · (1 − p) = 3 · · = 0.4167 5 6 6
3. Mezi 10 v´ yrobky jsou 3 vadn´e. Postupnˇe vybereme dva v´ yrobky (s vracen´ım zpˇet). N´ahodn´a veliˇcina A oznaˇcuje poˇcet vadn´ ych v´ yrobk˚ u mezi vybran´ ymi v´ yrobky. (a) Nakreslete pravdˇepodobnostn´ı a distribuˇcn´ı funkci n´ahodn´e veliˇciny. (b) Vypoˇctˇete stˇredn´ı hodnotu a rozptyl n´ahodn´e veliˇciny. ˇ sen´ı: nkr´at opakujeme pokus, pˇri kaˇzd´em pokusu je pravdˇepodobnost sledovan´eho jevu Reˇ 3 stejn´a. Pouˇzijeme tedy binomick´e rozdˇelen´ı. N´ahodn´a veliˇcina X ∼ Bi(n, p), n = 2, p = 10 ud´av´a poˇcet hod˚ u, pˇri kter´ ych padla na kostce 6. 0 2 3 3 2 . (a) P (0) = (1 − ) = 0.49; 10 0 10 1 2 3 3 1 . P (1) = (1 − ) = 0.42; 10 1 10 2 3 0 . 2 3 P (2) = (1 − ) = 0.09; 10 2 10 27
. F (0) = P (0) = 0.49; F (1) = 0.91; F (2) = 1 (b) E(X) = n · p = 3 ·
3 7 . 6 = 0.6; D(X) = n · p · (1 − p) = 2 · · = 0.42 10 10 10
4. Pˇri akci ”Kryˇstof”policist´e na jednom stanoviˇsti zkontrolovali 500 vozidel. V´ıme, ˇze 1 vozidlo z 200 je kraden´e. Jak´a je pravdˇepodobnost, ˇze policist´e: (a) naˇsli 2 kraden´a vozidla; (b) naˇsli m´enˇe neˇz 5 kraden´ ych vozidel; (c) naˇsli alespoˇ n 3 a m´enˇe neˇz 5 kraden´ ych vozidel. ˇ sen´ı: nkr´at opakujeme pokus, pˇri kaˇzd´em pokusu je pravdˇepodobnost sledovan´eho jevu Reˇ stejn´a. Pouˇzijeme tedy binomick´e rozdˇelen´ı. N´ahodn´a veliˇcina X ∼ Bi(n, p), n = 500, p = 1 = 0.005 ud´av´a poˇcet kraden´ ych vozidel, kter´a policist´e pˇri kontrol´ach naleznou. 200 n x 500 n−x (a) P (X = 2) = p (1 − p) = 0.0052 (1 − 0.005)500−2 = 0.257 x 2 (b) P (X < 5) = P (0) + P (1) + ... + P (4) = 0.082 + 0.205 + 0.257 + 0.214 + 0.134 = 0.892 (c) P (3 ≤ X < 5) = P (3) + P (4) = 0.214 + 0.134 = 0.348 5. Mezi 10 v´ yrobky jsou 3 vadn´e. Postupnˇe vybereme dva v´ yrobky (bez vracen´ı zpˇet). N´ahodn´a veliˇcina A oznaˇcuje poˇcet vadn´ ych v´ yrobk˚ u mezi vybran´ ymi v´ yrobky. (a) Nakreslete pravdˇepodobnostn´ı a distribuˇcn´ı funkci n´ahodn´e veliˇciny. (b) Vypoˇctˇete stˇredn´ı hodnotu a rozptyl n´ahodn´e veliˇciny. ˇ sen´ı: v´ Reˇ yrobky zpˇet do v´ ybˇeru nevrac´ıme, jednotliv´e tahy jsou z´avisl´e. Pouˇzijeme hypergeometrick´e rozdˇelen´ı. N´ahodn´a veliˇcina X ∼ H(N ; M ; n); N = 10, M = 3, n = 2. 3 7 21 . 0 2 (a) P (0) = 10 = = 0.467; 45 2 3 7 21 . 1 1 P (1) = 10 = = 0.467; 45 2 3 7 3 . P (2) = 2 100 = = 0.067 45 2 . F (0) = 0.467; F (1) = 0.933; F (2) = 1 M 3 =2· = 0.6; N 10 M M N −n 3 3 10 − 2 56 1− =2 1− = = 0.3733 D(X) = n N N N −1 10 10 10 − 1 150
(b) E(X) = n
6. Necht’ n´ahodn´a veliˇcina X poch´az´ı z hypergeometrick´eho rozdˇelen´ı, X ∼ H(N, K, n) = H(10, 4, 4). Spoˇctˇete pravdˇepodobnosti: 28
(a) P (X = 3) (b) P (X > 0) ˇ sen´ı: Protoˇze k ≥ 0, k ≤ K, k ≤ n, n − k ≤ N − K, je k ∈ {0, ...., 4} Reˇ 4 6 . (a) P (X = 3) = 3 101 = 0.114 4 . (b) P (X > 0) = 1 − P (X = 0) = 0.929
7. Spoˇctˇete pravdˇepodobnosti v´ yhry ve Sportce (celkov´ y poˇcet ˇc´ısel v osud´ı je 49, je vytaˇzeno 6 ˇc´ısel a n´aslednˇe jedno dodatkov´e): (a) (b) (c) (d) (e) (f) (g) (h)
Pro 1. poˇrad´ı, tj. ze 6 vybran´ ych jsme tipnuli 6. Pro 2. poˇrad´ı, tj. ze 6 vybran´ ych jsme tipnuli 5 a z´aroveˇ n dodatkov´e ˇc´ıslo. Pro 3. poˇrad´ı, tj. ze 6 vybran´ ych jsme tipnuli 5. Pro 4. poˇrad´ı, tj. ze 6 vybran´ ych jsme tipnuli 4. Pro 5. poˇrad´ı, tj. ze 6 vybran´ ych jsme tipnuli 3. Ze 6 vybran´ ych jsme tipnuli 2. Ze 6 vybran´ ych jsme tipnuli 1. Ze 6 vybran´ ych jsme netipnuli ani jedno ˇc´ıslo.
ˇ sen´ı: pro losov´an´ı sportky je typick´e, ˇze se losovan´a ˇc´ısla nevrac´ı zpˇet, proto pouˇzijeme Reˇ hypergeometrick´e rozdˇelen´ı. X ∼ H(N ; M ; n); N = 49, M = 6, n = 6 6 43 (a) P (1.poˇrad´ı) = P (X = 6) = 6 43 (b) P (X = 5) =
5
6
0
49 6
= 7.15 · 10−8
1
49 6
1 = 4.29 · 10−7 (uh´adli jsme dodatkov´e) 43 42 P (3.poˇrad´ı) = P (X = 5) · = 1.8 · 10−5 (neuh´adli jsme dodatkov´e) 43 P (4.poˇrad´ı) = P (X = 4) = 9.69 · 10−4 P (5.poˇrad´ı) = P (X = 3) = 1.77 · 10−2 P (X = 2) = 0.132 P (X = 1) = 0.413 P (X = 1) = 0.436 P (2.poˇrad´ı) = P (X = 5) ·
(c) (d) (e) (f) (g) (h)
8. Necht’ n´ahodn´a veliˇcina X poch´az´ı z hypergeometrick´eho rozdˇelen´ı, X ∼ H(N, K, n) = H(30, 14, 3). Spoˇctˇete pravdˇepodobnosti: (a) P (X = 2) 29
(b) P (X > 1) ˇ sen´ı: Protoˇze k ≥ 0, k ≤ K, k ≤ n, n − k ≤ N − K, je k ∈ {0, ...., 3} Reˇ 14 16 91 · 16 . 2 1 = (a) P (X = 2) = = 0.359 30 4060 3 (b) P (X > 1) = P (X = 2) + P (X = 3) = 0.359 + 0.090 = 0.448
5.3
Literatura s dalˇ s´ımi pˇ r´ıklady
• Trial KMA – kapitola 30.5.1. Hypergeometrick´e rozdˇelen´ı • Trial KMA – kapitola 30.5.2. Binomick´e rozdˇelen´ı • Brousek, Jan – Ryj´aˇcek, Zdenˇek: Sb´ırka ˇreˇsen´ ych pˇr´ıklad˚ u z poˇctu pravdˇepodobnosti. Strana 22–32.
30
6 6.1 6.1.1
Cviˇ cen´ı 6 - Poissonovo rozdˇ elen´ı Teoretick´ aˇ c´ ast Poissonovo rozdˇ elen´ı
U tohoto rozdˇelen´ı nab´ yv´a n´ahodn´a veliˇcina X hodnot {0, 1, 2, 3, . . . }. Pokud je poˇcet v´ yskyt˚ u nˇejak´e ud´alosti bˇehem ˇcasov´eho intervalu pˇr´ımo u ´mˇern´ y d´elce ˇcasov´eho intervalu a pr˚ umˇern´ y poˇcet v´ yskyt˚ u ud´alosti za konstantn´ı ˇcasovou jednotku je λ (λ > 0), potom n´ahodn´a veliˇcina X ∼ P o(λ) charakterizuje poˇcet v´ yskyt˚ u ud´alosti za konstantn´ı ˇcasovou jednotku. Pokud se poˇcet v´ yskyt˚ u v jednotkov´em ˇcasov´em intervalu ˇr´ıd´ı Poissonovo rozdˇelen´ım s parametrem λ, tj. P o(λ), potom se poˇcet v´ yskyt˚ u v ˇcasov´em intervalu o d´elce t ˇr´ıd´ı Poissonovo rozdˇelen´ım s parametrem λt, tj. P o(λt). Pokud poˇcet v´ yskyt˚ u nˇejak´e jednotky v dan´e oblasti je pˇr´ımo u ´mˇern´ y velikosti oblasti a pr˚ umˇern´ y poˇcet v´ yskyt˚ u ud´alosti v konstantn´ı oblasti je λ (λ > 0), potom n´ahodn´a veliˇcina X ∼ P o(λ) charakterizuje poˇcet v´ yskyt˚ u jednotky v konstantn´ı oblasti. Pokud se poˇcet v´ yskyt˚ u v oblasti o jednotkov´em obsahu (objemu) ˇr´ıd´ı Poissonovo rozdˇelen´ım s parametrem λ, tj. P o(λ), potom se poˇcet v´ yskyt˚ u v oblasti o obsahu (objemu) S ˇr´ıd´ı Poissonovo rozdˇelen´ım s parametrem λS, tj. P o(λS). Lze j´ım popisovat napˇr.: poˇcet telefon´at˚ u v call centru, poˇcet pˇr´ıstup˚ u na server, poˇcet autonehod, poˇcet v´ yskyt˚ u vz´acn´ ych nemoc´ı (napˇr. leukemie), poˇcet hvˇezd v dan´e oblasti vesm´ıru... Pravdˇ epobobnostn´ı funkce P (x) = e−λ
λx pro x = 0, 1, 2, . . . x!
Distribuˇ cn´ı funkce F (x) =
x X k=0
−λ λ
e
k
k!
pro x = 0, 1, 2, . . .
31
Hodnoty t´eto funkce jsou tabelov´any. Uk´azka tabulek (ud´avaj´ı hodnoty distribuˇcn´ı funkce):
Napˇr´ıklad pravdˇepodobnost toho, ˇze n´ahodn´a veliˇcina X ∼ P o(2) nabude hodnoty 6 a m´enˇe (tj. P (X ≤ 6) = F (6) je rovna 0.9955. Pokud chceme z tabulek zjistit hodnotu pravdˇepodobnostn´ı funkce pro X = x, staˇc´ı od distribuˇcn´ı funkce pro hodnotu x odeˇc´ıst distribuˇcn´ı funkci pro hodnotu x − 1, tj. P (X = x) = P (X ≤ x) − P (X ≤ x − 1) = F (x) − F (x − 1) Napˇr. chceme-li zjistit pravdˇepodobnost toho, ˇze n´ahodn´a veliˇcina X ∼ P o(3) nabude pˇresnˇe hodnoty 5 P (X = 5) = P (X ≤ 5) − P (X ≤ 4) = F (5) − F (4) = 0.9161 − 0.8153 = 0.1008 32
Stˇ redn´ı hodnota E(X) = λ Rozptyl D(X) = λ Excel V Excelu lze Poissonovo rozdˇelen´ı nal´ezt pod POISSON. Z´apis je n´asleduj´ıc´ı: = P OISSON (x, λ, L) = = P OISSON (nastane x,oˇcek´avan´a hodnota λ,logick´a hodnota) • Pokud je logick´a hodnota L rovna 0 (nepravda), potom je vr´acena pravdˇepodobnostn´ı funkce. • Pokud je logick´a hodnota L rovna 1 (pravda), potom je vr´acena distribuˇcn´ı funkce. 6.1.2
Aproximace binomick´ eho rozdˇ elen´ı Poissonovo rozdˇ elen´ım
Poissonovo rozdˇelen´ı je limitn´ım pˇr´ıpadem binomick´eho rozdˇelen´ı, tj. pro n → ∞ a p → 0 je Bi(p, n) ≈ P o(λ = np). Tato aproximace funguje dobˇre jiˇz pro hodnoty n ≥ 30 a p ≤ 0.1.
33
6.2
Pˇ r´ıklady
1. Telefonn´ı u ´stˇredna spoj´ı pr˚ umˇernˇe 3 hovory za p˚ ul hodiny. Jak´a je pravdˇepodobnost, ˇze telefonn´ı u ´stˇredna za p˚ ul hodiny: (a) spoj´ı 3 hovory, (b) spoj´ı 3 a v´ıce hovor˚ u, (c) spoj´ı v´ıce neˇz 5 a m´enˇe neˇz 10 hovor˚ u. (d) Spoj´ı za hodinu m´enˇe neˇz 5 hovor˚ u. ˇ sen´ı: Reˇ Jev X bude oznaˇcovat poˇcet spojen´ ych hovor˚ u. (a) Chceme zn´at pravdˇepodobnost, ˇze n´ahodn´a veliˇcina nabude hodnoty 3, tj. P (X = 3). Chceme tedy zn´at hodnotu pravdˇepodobnostn´ı funkce pro hodnotu 3. K tomu m˚ uˇzeme pouˇz´ıt tabulky pro distribuˇcn´ı funkci Poissonova rozdˇelen´ı. Proto, abychom mohli pouˇz´ıt tabulky, mus´ıme zapsat P (X = 3) jako P (X = 3) = P (X ≤ 3) − P (X ≤ 2) = F (3) − F (2) Nyn´ı dosad´ıme: P (X = 3) = 0.6472 − 0.4232 = 0.224 (b) P (X ≥ 3) = 1 − P (X < 3) protoˇze se jedn´a o diskr´etn´ı n´ahodnou veliˇcinu (pro tu plat´ı P (X < x) = P (X ≤ x−1)) tak je tento v´ yraz roven 1−P (X ≤ 2) = 1−F (2). Po dosazen´ı: P (X ≥ 3) = 1 − 0.4232 = 0.5768 (c) P (5 < X < 10) = P (5 < X ≤ 9) = F (9) − F (5) = 0.9989 − 0.9161 = 0.0828 (d) Nyn´ı chceme zn´at pravdˇepodobnost toho, ˇze bude spojeno m´enˇe neˇz 5 hovor˚ u za hodinu. V´ıme, ˇze pokud se poˇcet v´ yskyt˚ u n´ahodn´e veliˇciny X za ˇcasovou jednotku (pro n´as je ˇcasovou jednotkou 1/2 hodiny) ˇr´ıd´ı rozdˇelen´ım P o(λ = 3), potom se poˇcet v´ yskyt˚ u n´ahodn´e veliˇciny X za dvˇe ˇcasov´e jednotky (tj. za hodinu) ˇr´ıd´ı rozdˇelen´ım P o(λ = 6). P (X < 5) = P (X ≤ 4) = F (4) = 0.2851 2. Pr˚ umˇern´a zmetkovitost v´ yrobk˚ u je 1 %. Vybereme n´ahodnˇe 100 v´ yrobk˚ u (s vracen´ım zpˇet). (a) S jakou pravdˇepodobnost´ı mezi nimi budou nejv´ yˇse dva vadn´e v´ yrobky? (b) Vypoˇctˇete tot´eˇz s pouˇzit´ım aproximace pomoc´ı Poissonova rozdˇelen´ı. ˇ sen´ı: Reˇ Jev X bude oznaˇcovat poˇcet vadn´ ych v´ yrobk˚ u (zmetk˚ u) mezi 100 vybran´ ymi v´ yrobky.
34
(a) Vzhledem k tomu, ˇze se jedn´a o v´ ybˇer s vracen´ım zpˇet, tak X ≈ Bi(100, 0.01). Nejv´ yˇse dva vadn´e znamen´ a P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2). 100 P (X = 0) = 0.010 (1 − 0.01)100 = 0.366 0 100 P (X = 1) = 0.011 (1 − 0.01)99 = 0.370 1 100 P (X = 2) = 0.012 (1 − 0.01)98 = 0.183 2 Dohromady tedy P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = 0.919 (b) V´ıme, ˇze pro n → ∞ a p → 0 je Bi(p, n) ≈ P o(λ = np), a ˇze tato aproximace funguje dobˇre jiˇz pro hodnoty n ≥ 30 a p ≤ 0.1. Obˇe tyto podm´ınky jsou v tomto pˇr´ıkladu splˇ neny, a proto m˚ uˇzeme tuto aproximaci pouˇz´ıt: Bi(100, 0.01) ≈ P o(λ = 1) Pravdˇepodobnost, ˇze n´ahodn´a veliˇcina X nabude hodnoty nejv´ yˇse 2 je pak z tabulek P (X ≤ 2) = F (2) = 0.9197. 3. Na server pˇrijde bˇehem hodiny pr˚ umˇernˇe 120 poˇzadavk˚ u. Jak´a je pravdˇepodobnost, ˇze bˇehem 2 minut, po kter´e je server restartov´an: (a) nepˇrijde ˇza´dn´ y poˇzadavek, (b) pˇrijdou v´ıce jak 3 poˇzadavky, (c) pˇrijdou v´ıce jak 3 poˇzadavky, ale m´enˇe neˇz 7 poˇzadavk˚ u. ˇ sen´ı [(a) 0.0183; (b) 0.5665; (c) 0.4558] Reˇ 4. Pˇredpokl´adejme, ˇze u ´stˇredna spoj´ı v pr˚ umˇeru 1 hovor bˇehem 100 sekund. Urˇcete pravdˇepodobnost, ˇze oper´ator zmeˇsk´a nanejv´ yˇs jeden hovor, pokud si vezme 5minutovou pˇrest´avku na k´avu. ˇ sen´ı [0.9502] Reˇ
6.3
Literatura s dalˇ s´ımi pˇ r´ıklady
• Trial KMA – kapitola 30.5.2. Binomick´e rozdˇelen´ı • Trial KMA – kapitola 30.5.3. Poissonovo rozdˇelen´ı • Brousek, Jan – Ryj´aˇcek, Zdenˇek: Sb´ırka ˇreˇsen´ ych pˇr´ıklad˚ u z poˇctu pravdˇepodobnosti. Strany 62, 63, 82 a 83.
35
7
Cviˇ cen´ı 7 - Rozdˇ elen´ı spojit´ eho typu
7.1 7.1.1
Teoretick´ aˇ c´ ast Spojit´ a n´ ahodn´ a veliˇ cina
N´ahodn´a veliˇcina X s distribuˇcn´ı funkc´ı F m´a spojit´e rozdˇelen´ı, existuje-li funkce f (x) takov´a, ˇze Z x f (t) dt, x ∈ R. F (x) = P (X ≤ x) = −∞
Funkci f , pro kterou plat´ı +∞
Z f (x) ≥ 0,
x∈R
a
f (x) dx = 1 −∞
naz´ yv´ame hustotou spojit´eho rozdˇelen´ı s distribuˇcn´ı funkc´ı F . Plat´ı f (x) = F 0 (x) skoro vˇsude.
Obr´azek 8: Funkce hustoty, distribuˇcn´ı funkce a dolni kvartil spojit´e n´ahodn´e veliˇciny Pro n´ahodnou spojitou veliˇcinu s hustotou pravdˇepodobnosti f (x) a distribuˇcn´ı funkc´ı F (x) plat´ı • P (X = x) = 0 x ∈ R (plyne ze spojitosti distribuˇcn´ı funkce) Z x • P (X < x) = P (X ≤ x) = F (x) = f (x) dx x ∈ R −∞
• P (X > x) = P (X ≥ x) = 1 − P (X < x) = 1 − P (X ≤ x) = 1 − F (x) = Z +∞ = f (x) dx x ∈ R x
Z • P (a < X < b) = P (a ≤ X ≤ b) = F (b) − F (a) =
f (x) dx pro a < b a
36
b
7.1.2
Charakteristky spojit´ e n´ ahodn´ e veliˇ ciny
Stˇ redn´ı hodnota
Z x · f (x) dx
EX = R
Rozptyl DX = E(X − E(X))2 , Z 2 2 v´ ypoˇctov´ y tvar: DX = E X − (EX) = x2 · f (x) dx − (EX)2 R
α% kvantil – hodnota xα n´ahodn´e veliˇciny X, kter´a splˇ nuje podm´ınku F (xα ) = α pro 0 < α < 1 Speci´aln´ı oznaˇcen´ı • medi´an – x0.5 • doln´ı kvartil – x0.25 • horn´ı kvartil – x0.75
37
7.2
Pˇ r´ıklady
1. Urˇcete konstantu a, distribuˇcn´ı funkci, stˇredn´ı hodnotu a rozptyl n´ahodn´e veliˇciny s n´asleduj´ıc´ı funkc´ı hustoty.
ˇ sen´ı: Z geometrick´eho vyj´adˇren´ı vlastnosti Reˇ
Z f (x) dx = 1 funkce hustoty plyne podm´ınka, R
ˇze plocha pod jej´ım grafem mus´ı b´ yt jednotkov´a. Pro danou funkci tedy plocha troj´ uheln´ıka 1 · a · 2 = 1 ⇒ a = 1 Body [0; 0] a [2; 1] urˇcuj´ı line´arn´ı funkci hustoty pravdˇepodobnosti. 2 ( x pro x ∈ h0, 2i, f (x) = 2 0Z xjinde. Z x t x2 f (t) dt = dt = pro x ∈ h0, 2i, F (x) = 4 0 2 −∞ 0 jinde. 2 Z 2 Z 2 4 4 x 2 2x DX = x dx − EX = x dx = = 2 3 2 3 9 0 0 2. Mˇejme n´ahodnou veliˇcinu X s distribuˇcn´ı funkc´ı x<6 0 2 −0.01x + 0.32x − 1.56 x ∈ h6; 16i F (x) = 1 x > 16 Spoˇctˇete (a) P (X = 12.3); (b) P (X > 6.58); (c) P (7.14 ≤ X < 14.91); (d) 95% kvantil x0.95 . (e) Odvod’te hustotu n´ahodn´e veliˇciny X, nakreslete jej´ı graf a zn´azornˇete v nˇem P (7.14 ≤ X ≤ 14.91) a x0.95 . ˇ sen´ı: Reˇ (a) P (X = 12.3) = 0 – jedn´a se o spojitou n´ahodnou veliˇcinu 38
(b) P (X > 6.58) = 1 − P (X ≤ 6.58) = 1 −F (6.58) = = 1 − −0.01 · 6.582 + 0.32 · 6.58 − 1.56 = 0.877 (c) P (7.14 ≤ X < 14.91) = F (14.91) − F (7.14) = 0.988 − 0.215 = 0.773 (d) Z distribuˇcn´ı funkce F odvod´ıme kvantil x0.95 : F (x0.95 ) = 0.95 r
0.95 + 100 + 16 −0.01 = 13.764
x0,95 = − x0,95 0
(e) f (x) = F (x) =
−0,02x + 0,32 x ∈ h−6; 16i 0 jinak.
3. Necht’ je d´ana n´ahodn´a veliˇcina s hustotou pravdˇepodobnosti 0 x < −1 x+1 x ∈ h−1, 0 ) f (x) = −x + 1 x ∈ h0, 1 ) 0 x≥1 Spoˇctˇete jej´ı stˇredn´ı hodnotu a rozptyl, urˇcete distribuˇcn´ı funkci a najdˇete c ∈ R tak, aby P (X ≤ c) = 0.95. ˇ sen´ı: Reˇ Z
0
x · (x + 1) dx +
EX = −1 Z 0
Z
2
−1
0
x
F (x) =
x · (−x + 1) dx = 0 0
x · (x + 1) dx +
DX = Z
1
Z
f (t) dt = −∞
39
1
x2 · (−x + 1) dx − (EX)2 =
1 6
0Z x x2 (t + 1) dt = +x 2 −1 Z Z = x 0 1 x2 (−t + 1) dt = (t + 1) dt + − +x 2 2 0 −1 1 Z
x < −1 x ∈ h−1, 0 ) x ∈ h0, 1 ) x≥1
c
P (X ≤ c) = F (c) = f (x) dx = 0,95 −∞ Z 0 Z c (x + 1) dx + (−x + 1) dx = 0,95 c > 0 −1
0
c = 0,6838 4. Je d´ana funkce
f (x) =
a · x2 pro x ∈ h0, 1i, 0 jinde.
(a) Urˇcete hodnotu konstanty a, tak aby tato funkce byla hustotou pravdˇepodobnosti nˇejak´e n´ahodn´e veliˇciny. (b) Vypoˇctˇete EX, DX a F (x). (c) Urˇcete pravdˇepodobnost, ˇze n´ahodn´a veliˇcina X bude mezi 0.5 a 0.75. ˇ sen´ı: Reˇ Z 1 (a) a · x2 dx = 1 ⇒ a = 3 0
(b) 4 1 x = 0.75 x · 3x dx = 3 EX = 4 0 0 5 1 Z 1 x 2 2 2 DX = x · 3x dx − 0.75 = 3 − 0.5625 = 0.6 − 0.5625 = 0.0375 5 0 0 Z x 3t2 dt = x3 x ∈ h0; 1i F (x) = 00 jinak. Z
1
2
. (c) P (0.5 < X < 0.75) = F (0.75) − F (0.5) = 0.753 − 0.53 = 0.297
7.3
Literatura s dalˇ s´ımi pˇ r´ıklady
• Trial KMA – kapitola 30.6.4. Obecn´e spojit´e rozdˇelen´ı
40
8 8.1 8.1.1
Cviˇ cen´ı 8 - Rovnomˇ ern´ e rozdˇ elen´ı. Exponenci´ aln´ı rozdˇ elen´ı. Teoretick´ aˇ c´ ast Rovnomˇ ern´ e rozdˇ elen´ı R (a; b)
a, b ∈ R,
a
N´ahodn´a veliˇcina X m˚ uˇze nab´ yt libovoln´e re´aln´e hodnoty x z intervalu (a; b) a jej´ı v´ yskyt na cel´em intervalu (a; b) je stejnˇe moˇzn´ y. Pak X m´a rovnomˇern´e rozdˇelen´ı na intervalu (a; b) a plocha pod kˇrivkou hustoty tvoˇr´ı obd´eln´ık, jehoˇz plocha je rovna 1. To znamen´a, ˇze X jistˇe nabude hodnoty 1 z intervalu (a; b). Jelikoˇz ˇs´ıˇrka tohoto intervalu je (b − a), v´ yˇska hustoty mus´ı b´ yt rovna (nebot’ b−a integr´al pˇres hustotu d´a 1). ( 1 pro x ∈ ha; bi Funkce hustoty f (x) = b−a 0 jinde 0x − a pro x ≤ a pro x ∈ (a; b) Distribuˇ cn´ı funkce F (x) = b−a 1 pro x ≥ b Stˇ redn´ı hodnota a rozptyl (a − b)2 D(X) = 12
a+b E(X) = 12
Obr´azek 9: Funkce hustoty a distribuˇcn´ı funkce rovnomˇern´eho rozdˇelen´ı Pouˇ zit´ı
– chyby pˇri zaokrouhlov´an´ı v numerick´ ych v´ ypoˇctech – v´ ychoz´ı rozdˇelen´ı pˇri simulaci n´ahodn´ ych veliˇcin na poˇc´ıtaˇci, ostatn´ı n´ahodn´e veliˇciny lze z´ıskat pomoc´ı r˚ uzn´ ych transformac´ı – doba, kter´a uplyne od n´ahodnˇe zvolen´eho okamˇziku do nastoupen´ı jevu, kter´ y se pravidelnˇe opakuje ˇcasov´em intervalu (a; b) – libovoln´a spojit´a veliˇcina z intervalu (a; b), o jej´ımˇz chov´an´ı na tomto intervalu nen´ı nic bliˇzˇs´ıho zn´amo (nouzov´e ˇreˇsen´ı v pˇr´ıpadˇe neznalosti skuteˇcn´eho rozdˇelen´ı) 41
8.1.2
Exponenci´ aln´ı rozdˇ elen´ı
1 λ N´ahodn´a veliˇcina X m˚ uˇze nab´ yt libovoln´e re´aln´e hodnoty x z intervalu [0, ∞ ). Exp (λ) ,
λ>0
Exp (δ) ,
δ=
1 λe−λx = e−x/δ pro x ≥ 0 δ 0 pro x < 0 0 pro x < 0 Distribuˇ cn´ı funkce F (x) = 1 − e−λx = 1 − e−x/δ pro x ≥ 0 (
Funkce hustoty f (x) =
Stˇ redn´ı hodnota a rozptyl E(X) =
1 =δ λ
D(X) =
1 = δ2 λ2
Obr´azek 10: Funkce hustoty a distribuˇcn´ı funkce exponenci´aln´ıho rozdˇelen´ı Pouˇ zit´ı
– doba ˇcek´an´ı na urˇcitou n´ahodnou ud´alost, napˇr. dobu ˇzivotnosti souˇca´stek, kter´e nepodl´ehaj´ı opotˇreben´ı – λ oznaˇcuje poˇcet ud´alost´ı za jednu ˇcasovou jednotku – δ charakterizuje pr˚ umˇernou dobu mezi v´ yskytem dvou ud´alost´ı – jestliˇze se poˇcet v´ yskyt˚ u ud´alost´ı bˇehem nˇejak´eho ˇcasov´eho intervalu ˇr´ıd´ı Poissonov´ ym rozdˇelen´ım s parametrem λ, pak doba mezi v´ yskytem dvou ud´alost´ı se ˇr´ıd´ı exponenci´aln´ım rozdˇelen´ım s parametrem λ
8.2
Pˇ r´ıklady
1. Mˇejme n´ahodnou veliˇcinu X ∼ R (8; 12.5). Spoˇctˇete (a) P (X = 9.75); (b) P (X > 11.3); (c) P (8.8 < X < 10.1); (d) 50% kvantil x0.5 . 42
(e) Nakreslete graf hustoty n´ahodn´e veliˇciny X a zn´azornˇete v nˇem P (8.8 < X < 10.1). (f) Nakreslete graf distribuˇcn´ı funkce n´ahodn´e veliˇciny X a zn´azornˇete v nˇem x0.5 . ˇ sen´ı: Reˇ Hustota pravdˇepodobnosti je konstantn´ı na intervalu (8; 12.5), jinde je nulov´a. Tedy ( f (x) =
1 1 = = 0.222 pro x ∈ (8; 12.5) 12.5 − 8 4.5 0 jinde.
Distribuˇcn´ı funkce pro x ∈ (8; 12.5) je pak F (x) =
x−8 . 4.5
(a) P (X = 9.75) = 0 – jedn´a se o spojitou n´ahodnou veliˇcinu 11.3 − 8 (b) P (X > 11.3) = 1 − P (X ≤ 11.3) = 1 − F (11.3) = 1 − = 0.267 4.5 (c) P (8.8 < X < 10.1) = F (10.1) − F (8.8) = 0.467 − 0.178 = 0.289 (d) F (x0.5 ) = 0.5 ⇒ x0.5 = 0.5 · (12.5 − 8) + 8 = 10.25 (e) Hustota rovnomˇern´eho rozdˇelen´ı R (8; 12.5)
Obr´azek 11: Funkce hustot rovnomˇern´eho rozdˇelen´ı (f) Distribuˇcn´ı funkce rovnomˇern´eho rozdˇelen´ı R (8; 12.5)
Obr´azek 12: Distribuˇcn´ı funkce rovnomˇern´eho rozdˇelen´ı 2. N´ahodn´a veliˇcina m´a rovnomˇern´e rozdˇelen´ı na intervalu (0; 5). Urˇcete:
43
(a) pravdˇepodobnost, ˇze n´ahodn´a veliˇcina X nabude hodnoty vyˇsˇs´ı neˇz 4, za pˇredpokladu, ˇze n´ahodn´a veliˇcina jiˇz nabyla hodnoty 2. (b) pravdˇepodobnost, ˇze n´ahodn´a veliˇcina nabude hodnoty niˇzˇs´ı neˇz 4, za pˇredpokladu, ˇze n´ahodn´a veliˇcina jiˇz nabyla hodnoty 2. ˇ sen´ı: Reˇ x x−0 = . Distribuˇcn´ı funkce t´eto n´ahodn´e veliˇciny je F (x) = 5−0 5 1 − F (4) 1 − 4/5 1 5 1 P (X > 4) = = = · = P (X > 2) 1 − F (2) 1 − 2/5 5 3 3 P (2 < X < 4) F (4) − F (2) 4/5 − 2/5 2 5 2 (b) P (X < 4|X > 2) = = = = · = P (X > 2) 1 − F (2) 1 − 2/5 5 3 3 (a) P (X > 4|X > 2) =
3. Pˇredpokl´adejme, ˇze pr˚ umˇern´a doba zpracov´an´ı zak´azky je 30 sekund a ˇr´ıd´ı se exponenci´aln´ım rozdˇelen´ım pravdˇepodobnosti. (a) Urˇcete pravdˇepodobnost, ˇze zak´azka se zpracuje do 1 minuty. (b) Urˇcete dobu, do n´ıˇz se zak´azka zpracuje s pravdˇepodobnost´ı 0.95. ˇ sen´ı: Reˇ
1 Doba zpracov´an´ı zak´azky (v sekund´ach) X ∼ Exp (δ = 30) = Exp λ = 30
(a) P (X < 60) = P (X ≤ 60) = F (60) = 1 − e−60/30 = 0.865 (b) F (t) = 0.95 ⇒ t = −30 · ln 0.05 = 89.87[s] 4. V´ yrobce ud´av´a, ˇze stˇredn´ı doba ˇzivotnosti urˇcit´e souˇca´stky je 4 roky. Za pˇredpokladu, ˇze ˇzivotnost souˇca´stky se ˇr´ıd´ı exponenci´aln´ım rozdˇelen´ım pravdˇepodobnosti a u ´daj dan´ y v´ yrobcem je pravdiv´ y, spoˇctˇete pravdˇepodobnost, ˇze ˇzivotnost n´ahodnˇe vybran´e souˇc´astky bude kratˇs´ı, neˇz p˚ ul roku. ˇ sen´ı: Reˇ ˇ Zivotnost souˇc´astky X ∼ Exp (δ = 4). Plat´ı P (X < 0.5) = P (X ≤ 0.5) = F (0.5) = 1 − e−0.5/4 = 0.118. 5. Mˇejme n´ahodnou veliˇcinu X ∼ Exp (δ = 11). Spoˇctˇete (a) P (X = 27.5); (b) P (X < 9.9); (c) P (18.5 ≤ X ≤ 54.7); (d) 10% kvantil x0.1 . (e) Nakreslete graf hustoty n´ahodn´e veliˇciny X a zn´azornˇete v nˇem P (18.5 ≤ X ≤ 54.7) a x0.1 . ˇ sen´ı: Reˇ Distribuˇcn´ı funkce t´eto n´ahodn´e veliˇciny je F (x) = 1 − e−x/11 pro x ≥ 0. 44
(a) P (X = 27.5) = 0 – jedn´a se o spojitou n´ahodnou veliˇcinu (b) P (X < 9.9) = F (9.9) = 1 − e−9.9/11 = 0.593 (c) P (18.5 ≤ X ≤ 54.7) = F (54.7) − F (18.5) = 0.993 − 0.814 = 0.179 (d) F (x0.1 ) = 0.1 ⇒ x0.1 = −11 · ln (1 − 0.1) = 1.159 (e) Hustota exponenci´aln´ıho rozdˇelen´ı Exp (δ = 11)
Obr´azek 13: Funkce hustoty exponenci´aln´ıho rozdˇelen´ı
8.3
Literatura s dalˇ s´ımi pˇ r´ıklady
• Trial KMA – kapitola 30.6.1. Rovnomˇern´e rozdˇelen´ı • Trial KMA – kapitola 30.6.2. Exponenci´aln´ı rozdˇelen´ı ´ • Reif, Jiˇr´ı – Kobeda, Zdenˇek: Uvod do pravdˇepodobnosti a spolehlivosti. Strana 40–42, 55
45
9 9.1 9.1.1
Cviˇ cen´ı 9 - Norm´ aln´ı rozdˇ elen´ı Teoretick´ aˇ c´ ast Norm´ aln´ı (Gaussovo) rozdˇ elen´ı N (µ; σ 2 ) X ∼ N (µ; σ 2 ),
σ 2 > 0,
µ; σ 2 ∈ R
N´ahodn´a veliˇcina X m˚ uˇze nab´ yvat hodnot x ∈ R. Funkce hustoty:
(x−µ)2 1 f (x) = √ e− 2σ2 , σ 2π
pro x ∈ R je symetrick´a kolem bodu µ. Zx Distribuˇ cn´ı funkce: F (x) =
f (t)dt −∞
Distribuˇcn´ı funkci nelze vyj´adˇrit pomoc´ı element´arn´ıch funkc´ı. Hodnoty distribuˇcn´ı funkce urˇcujeme pomoc´ı tabelovan´ ych hodnot pro norm´aln´ı normovan´e rozdˇelen´ı viz dalˇs´ı odstavec. D´ale plat´ı, ˇze pro x ∈ R je F (µ − x) = 1 − F (µ + x). Stˇ redn´ı hodnota a rozptyl: E(X) = µ, D(X) = σ 2
46
9.1.2
Normovan´ e norm´ aln´ı rozdˇ elen´ı N (µ = 0; σ 2 = 1)
Funkce hustoty:
x2 1 ϕ(x) = √ e− 2 2π
Funkci hustoty znaˇc´ıme ϕ.
Obr´azek 14: Hustota pravdˇepodobnosti normovan´eho norm´aln´ıho rozdˇelen´ı Distribuˇ cn´ı funkci znaˇc´ıme Φ. Jej´ı hodnoty jsou tabelov´any. Pro hodnoty distribuˇcn´ı funkce plat´ı, ˇze Φ(−x) = 1 − Φ(x)
Obr´azek 15: Distribuˇcn´ı funkce normovan´eho norm´aln´ıho rozdˇelen´ı
47
Kvantily normovan´ eho rozdˇ elen´ı znaˇc´ıme up . Pro p% kvantily (0 < p < 1) plat´ı, ˇze up = −u1−p . Hodnoty tˇechto kvantil˚ u jsou tabelov´any. Vztah mezi Norm´ aln´ım a Norm´ aln´ım normovan´ ym rozdˇ elen´ım: X −µ X ∼ N (µ; σ 2 ) ⇒ U = ∼ N (0; 1) σ M´a-li n´ahodn´a promˇenn´a X rozdˇelen´ı N (µ; σ 2 ) s distribuˇcn´ı funkc´ı F (x), pak pˇr´ısluˇsn´a normovan´a promˇenn´a m´a normovan´e norm´aln´ı rozdˇelen´ı. Plat´ı tedy x−µ F (x) = Φ σ Pro kvantily norm´aln´ıho a norm´aln´ıho normovan´eho rozdˇelen´ı plat´ı: xp = up · σ + µ je p% kvantil N (µ; σ 2 ) 9.1.3
Pouˇ zit´ı norm´ aln´ıho rozdˇ elen´ı
Norm´aln´ım rozdˇelen´ım se v praxi ˇr´ıd´ı n´ahodn´e promˇenn´e, jejichˇz hodnota je souˇctem velk´eho mnoˇzstv´ı vz´ajemnˇe nez´avisl´ ych vliv˚ u, z nichˇz ˇz´adn´ y nem´a dominantn´ı v´ yznam - napˇr. chyby mˇeˇren´ı. D´ale se pak vyuˇz´ıv´a k aproximaci jin´ ych diskr´etn´ıch i spojit´ ych n´ahodn´ ych promˇenn´ ych. Pˇ r´ıklady n´ ahodn´ ych veliˇ cin s norm´ aln´ım rozdˇ elen´ım: - N´ahodn´e chyby fyzik´aln´ıch (obecnˇe jak´ ychkoli) mˇeˇren´ı - Veliˇciny utv´aˇrej´ıc´ı se pod vlivem balistick´ ych z´akon˚ u (v´ ysledky stˇrelby) - Znaky v biologick´ ych populac´ıch podl´ehaj´ıc´ı z´akon˚ um genetiky - N´ahodn´e veliˇciny vznikaj´ıc´ı jako souˇcty ˇci pr˚ umˇery jin´ ych n´ahodn´ ych veliˇcin (spojit´ ych ale i diskr´etn´ıch) s libovoln´ ym rozdˇelen´ım Aproximace jin´ ych typ˚ u rozdˇ elen´ı - pro λ → ∞ plat´ı P o(λ) ≈ N (µ = λ; σ 2 = λ) - pro n → ∞ plat´ı Bi(p; n) ≈ N (µ = n p; σ 2 = n p (1 − p)) Pouˇzit´ı tˇechto aproximac´ı je doporuˇceno pro D(X) = σ 2 ≥ 9. D´ale pak a−µ b−µ . −Φ - P (a ≤ X ≤ b) = Φ σ σ - pro nepˇr´ıliˇs velk´e hodnoty n (ˇra´dovˇe stovky) pouˇz´ıv´ame pˇresnˇejˇs´ı aproximaci (tzv. korekce na spojitost) b + 0.5 − µ a − 0.5 − µ . P (a ≤ X ≤ b) = Φ −Φ σ σ 48
9.1.4
Centr´ aln´ı limitn´ı vˇ eta
Necht’ Xi , i = 1, 2, . . . , n jsou vz´ajemnˇe nez´avisl´e n´ahodn´e veliˇciny se stejn´ ym rozdˇelen´ım, E(Xi ) = µ0 , 2 D(Xi ) = σ0 . Pak plat´ı n X X = Xi ≈ N (nµ0 ; nσ02 ) i=1 n
1X X = Xi ≈ N (µ0 ; σ02 /n) n i=1
9.2
Pˇ r´ıklady
ˇ ame na autobus v horsk´e vesnici. Dlouhodob´ 1. Cek´ ym pozorov´an´ım bylo zjiˇstˇeno, ˇze zpoˇzdˇen´ı odjezdu autobusu ze zast´avky se pˇribliˇznˇe ˇr´ıd´ı norm´aln´ım rozdˇelen´ım se stˇredn´ı hodnotou 10 min. a rozptylem 25 (min2 ). Spoˇctˇete: (a) ppst, ˇze autobus bude m´ıt zpoˇzdˇen´ı v´ıce neˇz 20 min.; (b) ppst, ˇze autobus odjede dˇr´ıve; (c) ppst, ˇze autobus odjede o 0 aˇz 2.5 min. dˇr´ıve; (d) ppst, ˇze autobus bude m´ıt zpoˇzdˇen´ı v´ıce neˇz 20 min., jestliˇze jiˇz m´a zpoˇzdˇen´ı 15 min.; (e) ˇcas, ve kter´ y bychom mˇeli b´ yt na zast´avce, aby n´am autobus neujel alespoˇ n na 90%. (f) nakreslete graf hustoty pravdˇepodobnosti a v nˇem zn´azornˇete ppst, ˇze autobus odjede o 0 aˇz 2.5 min. dˇr´ıve; ˇ sen´ı Reˇ X . . . zpoˇzdˇen´ı autobusu X ∼ N (10; 25) 0.9772
(a)
(b)
(c)
(d)
z }| { 20 − 10 = 0.0228 P (X > 20) = 1 − P (X ≤ 20) = 1 − φ 5 | {z } 2 0 − 10 P (X < 0) = P (X ≤ 0) = F (0) = φ = φ(−2) = 1 − φ(2) = 5 = 0.0228 −2.5 − 10 = P (−2.5 < X < 0) = F (0) − F (−2.5) = 0.0228 − φ 5 = 0.0228 − φ (−2.5) = 0.0228 − 1 + φ(2.5) = 0.0228 − 1 + 0.9938 = 0.0166 1 − φ 10 P (X > 20) 1 − 0.9772 1 − F (20) 0.0228 5 P (X > 20|X > 15) = = = = = = 5 P (X > 15) 1 − F (15) 1 − 0.8413 0.1587 1−φ 5 0.1436 = 14.36%
(e) x0.1 = µ + σu0.1 = 10 − 5 · 1.2816 = 3.592 2. N´ahodn´a promˇenn´a X m´a norm´aln´ı rozdˇelen´ı s parametry µ, σ02 . Zjistˇete n´asleduj´ıc´ı pravdˇepodobnosti 49
(a) P (X ∈ (µ − σ; µ + σ)) (b) P (X ∈ (µ − 2σ; µ + 2σ)) (c) P (X ∈ (µ − 3σ; µ + 3σ)) ˇ sen´ı Reˇ (a) P (µ − σ < X < µ + σ) = F (µ + σ) − F (µ − σ) = φ
µ+σ−µ σ
−φ
µ−σ−µ σ
=
φ (1) − φ (−1) = φ (1) − 1 + φ (1) = 0.68268 (b) P (µ − 2σ < X < µ + 2σ) = φ (2) − φ (−2) = 0.9545 (c) P (µ − 3σ < X < µ + 3σ) = φ (3) − φ (−3) = 0.9973 3. Pro n´ahodnou promˇennou s norm´aln´ım rozdˇelen´ım plat´ı, ˇze P (X ≤ 4) = 0.6,
P (X ≥ 0) = 0.8
Zjistˇete hodnoty parametr˚ u µ, σ02 . ˇ sen´ı: Reˇ µ ˇ 4−µ a souˇcasnˇe u0.8 = 0.8416 = . Reˇ sen´ım soustavy dvou rovnic o dvou u0.6 = 0.2533 = σ σ 2 nezn´am´ ych z´ısk´ame ˇreˇsen´ı µ = 3.08, σ0 = 13.35. 4. Telefonn´ı u ´stˇredna spoj´ı pr˚ umˇernˇe 76 hovor˚ u za minutu a jejich poˇcet se ˇr´ıd´ı Poissonov´ ym rozdˇelen´ım. Spoˇctˇete pravdˇepodobnost, ˇze u ´stˇredna za minutu spoj´ı v´ıce neˇz 80 hovor˚ u.
50
ˇ sen´ı: Reˇ X ∼ P o(76)
X ∈ {0, 1, ...}
P (X > 80) = 1 − P (X ≤ 80) = 1 − P (0) − P (1) − . . . − P (80). V´ ypoˇcet standardn´ım zp˚ usobem je velice n´aroˇcn´ y. Provˇeˇr´ıme pˇredpoklady moˇzn´ ych aproximac´ı. Rozptyl n´ahodn´e veliˇciny m´a hodnotu 76, tzn. podm´ınka aproximace Poissonova rozdˇelen´ı rozdˇelen´ım norm´aln´ım je splnˇena (σ 2 ≥ 9). Plat´ı tedy X ∼ N (76; 76) P (X > 80) = 1 − P (X ≤ 80) = 1 − FP oisson (80) = 1 − FN orm. (80.5) = 1 − φ
80.5 − 76 8.718
=
1 − 0.6985 = 0.3015. 5. Zaokrouhlovac´ı chyba na cel´e jednotky m´a rovnomˇern´e rozloˇzen´ı na intervalu (-0.5; 0.5). Spoˇctˇete pravdˇepodobnost, ˇze souˇcet 100 zaokrouhlovac´ıch chyb (nez´avisl´ ych) bude v absolutn´ı hodnotˇe menˇs´ı neˇz 5. ˇ sen´ı: Reˇ Zaokrouhlovac´ı chyba Xi ∼ R(−0.5; 0.5) Oznaˇcme S =
100 X i=1
Xi ∼ N (100 · 0;
100 ) 12
5 5 M´ame zjistit P (−5 < S < 5) = F (5) − F (−5) = φ q − 1 + φ q = 0.9164 100 12
9.3
100 12
Literatura s dalˇ s´ımi pˇ r´ıklady
• Trial KMA – kapitola 30.6.3. Norm´aln´ı rozdˇelen´ı • Brousek, Jan – Ryj´aˇcek, Zdenˇek: Sb´ırka ˇreˇsen´ ych pˇr´ıklad˚ u z poˇctu pravdˇepodobnosti. Strana 86–88.
51
10
Cviˇ cen´ı 10 - Statistick´ y soubor. N´ ahodn´ y v´ ybˇ er a v´ ybˇ erov´ e statistiky. Odhady parametr˚ u.
Statistick´ y soubor. N´ahodn´ y v´ ybˇer a v´ ybˇerov´e statistiky (aritmetick´ y pr˚ umˇer, geometrick´ y pr˚ umˇer, v´ ybˇerov´ y rozptyl,. . . ). Bodov´e odhady parametr˚ u. Intervalov´e odhady parametr˚ u. Jednostrann´e a oboustrann´e odhady. Intervalov´ y odhad stˇredn´ı hodnoty, rozptylu, relativn´ı ˇcetnosti.
10.1
Teoretick´ aˇ c´ ast
10.1.1
Statistika
Statistika je matematick´a discipl´ına, kter´a vych´az´ı z empirick´ ych dat (pozorov´an´ı), ze kter´ ych pak dˇel´a obecn´e z´avˇery. Zab´ yv´a se ˇreˇsen´ım probl´em˚ u n´ahodn´ ych situac´ı - napˇr. odhady hodnot platn´e s urˇcitou ppst´ı, ohodnocen´ı rizik pˇri rozhodov´an´ı, aj.. V teorii statistiky je n´ahodnost a neurˇcitost modelov´ana pomoc´ı teorie pravdˇepodobnosti. Statistika n´am tak´e poskytuje soubor matematick´ ych metod (postup˚ u) pro pl´anov´an´ı experiment˚ u, z´ısk´av´an´ı dat a jejich anal´ yzu a n´aslednou interpretaci z´avˇer˚ u. Z´avˇery a rozhodnut´ı uˇcinˇen´e na z´akladˇe statistick´ ych model˚ u mohou, ale nemus´ı odpov´ıdat realitˇe. Statistick´e postupy m˚ uˇzeme rozdˇelit na: • Konfirmaˇcn´ı anal´ yzu, kter´a se zab´ yv´a testov´an´ım pˇredem pˇresnˇe formulovan´ ych hypot´ez. Zjednoduˇsenˇe ˇreˇceno, u ´kolem konfirmaˇcn´ı anal´ yzy je d´avat odpovˇedi na ot´azky typu: Je pravda, ˇze . . . ? • Exploraˇcn´ı anal´ yzu, pˇri kter´e nen´ı dostateˇcnˇe jasn´e, co vˇse m˚ uˇze b´ yt v´ ysledkem. Jej´ım c´ılem je vyˇc´ıst z dat maximum informace, inspirace, pouˇcen´ı - to vˇse vzhledem k nˇejak´emu obecn´emu, ˇcasto v´agnˇe formulovan´emu probl´emu (napˇr. anal´ yza pˇr´ıˇcin poruchovosti). Jako statistiku tak´e oznaˇcujeme hodnoty, kter´e z´ısk´ame proveden´ım n´ahodn´eho v´ ybˇeru. 10.1.2
Z´ akladn´ı soubor
Z´akladn´ı soubor pˇredstavuje mnoˇzinu vˇsech prvk˚ u s konkr´etn´ımi sledovan´ ymi vlastnostmi, kter´e jsou ˇ podrobeny zkoum´an´ı (napˇr. obyvatelstvo CR ke dni . . . , v´ yrobky vyroben´e v z´avodˇe Z v dobˇe od . . . do . . . ). Obvykle je tento soubor velmi rozs´ahl´ y - m˚ uˇze b´ yt koneˇcn´ y i nekoneˇcn´ y. Z´akladn´ı soubor je charakterizov´an charakteristikami - stˇredn´ı hodnota, rozptyl, variaˇcn´ı rozpˇet´ı, . . . . 10.1.3
V´ ybˇ erov´ y soubor (statistick´ y soubor)
V´ ybˇerov´ y soubor pˇredstavuje koneˇcnou podmnoˇzinu z´akladn´ıho souboru - n−tice re´aln´ ych ˇc´ısel, z´ıskanou na z´akladˇe v´ ysledk˚ u statistick´eho experimentu. • Uspoˇ r´ adan´ y statistick´ y soubor - Statistick´ y soubor s uspoˇra´dan´ ymi prvky podle velikosti. Hodnoty v souboru se mohou opakovat. x(1) ≤ x(2) ≤ · · · ≤ x(n) • Popisn´ a statistika - definuje v´ ybˇerov´e charakteristiky (statistiky, m´ıry) v´ ybˇerov´eho souboru: charakteristiky (m´ıry) polohy, charakteristiky (m´ıry) variability, . . . 52
10.1.4
Popisn´ a statistika
• Charakteristiky polohy – Aritmetick´ y pr˚ umˇer x = x1 + x2 + · · · + xn D´ale plat´ı. n X
(xi − x) = 0.
i=1
Pro libovoln´e a a 6= x plat´ı:
n X
n X (xi − x) < (xi − a)2 2
i=1
i=1
Necht’ jsou a, b ∈ R a poloˇzme yi = a · xi + b pro i = 1, 2, . . . , n, pak y = a · x + b. Aritmetick´ y pr˚ umˇer je citliv´ y na hrub´e chyby (pˇr. 8,00; 12,00; 15,00; 23,00; 1500 ) ⇒ x = 311,60). – Geometrick´ y pr˚ umˇer xG =
√ n
x1 · x2 · ...xn
Geometrick´ y pr˚ umˇer je pouˇz´ıv´an pouze pro kladn´e hodnoty xi . Vyuˇz´ıv´a se zejm´ena pro urˇcen´ı pr˚ umˇern´e hodnoty tzv. ˇretˇezov´ ych index˚ u. Tj. necht’ x0 , x1 , . . . , xn ud´avaj´ı poˇcet prodan´ ych v´ yrobk˚ u v i- t´em ˇcasov´em obdob´ı. V´ yvoj prodeje charakterizujeme pomoc´ı tzv. x1 x2 xn ˇretˇezov´ ych index˚ u i1 = , i2 = , . . . , in = . x0 x1 xn−1 Pak lze vyj´adˇrit xn = x0 · i1 · i2 · · · · · in . Pr˚ umˇernou “ hodnotu indexu ik charakterizuje ” nejl´epe geometrick´ y pr˚ umˇer. xn = x0 · iG – Harmonick´ y pr˚ umˇer n xH = −1 −1 x1 + x2 + · · · + x−1 n Auto jede do kopce rychlosti v1 a po stejn´e dr´aze z kopce rychlosti v2 . Jak´a je jeho pr˚ umˇern´a rychlost ? ˇ sen´ı: D´elku tratˇe oznaˇcme d, dobu j´ızdy do kopce t1 = d/v1 , dobu j´ızdy z kopce t2 = d/v2 , Reˇ 2 2d = −1 = vH pr˚ umˇern´a rychlost je t1 + t2 v1 + v2−1 Pro jednotliv´e typy pr˚ umˇer˚ u plat´ı: x(1) ≤ xH ≤ xG ≤ x ≤ x(n) Rovnost je splnˇena kdyˇz jsou vˇsechny prvky xi shodn´e. – Medi´an x e pˇredstavuje prvek, kter´ y se ve statistick´em uspoˇr´adan´em souboru nach´az´ı v polovinˇe. Pˇredstavuje robustn´ı m´ıru polohy tzn. nen´ı citliv´ y na hrub´e chyby. x e = x(m) pro n lich´e, n = 2m − 1 1 = x(m) + x(m+1) pro n sud´e, n = 2m 2 Medi´an nen´ı citliv´ y na hrub´e chyby (pˇr. 8, 12, 15, 23, 1500 ⇒ x e = 15) 53
– Modus xˆ je nejˇcastˇeji se vyskytuj´ıc´ı hodnoty v souboru x1 , x2 , . . . , xn . modus nen´ı urˇcen jednoznaˇcnˇe • Charakteristiky variability
10.2
Pˇ r´ıklady
1. Pro zadan´a data vypoˇctˇete v´ ybˇerov´e statistick´e charakteristiky
2. Pro zadan´a data odhadnˇete z´akladn´ı charakteristiky
3. Pro zadan´a data urˇcete intervalov´ y odhad stˇredn´ı hodnoty pˇri zn´am´em rozptylu
54
4. Pro zadan´a data urˇcete intervalov´ y odhad stˇredn´ı hodnoty pˇri nezn´am´em rozptylu a intervalov´ y odhad rozptylu
10.3
Literatura s dalˇ s´ımi pˇ r´ıklady
• Brousek, Jan – Ryj´aˇcek, Zdenˇek: Sb´ırka ˇreˇsen´ ych pˇr´ıklad˚ u z poˇctu pravdˇepodobnosti.
55
11
Cviˇ cen´ı 11 - Testov´ an´ı statistick´ ych hypot´ ez
11.1
Teoretick´ aˇ c´ ast
11.1.1
Testov´ an´ı statistick´ ych hypot´ ez
Testov´an´ı statistick´ ych hypot´ez slouˇz´ı k ovˇeˇren´ı, zda experiment´alnˇe z´ıskan´a data vyhovuj´ı pˇredstav´am, kter´e byly na z´akladˇe tˇechto dat z´ısk´any. Pˇri testov´an´ı statistick´ ych hypot´ez porovn´av´ame dvˇe hypot´ezy: • Nulov´ a (testovan´ a) hypot´ eza: jedn´a se o hypot´ezu, kterou testujeme, oznaˇcuje se H0 (napˇr´ıklad hypot´eza, ˇze l´ek nem´ a n´ami ˇza´dan´ yu ´ˇcinek). • Alternativn´ı hypot´ eza: jedn´a se o hypot´ezu, oproti kter´e prov´ad´ıme test, oznaˇcuje se H1 (napˇr´ıklad hypot´eza, ˇze l´ek m´ a n´ami ˇza´dan´ yu ´ˇcinek). 11.1.2
Z´ akladn´ı pojmy
• Chyba 1. druhu (α): hypot´eza H0 plat´ı, ale my ji na z´akladˇe experimentu zam´ıtneme. Parametr α se naz´ yv´a hladina v´ yznamnosti testu, obvykle se vol´ı mal´e hodnoty, napˇr. α = 0.05, α = 0.01. • Chyba 2. druhu (β): hypot´eza H0 neplat´ı, ale my ji na z´akladˇe experimentu pˇ rijmeme. Hodnota 1 − β ud´av´a s´ılu testu, tj. pravdˇepodobnost, ˇze neplatn´a hypot´eza bude zam´ıtnuta. Plat´ı, ˇze za jinak stejn´ ych podm´ınek vede sniˇzov´an´ı α ke zvyˇsov´an´ı β a naopak. 11.1.3
Postup pˇ ri testov´ an´ı
1. Formulujeme nulovou a alternativn´ı hypot´ezu. 2. Zvol´ıme vhodn´e testovac´ı krit´erium, pomoc´ı kter´eho budeme hypot´ezu testovat. 3. Zvol´ıme hladinu v´ yznamnosti testu α. 4. S ohledem na alternativn´ı hypot´ezu vymez´ıme kritick´ y obor testu W tak, aby pravdˇepodobnost toho, ˇze bude zam´ıtnuta platn´a hypot´eza byla nejv´ yˇse rovna hodnotˇe α. Doplˇ nkem W je obor pˇ rijet´ı V . Plat´ı tedy W ∩ V = ∅. 5. Zjist´ıme hodnotu testovac´ıho krit´eria T . Pokud plat´ı T ∈ W , tak H0 zam´ıt´ame (na hladinˇe v´ yznamnosti α). V opaˇcn´em pˇr´ıpadˇe H0 nezam´ıt´ame (na hladinˇe v´ yznamnosti α). Plat´ı: α = P (T ∈ W | H0 ) β = P (T ∈ V | H1 ) Pokud prov´ad´ıme test hypot´ezy v nˇejak´em SW, tak nen´ı potˇreba zad´avat α, ale b´ yv´a ve vˇetˇsinˇe pˇr´ıpad˚ u k dispozici p-hodnota testu. Testovanou hypot´ezu lze zam´ıtnout na hladinˇe v´ yznamnosti α pokud je p-hodnota testu menˇs´ı neˇz α.
56
11.1.4
Test hypot´ ezy µ = µ0 pˇ ri zn´ am´ em rozptylu (z-test)
Mˇejme n´ahodn´ y v´ ybˇer x1 , x2 , ..., xn z norm´aln´ıho rozdˇelen´ı N (µ, σ 2 ), kde rozptyl σ 2 zn´ame. Na hladinˇe v´ yznamnosti α testujeme hypot´ezu: H0 : µ = µ0 Oproti hypot´eze: • Oboustrann´a alternativa H1 : µ 6= µ0 • Jednostrann´a alternativa H1 : µ < µ0 resp. H1 : µ > µ0 Testovac´ı statistika m´a tvar
x¯ − µ0 √ n σ Za pˇredpokladu platnosti hypot´ezy H0 je z realizac´ı n´ahodn´e veliˇciny s rozdˇelen´ım N (0, 1). Obor kritick´ ych hodnot W je pak d´an: z=
• V pˇr´ıpadˇe oboustrann´e alternativy H1 : µ 6= µ0 : W = (−∞, u α2 ) ∪ (u1− α2 , +∞) • V pˇr´ıpadˇe jednostrann´e alternativy H1 : µ < µ0 : W = (−∞, uα ) • V pˇr´ıpadˇe jednostrann´e alternativy H1 : µ > µ0 : W = (u1−α , +∞) V pˇr´ıpadˇe, ˇze z ∈ W , tak hypot´ezu H0 zam´ıt´ame. 11.1.5
Test hypot´ ezy µ = µ0 pˇ ri nezn´ am´ em rozptylu (t-test)
Mˇejme n´ahodn´ y v´ ybˇer x1 , x2 , ..., xn z norm´aln´ıho rozdˇelen´ı N (µ, σ 2 ), kde rozptyl σ 2 nezn´ame. Na hladinˇe v´ yznamnosti α testujeme hypot´ezu: H0 : µ = µ0 Oproti hypot´eze: • Oboustrann´a alternativa H1 : µ 6= µ0 • Jednostrann´a alternativa H1 : µ < µ0 resp. H1 : µ > µ0 Testovac´ı statistika m´a tvar t=
x¯ − µ0 √ n s
kde s je v´ ybˇerov´a smˇerodatn´a odchylka: v u u s=t
n
1 X (xi − x¯)2 n − 1 i=1
Za pˇredpokladu platnosti hypot´ezy H0 je t realizac´ı n´ahodn´e veliˇciny se Studentovo rozdˇelen´ım (trozdˇelen´ım) t(ν) s poˇctem stupˇ n˚ u volnosti ν = n − 1. Obor kritick´ ych hodnot W je pak d´an: • V pˇr´ıpadˇe oboustrann´e alternativy H1 : µ 6= µ0 : W = (−∞, t α2 (n − 1)) ∪ (t1− α2 (n − 1), +∞) • V pˇr´ıpadˇe jednostrann´e alternativy H1 : µ < µ0 : W = (−∞, tα (n − 1)) • V pˇr´ıpadˇe jednostrann´e alternativy H1 : µ > µ0 : W = (t1−α (n − 1), +∞) 57
11.1.6
P´ arov´ y t-test
Mˇejme (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) n´ahodn´ y v´ ybˇer z dvourozmˇern´eho norm´aln´ıho rozdˇelen´ı. Oznaˇc´ıme µ1 = E(X) a µ2 = E(Y ). Na hladinˇe v´ yznamnosti α testujeme hypot´ezu: H0 : µ1 − µ2 = d, d ∈ R Pozn.: Pro pˇr´ıpad testov´an´ı shody stˇredn´ıch hodnot testujeme µ1 − µ2 = 0. Oproti hypot´eze: • Oboustrann´a alternativa H1 : µ1 − µ2 6= d • Jednostrann´a alternativa H1 : µ1 − µ2 < d resp. H1 : µ1 − µ2 > d Tento test lze pˇrev´est na pˇredchoz´ı jednov´ ybˇerov´ y t-test (11.1.5) tak, ˇze vytvoˇr´ıme z1 = x1 − y1 , z2 = x2 − y2 , ..., zn = xn − yn a testujeme hypot´ezu H0 : µz = d. 11.1.7
t-test pro dva nez´ avisl´ e v´ ybˇ ery z norm´ aln´ıch rozdˇ elen´ı se stejn´ ymi rozptyly
Mˇejme x1 , x2 , ..., xn n´ahodn´ y v´ ybˇer rozsahu n z norm´aln´ıho rozdˇelen´ı N (µ1 , σ 2 ), kde rozptyl σ 2 nezn´ame a y1 , y2 , ..., ym n´ahodn´ y v´ ybˇer rozsahu m z norm´aln´ıho rozdˇelen´ı N (µ2 , σ 2 ), kde rozptyl σ 2 nezn´ame, ale je stejn´ y jako v prvn´ım pˇr´ıpadˇe. Pˇredpokl´ad´ame, ˇze oba v´ ybˇery jsou nez´avisl´e. Na hladinˇe v´ yznamnosti α testujeme hypot´ezu: H0 : µ1 − µ2 = d, d ∈ R Pozn.: Pro pˇr´ıpad testov´an´ı shody stˇredn´ıch hodnot testujeme µ1 − µ2 = 0. Oproti hypot´eze: • Oboustrann´a alternativa H1 : µ1 − µ2 6= d • Jednostrann´a alternativa H1 : µ1 − µ2 < d resp. H1 : µ1 − µ2 > d Testovac´ı statistika m´a tvar r
x¯ − y¯ − d
t= q (n − 1)s2x + (m − 1)s2y
nm(n + m − 2) n+m
ybˇerov´e rozptyly. Za pˇredpokladu platnosti hypot´ezy H0 je t realizac´ı n´ahodn´e kde s2x a s2y jsou v´ veliˇciny se Studentovo rozdˇelen´ım (t-rozdˇelen´ım) t(ν) s poˇctem stupˇ n˚ u volnosti ν = n + m − 2. Obor kritick´ ych hodnot W je pak d´an: • V pˇr´ıpadˇe oboustrann´e alternativy H1 : µ1 − µ2 6= d: W = (−∞, t α2 (n + m − 2)) ∪ (t1− α2 (n + m − 2), +∞) • V pˇr´ıpadˇe jednostrann´e alternativy H1 : µ1 − µ2 < d: W = (−∞, tα (n + m − 2)) • V pˇr´ıpadˇe jednostrann´e alternativy H1 : µ1 − µ2 > d: W = (t1−α (n + m − 2), +∞) 58
11.1.8
Test o rozptylu norm´ aln´ıho rozdˇ elen´ı
Mˇejme n´ahodn´ y v´ ybˇer x1 , x2 , ..., xn z norm´aln´ıho rozdˇelen´ı N (µ, σ 2 ). Na hladinˇe v´ yznamnosti α testujeme hypot´ezu: H0 : σ 2 = σ02 Oproti hypot´eze: • Oboustrann´a alternativa H1 : σ 2 6= σ02 • Jednostrann´a alternativa H1 : σ 2 < σ02 resp. H1 : σ 2 > σ02 Testovac´ı statistika m´a tvar t=
(n − 1)s2 σ02
Za pˇredpokladu platnosti hypot´ezy H0 je t realizac´ı n´ahodn´e veliˇciny s χ2 -rozdˇelen´ım χ2 (ν) s poˇctem stupˇ n˚ u volnosti ν = n − 1. Obor kritick´ ych hodnot W je pak d´an: • V pˇr´ıpadˇe oboustrann´e alternativy H1 : σ 2 6= σ02 : W = (−∞, χ2α (n − 1)) ∪ (χ21− α (n − 1), +∞) 2
2
• V pˇr´ıpadˇe jednostrann´e alternativy H1 : σ 2 < σ02 : W = (−∞, χ2α (n − 1)) • V pˇr´ıpadˇe jednostrann´e alternativy H1 : σ 2 > σ02 : W = (χ21−α (n − 1), +∞) 11.1.9
Test shody dvou rozptyl˚ u
Mˇejme dva nez´avisl´e n´ahodn´e v´ ybˇery x1 , x2 , ..., xn ∼ N (µ1 , σ12 ) a y1 , y2 , ..., ym ∼ N (µ2 , σ22 ). Na hladinˇe v´ yznamnosti α testujeme hypot´ezu: H0 : σ12 = σ22 Oproti hypot´eze: • Oboustrann´a alternativa H1 : σ12 6= σ22 • Jednostrann´a alternativa H1 : σ12 < σ22 resp. H1 : σ12 > σ22 Testovac´ı statistika m´a tvar
s21 s22 Za pˇredpokladu platnosti hypot´ezy H0 je Z realizac´ı n´ahodn´e veliˇciny s Fisherovo rozdˇelen´ım F (ν1 , ν2 ) s poˇctem stupˇ n˚ u volnosti ν1 = n − 1 a ν2 = m − 1. Obor kritick´ ych hodnot W je pak d´an: Z=
• V pˇr´ıpadˇe oboustrann´e alternativy H1 : σ12 6= σ22 : W = (−∞, F α2 (n − 1, m − 1)) ∪ (F1− α2 (n − 1, m − 1), +∞) • V pˇr´ıpadˇe jednostrann´e alternativy H1 : σ12 < σ22 : W = (−∞, Fα (n − 1, m − 1)) • V pˇr´ıpadˇe jednostrann´e alternativy H1 : σ12 > σ22 : W = (F1−α (n − 1, m − 1), +∞) 59
11.2
Pˇ r´ıklady
1. Stroj m´a vyr´abˇet v´ yrobky o d´elce 2 metry. N´ahodnˇe bylo vybr´ano 20 v´ yrobk˚ u a byla u nich zjiˇstˇena pr˚ umˇern´a d´elka x¯ = 2.06m. Za pˇredpokladu, ˇze n´ahodn´ y v´ ybˇer poch´az´ı z norm´aln´ıho 2 rozdˇelen´ı s rozptylem σ = 0.025 testujte na hladinˇe v´ yznamnosti α = 0.05 hypot´ezu H0 : µ = 2 oproti hypot´eze: (a) H1 : µ 6= 2 (b) H1 : µ > 2 ˇ sen´ı: Reˇ Jelikoˇz zn´ame rozptyl, budeme v obou pˇr´ıpadech pouˇz´ıvat z-test (viz 11.1.4). Dosad´ıme do vzorce pro statistiku z: 2.06 − 2 √ x¯ − µ0 √ n= √ 20 = 1.6971 z= σ 0.025 Pro oba pˇr´ıpady ted’ urˇc´ıme kritick´ y obor: (a) Jedn´a se o oboustrann´ y test, ”vad´ı”n´am tedy jak odchylky smˇerem dol˚ u, tak i smˇerem nahoru. Mus´ıme tedy rozdˇelit 5% na dvˇe ˇca´sti. Kritick´ y obor je d´an: W = (−∞, u α2 ) ∪ (u1− α2 , +∞) = (−∞, u0.025 ) ∪ (u0.975 , +∞) V tabulk´ach pro norm´aln´ı normovan´e rozdˇelen´ı najdene hodnotu 97.5% kvantilu. u0.975 = 1.96 Pro norm´aln´ı normovan´e rozdˇelen´ı plat´ı, ˇze up = −u1−p . Proto u0.025 = −u0.975 = −1.96 Kritick´ y obor je tedy: W = (−∞, −1.96) ∪ (1.96, +∞) Jelikoˇz z 6∈ W , tak uvedenou hypot´ezu na hladinˇe v´ yznamnosti α = 5% nezam´ıt´ame. (b) V tomto pˇr´ıpadˇe je alternativn´ı hypot´eza pouze jednostrann´a, proto nebudeme 5% rozdˇelovat. Kritick´ y obor je: W = (u1−α , +∞) = (u0.95 , +∞) = (1.6449, +∞) V tomto pˇr´ıpadˇe plat´ı z ∈ W a proto uvedenou hypot´ezu na hladinˇe v´ yznamnosti α = 5% zam´ıt´ame. 2. U 5 s´aˇck˚ u k´avy byly zjiˇstˇeny n´asleduj´ıc´ı v´ahy: 249g, 247g, 252g, 244g a 247g. Na hladinˇe v´ yznamnosti α = 10% testujte hypot´ezu, ˇze pr˚ umˇern´a v´aha je 250g oproti hypot´eze: (a) H1 : µ 6= 250g (b) H1 : µ < 250g 60
ˇ sen´ı: Reˇ Jelikoˇz nezn´ame rozptyl, budeme v obou pˇr´ıpadech pouˇz´ıvat t-test (viz 11.1.5). Nejdˇr´ıve mus´ıme spoˇc´ıtat pr˚ umˇer a rozptyl: x¯ = 247.8 n 5 1 X 1X 2 2 s = (xi − x¯) = (xi − 247.8)2 = 8.7 n − 1 i=1 4 i=1 Dosad´ıme do vzorce pro statistiku t: t=
247.8 − 250 √ x¯ − µ0 √ √ n= 5 = −1.6678 s 8.7
Pro oba pˇr´ıpady ted’ urˇc´ıme kritick´ y obor: (a) Jedn´a se o oboustrann´ y test, ”vad´ı”n´am tedy jak odchylky smˇerem dol˚ u, tak i smˇerem nahoru. Mus´ıme tedy rozdˇelit 10% na dvˇe ˇc´asti. Kritick´ y obor je d´an: W = (−∞, t α2 (n − 1)) ∪ (t1− α2 (n − 1), +∞) = (−∞, t0.05 (4)) ∪ (t0.95 (4), +∞) V tabulk´ach pro Studentovo rozdˇelen´ı najdene hodnotu 95% kvantilu. t0.95 (4) = 2.1318 Pro Studentovo rozdˇelen´ı plat´ı, ˇze tp = −t1−p . Proto t0.05 (4) = −t0.95 (4) = −2.1318 Kritick´ y obor je tedy: W = (−∞, −2.1318) ∪ (2.1318, +∞) Jelikoˇz t 6∈ W , tak uvedenou hypot´ezu na hladinˇe v´ yznamnosti α = 10% nezam´ıt´ame. (b) V tomto pˇr´ıpadˇe je alternativn´ı hypot´eza pouze jednostrann´a, proto nebudeme 10% rozdˇelovat. Kritick´ y obor je: W = (−∞, tα (n − 1)) = (−∞, t0.1 (4)) = (−∞, −1.5332) V tomto pˇr´ıpadˇe plat´ı t ∈ W a proto uvedenou hypot´ezu na hladinˇe v´ yznamnosti α = 10% zam´ıt´ame a pˇrijmeme alternativn´ı hypot´ezu. 3. U stroje pozorujeme n´asleduj´ıc´ı dvojice rozmˇer˚ u v´ yrobk˚ u v mm (pˇred opravou, po opravˇe): (100, 97), (105, 102), (96, 101), (92, 98) a (101, 100). Na hladinˇe v´ yznamnosti 5% chceme testovat vliv opravy na stroj. ˇ sen´ı: Reˇ Budeme tedy testovat hypot´ezu, ˇze oprava nemˇela vliv (mˇela nulov´ y efekt) H0 : µ1 − µ2 = 0 (viz 11.1.6). Alternativa je, ˇze oprava vliv mˇela, proto bude alternativn´ı hypot´eza H1 : µ1 − µ2 6= 0. Tento test pˇrevedeme na jednov´ ybˇerov´ y t-test (viz 11.1.5) pro hodnoty 3, 3, -5, -6 a 1. Hypot´ezy jsou pˇrevedeny na: H0 : µz = 0 61
H1 : µz 6= 0 Hodnota statistiky: t = −0.4083 Kritick´ y obor W: W = (−∞, −2.7765) ∪ (2.7765, +∞) Jelikoˇz t ∈ 6 W , tak uvedenou hypot´ezu na hladinˇe v´ yznamnosti α = 5% nezam´ıt´ame. Tedy, hypot´eza o tom, ˇze stˇredn´ı hodnoty se neliˇs´ı nebyla zam´ıtnuta, znamen´a to, ˇze oprava nemˇela vliv. 4. V´ ysledky dvou skupin student˚ u pˇri p´ısemce jsou n´asleduj´ıc´ı: • 1. skupina: Poˇcet student˚ u=29, pr˚ umˇer=6.97, smˇerodatn´a odchylka=2.38 • 2. skupina: Poˇcet student˚ u=20, pr˚ umˇer=7.48, smˇerodatn´a odchylka=1.77 Na hladinˇe v´ yznamnosti 5% chceme otestovat, zda jsou hodnoty stejn´e, tedy H0 : µ1 − µ2 = 0 oproti hypot´eze, ˇze hodnoty jsou r˚ uzn´e, tedy H1 : µ1 − µ2 6= 0 ˇ sen´ı: Reˇ Budeme ˇreˇsit dle 11.1.7. Pˇredpokl´ad´ame tedy, ˇze se jedn´a o v´ ybˇery z norm´aln´ıch rozdˇelen´ı se stejn´ ym rozptylem a ˇze oba v´ ybˇery jsou nez´avisl´e. Testovac´ı statistika: r nm(n + m − 2) x¯ − y¯ − d = t= q n+m (n − 1)s2 + (m − 1)s2 x
6.97 − 7.48 =√ 28 · 2.382 + 19 · 1.772
y
r
29 · 20(29 + 20 − 2) = −0.8145 29 + 20
Kritick´ y obor W: W = (−∞, t α2 (n + m − 2)) ∪ (t1− α2 (n + m − 2), +∞) = (−∞, −2.012) ∪ (2.012, +∞) Jelikoˇz t 6∈ W , tak uvedenou hypot´ezu na hladinˇe v´ yznamnosti α = 5% nezam´ıt´ame. Tedy, hypot´eza o tom, ˇze stˇredn´ı hodnoty se neliˇs´ı nebyla zam´ıtnuta, znamen´a to, ˇze stˇredn´ı hodnoty v obou skupin´ach se v´ yznamnˇe neliˇs´ı. 5. Pevnost vl´akna bavlnˇen´e pˇr´ıze lze pokl´adat za n´ahodnou veliˇcinu s rozdˇelen´ım N (µ, σ 2 ). Je-li σ 2 > 0.36kg 2 , vznikaj´ı pot´ıˇze pˇri tkan´ı. Pˇri zkouˇsce pevnosti 11 n´ahodnˇe vybran´ ych vl´aken byly zjiˇstˇeny tyto hodnoty jejich pevnosti: 5.3, 3.0, 4.8, 3.6, 4.1, 2.5, 4.7, 2.4, 3.2, 3.8 a 4.4 Na hladinˇe v´ yznamnosti α = 5% chceme testovat hypot´ezu H0 : σ 2 = 0.36 oproti alternativˇe H1 : σ 2 > 0.36. 62
ˇ sen´ı: Reˇ Budeme pouˇz´ıvat test o rozptylu norm´aln´ıho rozdˇelen´ı (viz 11.1.8). Nejdˇr´ıve si mus´ıme vypoˇc´ıtat pr˚ umˇer a v´ ybˇerov´ y rozptyl: x¯ = 3.8 n 11 1 X 1 X 2 2 (xi − x¯) = (xi − 3.8)2 = 0.92 s = n − 1 i=1 10 i=1 Urˇc´ıme hodnotu statistiky: t=
10 · 0.92 (n − 1)s2 = = 25.5556 2 σ0 0.36
Jelikoˇz jde o jednostrannou alternativu, bude kritick´ y obor: W = (χ21−α (n − 1), +∞) = (18.31, +∞) Protoˇze t ∈ W , tak uvedenou hypot´ezu na hladinˇe v´ yznamnosti α = 5% zam´ıt´ame a pˇrijmeme alternativn´ı hypot´ezu. Pˇr´ıze je tedy nevyhovuj´ıc´ı. 6. Pro n´ahodn´ y v´ ybˇer o rozsahu 16 z rozdˇelen´ı N (µ1 , σ12 ) byl zjiˇstˇen v´ ybˇerov´ y rozptyl s21 = 1.8 a pro n´ahodn´ y v´ ybˇer o rozsahu 30 z rozdˇelen´ı N (µ2 , σ22 ) byl zjiˇstˇen v´ ybˇerov´ y rozptyl s22 = 2.4 Na hladinˇe v´ yznamnosti α = 5% testujeme hypot´ezu: H0 : σ12 = σ22 Oproti hypot´eze: H1 : σ12 6= σ22 Testovac´ı statistika (v pˇr´ıpadˇe platnosti H0 by mˇela nab´ yvat hodnot kolem 1): 1.8 s21 = 0.75 Z= 2 = s2 2.4 Kritick´ y obor: Pro Fisherovo rozdˇelen´ı opˇet existuj´ı tabulky, ve kter´ ych lze pˇr´ısluˇsn´e kvantily vyhledat, popˇr. v Excelu pomoc´ı funkce FINV. W = (−∞, F α2 (n − 1, m − 1)) ∪ (F1− α2 (n − 1, m − 1), +∞) = (−∞, 0.3771) ∪ (2.3248, +∞) Jelikoˇz Z 6∈ W , tak uvedenou hypot´ezu o shodˇe rozptyl˚ u na hladinˇe v´ yznamnosti α = 5% nezam´ıt´ame.
11.3
Literatura s dalˇ s´ımi pˇ r´ıklady
• Brousek, Jan – Ryj´aˇcek, Zdenˇek: Sb´ırka ˇreˇsen´ ych pˇr´ıklad˚ u z poˇctu pravdˇepodobnosti.
63
Cviˇ cen´ı 12 - χ2 test dobr´ e shody, kontingenˇ cn´ı tabulky, kovariance a korelace
12 12.1
Teoretick´ aˇ c´ ast
12.1.1
χ2 test dobr´ e shody
Jedn´a se o jeden z test˚ u dobr´e shody (dalˇs´ı napˇr. Kolmogorovov˚ uv test a Lilliefors˚ uv test). Slouˇz´ı k tomu, abychom pro n´ahodn´ y v´ ybˇer o rozsahu n z rozdˇelen´ı nˇejak´e n´ahodn´e veliˇciny X ovˇeˇrili (na hladinˇe v´ yznamnosti α) hypot´ezu, ˇze se ˇr´ıd´ı urˇcit´ ym rozdˇelen´ım, aˇz na hodnotu m nezn´am´ ych parametr˚ u. Postup je n´asleduj´ıc´ı: • Rozdˇel´ıme obor hodnot n´ahodn´e veliˇciny X na k nepˇrekr´ yvaj´ıc´ıch se tˇr´ıd. • Zjist´ıme, kolik hodnot realizovan´eho n´ahodn´eho v´ ybˇeru se nach´az´ı v jednotliv´ ych tˇr´ıd´ach. Poˇcty prvk˚ u v jednotliv´ ych tˇr´ıd´ach oznaˇc´ıme ni • Pokud je m > 0, tj. nˇekter´e parametry rozdˇelen´ı jsou nezn´am´e, tak je odhadneme (k dispozici m´ame tedy po tomto kroku pravdˇepodobnosti pi dan´e t´ımto rozdˇelen´ım). • Pro kaˇzdou tˇr´ıdu spoˇcteme oˇcek´avan´ y poˇcet hodnot v t´eto tˇr´ıdˇe, ozn. oi . Plat´ı oi = npi . • V pˇr´ıpadˇe, ˇze je v nˇekter´e tˇr´ıdˇe poˇcet oˇcek´avan´ ych hodnot menˇs´ı neˇz 5, pak mus´ıme tuto tˇr´ıdu sdruˇzit s jinou. • Testovac´ı statistika m´a tvar χ2 =
k X (ni − oi )2 i=1
oi
• Testovac´ı statistika m´a za platnosti nulov´e hypot´ezy asymptoticky χ2 -rozdˇelen´ı se stupnˇem volnosti ν = k − 1 − m. Obor kritick´ ych hodnot W je pak d´an: W = (χ21−α (ν), +∞) kde χ21−α (ν) je kvantil χ2 rozdˇelen´ı. Hodnoty kvantil˚ u lze naj´ıt v tabulk´ach. • Hypot´ezu, ˇze se n´ahodn´a veliˇcina ˇr´ıd´ı pˇredpokl´adan´ ym modelem, zam´ıt´ame na hladinˇe v´ yznamnosti α, je-li χ2 ∈ W . 12.1.2
Test nez´ avislosti v dvourozmˇ ern´ ych kontingenˇ cn´ıch tabulk´ ach
Pomoc´ı dvourozmˇern´ ych kontingenˇcn´ıch tabulek lze testovat nez´avislost dvou n´ahodn´ ych veliˇcin X, Y . Test se pouˇz´ıv´a pˇredevˇs´ım pro diskr´etn´ı n´ahodn´e veliˇciny. Poˇcet variant n´ahodn´e veliˇciny X se oznaˇcuje I a poˇcet variant n´ahodn´e veliˇciny Y se oznaˇcuje J. Je tedy I · J r˚ uzn´ ych variant, kter´ ych m˚ uˇze ˇ dvourozmˇern´a n´ahodn´a veliˇcina (X, Y ) nab´ yvat. Cetnosti v jednotliv´ ych kategori´ıch se oznaˇcuj´ı nij . Uk´azka kontingenˇcn´ı tabulky:
64
y1 x1 n11 x2 n21 souˇcty n.1
y2 n12 n22 n.2
y3 n13 n23 n.3
souˇcty n1. n2. n
Hodnota n je souˇcet vˇsech pozorov´an´ı. Hodnoty ni. , resp. n.j pˇredstavuj´ı souˇcty v jednotliv´ ych ˇra´dc´ıch, resp. sloupc´ıch. Pomoc´ı tˇechto hodnot lze vypoˇc´ıtat oˇcek´avan´e hodnoty v jednotliv´ ych kategori´ıch: oij =
ni. n.j n
Stejnˇe jako v minul´em testu mus´ı platit oij ≥ 5, pokud tomu tak nen´ı, tak mus´ı b´ yt nˇekter´e kategorie slouˇceny. Vˇzdy vˇsak mus´ı platit I, J ≥ 2. Testovac´ı statistika m´a tvar: χ2 =
I X J X (nij − oij )2 oij i=1 j=1
Testovac´ı statistika m´a za platnosti nulov´e hypot´ezy (nez´avislost obou veliˇcin) asymptoticky χ2 rozdˇelen´ı se stupnˇem volnosti ν = (I − 1)(J − 1). Obor kritick´ ych hodnot W je pak d´an: W = (χ21−α (ν), +∞) Hypot´ezu, ˇze se n´ahodn´e veliˇciny jsou nez´avisl´e, zam´ıt´ame na hladinˇe v´ yznamnosti α, je-li χ2 ∈ W . 12.1.3
Kovariance
Kovariance dvou n´ahodn´ ych veliˇcin X, Y se oznaˇcuje cov(X, Y ), popˇr. σXY . Je definov´ana takto: cov(X, Y ) = E([X − E(X)] · [Y − E(Y )]) V´ ypoˇcetn´ı tvar kovariance: cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) V´ ybˇerov´a kovariance (statistick´ y odhad kovariance): n
SXY =
n
1 X n 1 X (xi − x¯)(yi − y¯) = xi yi − x¯y¯ n − 1 i=1 n − 1 i=1 n−1
Pro kovaranci plat´ı: cov(X, Y ) = cov(Y, X) cov(X, X) = D(X) Pokud jsou veliˇciny nez´avisl´e, tak plat´ı E(X · Y ) = E(X)E(Y ) a tedy cov(X, Y ) = 0. POZOR, toto nelze obr´atit, pokud je cov(X, Y ) = 0, tak z toho neplyne, ˇze n´ahodn´e veliˇciny jsou nez´avisl´e!
65
12.1.4
Korelace
Korelace dvou n´ahodn´ ych veliˇcin X, Y se oznaˇcuje ρXY . Je definov´ana takto: cov(X, Y ) p ρXY = p D(X) D(Y ) V´ ybˇerov´a korelace (statistick´ y odhad korelace): SXY p rXY = p S 2 (X) S 2 (Y ) Pro korelaci plat´ı: ρXY = ρY X ρXX = 1 ρ ∈ [−1, 1] Korelace vyjadˇruje m´ıru line´arn´ı z´avislosti mezi X a Y . Mezn´ı hodnoty (-1 a +1) nast´avaj´ı, pokud vˇsechny body (xi , yi ) leˇz´ı na pˇr´ımce. Pokud jsou veliˇciny nez´avisl´e, tak plat´ı cov(X, Y ) = 0 a tedy ρXY = 0. POZOR, toto nelze obr´atit, pokud je ρXY = 0, tak z toho neplyne, ˇze n´ahodn´e veliˇciny jsou nez´avisl´e! Uk´azka hodnot korelace:
66
12.1.5
Test nez´ avislosti
V pˇr´ıpadˇe, ˇze (X, Y ) m´a dvourozmˇern´e norm´aln´ı rozdˇelen´ı pravdˇepodobnosti, pak X a Y jsou nez´avisl´e, pokud ρ = 0 (v´ yˇse bylo uvedeno, ˇze z ρXY = 0 neplyne nez´avislost, pokud ovˇsem (X, Y ) m´a dvourozmˇern´e norm´aln´ı rozdˇelen´ı, tak v´ yroky ”ρXY = 0” a ”X a Y jsou nez´avisl´e” jsou ekvivalentn´ı). Pˇri testu nez´avislosti dvou n´ahodn´ ych veliˇcin s dvourozmˇern´ ym norm´aln´ım rozdˇelen´ım se testuje H0 : ρ = 0 oproti H1 : ρ 6= 0 (popˇr. jednostrann´a alternativa). Testovac´ı statistika m´a tvar: T =√
√ r n−2 1 − r2
kde r je v´ ybˇerov´ y korelaˇcn´ı koeficient. Testovac´ı statistika m´a za platnosti nulov´e hypot´ezy Studentovo t-rozdˇelen´ı s poˇctem stupˇ n˚ u volnosti ν = n−2. Obor kritick´ ych hodnot pro test na hladinˇe v´ yznamnosti α je: W = (−∞, t α2 (n − 2)) ∪ (t1− α2 (n − 2), +∞) Hypot´eza o nez´avislosti se zam´ıt´a, pokud T ∈ W .
67
12.2
Pˇ r´ıklady
1. Chceme testovat, zda hrac´ı kostka je korektn´ı. Provedli jsme 600x hod kostkou a z´ıskali jsme n´asleduj´ıc´ı ˇcetnosti: ˇ ıslo 1 C´ 2 3 4 5 6 ni 122 61 98 115 79 125 Pokud je kostka korektn´ı, mˇely by se oˇcek´avan´e ˇcetnosti ˇr´ıdit diskr´etn´ım rovnomˇern´ ym rozdˇelen´ım. Budeme tedy testovat shodu z´ıskan´ ych hodnot s diskr´etn´ım rovnomˇern´ ym rozdˇelen´ım na hladinˇe v´ yznamnosti 5%. ˇ sen´ı: Reˇ H0 : Kostka je korektn´ı H1 : Kostka nen´ı korektn´ı Budeme se ˇr´ıdit postupem uveden´ ym v prvn´ı ˇca´sti tohoto cviˇcen´ı: • Obor hodnot je jiˇz rozdˇelen na 6 nepˇrekr´ yvaj´ıc´ıch se tˇr´ıd, tedy k = 6. • Poˇcty prvk˚ u ni jsou uvedeny jiˇz v zad´an´ı. • Nen´ı potˇreba odhadovat parametry, tj. m = 0. 1 • Spoˇcteme oˇcek´avan´e hodnoty v jednotliv´ ych tˇr´ıd´ach oi = npi = 600 · = 100 pro i = 6 1, 2, ..., 6 • V ˇz´adn´e tˇr´ıdˇe nen´ı oi < 5, nebudeme tedy ˇza´dn´e tˇr´ıdy sluˇcovat. • Vypoˇcteme hodnotu testovac´ı statistiky: 2
χ =
k X (ni − oi )2 i=1
oi
2
=χ =
6 X (ni − 100)2 i=1
100
= 33
• Kritick´ y obor je d´an χ2 -rozdˇelen´ım s ν = k − 1 = 5 stupni volnosti: W = (χ20.95 (5), +∞) = (11.1, +∞) • Jelikoˇz χ2 ∈ W , tak hypot´ezu o tom, ˇze kostka je korektn´ı zam´ıt´ame (na hladinˇe v´ yznamnosti α = 5%. 2. Po proveden´ı 60 pokus˚ u s diskr´etn´ı n´ahodnou veliˇcinou X, kter´a m˚ uˇze nab´ yvat hodnot 0 aˇz 4 (tj. v kaˇzd´em z pokus˚ u nastane bud’ 0, 1, 2, 3 nebo 4kr´at sledovan´ y jev) jsou z´ısk´any n´asleduj´ıc´ı ˇcetnosti.
Hodnota 0 1 2 3 4 ni 3 12 21 20 4
68
Tedy napˇr´ıklad hodnota 12 znamen´a, ˇze pˇri 12 pokusech z 60 nabyla n´ahodn´a veliˇcina X hodnoty 1. Otestujte na hladinˇe v´ yznamnosti α = 2.5%, zda se n´ahodn´a veliˇcina X ˇr´ıd´ı binomick´ ym rozdˇelen´ım. ˇ sen´ı: Reˇ H0 : N´ahodn´a veliˇcina se ˇr´ıd´ı binomick´ ym rozdˇelen´ım H1 : N´ahodn´a veliˇcina se neˇr´ıd´ı binomick´ ym rozdˇelen´ım Budeme se ˇr´ıdit postupem uveden´ ym v prvn´ı ˇca´sti tohoto cviˇcen´ı: • Obor hodnot je jiˇz rozdˇelen na 5 nepˇrekr´ yvaj´ıc´ıch se tˇr´ıd, tedy k = 5. • Poˇcty prvk˚ u ni jsou uvedeny jiˇz v zad´an´ı. • Ze zad´an´ı v´ıme, ˇze parametr n binomick´eho rozdˇelen´ı je 4, ten tedy odhadovat nemus´ıme. Je ale potˇreba odhadnout parametr p binomick´eho rozdˇelen´ı. Ten lze odhadnout pˇres stˇredn´ı hodnotu. U binomick´eho rozdˇelen´ı v´ıme, ˇze E(X) = np. n zn´ame, stˇredn´ı hodnotu lze odhadnout pomoc´ı pr˚ umˇeru a pak jiˇz jen vyj´adˇr´ıme nezn´am´ y parametr p: x¯ =
3 · 0 + 12 · 1 + 21 · 2 + 20 · 3 + 4 · 4 = 2.1667 60
Dosad´ıme: 2.1667 = 4 · pˆ A odtud: pˆ = 0.5417 Pˇredpokl´ad´ame, ˇze n´ahodn´a veliˇcina se ˇr´ıd´ı rozdˇelen´ım Bi(4, 0.5417). Odhadovali jsme jeden parametr, takˇze m = 1. • Spoˇcteme oˇcek´avan´e pravdˇepodobnosti pi a n´aslednˇe oˇcek´avan´e hodnoty v jednotliv´ ych tˇr´ıd´ach oi = npi pro i = 0, 1, ..., 4: Hodnota 0 1 2 3 4 pi 0.0441 0.2086 0.3698 0.2914 0.0861 oi 2.65 12.51 22.19 17.48 5.17 • V prvn´ı tˇr´ıdˇe je oi < 5, slouˇc´ıme tedy tuto tˇr´ıdu se sousedn´ı. V posledn´ı tˇr´ıdˇe je sice ni < 5, ale oˇcek´avan´a hodnota splˇ nuje podm´ınku a sluˇcovat tedy nebudeme. Po slouˇcen´ı obdrˇz´ıme: Hodnota 0 a 1 2 3 4 ni 15 21 20 4 oi 15.16 22.19 17.48 5.17 Stejn´ ym zp˚ usobem mus´ı b´ yt slouˇceny i namˇeˇren´e hodnoty. • Vypoˇcteme hodnotu testovac´ı statistiky: χ2 =
k X (ni − oi )2 i=1
69
oi
= 0.6936
• Kritick´ y obor je d´an χ2 -rozdˇelen´ım s ν = k − 1 − m = 2 stupni volnosti: W = (χ20.975 (2), +∞) = (7.38, +∞) • Jelikoˇz χ2 6∈ W , tak hypot´ezu o tom, ˇze n´ahodn´a veliˇcina se ˇr´ıd´ı rozdˇelen´ım Bi(4, 0.5417) (na hladinˇe v´ yznamnosti α = 2.5%) nezam´ıt´ame. 3. Z pr˚ uzkumu proveden´eho u 1 000 osob, kter´ y mˇel zjistit efektivnost oˇckov´an´ı proti chˇripce, byly z´ısk´any tyto v´ ysledky:
Bez oˇckov´an´ı Jedno oˇckov´an´ı Dvˇe oˇckov´an´ı Celkem Chˇripka 24 9 13 46 Bez chˇripky 289 100 565 954 Celkem 313 109 578 1 000 ˇ sen´ı: Na hladinˇe v´ yznamnosti α = 5% testujte, zda m´a oˇckov´an´ı vliv na v´ yskyt chˇripky. Reˇ H0 : Oˇckov´an´ı vliv nem´a (veliˇciny jsou nez´avisl´e) H1 : Oˇckov´an´ı vliv m´a (mezi veliˇcinami existuje z´avislost) Pouˇzijeme tedy test nez´avislosti: Hodnoty n, ni. a n.j jsou uvedeny jiˇz v tabulce. Pomoc´ı tˇechto hodnot vypoˇcteme oˇcek´avan´e hodnoty: ni. n.j oij = n Napˇr.: n1. n.2 46 · 109 o12 = = = 5.014 n 1000 Cel´a tabulka s oˇcek´avan´ ymi hodnotami: Bez oˇckov´an´ı Jedno oˇckov´an´ı Dvˇe oˇckov´an´ı Chˇripka 14.40 5.01 26.59 Bez chˇripky 298.60 103.99 551.41 Ve vˇsech kategori´ıch plat´ı oij ≥ 5. Testovac´ı statistika:
2 X 3 X (nij − oij )2 χ = = 17.32 oij i=1 j=1 2
Obor kritick´ ych hodnot W : W = (χ20.95 (1 · 2), +∞) = (5.99; +∞) Protoˇze χ2 ∈ W , tak hypot´ezu o nez´avislosti (na hladinˇe v´ yznamnosti α = 5%) zam´ıt´ame a oˇckov´an´ı m´a tedy vliv.
70
4. Chceme otestovat vliv nov´e technologie. M´ame k dispozici n´asleduj´ıc´ı v´ ysledky:
I. jakost II. jakost III. jakost Zmetek Celkem Star´a technologie 503 105 33 7 648 Nov´a technologie 553 95 35 3 686 Celkem 1 056 200 68 10 1334 ˇ sen´ı: Na hladinˇe v´ yznamnosti α = 5% testujte, zda m´a nov´a technologie vliv na v´ yrobu. Reˇ H0 : Technologie nem´a vliv (veliˇciny jsou nez´avisl´e) H1 : Technologie m´a vliv (mezi veliˇcinami existuje z´avislost) Pouˇzijeme tedy test nez´avislosti v dvourozmˇern´e kontingenˇcn´ı tabulce: Hodnoty n, ni. a n.j jsou uvedeny jiˇz v tabulce. Pomoc´ı tˇechto hodnot vypoˇcteme oˇcek´avan´e hodnoty: I. jakost II. jakost III. jakost Zmetek Star´a technologie 512.96 97.15 33.03 4.86 Nov´a technologie 543.03 102.85 34.97 5.14 Jelikoˇz o14 < 5, tak mus´ıme slouˇcit posledn´ı dva sloupce (ˇra´dky sluˇcovat nem˚ uˇzeme, mus´ı platit I, J ≥ 2). M´ame tedy:
Star´a technologie Nov´a technologie
I. jakost II. jakost III. jakost + Zmetek 512.96 97.15 37.89 543.03 102.85 40.11
Stejn´ ym zp˚ usobem mus´ı b´ yt slouˇceny i namˇeˇren´e hodnoty. Testovac´ı statistika: 2 X 3 X (nij − oij )2 2 χ = = 1.84 oij i=1 j=1 Obor kritick´ ych hodnot W : W = (χ20.95 (1 · 2), +∞) = (5.99; +∞) Protoˇze χ2 6∈ W , tak hypot´ezu o nez´avislosti (na hladinˇe v´ yznamnosti α = 5%) nezam´ıt´ame a nov´a technologie tedy nem´a vliv. 5. U 5 lid´ı byla zjiˇst’ov´ana v´aha (ozn. X) a v´ yˇska (ozn. Y ). V´ ysledky jsou n´asleduj´ıc´ı: V´ yˇska 170 183 192 164 196 V´aha 70 72 88 60 82
71
Pˇredpokl´ad´ame, ˇze dvourozmˇern´a n´ahodn´a veliˇcina (X, Y ) m´a dvourozmˇern´e norm´aln´ı rozdˇelen´ı. ˇ sen´ı: Otestujte na hladinˇe v´ yznamnosti α = 10%, zda jsou X a Y nez´avisl´e. Reˇ Jelikoˇz se jedn´a o dvourozmˇern´e norm´aln´ı rozdˇelen´ı, tak staˇc´ı testovat nulovost korelaˇcn´ıho koeficientu. Testujeme tedy: H0 : ρ = 0 H1 : ρ 6= 0 Mus´ıme vypoˇc´ıtat pr˚ umˇery, v´ ybˇerov´e rozptyly, hodnotu v´ ybˇerov´e kovariance a n´aslednˇe v´ ybˇerov´e korelace: n
1X xi = 181 x¯ = n i=1 n
1X yi = 74.4 y¯ = n i=1 Sx2
n X = (xi − x¯)2 = 190 i=1
Sy2
=
n X
(yi − y¯)2 = 118.8
i=1
SXY =
1 n−1
n X i=1
xi y i −
1 5 n x¯y¯ = · 67884 − · 181 · 74.4 = 138 n−1 4 4
SXY 138 p rXY = p = 0.9185 =√ √ 2 2 190 118.8 S (X) S (Y ) Testovac´ı statistika m´a tvar: T =√
√ √ r 0.9185 n−2= √ 5 − 2 = 4.0242 1 − r2 1 − 0.91852
Obor kritick´ ych hodnot pro test na hladinˇe v´ yznamnosti α = 10% je: W = (−∞, −2.353) ∪ (2.353, +∞) Hypot´ezu o nez´avislosti lze zam´ıtnout na hladinˇe v´ yznamnosti α = 10%, protoˇze T ∈ W . Pˇrijmeme tedy alternativn´ı hypot´ezu, ˇze veliˇciny jsou z´avisl´e.
12.3
Literatura s dalˇ s´ımi pˇ r´ıklady
• Brousek, Jan – Ryj´aˇcek, Zdenˇek: Sb´ırka ˇreˇsen´ ych pˇr´ıklad˚ u z poˇctu pravdˇepodobnosti.
72
13 13.1
CViˇ cen´ı 13 - Regresn´ı anal´ yza. Jednoduch´ a a v´ıcen´ asobn´ a regrese. Koeficient determinace. Teoretick´ aˇ c´ ast
Regrese je snad nejˇcastˇeji pouˇz´ıvan´a statistick´a metoda. Regrese se zab´ yv´a probl´emem vysvˇetlen´ı zmˇen jedn´e n´ahodn´e veliˇciny (vysvˇetlovan´a, z´avisl´a , endogenn´ı promˇenn´a, regresand) na jedn´e nebo v´ıce jin´ ych veliˇcin´ach (regresory, vysvˇetluj´ıc´ı promˇenn´e, exogenn´ı promˇenn´e). V pˇr´ıpadˇe, ˇze z´avislost je pops´ana line´arn´ımi vztahy, mluv´ıme o line´arn´ım regresn´ım modelu. Pokud modelujeme chov´an´ı vysvˇetlovan´e promˇenn´e pomoc´ı jedn´e vysvˇetluj´ıc´ı promˇenn´e, mluv´ıme o jednoduch´e regresi, v opaˇcn´em pˇr´ıpadˇe se jedn´a o regresi v´ıcen´asobnou. Oznaˇcme X nez´avisle promˇenn´e a Y z´avislou promˇennou. Regresn´ı funkc´ı se pak rozum´ı µ(x) = E (Y |X = x) . Regresn´ı funkce tedy ud´av´a, jak´a je stˇredn´ı hodnota n´ahodn´e veliˇciny Y pˇri dan´e hodnotˇe x. V dalˇs´ım textu tedy budeme pracovat s modelem Yi = f (X, β1 , . . . , βk ) + εi , kde • β1 . . . , βk jsou nezn´am´e parametry modelu; poˇcet parametr˚ u je k; • εi jsou n´ahodn´e veliˇciny, kter´ y modeluj´ı nesystematick´e chyby mˇeˇren´ı; • X je matice nez´avisl´ ych promˇenn´ ych; • Yi jsou n´ahodn´e veliˇciny reprezentuj´ıc´ı vysvˇetlovanou promˇennou. Pˇredpokl´adejme, ˇze m´ame k dispozici namˇeˇren´e hodnoty y1 , y2 , . . . , yn pro jednotliv´e kombinace vysvˇetluj´ıc´ıch promˇenn´ ych (x11 , x12 , . . . , x1k ) , (x21 , x22 , . . . , x2k ) , . . . , (xn1 , xn2 , . . . , xnk ) . C´ılem regresn´ı anal´ yzy je odhadnout parametry β1 . . . , βk tak, aby f (X, βb1 , . . . , βbk ) co nejv´ıce ” odpov´ıdala k empiricky namˇeˇren´ ym hodnot´am yi“. Funkce y = f (,β1 , . . . , βk ) se naz´ yv´a teoretick´a regresn´ı funkce z´avislosti promˇenn´e y na X, jej´ı grafick´e vyj´adˇren´ı se naz´ yv´a teoretick´a regresn´ı kˇrivka. Regresn´ı funkce, v n´ıˇz jsou nahrazeny nezn´am´e parametry β jejich odhady βb (resp. b) se naz´ yv´a empirick´a regresn´ı funkce a jej´ı grafick´ y obraz je empirick´a regresn´ı kˇrivka. Pro hodnoty X m˚ uˇzeme na z´akladˇe empirick´e regresn´ı kˇrivky urˇcit hodnotu ybi = f (X, βb1 , . . . , βbk ), tyto hodnoty naz´ yv´ame vyrovnan´ ymi hodnotami yi a rozd´ıl mezi yi − ybi naz´ yv´ame chyby odhadu (znaˇc´ıme ei ). 13.1.1
Jednoduch´ a a v´ıcen´ asobn´ a regrese
O jednoduch´e regresi mluv´ıme v situac´ıch, kdy uvaˇzujme tento z´akladn´ı jednoduch´ y model : Yi = β1 + β2 · xi + εi , kde β0 , β1 jsou nezn´am´e parametry, kter´e odhadujeme a εi jsou nezn´am´e n´ahodn´e odchylky, kter´e splˇ nuj´ı n´asleduj´ıc´ı podm´ınky: 73
• E(εi ) = 0 pro i = 1, 2, . . . , n • D(εi ) = σ 2 pro i = 1, 2, . . . , n a σ 2 > 0 je nezn´am´a konstanta (homoskedasticita) • εi jsou nez´avisl´e pro i = 1, 2, . . . , n ˇ je zaloˇzen na jednoduch´em volbˇe optimalizaˇcn´ıho Princip metody nejmenˇs´ıch ˇctverc˚ u (MNC) ˇ krit´eria, kdy minimalizuji kvadr´at odchylek namˇeˇren´ ych yi a vyrovnan´ ych hodnot ybi . N´azev MNC se odvozuje od toho, ˇze se pˇri t´eto metodˇe minimalizuje souˇcet druh´ ych mocnin typu: SSE =
n X
(b0 + b1 xi − yi )2
i=1
ˇ zn´azornit n´asleduj´ıc´ım zp˚ Graficky lze MNC usobem y
(xi , yi )
!! !! ! ! !! ! ! !! ! • ! !! (x , yb ) ! i i • !!! ! ! !! !!
•
•
x
V pˇr´ıpadˇe v´ıcen´asobn´a regrese pracujeme s modelem Yi = β0 + β1 x1i + · · · + βk xki + εi , kdy se snaˇz´ıme vysvˇetlit promˇennou Y pomoc´ı v´ıce vysvˇetluj´ıc´ıch promˇenn´ ych x1 , x2 , . . . , xk . U v´ıcen´asobn´e regrese minimalizujeme v´ yraz n X SSE = − (b0 + b1 x1i + · · · + bk xki − yi )2 i=1
Pˇri minimalizaci v´ yrazu SSE, kter´ y ch´apeme jako funkci promˇenn´ ych βj , vych´az´ıme ze zn´am´eho faktu, ˇze funkce nab´ yv´a sv´eho minima v bodech, kdy derivace je rovna nule, tj. pˇri hled´an´ı minima ˇreˇs´ıme soustavu p line´arn´ıch rovnic tvaru ∂Q =0 pro k = 0, 1, . . . , k ∂βk βk =bk Takto vzniklou soustavu k + 1 rovnic naz´ yv´ame soustavou norm´aln´ıch rovnic. Soustava norm´aln´ıch rovnic pro jednoduchou regresi m´a tedy tvar
74
b0 · n b0 ·
n X
n X
+b1 ·
i=1 n X
+b1 ·
xi
i=1
xi
=
x2i
=
i=1
n X i=1 n X
yi xi y i
i=1
a ˇreˇsen´ım v´ yˇse uveden´ ych soustav dost´av´ame pˇr´ısluˇsn´e odhady b0 a b1 , kter´e minimalizuj´ı v´ yraz SSE: n P
b0 = βb0 =
yi
i=1
n P
x2i −
n·
x2i
−
i=1
n P
xi yi 2
i=1
n P
xi
i=1
n n P P xi yi − xi yi i=1 i=1 i=1 n 2 T P P 2 n· xi − xi
n· b1 = βb1 =
xi
i=1
i=1 n P
n P
n P
i=1
i=1
V praktick´ ych pˇr´ıkladech metodu nejmenˇs´ıch ˇctverc˚ u pro regresn´ı anal´ yzu zpracov´av´ame pomoc´ı vhodn´eho softwaru. Napˇr´ıklad je v Excelu lze line´arn´ı regresi a metodu nejmenˇs´ıch ˇctverc˚ u aplikovat pomoc´ı funkce LINREGRESE, popˇr. lze uˇz´ıt doplˇ nku Anal´ yza dat, v nˇem pak Regrese. 13.1.2
Maticov´ y z´ apis regrese a metody nejmenˇ s´ıch ˇ ctverc˚ u
Budeme uvaˇzovat n´asleduj´ıc´ı maticov´ y z´apis Y1 x11 x12 Y2 x21 x22 . . .. . . . . = . . . .. .. .. . Yn xn1 xn2
. . . x1k . . . x2k . .. . .. . .. . .. . . . xnk
β1 β2 .. . βk
+
ε1 ε2 .. . .. . εn
kde • Y = (Y1 , Y2 , . . . , Yn )T je vektor hodnot vysvˇetlovan´e promˇenn´e; • X = [xij ]i=1,...,n; j=1,...,k je matice typu n × k hodnot vysvˇetluj´ıc´ı promˇenn´e; • β = (β1 , β2 , . . . , βk )T je vektor hledan´ ych k nezn´am´ ych parametr˚ u; • ε = (ε1 , ε2 , . . . , εn )T je vektor n´ahodn´e sloˇzky. Pokud prvn´ı sloupec matice X jsou jednotky, mluv´ıme o line´arn´ım regresn´ım modelu s absolutn´ım ˇclenem. Model tedy m˚ uˇzeme zapsat v maticov´em vyj´adˇren´ı Y = Xβ + ε a pˇredpoklady pro metodu nejmenˇs´ıch ˇctverc˚ u lze tak´e zapsat v maticov´em tvaru Pˇredpoklady ˇreˇsen´ı pomoc´ı metody nejmenˇs´ıch ˇctverc˚ u 75
(P1) E (ε) = 0; (P2) var (ε) = σ 2 I T ; (P3) v nˇekter´ ych pˇr´ıpadech uvaˇzujeme t´eˇz silnˇejˇs´ı podm´ınku zahrnuj´ıc´ı pˇredch´azej´ıc´ı ε ∼ Nn 0; σ 2 I T . (P4) X je nestochastick´a matice, kter´a m´a plnou hodnost. Nezn´am´e parametry lze v maticov´em z´apisu odhadnout podle vztahu takto: b = XT X 13.1.3
−1
XT Y
Hodnocen´ı kvality regrese a koeficient determinace R2
Kvalitu regresn´ıho vztahu lze pomˇeˇrovat podle toho, jak odhadnut´e hodnoty ybi odpov´ıdaj´ı realizac´ım yi . Kvalitu odhadu vˇsak v´ yznamn´ ym vlivem ovlivˇ nuje t´eˇz variabilita dat, resp. variabilita n´ahodn´e sloˇzky modelu. Pˇri hodnocen´ı modelu vych´az´ıme pˇredevˇs´ım ze z´ıskan´ ych rezidu´ı ei = ybi − yi , kter´e zachycuj´ı rozd´ıl mezi namˇeˇrenou a vyrovnanou hodnotou. Pro namˇeˇren´e yi a vyrovnan´e ybi hodnoty vysvˇetlovan´e promˇenn´e obvykle poˇc´ıt´ame celkov´ y souˇ cet ˇ ctverc˚ u
ST2
=
n X
(yi − y)2
i=1
vysvˇ etlen´ y (regresn´ı) souˇ cet ˇ ctverc˚ u SV2 =
n X
(ybi − y)2
i=1
nevysvˇ etlen´ y (residu´ aln´ı) souˇ cet ˇ ctverc˚ u SSE =
n X
(yi − ybi )2
i=1
Pˇri pouˇzit´ı metody nejmenˇs´ıch ˇctverc˚ u plat´ı ST2 = SV2 + SSE. Jako vhodnˇejˇs´ı je volen ten model, kter´ y m´a menˇs´ı hodnotu nevysvˇetlen´ ych (residu´aln´ıch) souˇct˚ u ˇctverc˚ u. Na z´akladˇe v´ yˇse uveden´ ych souˇct˚ u ˇctverc˚ u lze pro v´ıcen´asobnou regresi s absolutn´ım ˇclenem urˇcit 2 koeficient determinace R podle vzorce R2 =
SV2 ST2
Pro koeficient determinace plat´ı R2 ∈ [0, 1]. Jde o pod´ıl rozptylu hodnot yi , kter´ y se podaˇrilo vysvˇetlit pomoc´ı regresn´ıho modelu. Hodnota 1 − R2 urˇcuje pod´ıl rozptylu hodnot yi , kter´ y se vysvˇetlit nepodaˇrilo.
76
13.2
Pˇ r´ıklady
1. Pro n´asleduj´ıc´ı data odhadnˇete koeficienty regresn´ı pˇr´ımky y = β0 +β1 x, vypoˇctˇete pˇres soustavu norm´aln´ıch rovnic. x -5 -3 -1 1 3 5 y -2 -1 1 2 2 3
1 2. Pro n´asleduj´ıc´ı data odhadnˇete koeficienty regresn´ı funkce y = β0 +β1 , vypoˇctˇete pˇres soustavu x norm´aln´ıch rovnic. x 0.5 1 2 3 4 y 5.0 3.3 1.7 1.6 1.3
77
3. Pro data z pˇredchoz´ıho pˇr´ıkladu odhadnˇete koeficienty regresn´ı funkce y = β0 + β1 x + β2 x2
78
4. Pro pˇredchoz´ı pˇr´ıklady spoˇctˇete SV2 , ST2 , SSE a R2 . Z´ıskan´e v´ ysledky interpretujte.
13.3
Literatura s dalˇ s´ımi pˇ r´ıklady
• Brousek, Jan – Ryj´aˇcek, Zdenˇek: Sb´ırka ˇreˇsen´ ych pˇr´ıklad˚ u z poˇctu pravdˇepodobnosti.
79