MATEMATIKA 2 ´ sej´ıc´ı: pˇrednaˇ
Martin Schindler KAP, tel. 48 535 2836, budova G konzul. hodiny: po dohodeˇ e-mail:
[email protected] ˇ Volf cviˇc´ıc´ı: Schindler, Stanek, naposledy upraveno: 18. unora 2015 ´
,
1/152
ˇ ´ ctu ˇ (prezencn´ ˇ ı studium): v Poˇzadavek na udelen´ ı zapo ˇ ˇ rovany ´ testy (2) z prub semestru budou znalosti proveˇ ˚ ehu ´ ´ ´ prob´ırane´ latky. Term´ın kaˇzdeho testu bude dopˇredu oznamen ˇ ı zapoˇ ´ ctu je nutne´ z´ıskat alesponˇ poloviˇcn´ı cviˇc´ıc´ım. Pro udelen´ ´ poˇcet bodu˚ z kaˇzdeho testu. ˇ ´ ctu ˇ (kombinovane´ studium): Poˇzadavek na udelen´ ı zapo ´ ı zapoˇ ´ ctov´ych prac´ı, viz. vypracovan´ http://147.230.193.199/˜ms/mv2.html ˇ ´ Poˇzadavky ke zkousce (p´ısemna´ i ustn´ ´ ı cˇ ast): znalost ˇreˇsen´ı ´ uloh, vyloˇzen´ych pojmu˚ a jejich vlastnost´ı v rozsahu danem ´ ´ sek. pˇrehledem pˇrednaˇ
,
2/152
Literatura ˇ ABEK ´ KADER J. Statistika. TUL, 2006. ´ LINKA A., PICEK J., VOLF P. Uvod do teorie ˇ pravdepodobnosti. TUL, 2001. MELOUN M., MILITKY´ J. Statisticka´ anal´yza ´ ıch dat. Praha : Academia, 2004. experimentaln´ ˇ V. Matematika pro gymnazia ´ CALDA E., DUPAC : ˇ kombinatorika, pravdepodobnost a statistika. Praha : Prometheus, 2004. ´ P., KAHOUNOVA ´ J. Poˇcet pravdepodobnosti ˇ HEBAK v pˇr´ıkladech. Praha: Informatorium, 1994. ˇ ABEK ´ KADER J., PICEK J. Sb´ırka pˇr´ıkladu˚ z ˇ pravdepodobnosti a statistiky. Liberec: TUL, 2001. ´ ˇ AN ´ J.: Pravdepodobnost ˇ ZVARA K., Sˇ Tˇ EP a matematicka´ statistika. Praha: Matfyzpress, 2002. ,
3/152
Literatura online
http://147.230.193.199/˜ms/mv2.html http://www.studopory.vsb.cz http://mathonline.fme.vutbr.cz
,
4/152
Statistika statistika je jedn´ım z oboru˚ zab´yvaj´ıc´ıch se ´ ım, zpracovan´ ´ ım a analyzovan´ ´ ım dat shromaˇzd’ovan´ vznikaj´ıc´ıch pˇri studiu tzv. hromadnych ´ jevu, ˚ coˇz jsou jevy ´ vyskytuj´ıc´ı se teprve u velkeho souboru pˇr´ıpadu, ˚ ne jen u pˇr´ıpadu˚ jednotliv´ych. statisticky´ soubor je mnoˇzina statistickych ´ jednotek ´ obce, firmy,...), na nichˇz meˇ ˇ r´ıme (zjiˇst’ujeme) (obyvatele, ˇ poˇcet obyvatel, obrat,...) hodnoty statistickych ´ znaku(v ˚ ek, ˇ ´ zjiˇstenou hodnotu znaku vyjadˇrujeme ve vhodneˇ zvolenem ˇ r´ıtku (stupnici). meˇ ˇ rit nekolik ˇ na jedne´ jednotce muˇ znaku˚ - to umoˇzn´ı ˚ zeme meˇ ´ vyˇsetˇrovat zavislost (existuje souvislost mezi v´ysˇ kou a hmotnost´ı osob ve studovane´ populaci?). ,
5/152
´ ´ ˇ Ke studovanemu datovemu souboru lze pˇristoupit dvema zpusoby: ˚ 1 ˇ ych dat chceme cˇ init zav ´ ery ˇ Popisna´ statistika - ze zjiˇsten´ pouze pro studovan´y datov´y soubor (proˇsetˇrili jsme celou populaci, kterou chceme popsat) 2 ˇ ı) statistika - Studovan´y soubor Matematicka´ (inferencn´ ´ ˇ chapeme jako vyb ´ erov y´ soubor – mnoˇzina prvku˚ ´ ´ ´ vybran´ych nahodn eˇ a nezavisle ze zakladn´ ıho souboru, ´ y (z duvod kter´y je rozsahl´ u˚ cˇ asov´ych, finanˇcn´ıch, ˚ organizaˇcn´ıch aj. nelze prozkoumat cel´y). Z hodnot ˇ ych zjiˇsten´ ˇ ych ve v´yberov ˇ em ´ souboru chceme cˇ init promenn´ ´ ery ˇ o zakladn´ ´ zav ım souboru (v druhe´ puli ˚ semestru).
,
6/152
Popisna´ statistika
ˇ r´ıtek Typy meˇ ´ ´ ˇ nula-jednickov e´ (muˇz/ˇzena, kuˇrak/nekuˇ rak) ´ ı (rodinn´y stav, barva oˇc´ı) - disjunktn´ı kategorie, nominaln´ ´ ktere´ nelze uspoˇradat ˇ an´ ´ ı, m´ıra spokojenosti) ´ ı (nejvyˇssˇ ´ı dosaˇzene´ vzdel ordinaln´ ´ ı meˇ ˇ r´ıtko s uspoˇradan´ ´ nominaln´ ymi kategoriemi intervalove´ (teplota v Celsiove´ stupnici, rok narozen´ı) ´ moˇzne´ hodnoty jsou cˇ ´ıselneˇ oznaˇceny, vzdalenost mezi sousedn´ımi hodnotami je konstatn´ı ˇ pomerov e´ (hmotnost, v´ysˇ ka, poˇcet obyvatel) - hodnoty jsou ´ any ´ v nasobc´ ´ udav ıch dohodnute´ jednotky, nula znamena´ ˇ rene´ vlastnosti. neexistenci meˇ ´ nominaln´ ´ ı, ordinaln´ ´ ı - Kvalitativn´ı: nula-jedniˇckove, ´ pomerov ˇ e´ ´ intervalove, - Kvantitativn´ı (spojite): ,
7/152
Popisna´ statistika
ˇ y Pˇr´ıklad - jednorozmern´ ˇ a´ data (zaj´ıma´ nas ´ pouze jeden znak) - jednorozmern ´ ´ u˚ 8. tˇr´ıd v jiste´ sˇ kole zkoumame IQ 62 zˇ ak ´ jak struˇcneˇ popsat (zhodnotit), co maj´ı data spoleˇcneho, ´ nebo do jake´ m´ıry jsou odliˇsne? ˇ ren´ych hodnot zkoumaneho ´ ´ z nameˇ znaku spoˇc´ıtame ˇ charakteristiky (m´ıry) nekter´ ych jeho hromadn´ych vlastnost´ı ˇ ı, u (charakteristiky polohy, variability, tvaru rozdelen´ ˇ ´ v´ıcerozmern´ych dat to budou i charakteristiky zavislosti) ´ r´ı danou charakteristiky (statistiky) jedn´ım cˇ ´ıslem vyjadˇ vlastnost
,
8/152
Popisna´ statistika
ˇ rena´ data Pˇr´ıklad - nameˇ ˇ rena´ data oznaˇcme x1 , x2 . . . , xn , nyn´ı tedy n = 62. nameˇ 107 92 107 138 104 134 96
141 105 111 112 96 103 140 136 92 72 123 140 112 127 120 106 117 92 108 117 141 109 109 106 113 112 119 109 80 111 86 111 120 96 103 112 103 125 101 132 113 108 106 97 121 84 108 84 129 116 107 112 128 133 94
´ uspoˇradan y´ soubor oznaˇcme x(1) ≤ x(2) ≤ ... ≤ x(n)
,
72 96 106 109 113 127 141
80 96 106 111 116 128 141
84 84 86 92 92 92 94 96 97 101 103 103 103 104 105 106 107 107 107 108 108 108 109 109 111 111 112 112 112 112 112 113 117 117 119 120 120 121 123 125 129 132 133 134 136 138 140 140 9/152
Popisna´ statistika
ˇ ı cˇ etnost´ı Tˇr´ıdn´ı rozdelen´ Pokud se hodnoty cˇ asto opakuj´ı, tak vytvoˇr´ıme tzv. ˇ cetnostn´ ı tabulku. Pokud jde o spojitou veliˇcinu s velk´ym n (poˇctem ˇ ren´ych hodnot), lze pro pˇrehlednost obor hodnot dat nameˇ ˇ do M intervalu˚ ohraniˇcen´ych body rozdelit a = a0 < a1 < a2 < ... < aM−1 < aM = b. ´ ı z daneho ´ vˇsechna pozorovan´ intervalu lze nahradit ´ zastupnou hodnotou (zpravidla stˇredem intervalu) xi∗ , i = 1, . . . , k. necht’ ni oznaˇcuje poˇcet hodnot, ktere´ pˇr´ısluˇs´ı intervalu ˇ hai−1 , ai ), i = 1, . . . , M – tzv. tˇr´ıdn´ı (absolutn´ı) cetnost (jednotlive´ intervaly se naz´yvaj´ı tˇr´ıdy). ´ a´ poˇcet hodnot v dane´ (i-te) ´ ˇ kumulativn´ı cetnost Ni udav ´ pˇredchazej´ ´ ıc´ıch tˇr´ıdeˇ a tˇr´ıdach ˇ cˇ ´ısla ni /n oznaˇcuj´ı relativn´ı cetnost. ,
10/152
Popisna´ statistika
ˇ ı cˇ etnost´ı Pˇr´ıklad - tˇr´ıdn´ı rozdelen´
Interval < 80 h80, 90) h90, 100) h100, 110) h110, 120) h120, 130) h130, 140) ≥ 140
,
xi∗ 75 85 95 105 115 125 135 145
absol. ni 1 4 8 18 14 8 5 4
ni /n 0.016 0.065 0.129 0.290 0.226 0.129 0.081 0.065
kumul. Ni 1 5 13 31 45 53 58 62
Ni /n 0.016 0.081 0.210 0.500 0.726 0.855 0.935 1.000
11/152
Popisna´ statistika
Histogram ´ ˇ ı tˇr´ıdn´ıch cˇ etnost´ı graficke´ znazorn en´ ´ ´ ıcˇ ek tak, aby jeho kaˇzdemu intervalu je pˇriˇrazen obdeln´ ˇ a´ cˇ etnosti daneho ´ plocha byla um intervalu ´ ern ˇ maj´ı intervaly stejnou sˇ ´ıˇrku (ˇcasto vhodneˇ nejˇcasteji ´ ıku˚ odpov´ıda´ cˇ etnostem. zaokrouhlenou), pak v´ysˇ ka obdeln´ ´ problem: volba poˇctu intervalu˚ M lze pouˇz´ıt napˇr. tzv. Sturgesovo pravidlo: . M ≈ 1 + 3.3 log10 (n) = 1 + log2 (n) u naˇseho pˇr´ıkladu: 1 + log2 (62) = 6.95
,
12/152
Popisna´ statistika
Pˇr´ıklad - histogram
0
5
četnost 10
15
Histogram IQ
80
100
120
140
IQ ,
13/152
Popisna´ statistika
Charakteristiky polohy
Charakteristiky polohy umoˇzn´ı charakterizovat urove nˇ cˇ ´ıselne´ veliˇciny jedn´ım ´ ˇ ren´ı cˇ ´ıslem - ohodnocen´ı, jak mal´ych cˇ i velk´ych hodnot meˇ nab´yvaj´ı. ˇ platit, zˇ e pro charakteristiku polohy m souboru dat x by melo ˇ ı se zmenou ˇ ˇ r´ıtka, tj. zˇ e pro libovolne´ se pˇrirozeneˇ men´ meˇ konstanty a, b: m(a · x + b) = a · m(x) + b ´ konstantu b, tak se v´ysledna´ pˇriˇcteme-li ke vˇsem hodnotam ˇ s´ı o b charakteristika zvetˇ ´ vynasob´ ıme-li kaˇzdou hodnotu konstantou a, pak se ˇ s´ı a-krat ´ v´ysledna´ charakteristika zvetˇ
,
14/152
Popisna´ statistika
Charakteristiky polohy
ˇ Aritmetick´y prum ˚ er n
1X 1 x= xi = (x1 + x2 + . . . + xn ) n n i=1
1 (107 + 141 + . . . + 94) = 111.0645 u naˇseho pˇr´ıkladu: x = 62 ´ ı. Jen pro citliv´y na hrube´ chyby, odlehla´ pozorovan´ ˇ r´ıtka. kvantitativn´ı meˇ ´ zen´y prum ˇ z tabulky cˇ etnost´ı lze spoˇc´ıtat jako tzv. vaˇ ˚ er
x=
PM M ∗ 1X 1 · 75 + 4 · 85 + . . . + 4 · 145 i=1 ni xi = ni xi∗ = P = 111.7742 M n 62 ni i=1
i=1
cet jedniˇcek u nula-jedniˇckove´ veliˇciny: poˇpoˇ = relativn´ı cˇ etnost cet nul i jedniˇcek ´ (procento) jedniˇcek (pozorovan´ı s danou vlastnost´ı). ´ je chlapec) , u naˇseho pˇr´ıkladu yi = 0 (i-t´y zˇ ak 32 ´ yi = 1 (i-t´y zˇ ak je d´ıvka): y = 62 = 0.516 ,
15/152
Popisna´ statistika
Charakteristiky polohy
Modus ˇ s´ı hodnota xˆ - nejˇcastejˇ ´ ı a ordinaln´ ´ ı meˇ ˇ r´ıtko ma´ smysl urˇcovat i pro nominaln´ nen´ı vˇzdy jednoznaˇcneˇ urˇcen u naˇseho pˇr´ıkladu: 72 96 106 109 113 127 141
80 96 106 111 116 128 141
84 84 86 92 92 92 94 96 97 101 103 103 103 104 105 106 107 107 107 108 108 108 109 109 111 111 112 112 112 112 112 113 117 117 119 120 120 121 123 125 129 132 133 134 136 138 140 140 xˆ = 112
,
16/152
Popisna´ statistika
Charakteristiky polohy
´ Median ˇ ı uspoˇradan´ ´ x˜ - cˇ ´ıslo, ktere´ del´ y soubor na dveˇ stejneˇ velke´ ´ ´ ´ v´yberu ˇ je uprostˇred. cˇ asti. V uspoˇradan em pro n liche´ x˜ = x( n+1 ) 2 1 x˜ = x n + x( n2 +1) pro n sude´ 2 (2) ˇ i velk´ymi zmenami ˇ ˇ robustn´ı - nen´ı ovlivnen nekolika hodnot. ´ ı meˇ ˇ r´ıtko. U naˇseho pˇr´ıkladu: Lze cˇ asto uˇz i pro ordinaln´ 72 96 106 109 113 127 141
80 96 106 111 116 128 141
84 97 107 111 117 129
84 101 107 111 117 132
x˜ = ,
86 103 107 112 119 133
92 103 108 112 120 134
92 103 108 112 120 136
92 104 108 112 121 138
1 x(31) + x(32) = 110 2
94 105 109 112 123 140
96 106 109 113 125 140
17/152
Popisna´ statistika
Charakteristiky polohy
Kvantily: percentily, decily, kvartily ˇ ı uspoˇradan´ ´ ´ α-kvantil xα ( α ∈ (0, 1)) - del´ y soubor na dveˇ cˇ asti ´ eˇ α-pod´ıl tech ˇ nejmenˇs´ıch hodnot je menˇs´ıch neˇz xα tak, zˇ e prav xα = x(dαne) , kde dae oznaˇcuje a, pokud je to cele´ cˇ ´ıslo, jinak nejbliˇzsˇ ´ı vyˇssˇ ´ı cele´ cˇ ´ıslo. ´ ı pˇr´ıpady kvantilu: specialn´ ˚ percentily: α = 0.01, 0.02, . . . , 0.99 decily: α = 0.1, 0.2, . . . , 0.9 kvartily: α = 0.25, 0.5, 0.75 1. (doln´ı) kvartil znaˇc´ıme Q1 = x0.25 3. (horn´ı) kvartil znaˇc´ıme Q3 = x0.75 ´ je vlastneˇ 50%-n´ı kvantil, 50-t´y percentil, 5-t´y decil a median 2-h´y kvartil ,
18/152
Popisna´ statistika
Charakteristiky polohy
84 101 107 111 117 132
92 103 108 112 120 134
Pˇr´ıklad - kvantily 72 96 106 109 113 127 141
80 96 106 111 116 128 141
84 97 107 111 117 129
86 103 107 112 119 133
92 103 108 112 120 136
92 104 108 112 121 138
94 105 109 112 123 140
96 106 109 113 125 140
1. kvartil Q1 = x0.25 = x(d0.25·62e) = x(d15.5e) = x(16) = 103 3. kvartil Q3 = x0.75 = x(d0.75·62e) = x(d46.5e) = x(47) = 120 1. decil (10%-n´ı kvantil) x0.1 = x(d0.1·62e) = x(d6.2e) = x(7) = 92 9. decil (90%-n´ı kvantil) x0.9 = x(d0.9·62e) = x(d55.8e) = x(56) = 134 ,
19/152
Popisna´ statistika
Charakteristiky polohy
Boxplot
,
120 90 100 80
u naˇseho pˇr´ıkladu: Q1 = 103,x˜ = 110, Q3 = 120, 72 jako odlehle´ ´ ı pozorovan´
70
ˇ cˇ esky krabickov y´ diagram - zobrazuje ´ minimum, kvartily, median, maximum a pˇr´ıpadneˇ ´ ı (jsou odlehla´ pozorovan´ ´ od bliˇzsˇ ´ıho kvartilu dale neˇz 1.5 · (Q3 − Q1 ))
140
boxplot hodnot IQ
20/152
Popisna´ statistika
Charakteristiky variability
Charakteristiky variability ˇ r´ı rozpt´ylen´ı, promenlivost, ˇ meˇ nestejnost, variabilitu souboru dat. ˇ platit, pro charakteristiku variability s souboru dat x by melo zˇ e pro libovolnou konstantu b a pro libovolnou kladnou konstantu a > 0: s(a · x + b) = a · s(x) ´ konstantu b, tak se v´ysledna´ pˇriˇcteme-li ke vˇsem hodnotam ˇ ı charakteristika nezmen´ ´ vynasob´ ıme-li kaˇzdou hodnotu konstantou a, pak se ˇ s´ı a-krat ´ v´ysledna´ charakteristika zvetˇ
,
21/152
Popisna´ statistika
Charakteristiky variability
Rozptyl (variance) (populaˇcn´ı) rozptyl sx2 = var (x) - stˇredn´ı kvadraticka´ odchylka ˇ od prum ˚ eru ! ! n n n 1 X 2 1 X 2 1X 2 2 2 (xi − x) = xi − nx xi − x 2 = sx = n n n i=1
i=1
i=1
u naˇseho pˇr´ıkladu: sx2 =
i 1 h (107 − 111.0645)2 + . . . + (94 − 111.0645)2 = 246.4797 62
z naˇs´ı tabulky cˇ etnost´ı: sx2 =
1 n
PM
= (1 · 752 + . . . + 4 ·
P
1 n 1452 )
∗ 2 i=1 ni (xi − x) =
M ∗2 i=1 ni xi
− x2
− 111.77422 = 257.3361
2 pro rozptyl plat´ı sa·x+b = a2 sx2 ,
22/152
Popisna´ statistika
Charakteristiky variability
ˇ Smerodatn a´ odchylka, variaˇcn´ı koeficient ˇ a) ´ smerodatn ˇ (nev´yberov a´ odchylka: odmocnina z rozptylu p sx = sx2 ´ ı rozmer ˇ jako puvodn´ stejn´y fyzikaln´ ı data ˚ ˇ ı koeficient: variacn´ v=
sx x
´ pouze pro kladne´ hodnoty x1 , . . . , xn > 0 definovan ´ ı na volbeˇ meˇ ˇ r´ıtka, lze pouˇz´ıt na porovnan´ ´ ı ruzn´ nezavis´ ˚ ych souboru˚ √ u naˇsich dat: sx = 246.4797 = 15.70 15.70 v = 111.0645 = 0.1414 ,
23/152
Popisna´ statistika
Charakteristiky variability
ˇ ı: rozd´ıl maxima a minima souboru rozpet´ R = x(n) − x(1) ˇ ı: rozd´ıl tˇret´ıho a prvn´ıho kvartilu mezikvartilove´ rozpet´ RM = Q3 − Q1 = x0.75 − x0.25 ˇ absolutn´ıch odchylek od medianu ´ stˇredn´ı odchylka: prum ˚ er ˇ (nebo prum ˚ eru) n
1X d= |xi − x˜ | n i=1
u naˇsich dat: R = 141 − 72 = 69 d= ,
1 62 (|107
RM = 120 − 103 = 17
− 110| + . . . + |94 − 110|) = 12.03 24/152
Popisna´ statistika
Charakteristiky tvaru
Charakteristiky tvaru ˇ r´ı tvar rozdelen´ ˇ ı hodnot v souboru dat. meˇ ˇ platit, zˇ e pro charakteristiku tvaru γ souboru dat x by melo pro libovolnou konstantu b a pro libovolnou kladnou konstantu a > 0: γ(a · x + b) = γ(x) ´ vynasob´ ıme-li kaˇzdou hodnotu konstantou a nebo ´ konstantu b, tak se v´ysledna´ pˇriˇcteme-li ke vˇsem hodnotam ˇ ı. charakteristika nezmen´ ´ proto je poˇc´ıtame ze standardizovan´ych hodnot xi − x . sx ,
25/152
Popisna´ statistika
Charakteristiky tvaru
ˇ tˇret´ıch mocnin standardizovan´ych ˇ koeficient sikmosti: prum ˚ er hodnot 3 n 1 X xi − x g1 = n sx i=1
ˇ r´ı zeˇsikmen´ı rozdelen´ ˇ ı (symetricke´ ≈ 0, prav´y chvost > 0, meˇ lev´y chvost < 0) ˇ cˇ tvrt´ych mocnin ˇ catosti: ˇ koeficient spi prum ˚ er standardizovan´ych hodnot 4 n 1 X xi − x g2 = −3 n sx i=1
ˇ r´ı “ˇspiˇcatost” rozdelen´ ˇ ı (koncentrace kolem stˇredu a na meˇ ´ rozdelen´ ˇ ı < 0) chvostech > 0, “ploche” ´ ı (oveˇ ˇ ren´ı) s normaln´ ´ ım rozdelen´ ˇ ım, pro Lze pouˇz´ıt pro porovnan´ . . ktere´ g1 = g2 = 0. u naˇsich dat: g1 = 0.0159 g2 = −0.241 ,
26/152
Popisna´ statistika
´ Charakteristiky zavislosti
ˇ y Pˇr´ıklad - v´ıcerozmern´
ˇ a´ data (zaj´ıma´ nas ´ v´ıce znaku) - v´ıcerozmern ˚ ˇ ˇ a´ znamka ´ zjiˇsteno IQ, pohlav´ı, prum v pololet´ı v 7. a 8. ˚ ern ´ u˚ tˇr´ıdeˇ 62 zˇ ak ´ jak zhodnotit vztah (zavislost) mezi jednotliv´ymi znaky? vypoˇcten´ım vhodne´ statistiky (ˇc´ısla) nebo grafick´ym zobrazen´ım
,
27/152
Popisna´ statistika
´ Charakteristiky zavislosti
ˇ rena´ v´ıcerozmern ˇ a´ data Pˇr´ıklad - nameˇ
,
D´ıvka Zn7 Zn8 IQ
1 1 1 107
0 1 1 141
D´ıvka Zn7 Zn8 IQ
1 1.85 1.45 92
0 3.15 3.18 72
D´ıvka Zn7 Zn8 IQ
0 2.07 2.45 107
D´ıvka Zn7 Zn8 IQ
0 1 1 138
0 3.15 3 105
1 1.62 1.73 111
0 2.69 2.09 112
1 1.92 2.09 96
0 2.38 2.55 103
0 1 1 140
1 1.4 1.9 136
1 1.46 1.45 92
0 1.15 1.18 123
0 1 1 140
1 1.69 1.91 112
0 1.6 1.72 127
1 1.62 1.63 120
1 1.38 1.36 106
1 1.7 1.9 117
0 3.23 3.36 92
0 1.84 1.9 108
1 1.2 1.36 117
1 1.31 1.45 141
1 1.4 1.73 109
1 1.53 1.6 109
0 1.84 1.54 106
1 1 1 113
0 1.3 1.45 112
1 1.4 1.82 119
0 2.92 2.82 109
1 2.23 2.45 80
1 1.69 1.54 111
0 2.61 2.54 86
1 1.07 1 111
0 1.46 1.36 120
1 2.15 1.9 96
0 1.69 1.82 103
0 1.38 1.18 112 28/152
Popisna´ statistika
´ Charakteristiky zavislosti
ˇ a´ data - pokraˇcovan´ ´ ı v´ıcerozmern
,
D´ıvka Zn7 Zn8 IQ
1 1.46 1.54 104
1 1.6 1.63 103
1 1.07 1 125
0 1.3 1.27 101
0 2.08 1.54 132
1 2 2.09 113
0 1.69 1.91 108
1 1.4 1.45 106
1 2.23 2 97
0 1.6 1.81 121
D´ıvka Zn7 Zn8 IQ
1 1.07 1.27 134
0 3.13 3.27 84
1 1.84 1.82 108
1 1.8 1.63 84
0 1 1 129
1 1.92 1.9 116
0 2.2 2.25 107
1 1.53 1.54 112
1 1.3 1.45 128
0 1 1.18 133
D´ıvka Zn7 Zn8 IQ
0 2.85 2.91 96
0 2.61 2.81 94
29/152
Popisna´ statistika
´ Charakteristiky zavislosti
´ ˇ ı zavislosti ´ Graficke´ znarozn en´
,
80
90
100 110 120 130 140
boxplot IQ zvlášť pro obě pohlaví
70
´ z´ı na typu Zaleˇ ˇ r´ıtka meˇ ´ pro zavislost kvantit. znaku na kvalitativn´ım lze nakreslit boxplot/histogram pro kaˇzdou kategorii kvalit. znaku ´ zobrazen´ı zavislosti IQ na pohlav´ı x hoch = 112.0 x divka = 110.2
hoch
dívka 30/152
Popisna´ statistika
´ Charakteristiky zavislosti
´ ˇ ı zavislosti ´ Graficke´ znarozn en´ -2 ´ Rozptylovy´ diagram: zavislost dvou kvantitativn´ıch znaku˚
+ + + + + ++ + + + + ++ + ++ + + + + ++ + + + ++ + + + + + + + + + + +++ ++ + + + ++ + +
kladná korelace
3.0
+ chlapec + dívka
1.5
zn7
,
2.5
zn8
2.5 +
3.0
+
1.5
+
+
2.0
+
+
1.0
+
+
2.0
+
70 1.0
+
+
+
+
80
90
100
iq
120
140
záporná korelace
+ + + + + + ++ + ++ ++ + ++ + + ++ + ++ + + + + + ++ 1.0
1.5
+
+
+
+
++ + ++ + + + + + +
+
+ + 2.0
+ + +
2.5
chlapec dívka zn8=zn7 3.0
zn7
31/152
Popisna´ statistika
´ Charakteristiky zavislosti
´ Charakteristiky zavislosti ´ dva znaky na kaˇzde´ jednotce, tj. mame (x1 , y1 ), . . . , (xn , yn ) ˇ r´ı smer ˇ zavislosti, ´ ˇ ˇ ˇ r´ıtka kovariance: meˇ ovlivnena zmenou meˇ ! n n 1 X 1X sxy = (xi − x) (yi − y ) = xi yi − x · y, n n i=1
Plat´ı sxx =
i=1
Pn 1 n
i=1 (xi
− x)2 = sx2 ,
syy = sy2
ˇ r´ı ˇ ı koeficient: normovana´ kovariance, meˇ (Pearsonuv) ˚ korelacn´ ˇ i velikost zavislosti ´ smer n sxy sxy 1 X xi − x yi − y rx,y = q = = · sx sy n sx sy sx2 sy2 i=1 u naˇsich dat pro znaky IQ a zn7: −6.2876 rIQ,zn7 = = −0.6559 15.6997 · 0.6106 ,
32/152
Popisna´ statistika
´ Charakteristiky zavislosti
Korelaˇcn´ı koeficient ˇ r´ı smer ˇ a m´ıru linearn´ ´ ı zavislosti ´ meˇ nab´yva´ jen hodnot z intervalu h−1, 1i ´ ´ ´ rx,y ≈ 0 (znaky x a y vzajemn eˇ nezavisl e) ´ ´ rx,y bl´ızko 1 (kladna zavislost: s rostouc´ım x znak y v ˇ roste) prum ˚ eru ´ ´ rx,y bl´ızko −1 (zaporn a´ zavislost: s rostouc´ım x znak y v ˇ klesa) ´ prum ˚ eru U naˇsich dat lze spoˇc´ıtat pro kaˇzdou dvojici znaku˚ d´ıvka, iq, zn7, ˇ ı matice zn8: tzv. korelacn´ d´ıvka iq zn7 zn8 ,
d´ıvka 1.0000 -0.0597 -0.3054 -0.2661
iq -0.0597 1.0000 -0.6559 -0.6236
zn7 -0.3054 -0.6559 1.0000 0.9481
zn8 -0.2661 -0.6236 0.9481 1.0000 33/152
Popisna´ statistika
´ Charakteristiky zavislosti
Regresn´ı pˇr´ımka - metoda nejmenˇs´ıch cˇ tvercu˚ ´ Mame sadu dvojic (xi , yi ), i = 1, . . . , n. Chceme z dan´ych hodnot ´ ame ´ ´ ı znaku x odhadnout hodnoty znaku y . Pˇredpoklad linearn´ ´ zavislost y na x, tj. zˇ e pˇribliˇzneˇ plat´ı . y =a+b·x
Parametry a a b regresn´ı pˇr´ımky se odhadnou metodou ´ ˇ ıch ctverc ˇ nejmens´ u, ˚ tj. hledame hodnoty, pro ktere´ je v´yraz P n 2 minimaln´ ˇ sen´ım jsou: ´ (y − (a + b · x )) ı . Reˇ i i=1 i Pn Sxy (xi · yi ) − n · x · y ˆ = i=1 ˆ·x ˆ =y −b b = a Pn 2 2 Sx2 i=1 xi − n · x
,
34/152
Popisna´ statistika
´ Charakteristiky zavislosti
´ ´ ˇ ı linearn´ ´ ı zavislosti dvou Regresn´ı pˇr´ımka: znazorn en´ kvantitativn´ıch znaku˚
+ + + ++ +
+
+
+
+ +
+ +
90
+ +
+
+
+
+ + +
+ +
+
+
+ +
+ +
70
+ 1.0
1.5
140
+ 80
80
+
,
130 120
+
+ + + + + +
2.0
110
+
+
iq
+
++
++
100
110
+ +
100
iq
+ +
chlapec dívka trend trend chl. trend dív.
90
+
+ +
+
2.5
70
140
+
+ + + +
120
+ + +
130
lineární regrese
3.0 35/152
ˇ Pravdepodobnost
ˇ Teorie pravdepodobnosti ´ - se zab´yva´ tzv. nahodn ymi ´ pokusy, tj. pokusy, u nichˇz v´ysledek nen´ı pˇredem jednoznaˇcneˇ urˇcen ´ ´ mnoˇzinu vˇsech moˇzn´ych v´ysledku˚ nahodn eho pokusu oznaˇcujeme Ω ´ ´ ı jevy prvky Ω oznaˇcujeme ωi a naz´yvame elementarn´ ´ nahodn y´ jev (ozn. A, B, atpd.) - tvrzen´ı o v´ysledku ´ ´ ˇ nahodn eho pokusu, je to podmnoˇzina Ω tvoˇrena nekter´ ymi elem. jevy ´ ´ ˇ Pravdepodobnost nahodn eho jevu A (ozn. P(A)): vyjadˇruje ´ an´ ´ ı, zˇ e nastane jev A. m´ıru oˇcekav ´ poˇctu opakovan´ ´ ı tohoto nahodn ´ ´ pˇri velkem eho pokusu se relativn´ı cˇ etnost jevu A bl´ızˇ ´ı k P(A).
,
36/152
ˇ Pravdepodobnost
Klasicka´ definice
ˇ Klasicka´ pravdepodobnost
´ ´ mnoˇzina vˇsech v´ysledku˚ nahodn eho pokusu Ω je sloˇzena z ´ ´ ıch jevu˚ ω1 , . . . , ωn koneˇcneho poˇctu (n) elementarn´ ˇ ´ ıch jevu˚ je stejneˇ pravdepodobn´ ˇ kaˇzd´y z techto elementarn´ y ´ ıch jevu, oznaˇcme m(A) poˇcet elementarn´ ˚ ktere´ tvoˇr´ı jev (jsou pˇr´ıznive´ jevu) A Potom P(A) =
,
m(A) poˇcet pˇr´ızniv´ych elem. jevu˚ = n poˇcet vˇsech elem. jevu˚
37/152
ˇ Pravdepodobnost
Klasicka´ definice
Pˇr´ıklad: hod kostkou ˇ jednou hod´ıme symetrickou sˇ estistenou kostkou s cˇ ´ısly 1, 2, . . . , 6 jev A - padne sˇ estka jev B - padne liche´ cˇ ´ıslo kaˇzda´ z 6 moˇznost´ı, ktere´ mohou nastat, jsou stejneˇ ˇ pravdepodobn e´ urˇc´ıme m(A) = 1 a m(B) = 3 Proto P(A) = a P(B) =
,
m(A) 1 = n 6
m(B) 3 1 = = n 6 2 38/152
ˇ Pravdepodobnost
Klasicka´ definice
Pˇr´ıklad (permutace) ˇ ´ ´ seˇrazen´ı p´ısmen P, Jaka´ je pravdepodobnost, zˇ e pˇri nahodn em A, V, E, L vznikne slovo PAVEL? ´ n! = 1 · 2 · . . . · n je poˇcet zpusob faktorial: u, ˚ ˚ jak ´ uspoˇradat do ˇrady n ruzn´ ˚ ych prvku˚ - poˇcet permutac´ı poˇcet vˇsech moˇznost´ı seˇrazen´ı je tedy ˇ 5! = 1 · 2 · 3 · 4 · 5 = 120, kaˇzda´ stejneˇ pravdepodobn a´ z nich pˇr´ızniva´ je pouze jedna 1 proto P = 5!1 = 120 Jak by to dopadlo s p´ısmeny slova ANANAS? ˇ ´ ım (nekter zde jde o permutace s opakovan´ e´ prvky se 6! ´ an´ ´ ı je 2!·3! opakuj´ı), poˇcet moˇznost´ı pˇreuspoˇrad , z nich pˇr´ızniva´ je pouze jedna 2·6 1 proto P = 6!1 = 2!·3! = 720 = 60 6! 2!·3!
,
39/152
ˇ Pravdepodobnost
Klasicka´ definice
Pˇr´ıklad (kombinace) ´ ´ Ve tˇr´ıdeˇ je 12 hochu˚ a 16 d´ıvek. Vyberu nahodn eˇ tˇri zˇ aky. Jaka´ ˇ je pravdepodobnost, zˇ e mezi nimi bude jeden chlapec a dveˇ d´ıvky? n! ˇ ı c´ ˇ ıslo: kn = k!·(n−k)! kombinacn´ = n·(n−1)···(n−k+1) je poˇcet 1·2···k ´ ı na zpusob u, ˚ ˚ jak vybrat k-tici z n ruzn´ ˚ ych prvku˚ (nezavis´ ´ jsou vybrany) ´ poˇrad´ı, v jakem - kombinace k-te´ tˇr´ıdy z n prvku. ˚ poˇcet vˇsech moˇznost´ı, tj. trojic, ktere´ lze vybrat, je 28 28! = 3!·25! = 28·27·26 = 3276 , vˇsechny jsou stejneˇ 3 1·2·3 ˇ ´ pravdepodobn e. ´ eˇ s jedn´ım hochem poˇcet pˇr´ızniv´ ych moˇznost´ı, tj. trojic prav 16 je: 12 · = 12 · 120 = 1440: kaˇ z d´ y ze zpusob u, ˚ ˚ jak 1 2 vybrat 1 hocha z 12 lze ”zkombinovat”s kaˇzd´ym ze zpusob u, ˚ ˚ jak vybrat 2 d´ıvky z 16. . (12)·(16) proto P = 1 28 2 = 40 = 0.44 91 (3) ,
40/152
ˇ Pravdepodobnost
Klasicka´ definice
Pˇr´ıklad (variace) ´ ´ a´ z Z cˇ ´ıslic 1, 2, 3, 4, 5 nahodn eˇ sestav´ım trojciferne´ cˇ ´ıslo. Zˇ adn cˇ ´ıslic se pˇritom v cˇ ´ısle nesm´ı opakovat. Jaka´ je ˇ pravdepodobnost, zˇ e takove´ cˇ ´ıslo bude menˇs´ı neˇz 200? poˇcet vˇsech trojcifern´ych cˇ ´ısel je 5 · 4 · 3 = 60 - poˇcet ´ ı (zaleˇ ´ z´ı na poˇrad´ı, variac´ı 3-t´ı tˇr´ıdy z 5 prvku˚ bez opakovan´ ´ jsou prvky vyb´ırany), ´ ´ v jakem kaˇzde´ stejneˇ moˇzne. poˇcet pˇr´ızniv´ych moˇznost´ı, tj. cˇ ´ısel zaˇc´ınaj´ıc´ıch cˇ ´ıslic´ı 1 je: 1 · 4 · 3 = 12 proto P = 1·4·3 = 51 5·4·3 ˇ opakovat? A co, pokud by se cˇ ´ıslice v cˇ ´ısle smely poˇcet vˇsech trojcifern´ych cˇ ´ısel je 5 · 5 · 5 = 53 = 125 - poˇcet ´ z´ı na poˇrad´ı, ´ ım (zaleˇ variac´ı 3-t´ı tˇr´ıdy z 5 prvku˚ s opakovan´ ´ jsou prvky vybrany). ´ v jakem poˇcet pˇr´ızniv´ych moˇznost´ı, tj. cˇ ´ısel zaˇc´ınaj´ıc´ıch cˇ ´ıslic´ı 1 je: 1 · 5 · 5 = 25 proto P = 1·5·5 = 51 5·5·5 ,
41/152
ˇ Pravdepodobnost
Vlastnosti
Pojmy a pravidla 1 ´ jev A ⊂ Ω mus´ı platit 0 ≤ P(A) ≤ 1 pro kaˇzd´y nah. ´ e´ realizaci pokusu: ∅ - jev nemoˇzny, ´ nenastane pˇri zˇ adn P(∅) = 0 ´ a´ pˇri kaˇzde´ realizaci pokusu: P(Ω) = 1 Ω - jev jisty, ´ nastav ˇ jevu A nebo take´ jev opacn ˇ y´ k jevu A, tj. jev, A - doplnek ´ eˇ tehdy, kdyˇz nenastane jev A. Plat´ı kter´y nastane prav P(A) = 1 − P(A) A ⊂ B - jev A je podjevem B, tj. kdykoliv nastane jev A, nastane i jev B: P(A) ≤ P(B) a P(B − A) = P(B) − P(A). ´ eˇ A ∪ B - sjednocen´ı jevu˚ A a B, tj. jev, kter´y nastane prav tehdy, kdyˇz nastane alesponˇ jeden z jevu˚ A nebo B. ´ eˇ tehdy, A ∩ B - prunik ˚ jevu˚ A a B, tj. jev, kter´y nastane prav ˇ Plat´ı: kdyˇz nastanou oba jevy A a B souˇcasne. P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ,
42/152
ˇ Pravdepodobnost
Vlastnosti
Pojmy a pravidla 2 ˇ ´ jestliˇze A ∩ B = ∅, tj. jevy Jevy A a B nazveme nesluciteln e, ˇ A a B nemohou nastat souˇcasne. A1, . . . An ⊂ Ω; Ai ∩ Aj = ∅ pro kaˇzde´ i 6= j, pak n P P ∪ Ai = ni=1 P(Ai ) i=1
´ Pro libovolne´ nahodn e´ jevy A1 , A2 , · · · , An plat´ı (princip inkluze a exkluze) n P Pn−1 Pn P ∪ Ai = ni=1 P(Ai ) − i=1 j=i+1 P(Ai ∩ Aj )+ i=1
+
Pn−2 Pn−1 Pn i=1
j=i+1
n−1
- · · · (−1)
P
k=j+1
n
P(Ai ∩ Aj ∩ Ak )
∩ Ai .
i=1
ˇ ´ jevu, Rekneme zˇ e jevy A1 , . . . , An tvoˇr´ı upln ´ y´ system ˚ jestliˇze jevy A1 , . . . , An jsou nesluˇcitelne´ (tj. n
Ai ∩ Aj = ∅, i, j = 1, . . . , n, i 6= j) a plat´ı ∪ Ai = Ω. ,
i=1
43/152
ˇ Pravdepodobnost
Vlastnosti
Pˇr´ıklad 1 ˇ jevu opaˇcneho): ´ ´ (pravdep. Z cˇ ´ıslic 1, 2, 3, 4, 5 nahodn eˇ sestav´ım trojciferne´ cˇ ´ıslo (vytahuju cˇ ´ıslice postupneˇ s vracen´ım). Jaka´ je ˇ ˇ nejak ˇ a´ cˇ ´ıslice bude opakovat (jev pravdepodobnost, zˇ e se v nem A)? ˇ a´ cˇ ´ıslice se opakuje”) je sloˇzite´ spoˇc´ıtat P(A) = P(“nejak
um´ıme ale spoˇc´ıtat ´ a´ cˇ ´ıslice se neopakuje”) = P(A) = P(“ˇzadn
poˇcet pˇr´ızniv´ych 5·4·3 = poˇcet vˇsech 53
proto P(A) = 1 − P(A) = 1 −
,
12 13 = 25 25
44/152
ˇ Pravdepodobnost
Vlastnosti
Pˇr´ıklad 2 ´ (sjednocen´ı dvou ne nesluˇciteln´ych jevu): eˇ ˚ Vybereme nahodn ˇ ˇ jedno z cˇ ´ısel 1 aˇz 100. Jaka´ je pravdepodobnost, zˇ e je deliteln e´ ˇ dvema (jev A) nebo tˇremi (jev B)? Tedy P(A ∪ B) =? P(A) =
P(B) =
m(A) 50 = = 0.5 n 100 m(B) 33 = = 0.33 n 100
´ P(A ∩ B) = jevy A a B ale nejsou nesluˇcitelne: proto
16 100
= 0.16
P(A∪B) = P(A)+P(B)−P(A∩B) = 0.5+0.33−0.16 = 0.67
,
45/152
ˇ Pravdepodobnost
Vlastnosti
Pˇr´ıklad 3 (sjednocen´ı v´ıce nedisjunktn´ıch jevu, ˚ princip inkluze a exkluze): ´ rka vloˇz´ı nahodn ´ ´ Roztrˇzita´ sekretaˇ eˇ tˇri dopisy do tˇr´ı obalek. Jaka´ ˇ je pravdepodobnost, zˇ e alesponˇ jeden dopis se dostane do ´ e´ obalky? ´ spravn ´ e´ obalky. ´ Tedy Ozn. jev Ai : i-t´y dopis se dostal do spravn P(A1 ∪ A2 ∪ A3 ) =?
P(Ai ∩ Aj ) =
P(A1 ) = P(A2 ) = P(A3 ) =
2! 1 = 3! 3
1 1 = 3! 6
P(A1 ∩ A2 ∩ A3 ) =
∀i, j
i 6= j
a
1 6
P(A1 ∪ A2 ∪ A3 ) = P(A1 ) + P(A2 ) + P(A3 )−P(A1 ∩ A2 )− −P(A1 ∩ A3 ) − P(A2 ∩ A3 )+P(A1 ∩ A2 ∩ A3 ) = 1 1 1 1 1 1 1 2 = + + − − − + = 3 3 3 6 6 6 6 3 ,
46/152
ˇ Pravdepodobnost
Vlastnosti
ˇ Geometricka´ pravdepodobnost ˇ ı klasicke´ def. pravdepodobnosti ˇ zobecnen´ pro pˇr´ıpad, kdy Ω obsahuje nespoˇcetneˇ mnoho elem. jevu˚ ˇ y objem(A) n − rozmern´ P(A) = ˇ y objem(Ω) n − rozmern´ ´ ı): Dveˇ osoby A a B si smluvili schuzku Pˇr. (uloha o setkan´ na ´ ˚ ´ m´ısteˇ v neurˇcitem ´ cˇ ase mezi 12:00 a 13:00. Kaˇzd´y z nich danem ´ ´ eˇ 10 minut. je ochoten cˇ ekat na druheho maximaln ´ ame, ´ ´ Pˇredpoklad zˇ e pˇrijdou nezavisle na sobeˇ a okamˇziky ˇ pˇr´ıchodu jsou stejneˇ moˇzne´ kdykoliv behem uvedene´ hodiny. ˇ Urˇcete pravdepodobnost, zˇ e se opravdu sejdou (jev A). ´ ´ roviny velikosti 60 × 60 (v minutach) ´ Ω lze chapat jako cˇ ast ´ z obrazku patrno P(A) = ,
´ ı oblast odpov´ıdaj´ıc´ı setkan´ 3600 − 2500 11 = = 60 · 60 3600 36 47/152
ˇ Pravdepodobnost
ˇ a´ pravdepodobnost ˇ Podm´ınen
ˇ a´ pravdepodobnost ˇ Podm´ınen ´ nahodn ´ ´ zˇ e P(B) > 0. Necht’ jsou dany e´ jevy A, B takove, ´ ´ ˇ ˇ Podm´ınenou pravdepodobnost´ ı nahodn eho jevu A za ´ ´ podm´ınky nahodn eho jevu B (tj. za podm´ınky, zˇ e v´ıme, zˇ e nastal jev B) definujeme jako P(A|B) =
P(A ∩ B) P(B)
´ Omezujeme tedy v´ychoz´ı prostor Ω pouze na nahodn´ y jev ´ ˇ ´ ´ ´ ıB (mnoˇzinu) B, take z A bereme jen tu cast, ktera je souˇcast´ ˇ Pˇr: Hodili jsme kostkou. Jaka´ je pravdepodobnost, zˇ e padne cˇ ´ıslo tˇri (jev A), za podm´ınky, zˇ e padlo liche´ cˇ ´ıslo (jev B)? ˇ a protoˇze A ⊂ B: podle definice podm. pravdep. P(A|B) = ,
P(A) 1/6 1 P(A ∩ B) = = = P(B) 1/2 3 P(B) 48/152
ˇ Pravdepodobnost
ˇ a´ pravdepodobnost ˇ Podm´ınen
´ ´ Nezavislost nahodn´ ych jevu˚ ´ ˇ Nezavislost jevu: ˚ v´yskyt jednoho neovlivn´ı pravdepodobnost ´ v´yskytu druheho , neboli P(A ∩ B) = P(A|B) = P(A) P(B) a podobneˇ pro P(B|A). ˇ ıkame ´ ´ ´ ´ jestliˇze plat´ı R´ tedy, zˇ e nahodn e´ jevy A a B jsou nezavisl e, P(A ∩ B) = P(A) · P(B) ˇ ˇ Pˇr: Hod´ıme dvema kostkami. Jaka´ je pravdepodobnost, zˇ e na ´ prvn´ı padne sˇ estka (jev A) a zarove nˇ na druhe´ padne sˇ estka (jev ´ ´ B)? Jsou jevy A a B nezavisl e? ˇ (vˇsech moˇznost´ı je 36): z klasicke´ def. pravdep. 1 1 1 ? = P(A ∩ B) = = P(A) · P(B) = · 36 6 6 ´ ´ jevy jsou tedy nezavisl e. ,
49/152
ˇ Pravdepodobnost
ˇ a´ pravdepodobnost ˇ Podm´ınen
Pˇr´ıklad
´ ˇ (nezavislost): Hod´ıme dvema kostkami. ´ zˇ e alesponˇ na jedne´ kostce padne dvojka. Jev A znamena, ´ zˇ e celkov´y souˇcet je osm. Jev B znamena, ´ ´ Jsou jevy A a B nezavisl e? ˇ (vˇsech moˇznost´ı je 36): z klasicke´ def. pravdep. 0.0556 =
2 11 5 ? = P(A∩B) = 6= P(A)·P(B) = · = 0.0424 36 36 36
´ ´ jevy tedy nejsou nezavisl e.
,
50/152
ˇ Pravdepodobnost
ˇ a´ pravdepodobnost ˇ Podm´ınen
ˇ o upln ˇ Veta ´ e´ pravdepodobnosti ´ jevu, Necht’ jevy D1 , D2 , . . . , Dn tvoˇr´ı upln´ ´ y system ˚ Potom pro ´ libovoln´y nahodn´ y jev A plat´ı P(A) =
n X
P(A|Di ) · P(Di )
i=1
Dukaz: ˚ n P P(A) = P(A ∩ Ω) = P(A ∩ ∪ Di ) = ni=1 P(A ∩ Di ) = Pn P(A∩Di ) Pn i=1 i=1 P(Di ) · P(Di ) = i=1 P(A|Di ) · P(Di )
,
51/152
ˇ Pravdepodobnost
ˇ a´ pravdepodobnost ˇ Podm´ınen
Pˇr´ıklad ˇ o upln ˇ ´ ´ cky s ruzn´ (veta Mame tˇri saˇ ´ e´ pravdepodobnosti): ˚ ym ´ u. ´ cku jsou z 10 bonbon ´ u˚ 4 s napln´ ´ ı, poˇctem bonbon ˚ V prvn´ım saˇ ´ saˇ ´ cku je 1 z 8 s napln´ ´ ı a ve tˇret´ım jsou 2 ze 6 s napln´ ´ ı. v druhem ´ ´ ´ cku vybereme nahodn ´ Z jednoho (nahodn eˇ vybraneho) saˇ eˇ ´ Jaka´ je pravdepodobnost, ˇ ´ jeden bonbon. zˇ e si vytahneme ´ s napln´ ´ ı (jev A)? bonbon ´ ´ ´ cku. ozn. Di jev, zˇ e bylo vyb´ırano z i-teho saˇ P(A) = P(A|D1 ) · P(D1 ) + P(A|D2 ) · P(D2 ) + P(A|D3 ) · P(D3 ) = 4 103 · 1 + 18 · 31 + 26 · 31 = 360 = 0.286 10 3
,
52/152
ˇ Pravdepodobnost
ˇ a´ pravdepodobnost ˇ Podm´ınen
ˇ Bayesova veta ´ jevu, Necht’ jevy D1 , D2 , . . . , Dn tvoˇr´ı upln´ ´ y system ˚ Potom pro ´ libovoln´y nahodn´ y jev A takov´y, zˇ e P(A) > 0, plat´ı P(A|Di ) · P(Di ) P(Di |A) = Pn j=1 P(A|Dj ) · P(Dj ) Dukaz: ˚ P(A ∩ Di ) · P(Di ) = P(A) · P(Di ) ´ P(A|Di ) · P(Di ) P(A|Di ) · P(Di ) VUP = = Pn P(A) j=1 P(A|Dj ) · P(Dj )
P(Di |A) =
,
53/152
ˇ Pravdepodobnost
ˇ a´ pravdepodobnost ˇ Podm´ınen
Pˇr´ıklad ˇ (Bayesova veta): Sledovana´ nemoc se vyskytuje u 1% populace. K odhalen´ı nemoci lze pouˇz´ıt test, jehoˇz spolehlivost je ´ ´ test ji odhal´ı nasleduj´ ıc´ı: Jestliˇze sledovana´ osoba nemoc ma, ˇ (vyjde pozitivn´ı) s pravdepodobnost´ ı 80%. Jestliˇze je sledovana´ ´ test ji spravn ´ eˇ oznaˇc´ı za zdravou (vyjde osoba zdrava, ˇ ˇ negativn´ı) s pravdepodobnost´ ı 90%. S jakou pravdepodobnost´ ı ´ je osoba, u n´ızˇ test vyˇsel pozitivn´ı, skuteˇcneˇ nemocna? ozn. NEM jev, zˇ e testovana´ osoba je nemocna´ ozn. ZDR jev, zˇ e testovana´ osoba je zdrava´ ozn. POZ jev, zˇ e test vyjde pozitivn´ı ozn. NEG jev, zˇ e test vyjde negativn´ı P(POZ |NEM) · P(NEM) = P(POZ |NEM) · P(NEM) + P(POZ |ZDR) · P(ZDR) 0.8 · 0.01 . = = 0.075 0.8 · 0.01 + 0.1 · 0.99 BV
P(NEM|POZ ) =
,
54/152
´ Nahodn a´ veliˇcina
ˇ ı Rozdelen´
´ Nahodn a´ veliˇcina ´ pouˇzit´ı jen nahodn´ ych jevu˚ nestaˇc´ı ´ ´ cˇ asto je v´ysledkem nahodn eho pokusu cˇ ´ıslo ´ zaj´ıma´ poˇcet sˇ estek pˇri hodu deseti kostkami, napˇr. nas ´ nebo jak dlouho vydrˇz´ı sv´ıtit zˇ arovka ´ ren´ı v´ysledku nahodn ´ ´ ´ ˇ Nahodn a´ velicina: cˇ ´ıselne´ vyjadˇ eho ´ a´ funkce def. na Ω) pokusu (realn ´ ´ a´ jak´ych hodnot s jakou ˇ Rozdelen´ ı nahodn e´ veliˇciny: udav ˇ pravdepodobnost´ ı veliˇcina nab´yva´ (mnoˇzinova´ funkce: kaˇzde´ ˇ podmoˇzineˇ R pˇriˇrad´ı pravdepodobnost) ˇ rozdelen´ı lze jednoznaˇcneˇ urˇcit napˇr. pomoc´ı distribuˇcn´ı funkce ´ veliˇciny X urˇcuje pro kaˇzde´ ˇ ı funkce FX (x) nah. Distribucn´ ˇ ´ veliˇcina menˇs´ı neˇz cˇ ´ıslo x: x pravdepodobnost, zˇ e je nah. FX (x) = P(X < x) ,
x ∈R
ˇ ˇ sek kumulat. pravdepodobnost (pˇredstava: teoretick´y protejˇ ´ bodeˇ R) kumulativn´ı relativn´ı cˇ etnosti poˇc´ıtane´ v kaˇzdem
55/152
´ Nahodn a´ veliˇcina
ˇ ı Rozdelen´
ˇ ı Typy rozdelen´ Vlastnosti distribuˇcn´ı funkce FX (x): neklesaj´ıc´ı, zleva spojita´ limx→−∞ FX (x) = 0, limx→∞ FX (x) = 1 ´ X je nahodn ´ ´ ı rozdelen´ ˇ Diskretn´ ı (FX (x) “schodovita”): a´ veliˇcina ´ ım rozdelen´ ˇ ım pravdepodobnosti, ˇ s diskretn´ jestliˇze existuje ˇ seznam hodnot x1 , x2 , . . . a kladn´ych pravd epodobnost´ ı P ˇ ıc´ıch i P(X = xi ) = 1. P(X = x1 ), P(X = x2 ), . . . splnuj´ ´ nahodn ´ ˇ Spojite´ rozdelen´ ı (FX (x) spojita): a´ veliˇcina X ma´ spojite´ ˇ ı, jestliˇze existuje tzv. hustota fX (x), pro kterou plat´ı rozdelen´ Z x FX (x) = P(X < x) = fX (t) dt −∞
fX (x) = FX0 (x) pro kaˇzd´y x bod spojitosti fX (x) Rb R∞ fX (x) ≥ 0 ∀x, P(a < X < b) = a fX (x) dx, −∞ fX (x) dx = 1 ˇ sek P(X = a) = 0 pro kaˇzde´ a ∈ R (pˇredstava: teoretick´y protejˇ ´ hranice histogramu pro delku intervalu˚ jdouc´ıch k nule) ,
56/152
´ Nahodn a´ veliˇcina
ˇ ı Rozdelen´
Pˇr´ıklad 1 ´ ı rozdelen´ ˇ ı): Ze zkuˇsenosti je znamo, ´ ˇ ı v´ysledku z (diskretn´ zˇ e rozdelen´ ˇ MV2 u nahodn ´ ´ ´ pˇredmetu eˇ vybraneho studenta (X ) je nasleduj´ ıc´ı: xi P(X = xi )
1 0,05
2 0,2
3 0,4
4 0,35
´ Urˇcete P(X < 3) a distribuˇcn´ı funkci nahodn e´ veliˇciny X . FX (3) = P(X < 3) = P(X = 1) + P(X = 2) = 0,05 + 0,2 = 0,25 nutno urˇcit FX (x) = P(X < x) pro kaˇzde´ x ∈ R
FX(x) 0 0.25 0.65
1
Graf distribuční funkce X
,
0
1
2
3
4
5
57/152
´ Nahodn a´ veliˇcina
ˇ ı Rozdelen´
Pˇr´ıklad 2 ˇ ı): Tramvaj jezd´ı v pravideln´ych petiminutov´ ˇ (spojite´ rozdelen´ ych ´ ´ intervalech. Pˇredpokladejme, zˇ e cˇ as naˇseho pˇr´ıchodu na zastavku je ´ ˇ ı nahodn ´ ´ ı na nahodn´ y. Jake´ je rozdelen´ e´ veliˇciny X znaˇc´ıc´ı dobu cˇ ekan´ ˇ emu ´ ˇ ı rozdelen´ tramvaj? k rovnomern ˇ ı fX (x) staˇc´ı urˇcit distribuˇcn´ı funkci FX (x) nebo hustotu rozdelen´ pro kaˇzde´ x ∈ R zˇrejmeˇ pro x ∈ (0, 5) plat´ı FX (x) = P(X < x) = x5 , tedy fX (x) = 51 Graf hustoty X
,
0
0
fX(x)
FX(x)
1
0.2
Graf distribuční funkce X
0 1 2 3 4 5 x (min)
0 1 2 3 4 5 x (min)
58/152
´ Nahodn a´ veliˇcina
ˇ ı Rozdelen´
ˇ V´ypoˇcet pravdepodobnosti 1 ´ ı rozdelen´ ˇ ı): Urˇcete pravdepodobnost, ˇ zˇ e studentova u Pˇr. 1 (diskretn´ ´ znamka bude lepˇs´ı neˇz 4 ale ne lepˇs´ı neˇz 2: z distr. f.
P(2 ≤ X < 4) ===== P(X < 4) − P(X < 2) = FX (4) − FX (2) = 0,65 − 0,05 = 0,6 z tab. pravd.
======= P(X = 3) + P(X = 2) = 0,4 + 0,2 = 0,6
nebude lepˇs´ı neˇz 3: z distr. f.
P(X ≥ 3) ===== 1 − P(X < 3) = 1 − FX (3) = 1 − 0,25 = 0,75 z tab. pravd.
======= P(X = 3) + P(X = 4) = 0,4 + 0,35 = 0,75
bude rovna 4: z tab. pravd.
P(X = 4) ======= 0,35
,
je to v´ysˇ ka skoku distr. funkce v bodeˇ 4
59/152
´ Nahodn a´ veliˇcina
ˇ ı Rozdelen´
ˇ V´ypoˇcet pravdepodobnosti 2 u
ˇ ı): Urˇcete pravdepodobnost, ˇ (spojite´ rozdelen´ zˇ e budeme cˇ ekat ´ eˇ neˇz 4 ale v´ıce neˇz 2 minuty: men
Pˇr. 2
P(X =2)=0 4 2 2 z distr. f. P(2 < X < 4) ======= P(X < 4) − P(X < 2) ===== FX (4) − FX (2) = − = 5 5 5 Z 4 Z 4 1 2 z hustoty ====== fX (x) dx = dx = 5 2 2 5
v´ıce neˇz 4 minuty: 4 1 z distr. f. P(X > 4) ===== 1 − P(X < 4) = 1 − FX (4) = 1 − = 5 5 Z ∞ Z ∞ Z 5 1 1 z hustoty ====== fX (x) dx = dx + 0 dx = 5 4 4 5 5
pˇresneˇ 4 minuty: Z P(X = 4) = 4 ,
4
1 dx = 0 5
v´ysˇ ka skoku distr. funkce v bodeˇ 4 je rovna 0 60/152
´ Nahodn a´ veliˇcina
ˇ ı Charakteristiky rozdelen´
Stˇredn´ı hodnota ´ ´ Stˇredn´ı hodnota (oˇcekavan a´ hodnota) nahodn e´ veliˇciny X ´ hodnota, kolem ktere´ se kumuluj´ı hodnoty nahodn e´ veliˇciny X ´ ı rozdelen´ ˇ ı: vaˇ ´ zen´y prum ˇ moˇzn´ych hodnot, pro diskretn´ ˚ er ´ ˇ vahami jsou pravdepodobnosti hodnot X EX = xi · P(X = xi ) = x1 · P(X = x1 ) + x2 · P(X = x2 ) + . . . i
u : EX = 1 · 0,05 + 2 · 0,2 + 3 · 0,4 + 4 · 0,35 = 3,05 ´ ´ (stˇredn´ı, oˇcekavan a´ znamka) ˇ ı: integral ´ vˇsech moˇzn´ych hodnot x, pro spojite´ rozdelen´ ´ vahovou funkc´ı je hustota Z ∞ EX = x · fX (x) dx Pˇr. 1
−∞
R5 R∞ u Pˇr. 2 : EX = −∞ x · 0 dx + 0 x · 15 dx + 5 x · 0 dx = ´ ´ ı) (stˇredn´ı, oˇcekavan a´ doba cˇ ekan´ R0
,
5 2
61/152
´ Nahodn a´ veliˇcina
ˇ ı Charakteristiky rozdelen´
´ Stˇredn´ı hodnota funkce Y = g(X ) nahodn e´ veliˇciny X - hodnota, ´ kolem ktere´ se kumuluj´ı hodnoty nahodn e´ veliˇciny g(X ) ´ ı rozdelen´ ˇ ı: vaˇ ´ zen´y prum ˇ funkˇcn´ıch hodnot pro diskretn´ ˚ er Eg(X ) =
X
g(xi )·P(X = xi ) = g(x1 )·P(X = x1 ) +g(x2 )·P(X = x2 ) +. . .
i
ˇ ı: integral ´ vˇsech moˇzn´ych hodnot g(x), pro spojite´ rozdelen´ ´ vahovou funkc´ı je hustota Z ∞ Eg(X ) = g(x) · fX (x) dx −∞
´ ´ nezaj´ıma´ stˇredn´ı (oˇcekavan ´ ´ u Pˇr. 1 : pˇredpokladejme, zˇ e nas a) ´ ´ ´ v´ysˇ e sˇ kolneho, ´ ´ dejme tomu, je znamka, ale stˇredn´ı (oˇcekavan a) ktere, ´ ano ´ ´ vaz na znamku funkˇcn´ım pˇredpisem g(x) = 1000 · x 2 Kˇc Eg(X ) = 1000·12 ·0,05+1000·22 ·0,2+1000·32 ·0,4+1000·42 ·0,35 = 10 050 Kˇc ,
62/152
´ Nahodn a´ veliˇcina
ˇ ı Charakteristiky rozdelen´
Rozptyl ´ vel. X : var X = E(X − EX )2 - udav ´ a´ variabilitu rozdelen´ ˇ ı Rozptyl nah. ´ nahodn e´ veliˇciny X kolem jej´ı stˇredn´ı hodnoty, je to stˇredn´ı hodnota cˇ tvercu˚ odchylek moˇzn´ych hodnot od stˇredn´ı hodnoty ´ ı rozdelen´ ˇ ı: pro diskretn´ var X = E(X − EX )2 =
X
(xi − EX )2 · P(X = xi ) =
i 2
= (x1 − EX ) · P(X = x1 ) + (x2 − EX )2 · P(X = x2 ) + . . . u Pˇr. 1 : var X = 2,052 · 0,05 + 1,052 · 0,2 + 0,052 · 0,4 + 0,952 · 0,35 = 0,7475 ˇ ı: pro spojite´ rozdelen´ 2
Z
∞
var X = E(X − EX ) =
(x − EX )2 · fX (x) dx
−∞
√ ,
u Pˇr. 2 : R R5 R∞ . 0 var X = −∞ (x − 25 )2 · 0 dx + 0 (x − 52 )2 · 15 dx + 5 (x − 52 )2 · 0 dx = 2,083 ´ vel. X ˇ var X se naz´yva´ smerodatn a´ odchylka nah. 63/152
´ Nahodn a´ veliˇcina
ˇ ı Charakteristiky rozdelen´
´ ´ Nezavislost nahodn´ ych veliˇcin ´ jevu˚ lze hovoˇrit o nezavislosti ´ ´ Podobneˇ jako u nah. nahodn´ ych veliˇcin, ˇ a to tehdy, kdyˇz v´ysledky jedne´ veliˇciny neovlivn´ı pravdepodobnost ´ v´ysledku druhe. ˇ ıkame, ´ ´ veliˇciny X a Y jsou nezavisl ´ ´ jestliˇze pro kaˇzde´ R´ zˇ e nah. e, x, y ∈ R plat´ı P(X < x, Y < y ) = P(X < x) · P(Y < y ) ´ eˇ pro diskretn´ ´ ı rozdelen´ ˇ ı lze nahradit podm´ınkou, zˇ e pro specialn vˇsechna i, j plat´ı P(X = xi , Y = yj ) = P(X = xi ) · P(Y = yj )
,
64/152
´ Nahodn a´ veliˇcina
ˇ ı Charakteristiky rozdelen´
Vlastnosti stˇredn´ı hodnoty a rozptylu ´ Necht’ a, b ∈ R a X je libovolna´ nahodn a´ veliˇcina, potom 1) E(a + b · X ) = a + b · EX 2) var (a + b · X ) = b2 · var X
4) var X = EX 2 − (EX )2 5) E(X + Y ) = EX + EY
´ 6) pro nezavisl e´ X , Y : var (X + Y ) = var X + var Y ´ Dukaz: 1), 2), 4) a 5) plyne z linearity sumace resp. integralu: ˚ ˇ ı: ad 1) napˇr. pro spojite´ rozdelen´ Z ∞ lin. int. E(a + b · X ) = (a + b · x) · fX (x) dx ===== −∞ Z ∞ Z ∞ =a· fX (x) dx + b · x · fX (x) dx = a + b · EX 3) var X ≥ 0
−∞
−∞
ad 2): 1)
var (a + b · X ) = E[a + b · X − E(a + b · X )]2 = E[a + b · X − (a + b · EX )]2 = = E[b · (X − EX )]2 = b2 · var X
´ (suma) nezaporn ´ ad 3): plyne z faktu, zˇ e var X je integral e´ funkce (hodnot) , 65/152 ad 4): podobneˇ jako 1) a 2) (dom. cviˇcen´ı). ad 5) a 6): bez dukazu ˚
´ Nahodn a´ veliˇcina
ˇ ı Charakteristiky rozdelen´
ˇ ı Kvantily rozdelen´ ´ Necht’ nahodn a´ veliˇcina X ma´ distribuˇcn´ı funkci FX . Potom funkce FX−1 dana´ vztahem FX−1 (α) = inf {x ∈ R : FX (x) ≥ α}
0 < α < 1,
se naz´yva´ kvantilova´ funkce ˇ prvku, Infimum mnoˇziny A, inf A: je maximum z tech ˚ ktere´ jsou menˇs´ı nebo rovny vˇsem prvkum ˚ v A.
´ funkce FX−1 (α) ˇr´ıka´ α-kvantil (nebo 100 · α %-n´ı kvantil) Hodnotam ´ ˇ ı je to pˇr´ımo inverzn´ı funkce a plat´ı, zˇ e V pˇr´ıpadeˇ spojiteho rozdelen´ P(X < FX−1 (α)) = α α-kvantil je tedy takova´ hodnota, pod kterou je veliˇcina s ˇ pravdepodobnost´ ıα ´ eˇ FX−1 (0,5) se naz´yva´ median ˇ ı. ´ rozdelen´ specialn u
Pˇr. 1
z grafu FX
: FX−1 (0,5) = inf {x : FX (x) ≥ 0,5} ======= 3 z inv. funkce k F
X u Pˇr. 2 : FX−1 (0,5) = inf {x : FX (x) ≥ 0,5} =========== 5 · 0,5 = 2,5 ˇ ´ eˇ neˇz 2,5 minuty je 50 %-n´ı pravdepodobnost, zˇ e budu cˇ ekat men ,
66/152
´ Nahodn a´ veliˇcina
´ ı rozdelen´ ˇ ı Diskretn´
ˇ ı Alternativn´ı rozdelen´ ´ ´ a´ prav ´ eˇ jedna z odpoved´ ˇ ı a), b), c), d). Jaka´ je Pˇr´ıklad: na otazku je spravn ˇ ´ e, ˇ pokud tipujeme nahodn ´ ˇ pravdepodobnost, zˇ e odpov´ıme spravn e? ´ eˇ (resp. nespravn ´ e) ˇ Poloˇzme X = 1 (nebo 0), jestli odpov´ıme spravn P(X = 1) = 1/4,
P(X = 0) = 3/4
ˇ ı s parametrem p = 1/4 X ma´ tzv. alternativn´ı rozdelen´
ˇ jde o diskretn´ ´ ı rozdelen´ ˇ ı, take´ se naz´yva´ nula-jedniˇckove´ Obecne: ˇ X ma´ alternativn´ı rozdelen´ ı s param. p, ozn. X ∼ Alt(p), pokud P(X = 1) = p, stˇredn´ı hodnota
P(X = 0) = 1 − p,
0
EX = 1 · P(X = 1) + 0 · P(X = 0) = p
rozptyl var X = EX 2 − (EX )2 = 12 · P(X = 1) + 02 · P(X = 0) − p2 = = p − p2 = p · (1 − p) u Pˇr.: ,
EX =
1 4
var X =
1 3 3 · = 4 4 16 67/152
´ Nahodn a´ veliˇcina
´ ı rozdelen´ ˇ ı Diskretn´
Pˇr´ıklad
ˇ ı): V testu je 5 otazek, ´ (binomicke´ rozdelen´ na kaˇzdou ´ a´ prav ´ eˇ jedna z odpoved´ ˇ ı a), b), c), d). Jaka´ je je spravn ˇ ´ eˇ na 3 otazky ´ pravdepodobnost, zˇ e odpov´ıme prav ´ e, ˇ pokud tipujeme nahodn ´ ˇ spravn e? ´ ych odp. jako X ozn. poˇcet spravn´ ´ eˇ s pravdepodobnost´ ˇ na kaˇzdou odpov´ıme spravn ı p = 1/4 ˇ na jednotlive´ otazky ´ ´ odpovedi jsou nezavisl e´
ˇ zˇ e ve tˇrech dan´ych (napˇr. prvn´ıch tj. pravdep., ´ ach ´ odpov´ıme spravn ´ eˇ a v ostatn´ıch tˇrech) otazk ´ eˇ (ozn. 11100), je p3 · (1 − p)2 nespravn ´ ach: ´ mohli jsme se ale trefit i v jin´ych tˇrech otazk ´ z peti, ˇ na ktere´ poˇcet zpusob u, ˚ ˚ jak vybrat tˇri otazky ˇ ´ eˇ je 53 = 10 muˇ spravn ˚ zeme odpovedet ˇ zˇ e odpov´ıme prav ´ eˇ na 3 otazky ´ ´ eˇ Tedy pravdep., spravn 5 3 2 3 2 P(X = 3) = 3 ·p ·(1−p) = 10·(1/4) ·(3/4) = 0,088 ,
11100 11010 10110 01110 11001 10× 10101 01101 10011 01011 00111
68/152
´ Nahodn a´ veliˇcina
´ ı rozdelen´ ˇ ı Diskretn´
ˇ ı Binomicke´ rozdelen´ ´ ´ ´ Zaj´ıma´ nas ´ X cˇ etnost Opakujeme nezavisle stejn´y nahodn´ y pokus n-krat. ˇ eho ´ ´ ´ ˇ ˇ nejak nahodn eho jevu v techto n pokusech, jestliˇze je pravdepodobnost ´ rovna p. X muˇ tohoto jevu ve vˇsech pokusech stejna, ˚ ze nab´yvat pouze ˇ ı dane´ pravdepodobnostmi ˇ hodnot 0, 1, . . . , n a ma´ rozdelen´ n P(X = i) = · pi · (1 − p)n−i , i = 0, 1, . . . , n; kde 0 < p < 1 i ˇr´ıkame, ´ ˇ zˇ e X ma´ binomicke´ rozdelen´ ı s parametry n a p ´ zkracen eˇ p´ısˇ eme X ∼ Bi(n, p) ´ ´ ´ vel. ∼ Alt(p) da´ se chapat jako souˇcet n nezavisl´ ych nah. i Pn n stˇredn´ı hodnota EX = i=0 i · i · p · (1 − p)n−i = n · p rozptyl var X = EX 2 − (EX )2 =
n X i=0
u Pˇr.: ,
X ∼ Bi(5, 1/4)
i2 ·
n · pi · (1 − p)n−i − (n · p)2 = n · p · (1 − p) i
EX =
5 4
var X = 5 ·
1 4
·
3 4
=
15 16 69/152
´ Nahodn a´ veliˇcina
´ ı rozdelen´ ˇ ı Diskretn´
Pˇr´ıklad ˇ ı): Na kaˇzdou z otazek ´ ´ a´ prav ´ eˇ (geometricke´ rozdelen´ je spravn ˇ ı a), b), c), d). Postupneˇ na otazky ´ ´ jedna z odpoved´ odpov´ıdame ´ ˇ dokud na nejakou ˇ ´ eˇ a to tak, zˇ e tipujeme nahodn e, spravn ˇ neodpov´ıme. Jaka´ je pravdepodobnost, zˇ e poprve´ odpov´ıme ´ eˇ aˇz na tˇret´ı otazku? ´ ˇ sneˇ spravn (tzn. pˇred prvn´ı usp ´ eˇ ˇ ´ ´ zodpovezenou otazkou pˇresneˇ dveˇ otazky nezodpov´ıme ´ e) ˇ spravn ˇ ı pˇred prvn´ı spravnou ´ ozn. X poˇcet sˇ patn´ych odpoved´ ´ eˇ s pravdepodobnost´ ˇ na kaˇzdou odpov´ıme spravn ı p = 1/4 ˇ na jednotlive´ otazky ´ ´ odpovedi jsou nezavisl e´ ´ ach ´ a ve tˇret´ı mus´ıme se netrefit v prvn´ıch dvou otazk ˇ ´ eˇ odpovedet spravn ˇ Tedy hledana´ pravdepodobnost je . (1 − p)2 · p = (3/4)2 · (1/4) = 0,14 ,
70/152
´ Nahodn a´ veliˇcina
´ ı rozdelen´ ˇ ı Diskretn´
ˇ ı Geometricke´ rozdelen´ ´ ´ Opakujeme nezavisle stejn´y nahodn´ y pokus. Sledujeme poˇcet pokusu˚ X (v ´ dan´y jev nichˇz nenastane dan´y jev) pˇred prvn´ım pokusem, ve kterem ˇ nastane. Plat´ı pˇritom, zˇ e pravdepodobnost tohoto jevu ve vˇsech pokusech ´ rovna p. Zaj´ıma´ nas ´ tedy poˇcet “neusp ˇ sn´ych” pokusu˚ X pˇred prvn´ım stejna, ´ eˇ ˇ ˇ ı dane´ “usp X muˇ ´ echem”. ˚ ze nab´yvat pouze hodnot 0, 1, . . . a ma´ rozdelen´ ˇ pravdepodobnostmi P(X = i) = (1 − p)i · p,
i = 0, 1, . . .
kde 0 < p < 1 ˇr´ıkame, ´ ˇ zˇ e X ma´ geometricke´ rozdelen´ ı s parametrem p ´ zkracen eˇ p´ısˇ eme X ∼ Ge(p) P∞ stˇredn´ı hodnota EX = i=0 i · (1 − p)i · p =
1−p p
rozptyl 2
2
var X = EX − (EX ) =
∞ X
2
X ∼ Ge(1/4)
i · (1 − p) · p −
i=0
u Pˇr.: ,
i
EX = 3
1−p p
2 =
1−p p2
var X = 34 /( 41 )2 = 12
71/152
´ Nahodn a´ veliˇcina
´ ı rozdelen´ ˇ ı Diskretn´
Pˇr´ıklad ˇ ı): V hrnci je 30 sladk´ych knedl´ıku, (hypergeometricke´ rozdelen´ ˚ z nichˇz ´ 10 je jahodov´ych a 20 sˇ vestkov´ych. Z hrnce nahodn eˇ vybereme 6 ˇ zˇ e men ´ eˇ neˇz dva z nich budou jahodove? ´ knedl´ıku. ˚ Jaka´ je pravdep., ozn. X poˇcet jahod. knedl´ıku˚ mezi vybran´ymi ´ ´ vyb´ırame “bez vracen´ı”, tj. jednotlive´ “tahy” nejsou nezavisl e´ ´ hledame P(X < 2) = P(X = 0) + P(X = 1) P(X = 0) nebo P(X = 1) je moˇzne´ spoˇc´ıtat z klasicke´ def. pravd. 20 20 10 10 . . 0 · 6 1 · 5 = 0,065 resp. P(X = 1) = = 0,261 P(X = 0) = 30 30 6
6
ˇ hledana´ pravdepodobnost je tedy . P(X < 2) = 0,065 + 0,261 = 0,326
,
72/152
´ Nahodn a´ veliˇcina
´ ı rozdelen´ ˇ ı Diskretn´
ˇ ı Hypergeometricke´ rozdelen´ ˇ ı je moˇzne´ popsat nasleduj´ ´ Toto rozdelen´ ıc´ı situac´ı. Uvaˇzujme mnoˇzinu, ktera´ ´ ´ obsahuje N objektu, eˇ z teto ˚ z nichˇz M ma´ jistou vlastnost. Vybereme nahodn mnoˇziny n objektu. ˚ Potom X oznaˇcuje poˇcet vybran´ych objektu˚ maj´ıc´ı uvaˇzovanou vlastnost. X muˇ ˚ ze nab´yvat pouze celoˇc´ıseln´ych hodnot s ˇ pravdepodobnostmi N−M M i · n−i P(X = i) = , pro max(0, M + n − N) ≤ i ≤ min(M, n) N n
ˇr´ıkame, ´ ˇ zˇ e X ma´ hypergeometricke´ rozdelen´ ı s parametry N, M a n ´ zkracen eˇ p´ısˇ eme X ∼ Hg(N, M, n) P (M )·(N−M ) stˇredn´ı hodnota EX = i i · i N n−i = (n) n·M·(N−M) n−1 · 1 − rozptyl var X = 2 N−1 N u Pˇr.: X ∼ Hg(N = 30, M = 10, n = 6) ,
EX =
6·10 30
n·M N
=2
. var X = 1,103 73/152
´ Nahodn a´ veliˇcina
´ ı rozdelen´ ˇ ı Diskretn´
ˇ ı Poissonovo rozdelen´ ´ Necht’ X je nahodn a´ veliˇcina nab´yvaj´ıc´ı pouze hodnot i = 0, 1, 2, . . . a to s ˇ pravdepodobnostmi P(X = i) =
λi −λ e , i!
i = 0, 1, 2, . . .
kde λ > 0 je dane´ cˇ ´ıslo. ˇr´ıkame, ´ ˇ zˇ e X ma´ Poissonovo rozdelen´ ı s parametrem λ ´ zkracen eˇ p´ısˇ eme X ∼ Po(λ) stˇredn´ı hodnota a rozptyl EX = var X = λ Necht’ Yn ∼ Bi(n, p), kde n je velke´ a p male´ tak, zˇ e n · p = λ. Pak plat´ı limn→∞ P(Yn = i) = P(X = i). ˇ ı Bi(n, p) nahradit rozdelen´ ˇ ım Po(n · p) Tj. pro n velke´ a p male´ lze rozdelen´ Napˇr. pro Y ∼ Bi(20, 0,1) a X ∼ Po(20 · 0,1) = Po(2) . . je P(Y = 3) = 0.19 a P(X = 3) = 0.18 ˇ se pouˇz´ıva´ pro popis pravdepodobnosti ˇ ´ I Nejˇcasteji poˇctu udalost´ ıv ˇ em ´ cˇ asovem ´ intervalu, pokud udalosti ´ ´ ı v nahodn´ ´ nejak nastavaj´ ych ´ okamˇzic´ıch a nezavisle s intenzitou λ (poˇcet telefonn´ıch hovoru, ˚ dopravn´ıch ´ nehod, pˇ r ı chod u z akazn´ ı k u do obchodu apod.) ´ ˚ ˚ , 74/152
´ Nahodn a´ veliˇcina
´ ı rozdelen´ ˇ ı Diskretn´
Pˇr´ıklad ˇ ı): Behem ˇ (Poissonovo rozdelen´ pracovn´ıho dne do call centra pˇrijde v ˇ 30 hovoru˚ za hodinu. Jaka´ je pravdepodobnost, ˇ ˇ prum zˇ e behem ˚ eru jedne´ minuty pˇrijde v´ıce neˇz jeden hovor? ozn. X poˇcet pˇr´ıchoz´ıch hovoru˚ za 1 min. ´ X znaˇc´ı poˇcet udalost´ ı za cˇ asov´y interval, tedy X ∼ Po(λ) ´ λ nezname, ale v´ıme, zˇ e EX = λ stˇredn´ı poˇcet hovoru˚ za 1 minutu EX = λ muˇ ˚ zeme odhadnout 30 ˇc´ıslem 60 = 0,5 ´ poloˇz´ıme λ = 0,5 a spoˇc´ıtame P(X > 1) = 1 − [P(X = 0) + P(X = 1)] = 0 0,5 −0,5 0,51 −0,5 . . =1− e + e = 1 − 0,606 − 0,303 = 0,09 0! 1!
,
75/152
´ Nahodn a´ veliˇcina
ˇ ı Spojite´ rozdelen´
ˇ e´ rozdelen´ ˇ ı Rovnomern ˇ e´ rozdelen´ ˇ ı na intervalu (0, 5) V pˇr´ıkladu sˇ lo o rovnomern ´ ˇ ım s hustotou Necht’ X je nahodn a´ veliˇcina se spojit´ym rozdelen´ 1 pro a < x < b b−a fX (x) = 0 pro x ≤ a nebo x ≥ b. a distribuˇcn´ı funkc´ı FX (x) =
0
x−a b−a
1
x ≤a a<x
ˇr´ıkame, ´ ˇ e´ rozdelen´ ˇ zˇ e X ma´ rovnomern ı na intervalu (a, b) ´ zkracen eˇ p´ısˇ eme X ∼ R(a, b) stˇredn´ı hodnota a rozptyl (odvozen´ı - dom. cviˇcen´ı) (b − a)2 (a + b) , var (X ) = 2 12 ´ veliˇcina znaˇc´ıc´ı chybu pˇri zaokrouhlovan´ ´ ı Pˇr´ıklad: nah. EX =
,
76/152
´ Nahodn a´ veliˇcina
ˇ ı Spojite´ rozdelen´
´ ı rozdelen´ ˇ ı Exponencialn´ ´ ˇ ım s hustotou Necht’ X je nahodn a´ veliˇcina se spojit´ym rozdelen´ −λ·x λ·e x ≥0 fX (x) = 0 jinak, a distribuˇcn´ı funkc´ı Z
x
FX (x) =
f (t) dt =
−∞
1 − e−λ·x 0
x ≥0 x < 0.
kde λ > 0 je dane´ cˇ ´ıslo ˇr´ıkame, ´ ´ ı rozdelen´ ˇ zˇ e X ma´ exponencialn´ ı s parametrem λ ´ zkracen eˇ p´ısˇ eme X ∼ Exp(λ) R∞ R∞ p. p. stˇredn´ı hodnota EX = −∞ x · fX (x) dx = 0 x · λ · e−λ·x dx === λ1 2 2× p. p. R∞ rozptyl var X = EX 2 − (EX )2 = 0 x 2 · λ · e−λ·x dx − λ1 ===== λ12 ´ ´ ˇ ı. Pouˇz´ıva´ se I lze chapat jako limitn´ı (spojit´y) pˇr´ıpad geometrickeho rozdelen´ ´ ı na udalost ´ ´ ´ pro popis doby cˇ ekan´ nebo doby mezi udalostmi, jestliˇze udalosti ´ ı v nahodn´ ´ ´ nastavaj´ ych okamˇzic´ıch a nezavisle (doba do pˇr´ıchodu tel. hovoru, ´ pˇ r´ıchodu zakazn´ ıka, doba do poruchy apod.) , 77/152
´ Nahodn a´ veliˇcina
ˇ ı Spojite´ rozdelen´
Pˇr´ıklad ˇ ´ ı rozdelen´ ˇ ı): Zivotnost ˇ 14 let a da´ se (exponencialn´ v´yrobku je v prum ˚ eru ´ ım rozdelen´ ˇ ım. Urˇcete modelovat exponencialn´ ˇ zˇ e se pokaz´ı v prvn´ım roce po skonˇcen´ı dvoulete´ zaruky ´ a) pravdep., ´ ı zaruˇ ´ cn´ı dobu muˇ b) jakou maximaln´ ˚ ze prodejce stanovit tak, aby se ˇ behem n´ı nepokazilo v´ıce jak 20% v´yrobku˚ ozn. X jako zˇ ivotnost v´yrobku, X ∼ Exp(λ) ´ λ nezname, ale v´ıme, zˇ e EX = 1/λ stˇredn´ı zˇ ivotnost EX = 1/λ muˇ ˚ zeme odhadnout cˇ ´ıslem 14 poloˇz´ıme tedy λ =
1 14
´ a spoˇc´ıtame Z
3
Z
3
x 2 3 1 · e− 14 dx = e− 14 − e− 14 14 2 2 3 2 . nebo = P(X < 3) − P(X < 2) = FX (3) − FX (2) = 1 − e− 14 − 1 − e− 14 = 0,06
a)
P (X ∈ (2, 3)) =
fX (x) dx =
´ ´ dobu z tak, aby P(X < z) = 0,2 b) hledame zar. ˇ ı Exp(λ)) tedy z = FX−1 (0,2) (20%-n´ı kvantil rozdelen´ −1 −1 FX (u) se urˇc´ı inverzn´ı k FX (x): FX (u) = − λ1 · ln(1 − u) . . ´ cn´ı doba je z = −14 · ln(0,8) = 3,12 = 3 roky a 1,5 mes´ ˇ ıce hledan a´ zaruˇ ,
78/152
´ Nahodn a´ veliˇcina
ˇ ı Spojite´ rozdelen´
´ ı (Gaussovo) rozdelen´ ˇ ı Normaln´ ´ ˇ ım s hustotou Necht’ X je nahodn a´ veliˇcina se spojit´ym rozdelen´ 1 (x − µ)2 1 exp − , pro x ∈ R. fX (x) = √ 2 σ2 2πσ ˇ ı. kde µ = EX a σ 2 = var X jsou parametry rozdelen´ ˇr´ıkame, ´ ´ ı rozdelen´ ˇ zˇ e X ma´ normaln´ ı se stˇr. hod. µ a 2 rozptylem σ ´ zkracen eˇ p´ısˇ eme X ∼ N(µ, σ 2 ) Rx pro distribuˇcn´ı funkc´ı FX (x) = −∞ f (t) dt neexistuje ´ ren´ı explicitn´ı vyjadˇ ´ pro N(0, 1) jsou hodnoty pˇresneˇ tabelovany ˇ s´ı spojite´ rozdelen´ ˇ ı nejduleˇ ˚ zitejˇ ˇ u˚ I Vznik: souˇctem mnoha nepatrn´ych pˇr´ıspevk ,
79/152
´ Nahodn a´ veliˇcina
ˇ ı Spojite´ rozdelen´
´ ıho rozdelen´ ˇ ı N(µ, σ 2 ) Grafy hustot normaln´
0.8
I symetricke´ kolem stˇredn´ı hodnoty
0.0
0.2
0.4
0.6
N(0,1)N(0,1) N(1,1) N(-2,1) N(0,4) N(0,0.25)
,
-4
-2
0
2
4
80/152
´ Nahodn a´ veliˇcina
ˇ ı Spojite´ rozdelen´
´ ı rozdelen´ ˇ ı Z ∼ N(0, 1) Normovane´ normaln´
0.4
I distrib. funkce N(0, 1) znaˇc´ıme Φ(z) = P(Z < z) z tabulek I napˇr. Φ(1,38) = P(Z < 1,38) ====== 0,916
0.2
0.3
F(z) = P(Z < z)
0.0
0.1
hustota N(0,1)
-3 ,
-2
-1
0
1 z
2
3 81/152
´ Nahodn a´ veliˇcina
ˇ ı Spojite´ rozdelen´
´ ı rozdelen´ ˇ ı Z ∼ N(0, 1) Normovane´ normaln´
F(- z) = P(Z < - z) 1 - P(Z < z)
0.0
0.1
0.2
0.3
0.4
I ze symetrie N(0, 1) plyne: Φ(−z) = 1 − Φ(z) I napˇr. P(Z < −1,38) = Φ(−1,38) = 1 − Φ(1,38) =z=tab. == 1 − 0,916 = 0,084
-3 ,
-2
-z
0
1
z
2
3 82/152
´ Nahodn a´ veliˇcina
ˇ ı Spojite´ rozdelen´
´ ı rozdelen´ ˇ ı Z ∼ N(0, 1) Normovane´ normaln´
0.2
0.3
0.4
I P(a < Z < b) = P(Z < b) − P(Z < a) = Φ(b) − Φ(a) z tab. I napˇr. P(−1 < Z < 2) = Φ(2) − Φ(−1) ==== 0,977 − 0,158 = 0,819
0.0
0.1
P( a < Z < b)
-3
,
-2
a
0
1
b
3
83/152
´ Nahodn a´ veliˇcina
ˇ ı Spojite´ rozdelen´
´ ı rozdelen´ ˇ ı Z ∼ N(µ, σ 2 ) Obecne´ normaln´ pro X ∼ N(µ, σ 2 ) plat´ı, zˇ e ozn.
Z === P(X < x) = P( X −µ < σ proto
X −µ ∼ N(0, 1) σ
x−µ ) σ
=Φ
P(a < X < b) = Φ
x−µ σ
b−µ σ
−Φ
a−µ σ
Pˇr.: V´ysˇ ka chlapcu˚ v sˇ este´ tˇr´ıdeˇ X ∼ N(µ σ 2 =49): = 143, . 150−143 130−143 urˇceme P(130 < X < 150) = Φ −Φ = 0,81 7 7 tedy mezi chlapci v sˇ este´ tˇr´ıdeˇ je pˇribliˇzneˇ 81% vysok´ych 130 aˇz 150 cm. ,
84/152
´ Nahodn a´ veliˇcina
ˇ ı Spojite´ rozdelen´
ˇ Pˇr.: Jake´ v´ysˇ ky dosahuje jen 5% chlapcu˚ v sˇ este´ tˇr´ıde? 2 ˇ ı N(µ = 143, σ = 49) . . . 95%-n´ı kvantil rozdelen´
,
85/152
´ Nahodn a´ veliˇcina
ˇ ı Spojite´ rozdelen´
´ ´ ıho rozdelen´ ˇ ı1 Kvantily normovaneho normaln´
0.2
0.3
0.4
´ vel. Z ∼ N(0, 1) znaˇc´ıme Φ−1 (α) I kvantilovou funkci nah. −1 I plat´ı P(Z < Φ (α)) = Φ(Φ−1 (α)) = α ´ Φ(x) inverzn´ım postupem I lze naj´ıt v tabulkach ´ Φ−1 (0,95) = 1,65 a Φ−1 (0,975) = 1,96 I cˇ asto pouˇz´ıvane:
0.0
0.1
0.95
-3 ,
-2
-1
0
F-1(0.95) = 1.65
3 86/152
´ Nahodn a´ veliˇcina
ˇ ı Spojite´ rozdelen´
´ ´ ıho rozdelen´ ˇ ı2 Kvantily normovaneho normaln´ ´ cˇ asto jen kvantily pro α ≥ 0,5 I v tabulkach ˇ ı): I pro α < 0,5 lze vyuˇz´ıt vztahu (plyne ze symetrie rozdelen´ Φ−1 (α) = −Φ−1 (1 − α)
0.1
0.2
0.3
0.4
I napˇr: 5%-n´ı kvantil N(0, 1) je Φ−1 (0,05) = −Φ−1 (0,95) = −1,65
0.0
0.05 -3
,
F-1(0.05) = - 1.65
0
F-1(0.95) = 1.65
3 87/152
´ Nahodn a´ veliˇcina
ˇ ı Spojite´ rozdelen´
´ ´ ıho rozdelen´ ˇ ı Kvantily obecneho normaln´ ozn.
pro X ∼ N(µ, σ 2 ) plat´ı, zˇ e Z === X −µ ∼ N(0, 1) σ ´ vel X je takova´ hodnota h, pro kterou plat´ı α-kvantil nah. h−µ P(X < h) = α Φ =α σ X −µ h−µ h−µ P < =α = Φ−1 (α) σ σ σ h−µ P Z < =α h = σ · Φ−1 (α) + µ σ ˇ ı N(µ = 143, σ 2 = 49) Pˇr.: Urˇceme 95%-n´ı kvantil rozdelen´ −1 je roven σ · Φ (0,95) + µ = 7 · 1,65 + 143 = 154,5 ˇ r´ı v´ıce neˇz 154,5 cm. tedy jen 5% chlapcu˚ v sˇ este´ tˇr´ıdeˇ meˇ ,
88/152
´ Nahodn a´ veliˇcina
´ ı limitn´ı veta ˇ Centraln´
´ ˇ Nahodn´ y v´yber ´ ´ ˇ je n-tice X1 , X2 , . . . , Xn nahodn´ Nahodn y´ vyb ´ er ych veliˇcin, ktere´ ´ ˇ ı. jsou nezavisl e´ a maj´ı stejne´ rozdelen´ ´ I Pˇr. 1: V´ysˇ ka chlapcu˚ sˇ est´ych tˇr´ıd, velka´ populace, nahodn eˇ ˇ r´ıme v´ysˇ ku Xi vybereme n chlapcu˚ u nichˇz zmeˇ ˇ ren´ı pevnosti tkaniny, zmeˇ ˇ r´ıme pevnost na n I Pˇr. 2: Meˇ ´ nahodn eˇ vybran´ych vzorc´ıch ˇ poˇcet veliˇcin n oznaˇcujeme pojmem rozsah vyb ´ eru 2 ´ ˇ ı (stˇr. hodnotu µ, rozptyl σ , atd.) nah. parametry rozdelen´ ´ veliˇcin Xi cˇ asto nezname ´ ´ ˇ lze tyto nezname ´ ˇ ı z nahodn eho v´yberu parametry rozdelen´ odhadnout P ˇ ˇ X = n1 ni=1 Xi je (bodov´ym) odhadem vyb ´ erov y´ prum ˚ er stˇredn´ı hodnoty (v´ysˇ ky, pevnosti) Pn 1 2 ˇ vyb ´ erov y´ rozptyl S 2 = n−1 ym) i=1 (Xi − X ) je (bodov´ ˇ ı odhadem rozptylu rozdelen´ ´ X a S 2 jsou take´ nahodn e´ veliˇciny ,
89/152
´ Nahodn a´ veliˇcina
´ ı limitn´ı veta ˇ Centraln´
ˇ eho ´ ˇ Vlastnosti v´yberov prum ˚ eru ´ ˇ z rozdelen´ ˇ ı se stˇredn´ı Necht’ X1 , X2 , . . . , Xn je nahodn´ y v´yber hodnotou µ a rozptylem σ 2 . Potom 1) EX = µ (X je nestrann´y odhad µ) σ2 2) var (X ) = n Dukaz: ˚ ad 1) Z vlastnost´ı stˇr. hodnoty (body 1) a 5)) plyne: ! n n n 1X 1X 1X EX = E Xi = EXi = µ=µ n n n i=1
ad 2) Z
vlastnost´ı roptylu
var (X ) = var
i=1
i=1
(body 2) a 6)) plyne: ! n n n 1X 1 X 1 X 2 σ2 Xi = 2 var Xi = 2 σ = n n n n i=1
i=1
i=1
´ Poznamka: P P z dukazu plyne, zˇ e E( ni=1 Xi ) = n · µ a var ( ni=1 Xi ) = n · σ 2 ˚ ´ ˇ rozptylu, tj. ES 2 = σ 2 podobneˇ lze dokazat nestrannost v´yber. ,
90/152
´ Nahodn a´ veliˇcina
´ ı limitn´ı veta ˇ Centraln´
ˇ u˚ Histogramy prum ˚ er ´ zˇ ivotnost vyrab ´ en´ ˇ ych zaˇ ´ rivek, nahodn ´ ´ rivek, Pˇr.: Zaj´ıma´ nas eˇ vybereme n zaˇ ´ ˇ ˇ u˚ otestujeme je a spoˇc´ıtame jejich prum zˇ ivotnost. Takov´ych prum ˚ ernou ˚ er ´ ´ spoˇc´ıtame 1 000 a nakresl´ıme jejich histogram. (Data vygenerovana z Exp(λ = 1)) ´ ˇ a zlepˇsuje se I z obrazku patrno, zˇ e s rostouc´ım n klesa´ variabilita prum ˚ eru normalita (viz. CLV) n=2
0
0
100
100
200
200
300
300
n=1
0
1
2
3
4
5
6
7
1
2
3
5
6
4
5
6
7
0
50
50
150
150
250
250
4
n = 50
0 ,
0
n = 10
0
1
2
3
4
5
6
7
0
1
2
3
91/152
7
´ Nahodn a´ veliˇcina
´ ı limitn´ı veta ˇ Centraln´
´ ı limitn´ı veta ˇ Centraln´ ´ ˇ z rozdelen´ ˇ ı se stˇredn´ı Necht’ X1 , X2 , . . . , Xn je nahodn´ y v´yber hodnotou µ a koneˇcn´ym rozptylem σ 2 . Potom v limiteˇ pro n → ∞ 2 ˇ y prum ˇ X normaln´ ´ ı rozdelen´ ˇ ı N(µ, σn ) 1) ma´ v´yberov´ ˚ er P ´ ı rozdelen´ ˇ ı N(n · µ, n · σ 2 ) 2) ma´ suma ni=1 Xi normaln´ ´ pro dostateˇcneˇ velke´ n tedy lze psat Pn Xi − n · µ · X −µ √ · n = i=1√ ∼ N(0, 1) Z = σ n·σ a proto
P(X < y) = P
P ,
n X i=1
X −µ √ y −µ √ · n< · n σ σ
! Xi < y
Pn =P
!
−n·µ y −n·µ < √ n·σ n·σ
X i=1 √ i
y −µ √ · n σ
. =Φ
. =Φ
y −n·µ √ n·σ 92/152
´ Nahodn a´ veliˇcina
´ ı limitn´ı veta ˇ Centraln´
Pˇr. (CLV): Bylo seˇcteno 300 cˇ ´ısel zaokrouhlen´ych na jedno ˇ desetinne´ cˇ ´ıslo. Urˇcete pravdepodobnost, zˇ e chyba souˇctu ´ ˇ menˇs´ı neˇz 1. vznikla zaokrouhlen´ım je (v absolutn´ı hodnote) ´ Zaokrouhlovac´ı chyba jednoho sˇc´ıtance nepˇresahne 0,05; chyba souˇctu tedy bude urˇciteˇ menˇs´ı neˇz 300 · 0,05 = 15. ´ ´ Zaokrouhlen´ı Xi (i = 1, . . . , 300) lze povaˇzovat za nezavisl e´ nah. ˇ ym rozdelen´ ˇ ım na intervalu (−0,05; 0,05). vel. s rovnomern´ 2 −0,05+0,05 1 Tedy EXi = = 0 a var Xi = (0,05+0,05) = 1200 2P 12 n ´ ı rozd. Chyba souˇctu Y = i=1 Xi ma´ tedy pˇribliˇzneˇ normaln´ 300 ˇ = 14 ) a muˇ N(0, 1200 ˚ zeme spoˇc´ıtat hledanou pravdepodobnost P(|Y | < 1) = P(−1 < Y < 1) = P(Y < 1) − P(Y < −1) = ! ! Y 1 Y −1 =P p
93/152
´ Nahodn a´ veliˇcina
´ ı limitn´ı veta ˇ Centraln´
ˇ Moivreova-Laplaceova veta ´ ˇ ım Bi(n, p). Necht’ Y je nahodn a´ vel. s binomick´ym rozdelen´ ´ ı rozdelen´ ˇ ı Potom v limiteˇ pro n → ∞ ma´ Y normaln´ N(n · p, n · p · (1 − p)) Dukaz: ˚ ´ ˇ ım Bi(n, p) lze chapat ´ nahodnou vel. s binom. rozdelen´ jako ´ ´ souˇcet n nezavisl´ ych nahodn´ ych vel. s alternativn´ım ˇ ım Alt(p) rozdelen´ ´ ı Tedy (podle CLV pro souˇcet) ma´ Y pro n → ∞ normaln´ ˇ ı se stˇredn´ı hodnotou EY = n · p a rozptylem rozdelen´ var Y = n · p · (1 − p)
,
94/152
´ Nahodn a´ veliˇcina
´ ı limitn´ı veta ˇ Centraln´
ˇ Pˇr. (Moivreova-Laplaceova veta): V´ıme, zˇ e v populaci je 52% ´ u˚ trestu smrti. Jaka´ je pravdepodobnost, ˇ zastanc zˇ e pruzkum ˚ ´ ˇ ´ ´ veˇrejneho m´ınen´ı o rozsahu n = 1 000 ukaˇze nespravneˇ pˇrevahu odpurc ˚ u˚ tohoto trestu? ´ u˚ trestu smrti ve v´yberu ˇ oznaˇcme Y poˇcet zastanc ´ nahodn ´ ˇ pak pokud byli respondenti vyb´ırani e, Y ∼ Bi(n = 1 000, p = 0,52) ˇ ma´ Y pˇribliˇzneˇ normaln´ ´ ı rozd. podle M-L vety N(1 000 · 0,52 = 520, 1 000 · 0,52 · 0,48 = 249,6) ´ ze pˇrevahu odpurc ´ u˚ ve pruzkum ukaˇ ˚ ˚ u, ˚ pokud poˇcet zastanc ˇ bude menˇs´ı neˇz 500, tedy hledana´ pravdepodobnost ˇ v´yberu je
Y − 520 500 − 520 500 − 520 √ √ √ P(Y < 500) = P < =Φ = 249,6 249,6 249,6 = Φ(−1,27) = 1 − Φ(1,27) = 1 − 0,898 = 0,102 ,
95/152
Matematicka´ statistika
ˇ Pˇr.: Cesk a´ obchodn´ı inspekce chce zkontrolovat v´yrobce coly, zda ´ neˇsid´ı zakazn´ ıky. Chce proto odhadnout stˇredn´ı mnoˇzstv´ı coly v ´ eˇ dvoulitrove´ lahvi a zkontrolovat tak, zda je pln´ıc´ı automat spravn ´ ´ nastaven. Nahodn eˇ bylo za t´ımto uˇ 100 lahv´ı a byl ´ celem vybrano ´ pln´ıc´ım ˇ jejich prum ˇ y obsah X = 1,982 litru. zjiˇsten ˚ O danem ˚ ern´ ´ ˇ ˇ eho ´ automatu je nav´ıc znamo, zˇ e smerodatn a´ odchylka mnoˇzstv´ı plnen 2 do dvoulitrov´ych lahv´ı je σ = 0,05 litru˚ (tedy rozptyl σ = 0,0025 litru˚ 2 ) ´ ´ eˇ a mnoˇzstv´ı napoje v jedne´ lahvi se da´ povaˇzovat za normaln 2 ˇ ´ rozdelenou nahodnou veliˇcinu N(µ, σ = 0,0025). Potvrzuj´ı data ˇ domnenku, zˇ e je automat sˇ patneˇ nastaven a v´yrobce tak sˇ id´ı spotˇrebitele? X = 1,982 se da´ povaˇzovat za bodov´y odhad stˇredn´ıho mnoˇzstv´ı ´ nahodn ´ ´ v´yberu ˇ lahv´ı vyjde jin´y odhad v lahvi µ. Pˇri kaˇzdem em ’ ˇ Co ted ? (prum ˚ er). ˇ y interval (...intervalov´y odhad), o kterem ´ Nelze naj´ıt napˇr. nejak´ ´ ˇr´ıct, zˇ e pokr´yva´ neznam ´ e´ stˇredn´ı mnoˇzstv´ı µ s bychom dokazali ˇ velkou pravdepodobnost´ ı? ˇ rit domnenku ˇ ´ ı hypotez), ´ Jak oveˇ (...testovan´ zˇ e v´yrobce sˇ patn´ym ˇ ´ nastaven´ım automatu sid´ı zakazn´ıky? ,
96/152
Matematicka´ statistika
Matematicka´ statistika ´ ´ ˇ z nejak ˇ eho ´ Pˇredpokladejme, zˇ e X1 , X2 , . . . , Xn je nahodn´ y v´yber ˇ ı vetˇ ˇ sinou s neznam´ ´ ymi parametry rozdelen´ ˇ sinou pˇredpoklad ´ ame, ´ ´ v´yber ˇ pochaz´ ´ ı z pevneˇ daneho ´ Vetˇ zˇ e nah. ˇ ı (nejˇcasteji ˇ normaln´ ´ ıho) a snaˇz´ıme se odhadnout neznam ´ e´ rozdelen´ ˇ ı nebo oveˇ ˇ rit (testovat) hypotezy ´ o techto ˇ parametry tohoto rozdelen´ parametrech (u norm. rozd. pujde o stˇredn´ı hodnotou µ a rozptyl σ 2 ) ˚ ´ eho ´ bodovy´ odhad neznam parametru je jedna hodnota, kterou ´ ´ ´ ´ ˇ spoˇc´ıtame z hodnot realizovaneho nahodn eho v´yberu, napˇr. X je bodov´ym odhadem µ ´ eho ´ intervalovy´ odhad neznam parametru (take´ interval ´ ı na nahodn ´ ´ spolehlivosti) je interval (jehoˇz hranice take´ zavis´ em ˇ ´ eho ´ v´yberu), kter´y pokr´yva´ hodnotu neznam parametru s ˇ pˇredepsanou pravdepodobnost´ ı ˇ ´ ı hypotez ´ se snaˇz´ıme rozhodnout mezi dvema v testovan´ ´ ´ parametru odporuj´ıc´ımi si tvrzen´ımi (hypotezami) o danem ˇ ı, napˇr. zda je automat na plnen´ ˇ ı lahv´ı spravn ´ eˇ nastaven rozdelen´ (µ = 2 litry) nebo nen´ı (µ 6= 2 litry) ,
97/152
Matematicka´ statistika
Intervaly spolehlivosti
´ Interval spol. pro µ, kdyˇz σ 2 zname, u N(µ, σ 2 ) ´ ˇ X1 , X2 , . . . , Xn z rozdelen´ ˇ ı N(µ, σ 2 ) plat´ı Pro nahodn´ y v´yber σ2 X ∼ N µ, n proto X −µ √ · n ∼ N(0, 1) σ a tedy plat´ı, zˇ e ! √ X − µ P −Φ−1 (1 − α/2) < · n < Φ−1 (1 − α/2) = 1 − α σ ´ e´ σ 2 je tedy 100(1 − α)%-n´ı interval spolehlivosti pro µ a znam σ σ X − Φ−1 (1 − α/2) · √ ; X + Φ−1 (1 − α/2) · √ n n ´ ´ tento interval (je nahodn´ y) pokr´yva´ neznamou stˇredn´ı hodnotu µ s ˇ pravdepodobnost´ ı1−α ´ e´ µ I jen zhruba 100(1 − α)% takov´ych intervalu˚ obsahuje neznam ,
98/152
Matematicka´ statistika
Intervaly spolehlivosti
´ ´ ˇ jejich ˇ k Pˇr. : Nahodn eˇ vybrano 100 lahv´ı coly a byl zjiˇsten zpet ˇ rene´ hodnoty povaˇzujeme za ˇ y obsah X = 1,982 litru. prum ˚ Nameˇ ˚ ern´ ´ ´ v´yberu ˇ z rozdelen´ ˇ ı N(µ, σ 2 = 0,0025). Spoˇc´ıtejme realizaci nahodn eho 95%-n´ı interval spolehlivosti pro stˇredn´ı mnoˇzstv´ı coly v jedne´ lahvi µ. 100(1 − α)%-n´ı int. spol. je X − Φ−1 (1 − α/2) · √σn ; X + Φ−1 (1 − α/2) ·
√σ n
pro 95%-n´ı int. spol. poloˇz´ıme α = 0,05 a najdeme tedy Φ−1 (1 − 0,05/2) = Φ−1 (0,975) = 1,96 dosad´ıme za X = 1,982, σ = 0,05 a n = 100: 0,05 0,05 . 1,982 − 1,96 · √ ; 1,982 + 1,96 · √ = 100 100 . = (1,982 − 0,010; 1,982 + 0,010) = = (1,972; 1,992) ˇ ´ S pravdepodobnost´ ı 95% tento interval obsahuje neznamou stˇredn´ı hodnotu µ, ale neobsahuje hodnotu 2. Lze tedy s velkou jistotou tvrdit, ´ eˇ nastaven. zˇ e automat nen´ı spravn ,
99/152
Matematicka´ statistika
Intervaly spolehlivosti
´ ´ ´ Pˇr.: Z populace jedenactilet´ ych chlapcu˚ bylo nahodn eˇ vybrano 16 a ˇ byla zjistena jejich hmotnost (v kilogramech): 33,1 38,2
36,7 39,5
34,5 28,9
30,5 36,3
35,9 35,5
36,5 35,8
40,5 45,8
37,9 43,4
ˇ ren´ı budeme povaˇzovat za realizaci nah. ´ v´yberu ˇ z rozdelen´ ˇ ı Meˇ N(µ, σ 2 ). Chceme 95%-n´ı interval spolehlivosti pro stˇredn´ı hmotnost ´ jedenactilet´ ych chlapcu. ˚ ´ ´ Problem: nelze pouˇz´ıt pˇredchoz´ı postup, protoˇze nezname ˇ ˇ ren´ı σ. smerodatnou odchylku meˇ
,
100/152
Matematicka´ statistika
Intervaly spolehlivosti
´ Interval spol. pro µ, kdyˇz σ 2 nezname, u N(µ, σ 2 ) ´ e´ σ nahrad´ıme odhadem, tzv. vyb ˇ ˇ neznam ´ erovou smerodatnou odchylkou v u n p u 1 X t 2 (Xi − X )2 S= S = n−1 i=1
´ e´ σ 2 pro v´yber ˇ z 100(1 − α)%-n´ı interval spolehlivosti pro µ a neznam ´ ıho rozdelen´ ˇ ı je normaln´ S S X − tn−1 (1 − α/2) · √ ; X + tn−1 (1 − α/2) · √ n n ˇ s´ı nahrazen´ı kvantilu Φ−1 (1 − α/2) kvantilem tn−1 (1 − α/2) (je vetˇ ´ → sˇ irˇs´ı interval) je dan´ı za to, zˇ e neznamou hodnotu σ nahrazujeme jej´ım odhadem S. ˇ ı o n stupn´ıch tn (α) oznaˇcuje α-kvantil tzv. (Studentova) t-rozdelen´ ´ volnosti; najdeme ho v tabulkach interpretace je stejna´ jako u pˇredchoz´ıho intervalu ,
101/152
Matematicka´ statistika
Intervaly spolehlivosti
ˇ ren´ych hodnot chceme spoˇc´ıtat 95%-n´ı interval ˇ k Pˇr. : Z 16 nameˇ zpet spolehlivosti pro stˇredn´ı hmotnost. ´ spoˇc´ıtame X = 36,8125 , S = 4,2711 a poloˇz´ıme n = 16 pro 95%-n´ı int. spol. poloˇz´ıme α = 0,05 a najdeme . t15 (1 − 0,05/2) = t15 (0,975) = 2,13 ˇ Tedy s 95%-n´ı pravdepodobnost´ ı je stˇredn´ı hmotnost pokryta intervalem: S S . = X − tn−1 (1 − α/2) · √ ; X + tn−1 (1 − α/2) · √ n n 4,2711 4,2711 . . = 36,8125 − 2,13 · √ ; 36,8125 + 2,13 · √ = 16 16 . . = (36,8125 − 2,274; 36,8125 + 2,274) = . = (34,54; 39,09) pro 99%-n´ı int. spol. je α = 0,01 a t15 (1 − 0,01/2) = t15 (0,995) = 2,95 tedy 99%-n´ı interval spolehlivosti pro µ je (33,66; 39,96) Jak spoˇc´ıtat interval spolehlivosti pro rozptyl (variabilitu hmotnost´ı) σ 2 ? ,
102/152
Matematicka´ statistika
Intervaly spolehlivosti
Interval spol. pro σ 2 u N(µ, σ 2 ) ´ ´ v´yber ˇ z rozdelen´ ˇ ı N(µ, σ 2 ). Pˇredpokladejme, zˇ e X1 , X2 , . . . , Xn je nah. ´ lze dokazat, zˇ e plat´ı (n − 1) · S 2 2 2 P χn−1 (α/2) < < χn−1 (1 − α/2)) = 1 − α σ2 ˇ ı [ˇcti: ch´ı-kvadrat] ´ on kde χ2n (α) oznaˇcuje α-kvantil tzv. χ2 -rozdelen´ ´ stupn´ıch volnosti; najdeme ho v tabulkach ˇ z normaln´ ´ ıho 100(1 − α)%-n´ı interval spolehlivosti pro σ 2 pro v´yber ˇ ı je rozdelen´ ! (n − 1) · S 2 (n − 1) · S 2 ; χ2n−1 (1 − α/2) χ2n−1 (α/2) interpretace je podobna´ jako u pˇredchoz´ıch intervalu˚ ,
103/152
Matematicka´ statistika
Intervaly spolehlivosti
ˇ ren´ych hodnot chceme spoˇc´ıtat 95%-n´ı interval ˇ k Pˇr. : Z 16 nameˇ zpet spolehlivosti pro rozptyl hmotnost´ı. ´ spoˇc´ıtali jsme X = 36,8125 , S 2 = 4,27112 a mame n = 16 pro 95%-n´ı int. spol. poloˇz´ıme α = 0,05 a najdeme χ215 (1 − 0,05/2) = χ215 (0,975) = 27,49 a χ215 (0,05/2) = χ215 (0,025) = 6,26 ˇ ´ Tedy s 95%-n´ı pravdepodobnost´ ı je rozptyl hmotnost´ı jedenactilet´ ych chlapcu˚ pokryt intervalem: ! (n − 1) · S 2 (n − 1) · S 2 . ; = χ2n−1 (1 − α/2) χ2n−1 (α/2) . 15 · 4,27112 15 · 4,27112 . = ; = 27,49 6,26 . = (9,95; 43,71)
,
104/152
Matematicka´ statistika
Intervaly spolehlivosti
´ ˇ b´yt podle normy jeho Pˇr.: U stroje na v´yrobu souˇcastek by mela ˇ chybovost (tj. pravdepodobnost, zˇ e vyrob´ı zmetek) nejv´ysˇ e 10%. Pˇri ´ ´ ´ ˇ kontrole nahodn eho vzorku 400 souˇcastek bylo mezi nimi zjisteno 42 zmetku. ˚ Jak urˇcit 95%-n´ı a 99%-n´ı interval spolehlivosti pro chybovost stroje. ´ oznaˇcme jako p neznamou chybovost stroje ´ vybrano ´ ´ ˇ p zmetek nah. n = 400 souˇcastek, kaˇzda´ s pravdep. tedy celkov´y poˇcet zmetku˚ mezi vybran´ymi Y ∼ Bi(n = 400, p) ´ v´yberem ˇ ˇ poˇcet zmetku˚ ve v´yberu ˇ (absolutn´ı cˇ etnost) nah. zjiˇsten ˇ y = 42 (realizac´ı Y zjiˇstena hodnota y) 42 ˆ = yn = 400 I bodov´ym odhadem p je relativn´ı cˇ etnost p = 0,105 I jak bychom mohli odhadnout p intervalem? ˇ z CLV (Moivreovy-Laplaceovy vety ): pro Y ∼ Bi(n, p) ma´ · Y ∼ N(n · p, n · p · (1 − p)) pro dostateˇcneˇ velke´ n tedy ,
Y n
·
∼ N(p, p·(1−p) ) n 105/152
Matematicka´ statistika
Intervaly spolehlivosti
´ ˇ ı Interval spol. pro parametr p binomickeho rozdelen´ ·
´ ´ veliˇcinu Y z rozdelen´ ˇ ı Bi(n, p), pak Yn ∼ N(p, p·(1−p) Mame-li nah. )a n ´ emu ´ ˇ ı nezname, ´ protoˇze rozptyl (kvuli p) tohoto rozdelen´ ˚ neznam ˆ) p ˆ . Tedy Yn ∼· N(p, pˆ·(1− nahrad´ıme p v rozptylu odhadem p ) a plat´ı n ! Y √ − p P −Φ−1 (1 − α/2) < p n · n < Φ−1 (1 − α/2) = 1 − α ˆ · (1 − p ˆ) p ˆa za Yn pak dosad´ıme napozorovanou relativn´ı cˇ etnost yn = p dostaneme: ´ ˇ ı je 100(1 − α)%-n´ı int. spol. pro parametr p binomickeho rozdelen´ ! r r ˆ · (1 − p ˆ) ˆ · (1 − p ˆ) p p −1 −1 ˆ − Φ (1 − α/2) · ˆ + Φ (1 − α/2) · p ; p n n interpretace je podobna´ jako u pˇredchoz´ıch intervalu˚ ,
106/152
Matematicka´ statistika
Intervaly spolehlivosti
´ vybran´ych souˇcastek ´ ˇ k Pˇr. : Ze 400 nah. bylo 42 zmetku. zpet ˚ Chceme spoˇc´ıtat 95%-n´ı a 99%-n´ı interval spolehlivosti pro chybovost stroje. ˇ bodov´ym odhadem chybovosti p je pod´ıl vadn´ych ve v´yberu 42 ˆ = yn = 400 = 0,105 p pro 95%-n´ı (resp. 99%-n´ı) int. spol. poloˇz´ıme α = 0,05 (resp. α = 0,01) a najdeme Φ−1 (1 − 0,05/2) = Φ−1 (0,975) = 1,96 Φ−1 (1 − 0,01/2) = Φ−1 (0,995) = 2,58
a
Tedy 95%-n´ı int. spol. pro chybovost p stroje je: ! r r ˆ · (1 − p ˆ) ˆ · (1 − p ˆ) . p p −1 −1 ˆ − Φ (1 − α/2) · ˆ − Φ (1 − α/2) · p ; p = n n ! r r 0,105 · (1 − 0,105) 0,105 · (1 − 0,105) . = 0,105 − 1,96 · ; 0,105 + 1,96 · 400 400 . = (0,075; 0,135) = (7,5%; 13,5%) resp. 99%-n´ı int. spol. by vyˇsel (0,065; 0,145) = (6,5%; 14,5%) ,
107/152
Matematicka´ statistika
Intervaly spolehlivosti
Vlastnosti intervalu˚ spolehlivosti
sˇ ´ıˇrka intervalu roste s vyˇssˇ ´ı poˇzadovanou spolehlivost´ı (viz. posledn´ı pˇr´ıklad) ´ ı) sˇ ´ırˇka intervalu klesa´ s vyˇssˇ ´ım n (poˇctem pozorovan´ 2 I napˇr. u intervalu pro µ u N(µ, σ ) nebo pro p u Bi(n, p) je sˇ ´ıˇrka ˇ a´ odmocnineˇ z n; a tedy k z´ıskan´ ´ ı dvakrat ´ uˇzsˇ ´ıho nepˇr´ımo um ´ ern ˇ s´ıho) intervalu spolehlivosti je tˇreba 4-krat ´ v´ıce pozorovan´ ´ ı (pˇresnejˇ ˇ v nekter´ ych pˇr´ıpadech lze z poˇzadavku na sˇ ´ırˇku intervalu ´ ı n. odhadnout potˇrebn´y poˇcet pozorovan´
,
108/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ rovat hypotezy? ´ Jak oveˇ
´ em ´ parametru jak rozhodnout, zda plat´ı tvrzen´ı o neznam ˇ ı? rozdelen´ spoˇc´ıtali jsme intervalov´y odhad pro stˇredn´ı mnoˇzstv´ı µ coly v lahvi: (1,972; 1,992) lze (a s jakou jistotou) tvrdit, zˇ e je automat sˇ patneˇ nastaven? ˇ bychom napˇr., aby pravdepodobnost ˇ ´ poˇzadavek: chteli “kˇriveho ˇ ı” byla mala´ obvinen´ ´ ıme standardizovane´ postupy pro takove´ rozhodovan´ ´ ı proto: zavad´
,
109/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ ı hypotez ´ Testovan´ ´ v´yb. z rozdelen´ ˇ ı s nezn. parametrem(y). X1 , X2 , . . . , Xn je nah. ´ ´ o parametru(ech) daneho ´ ˇ ı: Mame dveˇ odporuj´ıc´ı si hypotezy rozdelen´ ˇ ´ tzv. nulovou hypotezu H0 : parametr se rovna´ urˇcite´ hodnote, parametry se rovnaj´ı,... ´ ´ tzv. alternativn´ı hypotezu H1 : opak nulove´ hypotezy, cˇ asto to, co ´ se snaˇz´ıme prokazat ´ Podle typu H0 a H1 se zvol´ı rozhodovac´ı kriterium (test, testove´ ´ ´ ı na (vypoˇctu ho z) realizovanem ´ nahodn ´ ´ kriterium), ktere´ zavis´ em ˇ (napozorovan´ych datech). v´yberu Moˇzna´ rozhodnut´ı: ´ ˇ c´ı proti n´ı zam´ıtame H0 , pokud data (a tedy i test) svedˇ ´ nezam´ıtame H0 , pokud data (a tedy i test) neposkytuj´ı dostatek “dukaz u” ˚ ˚ proti H0
,
110/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ ı Postup a moˇzne´ chyby pˇri rozhodovan´ chyba 1. druhu: H0 plat´ı a my ji zam´ıtneme chyba 2. druhu: H0 neplat´ı a my ji nezam´ıtneme ˇ = 0,05), je hladina testu: oznaˇcujeme ji α (tu vol´ıme, nejˇcasteji ˇ nejvyˇssˇ ´ı pˇr´ıpustna´ pravdepodobnost chyby 1. druhu rozhodnut´ı\skuteˇcnost ´ nezam´ıtame H0 ´ zam´ıtame H0
H0 plat´ı ´ eˇ spravn chyba 1. druhu ≤ α
H0 neplat´ı chyba 2. druhu ´ eˇ spravn
Postup: Podle toho, co chceme zjistit, zformulujeme H0 a H1 a ´ zvol´ıme α. Pak zvol´ıme vhodne´ rozhodovac´ı kriterium: tj. z testu, ˚ ´ ı jejichˇz hladina je menˇs´ı neˇz α vybereme obvykle ten s minimaln´ ˇ pravdepodobnost´ ı chyby 2. druhu
,
111/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ ´ ˇ jejich ˇ k Pˇr. : Nahodn eˇ vybrano 100 lahv´ı coly a byl zjiˇsten zpet ˇ y obsah X = 1,982 litru. ˇ rene´ hodnoty povaˇzujeme za prum ˚ ern´ ˚ Nameˇ ´ ´ ˇ z rozdelen´ ˇ ı N(µ, σ 2 = 0,0025). Da´ se realizaci nahodn eho v´yberu tvrdit, zˇ e je automat sˇ patneˇ nastaven? ˇ bychom provest ´ na hladineˇ α = 0,05 test hypotezy ´ Chteli ´ eˇ nastaven) H0 : µ = 2 litry (automat je spravn proti alternativeˇ ´ eˇ nastaven) H1 : µ 6= 2 litry (automat nen´ı spravn ´ Jak zvolit testove´ kriterium?
,
112/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ y test stˇredn´ı hodnoty (σ 2 zname) ´ Z-test: jednov´yberov´ ´ v´yb. z rozdelen´ ˇ ı N(µ, σ 2 ), kde σ 2 zname. ´ X1 , X2 , . . . , Xn je nah. Z jiˇz ´ odvozeneho plyne, zˇ e ! |X − µ| √ −1 P · n ≥ Φ (1 − α/2) = α σ ´ H0 : µ = µ0 proti alternativeˇ H1 : µ 6= µ0 lze Tedy pro test hypotezy pouˇz´ıt testovou statistiku X − µ0 √ · n σ ´ ´ H0 (pˇriklon´ıme se k H1 ), pokud a na hladineˇ α zam´ıtame hypotezu −1 |Z | ≥ Φ (1 − α/2) ´ ´ er: ˇ H0 muˇ pokud |Z | < Φ−1 (1 − α/2), tak H0 nezam´ıtame. Zav ˚ ze platit ´ ı limitn´ı vet ˇ eˇ i pro Pozn.: Pro dostateˇcneˇ velka´ n plat´ı d´ıky Centraln´ ˇ ı neˇz normaln´ ´ ı jina´ rozdelen´ Z =
,
113/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ ´ ˇ k Pˇr. : Nahodn eˇ vybrano 100 lahv´ı coly, X = 1,982 litru. zpet ˚ Pˇredp, ´ ı z rozdelen´ ˇ ı N(µ, σ 2 = 0,0025). Da´ se tvrdit, zˇ e je zˇ e data pochazej´ automat sˇ patneˇ nastaven? ˇ bychom provest ´ na hladineˇ α = 0,05 test hypotezy ´ Chteli ´ eˇ nastaven) H0 : µ = 2 litry (automat je spravn proti alternativeˇ ´ eˇ nastaven) H1 : µ 6= 2 litry (automat nen´ı spravn ´ Testove´ kriterium (testova´ statistika) je Z =
X − µ0 √ 1,982 − 2 √ · n= · 100 = −3,6 σ 0,05
Tedy |Z | = 3,6 ≥ Φ−1 (1 − α/2) = Φ−1 (0,975) = 1,96 ´ ´ ıme se k H1 a proto na hladineˇ 0,05 zam´ıtame H0 a pˇriklan´ ´ er: ˇ automat nen´ı spravn ´ eˇ nastaven Zav ,
114/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ rena hmotnost 16 jedenactilet´ ´ ˇ k Pˇr. : Byla zmeˇ ych chlapcu. zpet ˚ ˇ ren´ı povaˇzujeme za realizaci nah. ´ v´yberu ˇ z rozdelen´ ˇ ı N(µ, σ 2 ). Lze Meˇ ˇ tvrdit, zˇ e se jejich hmotnost zmenila oproti dobeˇ pˇred 25 lety, kdy byla ´ stˇredn´ı hmotnost jedenactilet´ ych 34 kg? Volme hladinu testu α = 0,01 ˇ bychom tedy provest ´ na hladineˇ α = 0,01 test hypotezy ´ Chteli H0 : µ = 34 kg (hmotnost je rovna hmotnosti pˇred 25 lety) proti alternativeˇ H1 : µ 6= 34 kg (hmotnost nen´ı rovna hmotnosti pˇred 25 lety) ´ ´ Problem: nelze pouˇz´ıt pˇredchoz´ı postup, protoˇze nezname ˇ ˇ ren´ı σ. smerodatnou odchylku meˇ
,
115/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ y t-test: test stˇr. hodnoty (σ 2 nezname) ´ Jednov´yberov´ ´ v´yb. z rozdelen´ ˇ ı N(µ, σ 2 ), kde σ 2 nezname. ´ X1 , X2 , . . . , Xn je nah. Plat´ı, √ X −µ zˇ e S · n ∼ tn−1 , z cˇ ehoˇz podobneˇ jako u Z-testu plyne: ! |X − µ| √ · n ≥ tn−1 (1 − α/2) = α P S ´ H0 : µ = µ0 proti alternativeˇ H1 : µ 6= µ0 lze Tedy pro test hypotezy pouˇz´ıt testovou statistiku T =
X − µ0 √ · n S
´ ´ H0 (pˇriklon´ıme se k H1 ), pokud a na hladineˇ α zam´ıtame hypotezu |T | ≥ tn−1 (1 − α/2) ´ ´ er: ˇ H0 muˇ pokud |T | < tn−1 (1 − α/2), tak H0 nezam´ıtame. Zav ˚ ze platit ,
116/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ rena hmotnost 16 jedenactilet´ ´ ˇ k Pˇr. : Byla zmeˇ ych chlapcu. zpet ˚ 2 ˇ ren´ı pochazej´ ´ ı z rozdelen´ ˇ ı N(µ, σ ). Lze tvrdit, zˇ e se jejich hmotnost Meˇ ˇ zmenila oproti dobeˇ pˇred 25 lety, kdy byla stˇredn´ı hmotnost ´ jedenactilet´ ych 34 kg? ˇ bychom tedy provest ´ na hladineˇ α = 0,01 test hypotezy ´ Chteli H0 : µ = 34 kg (hmotnost je rovna hmotnosti pˇred 25 lety) proti alternativeˇ H1 : µ 6= 34 kg (hmotnost nen´ı rovna hmotnosti pˇred 25 lety) ´ Testove´ kriterium (testova´ statistika) je X − µ0 √ 36,8125 − 34 √ T = · n= · 16 = 2,634 S 4,2711 Tedy |T | = 2,634 < tn−1 (1 − α/2) = t15 (0,995) = 2,947 ´ a proto na hladineˇ 0,01 nezam´ıtame H0 ´ er: ˇ Nevyluˇcujeme, zˇ e je hmotnost rovna hmotnosti pˇred 25 lety Zav Pozn.: na hladineˇ α = 0,05 bychom H0 zam´ıtli (pˇriklonili se k H1 ), protoˇze |T | = 2,634 ≥ tn−1 (1 − α/2) = t15 (0,975) = 2,131 ,
117/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ y t-test Parov´ ˇ ´ ˇ ren´ı) a snaˇz´ıme se je Nekdy mame k dispozici dveˇ sady dat (meˇ porovnat (jejich stˇredn´ı hodnoty). Oznaˇcme napozorovane´ veliˇciny ´ (X1 , Y1 ), . . . , (Xn , Yn ) a pˇredpokladejme, zˇ e veliˇciny X a Y se stejn´ym ´ ˇ rena na indexem nelze povaˇzovat za nezavisl e´ (ˇcasto proto, zˇ e jsou meˇ ´ jednom objektu), ale veliˇciny s ruzn´ e´ povaˇzovat ˚ ymi indexy za nezavisl ˇ ren´ı spolu nesouvisej´ıc´ı, napˇr. proto, zˇ e jsou provedena na jiˇz lze (meˇ ruzn´ ˚ ych objektech). ´ ´ ˇ Byla Pˇr.: Nahodn eˇ vybrano 8 lid´ı, kteˇr´ı byli podrobeni diete. ´ zaznamenana jejich hmotnost (v kg) pˇred dietou a po n´ı. Osoba Pˇred Po
1 81 84
2 85 68
3 92 73
4 82 79
5 86 71
6 88 80
7 79 71
8 85 72
ˇ bychom zjistit, zda ma´ dieta vliv na hmotnost. Chteli ´ Jak zvolit testove´ kriterium? ,
118/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ y t-test Parov´ ´ ´ ˇ y nahodn´ ´ ˇ (X1 , Y1 ), Pˇredpokladejme, zˇ e mame dvourozmern´ y v´yber ´ ktere´ nelze povaˇzovat za . . . , (Xn , Yn ) takov´y, zˇ e X a Y tvoˇr´ı pary, ´ ´ Oznaˇcme µX = EXi a µY = EYi . nezavisl e. ´ poloˇzme Z1 = X1 − Y1 , . . . , Zn = Xn − Yn a pˇredpokladejme, ´ Dale zˇ e ´ ˇ z rozdelen´ ˇ ı N(µ, σ 2 ), veliˇciny Z se daj´ı povaˇzovat za nahodn´ y v´yber kde µ = µX − µY . ´ ˇ ren´ı pochazej´ ´ ı z rozdelen´ ˇ ı o stejne´ Tedy test hypotezy, zˇ e obeˇ sady meˇ ´ z jako test hypotezy ´ stˇredn´ı hodnoteˇ H0 : µX − µY = 0 je toteˇ ´ H0 : µ = 0 proti alternativeˇ H1 : µ 6= 0 je H0 : µ = 0. Test hypotezy ˇ eho ´ ulohou jednov´yberov t-testu. ´ P 1 Pn 2 ´ Tedy spoˇc´ıtame Z = n1 ni=1 Zi a SZ2 = n−1 a i=1 (Zi − Z ) pokud |Z − 0| √ |T | = · n ≥ tn−1 (1 − α/2) SZ ´ ´ H0 (pˇriklon´ıme se k H1 : µX 6= µY ) tak na hladineˇ α zam´ıtame hypotezu ,
119/152
Matematicka´ statistika
ˇ k zpet
Pˇr.
´ ı hypotez ´ Testovan´
ˇ Ma´ dieta vliv na hmotnost? : 8 lid´ı podrobeno diete. Osoba X=Pˇred Y=Po Z=Rozd´ıl
1 81 84 -3
2 85 68 17
3 92 73 19
4 82 79 3
5 86 71 15
6 88 80 8
7 79 71 8
8 85 72 13
´ Provedeme na hladineˇ α = 0,05 test hypotezy ´ H0 : µ = µX − µY = 0 kg (dieta nema vliv na hmotnost) proti H1 : µ = µX − µY 6= 0qkg (dieta ma´ vliv na hmotnost) √ Spoˇcteme Z = 10 a SZ = SZ2 = 55,71429 = 7,4642 Testova´ statistika je Z −0 √ 10 − 0 √ T = · n= · 8 = 3,789 SZ 7,4642 Tedy |T | = 3,789 ≥ tn−1 (1 − α/2) = t7 (0,975) = 2,365 ´ a proto na hladineˇ 0,05 zam´ıtame H0 . ´ ˇ ´ Zaver: dieta ma vliv na hmotnost. Pozn.: i pro α = 0,01 bychom H0 zam´ıtali (t7 (0,995) = 3,499) ,
120/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ y t-test Dvouv´yberov´ ˇ ´ ˇ ren´ı), ktere´ se snaˇz´ıme Nekdy mame k dispozici dveˇ sady dat (meˇ ´ eˇ porovnat (jejich stˇredn´ı hodnoty), pˇriˇcemˇz veliˇciny nejsou parov ´ zavisl e´ a nemus´ı jich b´yt stejn´y poˇcet. Oznaˇcme napozorovane´ veliˇciny ´ X1 , . . . , Xn a Y1 . . . , Ym a budeme je povaˇzovat za dva nezavisl e´ ´ ˇ (vˇsechny veliˇciny jsou mezi sebou nezavisl ´ ´ nahodn e´ v´ybery e). ˇ nasleduj´ ´ ´ u˚ (v cm): Pˇr.: Ve tˇr´ıdeˇ byly zjiˇsteny ıc´ı v´ysˇ ky zˇ ak Chlapci D´ıvky Chlapci D´ıvky
130 135 139 141
140 141 136 131
136 143 138 142
141 132 142 141
139 146 127
133 146 139
149 151 147
151 141
ˇ stejneˇ vysoc´ı. Volte Testujte, zda jsou chlapci a d´ıvky v prum ˚ eru α = 0,05. ´ Jak nyn´ı zvolit testove´ kriterium? ,
121/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ y t-test Dvouv´yberov´ ´ ´ ´ ˇ X1 , . . . , Xn ∼ N(µX , σ 2 ) a Pˇredpokladejme, zˇ e mame nahodn´ y v´yber 2 ´ ˇ Y1 , . . . , Ym ∼ N(µY , σ ) a tyto dva v´ybery ˇ jsou nahodn´ y v´yber ´ nezavisl e´ se stejn´ym rozptylem. Poloˇz´ıme 1 S ∗2 = · (n − 1) · SX2 + (m − 1) · SY2 , n+m−2 1 Pn 1 Pm 2 2 kde SX = n−1 i=1 (Xi − X )2 a SY2 = m−1 i=1 (Yi − Y ) . ´ ˇ ren´ı pochazej´ ´ ı z rozdelen´ ˇ ı o stejne´ Pro test hypotezy, zˇ e obeˇ sady meˇ stˇredn´ı hodnoteˇ H0 : µX − µY = 0 proti alternativeˇ H1 : µX − µY 6= 0 lze pouˇz´ıt statistiku: r X −Y −0 n·m T = · ∗ S n+m ´ ´ a pokud |T | ≥ tn+m−2 (1 − α/2) tak na hladineˇ α zam´ıtame hypotezu ´ H0 (pˇriklon´ıme se k H1 : µX 6= µY stˇredn´ı hodnoty nejsou stejne) ,
122/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ k Pˇr. : na hladineˇ α = 0,05 testujte, zda jsou chlapci a d´ıvky v zpet ˇ stejneˇ vysoc´ı. prum ˚ eru Chlapci D´ıvky Chlapci D´ıvky
130 135 139 141
140 141 136 131
136 143 138 142
141 132 142 141
139 146 127
133 146 139
149 151 147
test H0 : µX − µY = 0 cm (jsou stejneˇ vysoc´ı) proti H1 : µX − µY 6= 0 cm (nejsou stejneˇ vysoc´ı) Spoˇcteme X = 139,133; Y = 140,833; SX2 = 42,981; s S∗ =
1 · (n − 1) · SX2 + (m − 1) · SY2 = n+m−2
r
151 141
SY2 = 33,788;
1 (14 · 42,981 + 11 · 33,788) = 6,240 25
Testova´ statistika je X −Y −0 T = · S∗
r
n·m 139,133 − 140,833 − 0 = · n+m 6,240
r
15 · 12 = −0,703 15 + 12
Tedy |T | = 0,703 < tn+m−2 (1 − α/2) = t25 (0,975) = 2,060 a proto na ´ hladineˇ 0,05 nezam´ıtame H0 . ´ er: ˇ je moˇzne, ´ zˇ e chlapci a d´ıvky jsou v prum ˇ stejneˇ vysoc´ı. Zav ˚ eru ´ ˇ ˇ Na kaˇzde niˇzs´ı hladine (i α = 0,01) bychom H0 t´ım sp´ısˇ e nezam´ıtli ,
123/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ Znamenkov´ y test ˇ ´ ´ pˇri velkem ´ poˇctu Nekdy mame k dispozici jen informaci, kolikrat ´ ´ ı zkoumana´ veliˇcina pˇrekroˇcila (+) nebo byla nezavisl´ ych opakovan´ ˇ a´ dana´ hodnota. A chceme testovat hypotezu, ´ menˇs´ı (-) neˇz nejak zˇ e ˇ ´ (50%-n´ı oboj´ı nastava´ se stejnou pravdepodobnost´ ı, tj. zˇ e median ˇ ı je roven te´ dane´ hodnote. ˇ kvantil) rozdelen´ Pˇr.: Ze 46 piv, ktere´ se u vaˇseho stolu veˇcer vypily, bylo 27 podm´ırov´ych a 19 nadm´ırov´ych. Lze tvrdit, zˇ e v´ycˇ epn´ı systematicky ´ sˇ id´ı (at’ uˇz zakazn´ ıky nebo majitele hospody)? ˇ rit, zda median ´ mnoˇzstv´ı piva ve sklenici muˇ Chceme oveˇ ˚ ze b´yt pul ˚ ´ litru. Zname pˇritom jen poˇcet piv pod a nad touto m´ırou. Jak zvolit ´ testove´ kriterium?
,
124/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ Znamenkov´ y test - asymptotick´y (pro velke´ n) ´ ´ ˇ ı s medianem ´ Mame veliˇciny X1 , . . . , Xn ze spojiteho rozdelen´ x˜ . Tedy plat´ı 1 i = 1, . . . , n P(Xi < x˜ ) = P(Xi > x˜ ) = 2 ´ H0 : x˜ = x0 proti H1 : x˜ 6= x0 , kde x0 je Chceme testovat hypotezu dane´ cˇ ´ıslo. Utvoˇr´ı se rozd´ıly X1 − x0 , . . . , Xn − x0 a ty nulove´ se vynechaj´ı (a pˇr´ısluˇsneˇ se zmenˇs´ı n). ´ Za platnosti H0 ma´ poˇcet rozd´ılu˚ s kladn´ym znamenkem ˇ Y ∼ Bi(n, p = 1/2) a tedy podle Moivreovy-Laplaceovy vety pro velke´ n plat´ı: Y ´ ı rozdelen´ ˇ ı N(n/2, n/4) ma´ pˇribliˇzneˇ normaln´ Za platnosti H0 tedy Y − n/2 2Y − n · = √ ∼ N(0, 1) U= p n n/4 H0 : x˜ = x0 na hladineˇ α zam´ıtneme, pokud |U| ≥ Φ−1 (1 − α/2) ,
125/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ Znamenkov´ y test - exaktn´ı (pˇresn´y) Pouˇz´ıva´ se, pokud je n male´ ´ ıme z toho, zˇ e za platnosti H0 ma´ poˇcet rozd´ılu˚ s kladn´ym Vychaz´ ´ ´ ame, ´ ˇ a´ znamenkem Y ∼ Bi(n, p = 1/2) a tedy oˇcekav zˇ e zjiˇsten hodnota Y bude bl´ızko sve´ stˇredn´ı hodnoty n/2. Pˇriklon´ıme se tedy k H1 : x˜ 6= x0 , pokud bude Y moc male´ (≤ k1 ) nebo moc velke´ (≥ k2 ). Zvol´ıme hladinu testu α. ˇ s´ı cˇ ´ıslo, pro ktere´ jeˇsteˇ plat´ı, zˇ e Pak k1 se vol´ı jako nejvetˇ P(Y ≤ k1 ) ≤ α/2 a k2 se vol´ı jako nejmenˇs´ı cˇ ´ıslo, pro ktere´ jeˇsteˇ plat´ı, zˇ e P(Y ≥ k2 ) ≤ α/2 ´ Zam´ıtame H0 na hladineˇ α, pokud Y ≤ k1 nebo Y ≥ k2 . Pozn.: Skuteˇcna´ pravd. chyby prvn´ıho druhu je cˇ asto menˇs´ı neˇz α ,
126/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ k Pˇr. : Ze 46 piv bylo 27 podm´ırov´ych a 19 nadm´ırov´ych. Lze zpet tvrdit, zˇ e v´ycˇ epn´ı nedodrˇzuje m´ıru (at’ uˇz jedn´ım nebo druh´ym ˇ smerem)? Na hladineˇ α = 0,05 testovat H0 : x˜ = 500 ml proti H1 : x˜ 6= 500 ml. Exaktn´ı test: ´ Mame Y ∼ Bi(n = 46, p = 1/2), α/2 = 0,025 a urˇc´ıme k1 a k2 k P(Y = k ) P(Y ≤ k ) P(Y ≥ k )
14 0,003 0,006 0,998
15 0,007 0,013 0,994
16 0,014 0,027 0,987
... ... ... ...
30 0,014 0,987 0,027
31 0,007 0,994 0,013
32 0,003 0,998 0,006
´ Protoˇze k1 = 15 < Y = 19 < k2 = 31, nezam´ıtame H0 na hladineˇ 0,05 Pozn.: skuteˇcna´ hladina testu (pravd. chyba 1. druhu) je jen 2 · 0,013 = 0,026. Asymptotick´y test: Spoˇcteme 2Y − n 2 · 19 − 46 √ U= √ = = −1,180 n 46 ´ ani nyn´ı H0 nezam´ıtame, protoˇze |U| = 1,180 Φ−1 (0,975) = 1,960 ,
127/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ ˇ ı Test o parametru p binomickeho rozdelen´
ˇ ´ ´ pˇri velkem ´ poˇctu Nekdy mame k dispozici jen informaci, kolikrat ´ ´ ı nastal nejak´ ˇ y jev a zaj´ıma´ nas ´ nezavisl´ ych opakovan´ ˇ ´ o pravdepodobnosti), ˇ pravdepodobnost (chceme testovat hypotezu zˇ e dan´y jev nastane. ´ Testujte hypotezu, ´ Pˇr.: Pˇri 600 hodech kostkou padla sˇ estka 137-krat. ´ kostce s pravdepodobnost´ ˇ zˇ e sˇ estka pada´ na teto ı 1/6 ˇ rit, zda p = 1/6. Jak Poˇcet sˇ estek ma´ Bi(n = 600, p). Chceme oveˇ ´ zvolit testove´ kriterium?
,
128/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
Test o parametru p binom. rozd. - asymptotick´y ´ ´ ´ Pˇredpokladejme, zˇ e mame napozorovanou realizaci nahodn e´ veliˇciny ´ ´ Y ∼ Bi(n, p), tj. napˇr. poˇcet udalost´ ı v n stejn´ych nezavisl´ ych pokusech. ´ o pravdepodobnosti ˇ ´ Chceme testovat hypotezu p, zˇ e udalost nastane H0 : p = p0 proti alternativeˇ H1 : p 6= p0 ˇ ´ ı pro velke´ n plat´ı: Y ma´ pˇribliˇzneˇ normaln´ Z Moivreovy-Laplaceovy vety ˇ ı rozdelen´ N(n · p, n · p · (1 − p)) Za platnosti H0 tedy Y − n · p0 · U=p ∼ N(0, 1) n · p0 · (1 − p0 ) H0 : p = p0 na hladineˇ α zam´ıtneme, pokud |U| ≥ Φ−1 (1 − α/2) ´ ´ ım pˇr´ıpadem pro p0 = 1/2 Pozn.: Znamenkov´ y test je specialn´ ,
129/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
Test o parametru p binom. rozd. - exaktn´ı (pˇresn´y) Pouˇz´ıva´ se, pokud je n male´ ´ ´ ame, ´ Za platnosti H0 ma´ poˇcet udalost´ ı Y ∼ Bi(n, p) a tedy oˇcekav zˇ e ˇ ´ ´ zjiˇstena hodnota Y bude bl´ızko sve stˇredn´ı hodnoty n · p. ˇ alternativy H1 : p 6= p0 , Zam´ıtneme tedy H0 : p = p0 ve prospech pokud bude Y moc male´ (≤ k1 ) nebo moc velke´ (≥ k2 ). Zvol´ıme hladinu testu α. ˇ s´ı cˇ ´ıslo, pro ktere´ jeˇsteˇ plat´ı, zˇ e Pak k1 se vol´ı jako nejvetˇ P(Y ≤ k1 ) ≤ α/2 a k2 se vol´ı jako nejmenˇs´ı cˇ ´ıslo, pro ktere´ jeˇsteˇ plat´ı, zˇ e P(Y ≥ k2 ) ≤ α/2 ´ Zam´ıtame H0 na hladineˇ α, pokud Y ≤ k1 nebo Y ≥ k2 .
,
130/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ k Pˇr. : Pˇri 600 hodech kostkou padla 137-krat ´ sˇ estka. Oveˇ ˇ rme, zpet ´ kostce s pravdepodobnost´ ˇ zda sˇ estka pada´ na teto ı 1/6. Na hladineˇ α = 0,05 testovat H0 : p = 1/6 proti H1 : p 6= 1/6. Exaktn´ı test: ´ Mame Y ∼ Bi(n = 600, p = 1/6), α/2 = 0,025 a urˇc´ı se k1 = 81 a k2 = 119. Tedy H0 bychom zam´ıtali. Zde se ale muˇ ˚ zeme spolehnout jen na Asymptotick´y test: Spoˇcteme 137 − 600 · 1/6 137 − 100 U=p = √ = 4,053 83,33 600 · 1/6 · 5/6 ´ a H0 zam´ıtame, protoˇze |U| = 4,053 ≥ Φ−1 (0,975) = 1,960
,
131/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ Znamenkov´ y test - moˇzne´ pouˇzit´ı
´ u nah. ´ v´yberu ˇ X1 , . . . , Xn ze spojiteho ´ ˇ ı. test o medianu rozdelen´ ˇ eho ´ ´ eho) ´ lze pouˇz´ıt i nam´ısto jednov´yberov (resp. parov t-testu ´ ı rozdelen´ ˇ ı v´yberu ˇ v´yhoda: nevyˇzaduje se normaln´ ´ eˇ rozdelen ˇ eho ´ ˇ je o neco ˇ vyˇssˇ ´ı chyba nev´yhoda: u normaln v´yberu ´ ı s t-testem 2. druhu v porovnan´ Pokud jsme si jisti normalitou dat, je tedy nejlepˇs´ı pouˇz´ıt t-test ´ Zkusme pouˇz´ıt znamenkov´ y test na pˇr´ıklady, na ktere´ byly pouˇzity ˇ y nebo parov´ ´ y t-test jednov´yberov´
,
132/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ k Pˇr. : Byla zmeˇ ˇ rena hmotnost 16 jedenactilet´ ´ zpet ych chlapcu. ˚ Lze tvrdit, zˇ e ˇ se jejich hmotnost zmenila oproti dobeˇ pˇred 25 lety, kdy byla stˇredn´ı hmotnost ´ jedenactilet´ ych 34 kg? Volme hladinu testu α = 0,01 ˇ s´ıch Chceme testovat H0 : x˜ = 34 kg proti H1 : x˜ 6= 34 kg. Pˇritom hodnot vetˇ neˇz 34 je Y = 13 Exaktn´ı: Y ∼ Bi(n = 16, p = 1/2), α/2 = 0,005 a urˇc´ıme k1 a k2 k P(Y = k ) P(Y ≤ k ) P(Y ≥ k )
2 0,002 0,002 1,000
3 0,009 0,011 0,011 0,998
4 0,028 0,038 0,989
... ... ... ...
12 0,028 0,989 0,038
13 0,009 0,998 0,011 0,011
14 0,002 1,000 0,002
´ Protoˇze k1 = 2 < Y = 13 < k2 = 14, nezam´ıtame H0 na hladineˇ 0,01. ´ verohodn´ ˇ Asymptotick´y (pro n = 16 malo y): Spoˇcteme U=
2Y − n 2 · 13 − 16 √ √ = = 2,5002,500 n 16
´ ani nyn´ı H0 nezam´ıtame, protoˇze |U| = 2,500 Φ−1 (0,995) = 2,576 Pozn.: Na hladineˇ 0,05 (k1 = 3 < Y = 13≥k2 = 13 a Φ−1 (0,975) = 1,961,96) by oba testy zam´ıtaly H0 . ,
133/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ k Pˇr. : n = 8 lid´ı bylo podrobeno diete. ˇ Ma´ dieta vliv na hmotnost? zpet Vol´ıme α = 0,05 ´ shozen´ych kilogramu˚ H0 : z˜ = 0 kg (nema´ Chceme testovat hyp. o medianu ˜ ˇ et, ˇ zˇ e zhublo Y = 7 lid´ı. vliv) proti H1 : z 6= 0 kg (ma´ vliv). Staˇc´ı ved Exaktn´ı: Y ∼ Bi(n = 8, p = 1/2), α/2 = 0,025 a urˇc´ıme k1 a k2 k P(Y = k) P(Y ≤ k) P(Y ≥ k)
0 0,004 0,004 1,000
1 0,031 0,035 0,996
2 0,109 0,145 0,965
3 0,219 0,363 0,855
4 0,273 0,637 0,637
5 0,219 0,855 0,363
6 0,109 0,965 0,145
7 0,031 0,996 0,035
8 0,004 1,000 0,004
´ Protoˇze k1 = 0 < Y = 7 < k2 = 8, nezam´ıtame H0 na hladineˇ 0,05 (tedy ani na hladineˇ 0,01). ´ verohodn´ ˇ Asymptotick´y (pro n = 8 velmi malo y): Spoˇcteme U=
2Y − n 2·7−8 √ √ = = 2,121 n 8
´ nyn´ı H0 na hl. 0,05 zam´ıtame, protoˇze |U| = 2,121 ≥ Φ−1 (0,975) = 1,96 ale na hl. 0,01 bychom uˇz nezam´ıtali (Φ−1 (0,995) = 2,576) ,
134/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
Jak´y test vybrat? ˇ y (parov´ ´ y) t-test nebo znamenkov´ ´ Je lepˇs´ı jednov´yberov´ y test? ´ z´ı na situaci. Zaleˇ ˇ s´ı t-test (d´ıky menˇs´ı chybeˇ 2. druhu) pˇri normaliteˇ je vhodnejˇ ˇ ˇ ren´ı, ale jen poˇcet kladn´ych nekdy nejsou k dospozici pˇresna´ meˇ ´ ˇ s´ıch neˇz hypotetick´y median), ´ znamenek (hodnot vetˇ napˇr. poˇcet nadm´ırov´ych piv (ne o kolik se liˇsily od m´ıry) nebo poˇcet pacientu, ˚ ˇ kteˇr´ı zhubli po dieteˇ (ne o kolik pˇresneˇ se zmenila jejich ´ neˇz pouˇz´ıt znamenkov´ ´ hmotnost). Pak nezb´yva, y test. ´ ı z normaln´ ´ ıho rozdelen´ ˇ ı, ale zname ´ pokud data nepochazej´ ˇ y Wilcoxonuv pˇresne´ hodnoty lze pouˇz´ıt tzv. jednov´yberov´ ˚ test ˇ y Wilcoxonuv jednov´yberov´ ˚ test: je zaloˇzen na poˇrad´ı hodnot, nepoˇzaduje se normalita ´ ´ spolu se znamenkov´ ym testem je zastupcem tzv. ´ ı, zˇ e data neparametrick´ych testu˚ (testy, ktere´ nepˇredpokladaj´ ´ ı z nejak ˇ eho ´ ´ ˇ ı s parametry, ktere´ je pochazej´ daneho rozdelen´ nutne´ odhadovat) ´ je lepˇs´ı neˇz znamenkov´ y test (ma´ menˇs´ı chybu 2. druhu) ,
135/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ y Wilcoxonuv Jednov´yberov´ ˚ test - asymptotick´y ´ ´ ˇ ı se symetrickou Mame veliˇciny X1 , . . . , Xn ze spojiteho rozdelen´ ´ ´ H0 : x˜ = x0 proti hustotou s medianem x˜ . Testujeme hypotezu H1 : x˜ 6= x0 , kde x0 je dane´ cˇ ´ıslo. ´ ı pozorovan´ ´ ı, pro neˇ ˇ z Xi = x0 a 1. Vylouˇc´ıme z dalˇs´ıho zpracovan´ pˇr´ısluˇsneˇ sn´ızˇ ´ıme rozsah n. ˇ a) ´ poˇrad´ı Ri+ veliˇcin |Xi − x0 |. 2. Urˇc´ıme (prum ˚ ern ˇ veliˇcin |Xi − x0 |, pro 3. Test je zaloˇzen na souˇctu poˇrad´ı Ri+ tech ktere´ je Xi − x0 > 0, tj. X S= Ri+ i:xi >x0
´ ı Vypoˇcteme statistiku, ktera´ ma´ za H0 asymptoticky norm. normaln´ ˇ ı: rozdelen´ S − n·(n+1) 4 U=q n·(n+1)·(2n+1) 24
H0 : x˜ = x0 na hladineˇ α zam´ıtneme, pokud |U| ≥ Φ−1 (1 − α/2) ,
136/152
Matematicka´ statistika
´ ı hypotez ´ Testovan´
Pouˇzijme Wilcoxonuv ˚ test na data z pˇr´ıkladu , kde bylo 8 lid´ı podrobeno ˇ Ma´ dieta vliv na hmotnost? Testujeme hyp., zˇ e median ´ diete. shozen´ych kilogramu˚ je nula, vol´ıme α = 0,05 Osoba Xi = Pˇred Yi = Po Zi = Rozd´ıl |Zi − 0| Ri+
Spoˇcteme S =
1 81 84 -3 3 1,5
2 85 68 17 17 7
+ i:zi >0 Ri
P
S− U=q
3 92 73 19 19 8
4 82 79 3 3 1,5
5 86 71 15 15 6
6 88 80 8 8 3,5
7 79 71 8 8 3,5
8 85 72 13 13 5
= 7 + 8 + 1,5 + 6 + 3,5 + 3,5 + 5 = 34,5.
n·(n+1) 4
n·(n+1)·(2n+1) 24
=
34,5 − 18 √ = 2,310 51
´ H0 na hl. 0,05 zam´ıtame, protoˇze |U| = 2,310 ≥ Φ−1 (0,975) = 1,96 ale na hl. 0,01 bychom uˇz nezam´ıtali (Φ−1 (0,995) = 2,576) ˇ s´ı volbou, pokud nelze pˇredpokladat ´ I Wilcoxonuv ˚ test je nejvhodnejˇ normalitu ,
137/152
Matematicka´ statistika
Korelaˇcn´ı anal´yza
´ Testy nezavislosti ˇ ´ ˇ ych veliˇcin (opakovana´ Nekdy mame k dispozici sadu dvojrozmern´ ˇ ren´ı dvou znaku) ´ meˇ ˚ a snaˇz´ıme se zjistit, zda existuje zavislost ˇ dvema ˇ (korelace) mezi temi znaky. Oznaˇcme napozorovane´ veliˇciny (X1 , Y1 ), . . . , (Xn , Yn ). ´ ´ ´ Pˇr.: Ze studentu˚ statistiky bylo nahodn eˇ vybrano 9 a byl jim dan ´ matematick´y a jazykov´y test s nasleduj´ ıc´ımi v´ysledky: ˇ C´ıslo studenta 1 2 3 4 5 6 7 8 9 Jazykov´y test 50 23 28 34 14 54 46 52 53 Matematick´y test 38 28 14 26 18 40 23 30 27. ˇ bychom zjistit, zda u studentu˚ existuje zavislost ´ Chteli mezi v´ysledky ´ ´ jazykoveho a matematickeho testu. Pozn.: je to jina´ uloha, neˇz rozhodnout, zda jsou u studentu˚ v´ysledky ´ ´ ´ jazykoveho a matematickeho testu na stejne´ urovni (v tom pˇr´ıpadeˇ by ´ ´ y t-test pˇr´ıp. neparametrickou bylo na m´ısteˇ pouˇz´ıt napˇr. parov´ alternativu) ´ Jak zde zvolit testove´ kriterium? ,
138/152
Matematicka´ statistika
Korelaˇcn´ı anal´yza
(Pearsonuv) ˚ korelaˇcn´ı koeficient ´ ´ ˇ y nahodn´ ´ ˇ Pˇredpokladejme, zˇ e mame dvourozmern´ y v´yber ´ ´ (X1 , Y1 ), . . . , (Xn , Yn ), tj. veliˇciny s ruzn´ e. ˚ ymi indexy jsou nezavisl ˇ e´ rozptyly X a Y a dale ´ vyb ˇ Oznaˇcme SX2 a SY2 v´yberov ´ erovou kovarianci mezi X a Y jako " n # n X 1 X 1 SXY = Xi − X · Yi − Y = (Xi · Yi ) − n · X · Y n−1 n−1 i=1
i=1
ˇ ˇ ı koeficient: (Pearsonuv) ˚ vyb ´ erov y´ korelacn´ Pn SXY i=1 (Xi · Yi ) − n · X · Y rXY = r = q = r P P n n 2 − n · Y2 2 − n · X2 Sx2 · Sy2 Y X i=1 i i=1 i ´ Za pˇredpokladu normality spoˇc´ıtame √ r · n−2 T =√ 1 − r2 ´ nezavislosti ´ ´ a hypotezu veliˇcin X a Y na hladineˇ α zam´ıtame, jestliˇze |T | ≥ tn−2 (1 − α/2) ,
139/152
Matematicka´ statistika
Korelaˇcn´ı anal´yza
´ nezavislosti ´ Na hladineˇ α = 0,05 testujme hypotezu mezi v´ysledky z pˇ r ı kladu ´ ´ ´ ´ , kde bylo bylo vybrano a jazykoveho a matematickeho testy z ˇ podrobeno obema testum ˚ 9 studentu. ˚ Jazykov´y test Matematick´y test
50 38
23 28
28 14
34 26
14 18
54 40
46 23
52 30
53 27
Spoˇcteme SX2 = 223,25 a SY2 = 70,86 a SXY = 18 (50 · 38 + . . . + 53 · 27 − 9 · 39,33 · 27,11) = 85,46 85,46 = 14,94·8,42 = 0,679 korelaˇcn´ı koeficient je tedy r = √SXY 2 2 Sx ·Sy
´ Spoˇc´ıtame T =√
r 1 − r2
·
√
n−2= p
0,679 1 − 0,6792
·
√
7 = 2,450
´ a protoˇze |T | = 2,450 ≥ tn−2 (0,975) = 2,365, tak hypotezu ´ ´ ´ nezavislosti na hl. 0,05 zam´ıtame. Lze tedy tvrdit, zˇ e existuje zavislost ´ ´ mezi v´ysledkem jazykoveho a matematickeho testu ´ I Jak ale postupovat, pokud nelze pˇredpokladat normalitu? ,
140/152
Matematicka´ statistika
Korelaˇcn´ı anal´yza
Spearmanuv ˚ korelaˇcn´ı koeficient ´ ˇ y v´yber ˇ (X1 , Y1 ), . . . , (Xn , Yn ). Oznaˇcme (R1 , . . . , Rn ) Mame dvourozmern´ poˇrad´ı veliˇcin (X1 , . . . , Xn ) a (Q1 , . . . , Qn ) poˇrad´ı veliˇcin (Y1 , . . . , Yn ). ˇ ı koeficient rS se spoˇc´ıta´ jako Pearsovuv Spearmanuv ˚ korelacn´ ˚ kor. koef. poˇc´ıtan´y z dvojic (R1 , Q1 ), . . . , (Rn , Qn ). Pokud se ani v jednom souboru ´ ı, lze jej zjednoduˇsit na nevyskytuj´ı shodna´ pozorovan´ n
X 6 rS = 1 − (Ri − Qi )2 n(n2 − 1) i=1
nepoˇzaduje se normalita dat, neparametricka´ alternativa k r ˇ r´ı m´ıru zavislosti, ´ ´ ı take´ meˇ vhodn´y ale i pro zachycen´ı nelinearn´ ´ monotonn´ı zavislosti Oznaˇc´ım-li U=
√
n − 1 · rS ,
´ nezavislosti ´ ´ pak hypotezu veliˇcin X a Y na hl. α zam´ıtam, pokud |U| ≥ Φ−1 (1 − α/2). ´ ˇ s´ı na v´ypoˇcet, ale o neco ˇ I Podobna´ m´ıra zavislosti: Kendallovo τ - je sloˇzitejˇ , 141/152 lepˇ s´ı vlastnosti
Matematicka´ statistika
Korelaˇcn´ı anal´yza
´ nezavislosti ´ Na hladineˇ α = 0,05 testujme hypotezu mezi v´ysledky z pˇ r ı kladu ´ ´ ´ , pokud nelze jazykoveho a matematickeho testy z ´ pˇredpokladat normalitu. Xi =Jaz. test Ri Yi =Mat. test Qi
50 6 38 8
23 2 28 6
28 3 14 1
34 4 26 4
14 1 18 2
54 9 40 9
46 5 23 3
52 7 30 7
53 8 27 5
Spoˇcteme rS = 1 −
n h i X 6 6 (Ri − Qi )2 = 1 − (6 − 8)2 + . . . + (8 − 5)2 = 0,683 2 2 n(n − 1) 9(9 − 1) i=1
Protoˇze
√ √ |U| = | n − 1 · rS | = | 8 · 0,683| = 1,933 Φ−1 (1 − α/2) = 1,960
´ nezavislosti ´ ´ hypotezu na hl. 0,05 nezam´ıtame. Nelze tedy tvrdit, zˇ e ´ ´ existuje v´yznamna´ zavislost mezi v´ysledkem jazykoveho a ´ matematickeho testu. ,
142/152
Matematicka´ statistika
Korelaˇcn´ı anal´yza
´ Test nezavislosti v kontingenˇcn´ı tabulce ˇ ´ Nekdy mame k dispozici data v kontingenˇcn´ı tabulce, napˇr. proto, zˇ e ˇ r´ıme souˇcasneˇ dva znaky v nominaln´ ´ ım meˇ ˇ r´ıtku na n nezavisl´ ´ meˇ ych ˇ zjistit, zda existuje zavislost ´ ˇ objektech. C´ılem je opet mezi temito ˇ dvema znaky. ˇ ı, zda existuje vztah mezi pohlav´ım a urovn´ Pˇr.: Za uˇ ı ´ celem zjiˇsten´ ´ ´ ´ strachu z matematiky bylo nahodn eˇ vybrano 100 stˇredoˇskolsk´ych ´ studentu, testu, kter´ym byla ˚ kteˇr´ı byli podrobeni psychologickemu ˇ ´ stˇredn´ı, vysoka), ´ kter´y v nich vyvolav ´ a´ zjiˇstena urovn eˇ strachu (n´ızka, ´ ´ matematika. V´ysledky byly nasleduj´ ıc´ı: pohlav´ı muˇz zˇ ena souˇcet
strach z matematiky n´ızk´y stˇredn´ı vysok´y 10 26 20 4 10 30 14 36 50
souˇcet 56 44 100
´ a´ napozorovane´ cˇ etnosti s lze pouˇz´ıt χ2 -test dobre´ shody: porovnav ´ ´ oˇcekavan´ ymi za nezavislosti znaku˚ ,
143/152
Matematicka´ statistika
pohlav´ı muˇz zˇ ena souˇcet
strach z mat n´ız stˇr vys 10 26 20 4 10 30 14 36 50
souˇcet 56 44 100
Korelaˇcn´ı anal´yza
pohlav´ı muˇz zˇ ena celkem
strach z mat n´ız stˇr vys 18% 46% 36% 9% 23% 68% 14% 36% 50%
souˇcet 100% 100% 100%
existuje vztah mezi pohlav´ım a strachem z matematiky? ´ ´ rozdelen´ ˇ ı procent pro obeˇ pokud jsou tyto dva znaky nezavisl e, ˇ b´yt podobne´ pohlav´ı by melo ˇ zˇ e pohl. studenta je zˇ enske´ odhad pravdep., P(pohl. = zˇ ) = 44/100 odhad pravd., zˇ e strach studenta je vys. P(strach = v) = 50/100 ˇ (za nezavislosti), ´ tedy odhad pravdep. zˇ e studentem je zˇ ena s vysok´ym strachem P(pohl. = zˇ ∩ strach = v) = (44/100) · (50/100) = 0,22 ´ tedy mezi 100 studenty bych takov´ych studentu˚ oˇcekaval 100 · (44/100) · (50/100) = 22 ˇ oˇcekavan ´ ˇ podobne: e´ cˇ etnosti pro 5 zb´yvaj´ıc´ıch bunek. ,
144/152
Matematicka´ statistika
Korelaˇcn´ı anal´yza
´ χ2 test nezavislosti v kontingenˇcn´ı tabulce ´ ˇradku ´ ´ sloupci tabulky (celkem oznaˇcme nij cˇ etnost v i-tem a j-tem ´ u˚ a J sloupcu) I ˇradk ˚ ´ ˇradku ´ ´ oznaˇcme ni+ (resp. n+j ) souˇcet cˇ etnost´ı v i-tem (resp. j-tem sloupci) ´ ´ ˇradku ´ ´ sloupci za hypotezy ´ oˇcekavan a´ cˇ etnost v i-tem a j-tem ´ nezavislosti je ni+ · n+j oij = n ´ Testova statistika je m´ırou shody mezi nij a oij : χ2 =
I X J X (nij − oij )2 oij i=1 j=1
´ ´ nezavislosti ´ hypotezu Pokud χ2 ≥ χ2(I−1)·(J−1) (1 − α), tak zam´ıtame dvou znaku˚ na hladineˇ α. ˇ ´ I pro verohodnost testu se poˇzaduje, aby vˇsechny oˇcekavan e´ cˇ etnosti ˇ s´ı neˇz 5 byly vetˇ ,
145/152
Matematicka´ statistika
Korelaˇcn´ı anal´yza
´ nezavislosti ´ Na hladineˇ α = 0,05 testujme hypotezu mezi pohlav´ım a pˇ r ı kladu ´ . strachem pˇred matematikou z ´ ´ cˇ etnosti jsou: Napozorovane´ (resp. oˇcekavan e) pohlav´ı muˇz zˇ ena souˇcet
strach z matematiky n´ızk´y stˇredn´ı vysok´y 10 (7,84) 26 (20,16) 20 (28) 4 (6,16) 10 (15,84) 30 (22) 14 36 50
souˇcet 56 44 100
I X J X (nij − oij )2 (10 − 7,84)2 (26 − 20,16)2 χ = = + + oij 7,84 20,16 2
i=1 j=1
(20 − 28)2 (4 − 6,16)2 (10 − 15,84)2 (30 − 22)2 + + + = 10,39 28 6,16 15,84 22 ´ zˇ e χ2 = 10,39 ≥ χ2(I−1)·(J−1) (1 − α) = χ22 (0,95) = 5,99 Zjist´ıme dale, ´ ´ nezavislosti ´ Proto zam´ıtame hypotezu na hl. 5%. Existuje vztah mezi pohlav´ım a strachem z matematiky. ˇ pohlav´ım. I Da´ se ˇr´ıct, zˇ e strach z matem. je ovlivnen +
,
146/152
Matematicka´ statistika
´ ı regrese Linearn´
Odhad ceny domu Chcete prodat dum ˚ o velikosti 200m2 . Jak odhadnout jeho prodejn´ı cenu? K ´ jen velikost a cenu dispozici mate ˇ nekolika jin´ych domu. ˚ ˇ cenu domu˚ ovlivnuje spousta faktoru˚ (okol´ı, velikost, stav objektu, atd.) pro jednoduchost pouˇzijme k odhadu ceny domu pouze jeho velikost ´ Jak cenu odhadnout? Staˇc´ı provest odhad jen tak od oka, nebo existuje ˇ y exaktnejˇ ˇ s´ı postup? nejak´ prodejn´ı ceny domu˚ (v mil. Kˇc) a jejich plochy (v m2 ) byly: ,
Plocha (xi ) 74 84 93 102 130 130 139 149 167 186 223 232 251 297 325
Cena(Yi ) 1,40 1,66 1,48 1,86 1,78 1,16 1,70 2,28 1,90 2,00 2,76 2,22 2,48 3,22 3,44 147/152
Matematicka´ statistika
´ ı regrese Linearn´
´ Zavislost ceny domu na velikosti
2.5 1.5
cena (mil. Kč)
3.5
ˇ s´ı je pod´ıvat se na obrazek: ´ mnohem uˇziteˇcnejˇ
100
150
200 plocha(m
250 2
300
)
´ ´ eˇ men´ ˇ ı s plochou I lze pˇredpokladat, zˇ e se cena linearn ,
148/152
Matematicka´ statistika
´ ı regrese Linearn´
Regresn´ı pˇr´ımka - metoda nejmenˇs´ıch cˇ tvercu˚ ´ Mame sadu dvojic (xi , Yi ), i = 1, . . . , n. Chceme z dan´ych hodnot ´ ˇ e) ´ odhadnout hodnoty zavisl ´ regresoru˚ xi (nezavisl e´ promenn e´ ˇ e´ Yi (vysvetlovan ˇ ˇ e) ´ promenn e´ promenn ˇ a´ prum ˇ a´ pˇredpoklad: kaˇzde´ ploˇse domu xi odpov´ıda´ nejak ˚ ern ´ ı na ploˇse xi linearn ´ e: ˇ (stˇredn´ı) cena Yi , ktera´ zavis´ EYi = a + b · xi ,
i = 1, . . . , n
´ ´ Nav´ıc pˇredpokladejme, zˇ e Yi jsou nezavisl e´ Yi ∼ N(a + b · xi , σ 2 ), i = 1, . . . , n Parametry a a b regresn´ı pˇr´ımky se odhadnou metodou ´ ˇ ıch ctverc ˇ nejmens´ u, ˚ tj. hledame hodnoty, pro ktere´ je v´yraz P n 2 minimaln´ ˇ sen´ım jsou: ´ (Y − (a + b · x )) ı . Reˇ i i i=1 Pn (xi · Yi ) − n · x · Y SxY ˆ·x ˆ = i=1 ˆ =Y −b b = a Pn 2 2 2 S x i=1 xi − n · x ,
149/152
Matematicka´ statistika
´ ı regrese Linearn´
ˇ ´ ı soucet ˇ ctverc ˇ Rezidu u˚ (nevysvetlen a´ variabilita Y ): Paln´ n 2 ˆ ˆ Se = i=1 (Yi − (a + b · xi )) min. hodnota souˇctu cˇ tvercu˚ ´ ı rozptyl: s2 = Se /(n − 2) Rezidualn´ ˆ·x ˆ+b ´ rovnice pˇr´ımky odhaduj´ıc´ı zavislost: y =a ´ ´ Testujeme H0 : b = 0 proti Je tato zavislost v´yznamna? H1 : b 6= 0 pomoc´ı statistiky v u n ˆ X b u xi2 − n · x 2 T = ·t s i=1
´ H0 (ˇze Y na x nezavis´ ´ ı) na hladineˇ α zam´ıtame, ´ hypotezu pokud |T | ≥ tn−2 (1 − α/2) ´ celkove´ variability Koeficient determinace:P jaka´ cˇ ast n ˇ ˇ e´ ( i=1 (Yi − Y )2 ) je zavislost´ ´ ˇ vysvetlovan e´ promenn ı vysvetlena: R2 = 1 −
,
Se 2 2 (= rxY ) Pn i=1 Yi − Y 150/152
Matematicka´ statistika
´ ı regrese Linearn´
2.5 1.5
Y = cena (mil. Kč)
3.5
´ ı regresn´ı pˇr´ımky zavislosti ´ ˇ k pˇr´ıkladu . Chceme odhad linearn´ ceny zpet 2 ˆ ˆ = 0,777(mil.) domu na jeho ploˇse. Spoˇcteme b = 0,0076(mil./m ) a a ´ rovnice pˇr´ımky odhaduj´ıc´ı zavislost: y = 0,777 + 0,0076 · x ˆ s kaˇzd´ym m2 roste stˇredn´ı cena domu o 7 600 Kˇc interpretace b: ˆ (ne vˇzdy smysluplne): ´ cena domu o 0 m2 je 777 tis. Kˇc? interpretace a
100 ,
150
200
x = plocha(m
250 2
)
300 151/152
Matematicka´ statistika
´ ı regrese Linearn´
´ ´ ı souˇcet cˇ tvercu: spoˇc´ıtame rezidualn´ ˚ Se = 1,036 2 ´ ı rozptyl: s = Se /(n − 2) = 0.0797 rezidualn´ ´ ı zavislost ´ ´ Testujeme H0 : b = 0 proti Je tato linearn´ v´yznamna? H1 : b 6= 0 pomoc´ı statistiky v u n ˆ uX b 0,0076 p T = ·t xi2 − n · x 2 = · 529780 − 15 · 29629,88 = 7,9 s 0,282 i=1
´ H0 : b = 0 a protoˇze |T | = 7,9 ≥ t13 (0, 975) = 2,16, tak hypotezu ´ ı) na hladineˇ 0,05 zam´ıtame. ´ (ˇze cena na ploˇse nezavis´ koeficient determinace: 1,036 Se =1− = 0,8272 R2 = 1 − 2 Pn 5.997 i=1 Yi − Y ˇ ´ ı zavislost´ ´ tedy 83% variability ceny je vysvetleno linearn´ ı na ploˇse. odhad stˇredn´ı ceny domu o 200m2 : ˆ = 0,777 + 0,0076 · 200 = 2,297 Y ,
152/152