Statisticke´ metody ˇ Matematika pro pˇr´ırodn´ı vedy ´ sej´ıc´ı: pˇrednaˇ
Martin Schindler KAP, tel. 48 535 2836, budova G konzul. hodiny: po dohodeˇ e-mail:
[email protected] naposledy upraveno: 9. ledna 2015
,
1/99
ˇ ˇ ´ ctu: ˇ Poˇzadavek na udelen´ ı zapo v prub semestru budou ˚ ehu ˇ rovany ´ testy (2) z prob´ırane´ latky. ´ ´ znalosti proveˇ Term´ın kaˇzdeho ´ ˇ ı zapoˇ ´ ctu je testu bude dopˇredu oznamen cviˇc´ıc´ım. Pro udelen´ ´ nutne´ z´ıskat alesponˇ poloviˇcn´ı poˇcet bodu˚ z kaˇzdeho testu. ˇ Poˇzadavky ke zkousce: znalost ˇreˇsen´ı uloh, vyloˇzen´ych pojmu˚ ´ ´ pˇrehledem pˇrednaˇ ´ sek. a jejich vlastnost´ı v rozsahu danem
,
2/99
Literatura
ˇ J. Statisticke´ metody. Matfyzpress: Praha, 2007. ANDEL, ´ ı dat. HENDL, J. Pˇrehled statistick´ych metod zpracovan´ ´ Praha, 2012 (4.vyd.) Portal: ´ ˇ AN ´ J.: Pravdepodobnost ˇ ZVARA K., Sˇ Tˇ EP a matematicka´ statistika. Praha: Matfyzpress, 2002.
,
3/99
Literatura online
http://moodle.vsb.cz/vyuka/course/info.php?id=3 Jaroslav Ram´ık: Statisticke´ metody v marketingu http://www.studopory.vsb.cz/ http://mathonline.fme.vutbr.cz/ http://home.zcu.cz/ friesl/hpsb/tit.html http://kap.fp.tul.cz
,
4/99
Statistika statistika je jedn´ım z oboru˚ zab´yvaj´ıc´ıch se ´ ım, zpracovan´ ´ ım a analyzovan´ ´ ım dat shromaˇzd’ovan´ vznikaj´ıc´ıch pˇri studiu tzv. hromadnych ´ jevu, ˚ coˇz jsou jevy ´ vyskytuj´ıc´ı se teprve u velkeho souboru pˇr´ıpadu, ˚ ne jen u pˇr´ıpadu˚ jednotliv´ych. statisticky´ soubor je mnoˇzina statistickych ´ jednotek ´ obce, firmy,...), na nichˇz meˇ ˇ r´ıme (zjiˇst’ujeme) (obyvatele, ˇ poˇcet obyvatel, obrat,...) hodnoty statistickych ´ znaku(v ˚ ek, ˇ ´ zjiˇstenou hodnotu znaku vyjadˇrujeme ve vhodneˇ zvolenem ˇ r´ıtku (stupnici). meˇ ˇ rit nekolik ˇ na jedne´ jednotce muˇ znaku˚ - to umoˇzn´ı ˚ zeme meˇ ´ vyˇsetˇrovat zavislost (existuje souvislost mezi v´ysˇ kou a hmotnost´ı osob ve studovane´ populaci?). ,
5/99
´ ´ ˇ Ke studovanemu datovemu souboru lze pˇristoupit dvema zpusoby: ˚ 1 ˇ ych dat chceme cˇ init zav ´ ery ˇ Popisna´ statistika - ze zjiˇsten´ pouze pro studovan´y datov´y soubor (proˇsetˇrili jsme celou populaci, kterou chceme popsat) 2 ˇ ı) statistika - Studovan´y soubor Matematicka´ (inferencn´ ´ ˇ chapeme jako vyb ´ erov y´ soubor – mnoˇzina prvku˚ ´ ´ ´ vybran´ych nahodn eˇ a nezavisle ze zakladn´ ıho souboru, ´ y (z duvod kter´y je rozsahl´ u˚ cˇ asov´ych, finanˇcn´ıch, ˚ organizaˇcn´ıch aj. nelze prozkoumat cel´y). Z hodnot ˇ ych zjiˇsten´ ˇ ych ve v´yberov ˇ em ´ souboru chceme cˇ init promenn´ ´ ery ˇ o zakladn´ ´ zav ım souboru (v druhe´ puli ˚ semestru).
,
6/99
Popisna´ statistika
ˇ r´ıtek Typy meˇ ´ ´ ˇ nula-jednickov e´ (muˇz/ˇzena, kuˇrak/nekuˇ rak) ´ ı (rodinn´y stav, barva oˇc´ı) - disjunktn´ı kategorie, nominaln´ ´ ktere´ nelze uspoˇradat ˇ an´ ´ ı, m´ıra spokojenosti) ´ ı (nejvyˇssˇ ´ı dosaˇzene´ vzdel ordinaln´ ´ ı meˇ ˇ r´ıtko s uspoˇradan´ ´ nominaln´ ymi kategoriemi intervalove´ (teplota v Celsiove´ stupnici, rok narozen´ı) ´ moˇzne´ hodnoty jsou cˇ ´ıselneˇ oznaˇceny, vzdalenost mezi sousedn´ımi hodnotami je konstatn´ı ˇ pomerov e´ (hmotnost, v´ysˇ ka, poˇcet obyvatel) - hodnoty jsou ´ any ´ v nasobc´ ´ udav ıch dohodnute´ jednotky, nula znamena´ ˇ rene´ vlastnosti. neexistenci meˇ ´ nominaln´ ´ ı, ordinaln´ ´ ı - Kvalitativn´ı: nula-jedniˇckove, ´ pomerov ˇ e´ ´ intervalove, - Kvantitativn´ı (spojite): ,
7/99
Popisna´ statistika
ˇ y Pˇr´ıklad - jednorozmern´ ˇ a´ data (zaj´ıma´ nas ´ pouze jeden znak) - jednorozmern ´ ´ u˚ 8. tˇr´ıd v jiste´ sˇ kole zkoumame IQ 62 zˇ ak ´ jak struˇcneˇ popsat (zhodnotit), co maj´ı data spoleˇcneho, ´ nebo do jake´ m´ıry jsou odliˇsne? ˇ ren´ych hodnot zkoumaneho ´ ´ z nameˇ znaku spoˇc´ıtame ˇ charakteristiky (m´ıry) nekter´ ych jeho hromadn´ych vlastnost´ı ˇ ı, u (charakteristiky polohy, variability, tvaru rozdelen´ ˇ ´ v´ıcerozmern´ych dat to budou i charakteristiky zavislosti) ´ r´ı danou charakteristiky (statistiky) jedn´ım cˇ ´ıslem vyjadˇ vlastnost
,
8/99
Popisna´ statistika
ˇ rena´ data Pˇr´ıklad - nameˇ ˇ rena´ data oznaˇcme x1 , x2 . . . , xn , nyn´ı tedy n = 62. nameˇ 107 92 107 138 104 134 96
141 105 111 112 96 103 140 136 92 72 123 140 112 127 120 106 117 92 108 117 141 109 109 106 113 112 119 109 80 111 86 111 120 96 103 112 103 125 101 132 113 108 106 97 121 84 108 84 129 116 107 112 128 133 94
´ uspoˇradan y´ soubor oznaˇcme x(1) ≤ x(2) ≤ ... ≤ x(n)
,
72 96 106 109 113 127 141
80 96 106 111 116 128 141
84 84 86 92 92 92 94 96 97 101 103 103 103 104 105 106 107 107 107 108 108 108 109 109 111 111 112 112 112 112 112 113 117 117 119 120 120 121 123 125 129 132 133 134 136 138 140 140 9/99
Popisna´ statistika
ˇ ı cˇ etnost´ı Tˇr´ıdn´ı rozdelen´ Pokud se hodnoty cˇ asto opakuj´ı, tak vytvoˇr´ıme tzv. ˇ cetnostn´ ı tabulku. Pokud jde o spojitou veliˇcinu s velk´ym n (poˇctem ˇ ren´ych hodnot), lze pro pˇrehlednost obor hodnot dat nameˇ ˇ do M intervalu˚ ohraniˇcen´ych body rozdelit a = a0 < a1 < a2 < ... < aM−1 < aM = b. ´ ı z daneho ´ vˇsechna pozorovan´ intervalu lze nahradit ´ zastupnou hodnotou (zpravidla stˇredem intervalu) xi∗ , i = 1, . . . , k. necht’ ni oznaˇcuje poˇcet hodnot, ktere´ pˇr´ısluˇs´ı intervalu ˇ hai−1 , ai ), i = 1, . . . , M – tzv. tˇr´ıdn´ı (absolutn´ı) cetnost (jednotlive´ intervaly se naz´yvaj´ı tˇr´ıdy). ´ a´ poˇcet hodnot v dane´ (i-te) ´ ˇ kumulativn´ı cetnost Ni udav ´ pˇredchazej´ ´ ıc´ıch tˇr´ıdeˇ a tˇr´ıdach ˇ cˇ ´ısla ni /n oznaˇcuj´ı relativn´ı cetnost. ,
10/99
Popisna´ statistika
ˇ ı cˇ etnost´ı Pˇr´ıklad - tˇr´ıdn´ı rozdelen´
Interval < 80 h80, 90) h90, 100) h100, 110) h110, 120) h120, 130) h130, 140) ≥ 140
,
xi∗ 75 85 95 105 115 125 135 145
absol. ni 1 4 8 18 14 8 5 4
ni /n 0.016 0.065 0.129 0.290 0.226 0.129 0.081 0.065
kumul. Ni 1 5 13 31 45 53 58 62
Ni /n 0.016 0.081 0.210 0.500 0.726 0.855 0.935 1.000
11/99
Popisna´ statistika
Histogram ´ ˇ ı tˇr´ıdn´ıch cˇ etnost´ı graficke´ znazorn en´ ´ ´ ıcˇ ek tak, aby jeho kaˇzdemu intervalu je pˇriˇrazen obdeln´ ˇ a´ cˇ etnosti daneho ´ plocha byla um intervalu ´ ern ˇ maj´ı intervaly stejnou sˇ ´ıˇrku (ˇcasto vhodneˇ nejˇcasteji ´ ıku˚ odpov´ıda´ cˇ etnostem. zaokrouhlenou), pak v´ysˇ ka obdeln´ ´ problem: volba poˇctu intervalu˚ M lze pouˇz´ıt napˇr. tzv. Sturgesovo pravidlo: . M ≈ 1 + 3.3 log10 (n) = 1 + log2 (n) u naˇseho pˇr´ıkladu: 1 + log2 (62) = 6.95
,
12/99
Popisna´ statistika
Pˇr´ıklad - histogram
0
5
četnost 10
15
Histogram IQ
80
100
120
140
IQ ,
13/99
Popisna´ statistika
Charakteristiky polohy
Charakteristiky polohy umoˇzn´ı charakterizovat urove nˇ cˇ ´ıselne´ veliˇciny jedn´ım ´ ˇ ren´ı cˇ ´ıslem - ohodnocen´ı, jak mal´ych cˇ i velk´ych hodnot meˇ nab´yvaj´ı. ˇ platit, zˇ e pro charakteristiku polohy m souboru dat x by melo ˇ ı se zmenou ˇ ˇ r´ıtka, tj. zˇ e pro libovolne´ se pˇrirozeneˇ men´ meˇ konstanty a, b: m(a · x + b) = a · m(x) + b ´ konstantu b, tak se v´ysledna´ pˇriˇcteme-li ke vˇsem hodnotam ˇ s´ı o b charakteristika zvetˇ ´ vynasob´ ıme-li kaˇzdou hodnotu konstantou a, pak se ˇ s´ı a-krat ´ v´ysledna´ charakteristika zvetˇ
,
14/99
Popisna´ statistika
Charakteristiky polohy
ˇ Aritmetick´y prum ˚ er n
1X 1 x= xi = (x1 + x2 + . . . + xn ) n n i=1
1 (107 + 141 + . . . + 94) = 111.0645 u naˇseho pˇr´ıkladu: x = 62 ´ ı. Jen pro citliv´y na hrube´ chyby, odlehla´ pozorovan´ ˇ r´ıtka. kvantitativn´ı meˇ ´ zen´y prum ˇ z tabulky cˇ etnost´ı lze spoˇc´ıtat jako tzv. vaˇ ˚ er
x=
PM M ∗ 1X 1 · 75 + 4 · 85 + . . . + 4 · 145 i=1 ni xi = ni xi∗ = P = 111.7742 M n 62 ni i=1
i=1
cet jedniˇcek u nula-jedniˇckove´ veliˇciny: poˇpoˇ = relativn´ı cˇ etnost cet nul i jedniˇcek ´ (procento) jedniˇcek (pozorovan´ı s danou vlastnost´ı). ´ je chlapec) , u naˇseho pˇr´ıkladu yi = 0 (i-t´y zˇ ak 32 ´ yi = 1 (i-t´y zˇ ak je d´ıvka): y = 62 = 0.516 ,
15/99
Popisna´ statistika
Charakteristiky polohy
Modus ˇ s´ı hodnota xˆ - nejˇcastejˇ ´ ı a ordinaln´ ´ ı meˇ ˇ r´ıtko ma´ smysl urˇcovat i pro nominaln´ nen´ı vˇzdy jednoznaˇcneˇ urˇcen u naˇseho pˇr´ıkladu: 72 96 106 109 113 127 141
80 96 106 111 116 128 141
84 84 86 92 92 92 94 96 97 101 103 103 103 104 105 106 107 107 107 108 108 108 109 109 111 111 112 112 112 112 112 113 117 117 119 120 120 121 123 125 129 132 133 134 136 138 140 140 xˆ = 112
,
16/99
Popisna´ statistika
Charakteristiky polohy
´ Median ˇ ı uspoˇradan´ ´ x˜ - cˇ ´ıslo, ktere´ del´ y soubor na dveˇ stejneˇ velke´ ´ ´ ´ v´yberu ˇ je uprostˇred. cˇ asti. V uspoˇradan em pro n liche´ x˜ = x( n+1 ) 2 1 x˜ = x n + x( n2 +1) pro n sude´ 2 (2) ˇ i velk´ymi zmenami ˇ ˇ robustn´ı - nen´ı ovlivnen nekolika hodnot. ´ ı meˇ ˇ r´ıtko. U naˇseho pˇr´ıkladu: Lze cˇ asto uˇz i pro ordinaln´ 72 96 106 109 113 127 141
80 96 106 111 116 128 141
84 97 107 111 117 129
84 101 107 111 117 132
x˜ = ,
86 103 107 112 119 133
92 103 108 112 120 134
92 103 108 112 120 136
92 104 108 112 121 138
1 x(31) + x(32) = 110 2
94 105 109 112 123 140
96 106 109 113 125 140
17/99
Popisna´ statistika
Charakteristiky polohy
Kvantily: percentily, decily, kvartily ˇ ı uspoˇradan´ ´ ´ α-kvantil xα ( α ∈ (0, 1)) - del´ y soubor na dveˇ cˇ asti ´ eˇ α-pod´ıl tech ˇ nejmenˇs´ıch hodnot je menˇs´ıch neˇz xα tak, zˇ e prav xα = x(dαne) , kde dae oznaˇcuje a, pokud je to cele´ cˇ ´ıslo, jinak nejbliˇzsˇ ´ı vyˇssˇ ´ı cele´ cˇ ´ıslo. ´ ı pˇr´ıpady kvantilu: specialn´ ˚ percentily: α = 0.01, 0.02, . . . , 0.99 decily: α = 0.1, 0.2, . . . , 0.9 kvartily: α = 0.25, 0.5, 0.75 1. (doln´ı) kvartil znaˇc´ıme Q1 = x0.25 3. (horn´ı) kvartil znaˇc´ıme Q3 = x0.75 ´ je vlastneˇ 50%-n´ı kvantil, 50-t´y percentil, 5-t´y decil a median 2-h´y kvartil ,
18/99
Popisna´ statistika
Charakteristiky polohy
84 101 107 111 117 132
92 103 108 112 120 134
Pˇr´ıklad - kvantily 72 96 106 109 113 127 141
80 96 106 111 116 128 141
84 97 107 111 117 129
86 103 107 112 119 133
92 103 108 112 120 136
92 104 108 112 121 138
94 105 109 112 123 140
96 106 109 113 125 140
1. kvartil Q1 = x0.25 = x(d0.25·62e) = x(d15.5e) = x(16) = 103 3. kvartil Q3 = x0.75 = x(d0.75·62e) = x(d46.5e) = x(47) = 120 1. decil (10%-n´ı kvantil) x0.1 = x(d0.1·62e) = x(d6.2e) = x(7) = 92 9. decil (90%-n´ı kvantil) x0.9 = x(d0.9·62e) = x(d55.8e) = x(56) = 134 ,
19/99
Popisna´ statistika
Charakteristiky polohy
Boxplot
,
120 90 100 80
u naˇseho pˇr´ıkladu: Q1 = 103,x˜ = 110, Q3 = 120, 72 jako odlehle´ ´ ı pozorovan´
70
ˇ cˇ esky krabickov y´ diagram - zobrazuje ´ minimum, kvartily, median, maximum a pˇr´ıpadneˇ ´ ı (jsou odlehla´ pozorovan´ ´ od bliˇzsˇ ´ıho kvartilu dale neˇz 1.5 · (Q3 − Q1 ))
140
boxplot hodnot IQ
20/99
Popisna´ statistika
Charakteristiky variability
Charakteristiky variability ˇ r´ı rozpt´ylen´ı, promenlivost, ˇ meˇ nestejnost, variabilitu souboru dat. ˇ platit, pro charakteristiku variability s souboru dat x by melo zˇ e pro libovolnou konstantu b a pro libovolnou kladnou konstantu a > 0: s(a · x + b) = a · s(x) ´ konstantu b, tak se v´ysledna´ pˇriˇcteme-li ke vˇsem hodnotam ˇ ı charakteristika nezmen´ ´ vynasob´ ıme-li kaˇzdou hodnotu konstantou a, pak se ˇ s´ı a-krat ´ v´ysledna´ charakteristika zvetˇ
,
21/99
Popisna´ statistika
Charakteristiky variability
Rozptyl (variance) (populaˇcn´ı) rozptyl sx2 = var (x) - stˇredn´ı kvadraticka´ odchylka ˇ od prum ˚ eru ! ! n n n 1 X 2 1 X 2 1X 2 2 2 (xi − x) = xi − nx xi − x 2 = sx = n n n i=1
i=1
i=1
u naˇseho pˇr´ıkladu: sx2 =
i 1 h (107 − 111.0645)2 + . . . + (94 − 111.0645)2 = 246.4797 62
z naˇs´ı tabulky cˇ etnost´ı: sx2 =
1 n
PM
= (1 · 752 + . . . + 4 ·
P
1 n 1452 )
∗ 2 i=1 ni (xi − x) =
M ∗2 i=1 ni xi
− x2
− 111.77422 = 257.3361
2 pro rozptyl plat´ı sa·x+b = a2 sx2 ,
22/99
Popisna´ statistika
Charakteristiky variability
ˇ Smerodatn a´ odchylka, variaˇcn´ı koeficient ˇ a) ´ smerodatn ˇ (nev´yberov a´ odchylka: odmocnina z rozptylu p sx = sx2 ´ ı rozmer ˇ jako puvodn´ stejn´y fyzikaln´ ı data ˚ ˇ ı koeficient: variacn´ v=
sx x
´ pouze pro kladne´ hodnoty x1 , . . . , xn > 0 definovan ´ ı na volbeˇ meˇ ˇ r´ıtka, lze pouˇz´ıt na porovnan´ ´ ı ruzn´ nezavis´ ˚ ych souboru˚ √ u naˇsich dat: sx = 246.4797 = 15.70 15.70 v = 111.0645 = 0.1414 ,
23/99
Popisna´ statistika
Charakteristiky variability
ˇ ı: rozd´ıl maxima a minima souboru rozpet´ R = x(n) − x(1) ˇ ı: rozd´ıl tˇret´ıho a prvn´ıho kvartilu mezikvartilove´ rozpet´ RM = Q3 − Q1 = x0.75 − x0.25 ˇ absolutn´ıch odchylek od medianu ´ stˇredn´ı odchylka: prum ˚ er ˇ (nebo prum ˚ eru) n
1X d= |xi − x˜ | n i=1
u naˇsich dat: R = 141 − 72 = 69 d= ,
1 62 (|107
RM = 120 − 103 = 17
− 110| + . . . + |94 − 110|) = 12.03 24/99
Popisna´ statistika
Charakteristiky tvaru
Charakteristiky tvaru ˇ r´ı tvar rozdelen´ ˇ ı hodnot v souboru dat. meˇ ˇ platit, zˇ e pro charakteristiku tvaru γ souboru dat x by melo pro libovolnou konstantu b a pro libovolnou kladnou konstantu a > 0: γ(a · x + b) = γ(x) ´ vynasob´ ıme-li kaˇzdou hodnotu konstantou a nebo ´ konstantu b, tak se v´ysledna´ pˇriˇcteme-li ke vˇsem hodnotam ˇ ı. charakteristika nezmen´ ´ proto je poˇc´ıtame ze standardizovan´ych hodnot xi − x . sx ,
25/99
Popisna´ statistika
Charakteristiky tvaru
ˇ tˇret´ıch mocnin standardizovan´ych ˇ koeficient sikmosti: prum ˚ er hodnot 3 n 1 X xi − x g1 = n sx i=1
ˇ r´ı zeˇsikmen´ı rozdelen´ ˇ ı (symetricke´ ≈ 0, prav´y chvost > 0, meˇ lev´y chvost < 0) ˇ cˇ tvrt´ych mocnin ˇ catosti: ˇ koeficient spi prum ˚ er standardizovan´ych hodnot 4 n 1 X xi − x g2 = −3 n sx i=1
ˇ r´ı “ˇspiˇcatost” rozdelen´ ˇ ı (koncentrace kolem stˇredu a na meˇ ´ rozdelen´ ˇ ı < 0) chvostech > 0, “ploche” ´ ı (oveˇ ˇ ren´ı) s normaln´ ´ ım rozdelen´ ˇ ım, pro Lze pouˇz´ıt pro porovnan´ . . ktere´ g1 = g2 = 0. u naˇsich dat: g1 = 0.0159 g2 = −0.241 ,
26/99
Popisna´ statistika
´ Charakteristiky zavislosti
ˇ y Pˇr´ıklad - v´ıcerozmern´
ˇ a´ data (zaj´ıma´ nas ´ v´ıce znaku) - v´ıcerozmern ˚ ˇ ˇ a´ znamka ´ zjiˇsteno IQ, pohlav´ı, prum v pololet´ı v 7. a 8. ˚ ern ´ u˚ tˇr´ıdeˇ 62 zˇ ak ´ jak zhodnotit vztah (zavislost) mezi jednotliv´ymi znaky? vypoˇcten´ım vhodne´ statistiky (ˇc´ısla) nebo grafick´ym zobrazen´ım
,
27/99
Popisna´ statistika
´ Charakteristiky zavislosti
ˇ rena´ v´ıcerozmern ˇ a´ data Pˇr´ıklad - nameˇ
,
D´ıvka Zn7 Zn8 IQ
1 1 1 107
0 1 1 141
D´ıvka Zn7 Zn8 IQ
1 1.85 1.45 92
0 3.15 3.18 72
D´ıvka Zn7 Zn8 IQ
0 2.07 2.45 107
D´ıvka Zn7 Zn8 IQ
0 1 1 138
0 3.15 3 105
1 1.62 1.73 111
0 2.69 2.09 112
1 1.92 2.09 96
0 2.38 2.55 103
0 1 1 140
1 1.4 1.9 136
1 1.46 1.45 92
0 1.15 1.18 123
0 1 1 140
1 1.69 1.91 112
0 1.6 1.72 127
1 1.62 1.63 120
1 1.38 1.36 106
1 1.7 1.9 117
0 3.23 3.36 92
0 1.84 1.9 108
1 1.2 1.36 117
1 1.31 1.45 141
1 1.4 1.73 109
1 1.53 1.6 109
0 1.84 1.54 106
1 1 1 113
0 1.3 1.45 112
1 1.4 1.82 119
0 2.92 2.82 109
1 2.23 2.45 80
1 1.69 1.54 111
0 2.61 2.54 86
1 1.07 1 111
0 1.46 1.36 120
1 2.15 1.9 96
0 1.69 1.82 103
0 1.38 1.18 112 28/99
Popisna´ statistika
´ Charakteristiky zavislosti
ˇ a´ data - pokraˇcovan´ ´ ı v´ıcerozmern
,
D´ıvka Zn7 Zn8 IQ
1 1.46 1.54 104
1 1.6 1.63 103
1 1.07 1 125
0 1.3 1.27 101
0 2.08 1.54 132
1 2 2.09 113
0 1.69 1.91 108
1 1.4 1.45 106
1 2.23 2 97
0 1.6 1.81 121
D´ıvka Zn7 Zn8 IQ
1 1.07 1.27 134
0 3.13 3.27 84
1 1.84 1.82 108
1 1.8 1.63 84
0 1 1 129
1 1.92 1.9 116
0 2.2 2.25 107
1 1.53 1.54 112
1 1.3 1.45 128
0 1 1.18 133
D´ıvka Zn7 Zn8 IQ
0 2.85 2.91 96
0 2.61 2.81 94
29/99
Popisna´ statistika
´ Charakteristiky zavislosti
´ ˇ ı zavislosti ´ Graficke´ znarozn en´
,
80
90
100 110 120 130 140
boxplot IQ zvlášť pro obě pohlaví
70
´ z´ı na typu Zaleˇ ˇ r´ıtka meˇ ´ pro zavislost kvantit. znaku na kvalitativn´ım lze nakreslit boxplot/histogram pro kaˇzdou kategorii kvalit. znaku ´ zobrazen´ı zavislosti IQ na pohlav´ı x hoch = 112.0 x divka = 110.2
hoch
dívka 30/99
Popisna´ statistika
´ Charakteristiky zavislosti
´ ˇ ı zavislosti ´ Graficke´ znarozn en´ -2 ´ Rozptylovy´ diagram: zavislost dvou kvantitativn´ıch znaku˚
+ + + + + ++ + + + + ++ + ++ + + + + ++ + + + ++ + + + + + + + + + + +++ ++ + + + ++ + +
kladná korelace
3.0
+ chlapec + dívka
1.5
zn7
,
2.5
zn8
2.5 +
3.0
+
1.5
+
+
2.0
+
+
1.0
+
+
2.0
+
70 1.0
+
+
+
+
80
90
100
iq
120
140
záporná korelace
+ + + + + + ++ + ++ ++ + ++ + + ++ + ++ + + + + + ++ 1.0
1.5
+
+
+
+
++ + ++ + + + + + +
+
+ + 2.0
+ + +
2.5
chlapec dívka zn8=zn7 3.0
zn7
31/99
Popisna´ statistika
´ Charakteristiky zavislosti
´ Charakteristiky zavislosti ´ dva znaky na kaˇzde´ jednotce, tj. mame (x1 , y1 ), . . . , (xn , yn ) ˇ r´ı smer ˇ zavislosti, ´ ˇ ˇ ˇ r´ıtka kovariance: meˇ ovlivnena zmenou meˇ ! n n 1 X 1X sxy = (xi − x) (yi − y) = xi yi − xy, n n i=1
Plat´ı sxx =
i=1
Pn 1 n
i=1 (xi
− x)2 = sx2 ,
syy = sy2
ˇ r´ı ˇ ı koeficient: normovana´ kovariance, meˇ (Pearsonuv) ˚ korelacn´ ˇ i velikost zavislosti ´ smer n sxy sxy 1 X xi − x yi − y rx,y = q = = · sx sy n sx sy sx2 sy2 i=1 u naˇsich dat pro znaky IQ a zn7: −6.2876 rIQ,zn7 = = −0.6559 15.6997 · 0.6106 ,
32/99
Popisna´ statistika
´ Charakteristiky zavislosti
Korelaˇcn´ı koeficient ˇ r´ı smer ˇ a m´ıru linearn´ ´ ı zavislosti ´ meˇ nab´yva´ jen hodnot z intervalu h−1, 1i ´ ´ ´ rx,y ≈ 0 (znaky x a y vzajemn eˇ nezavisl e) ´ ´ rx,y bl´ızko 1 (kladna zavislost: s rostouc´ım x znak y v ˇ roste) prum ˚ eru ´ ´ rx,y bl´ızko −1 (zaporn a´ zavislost: s rostouc´ım x znak y v ˇ klesa) ´ prum ˚ eru U naˇsich dat lze spoˇc´ıtat pro kaˇzdou dvojici znaku˚ d´ıvka, iq, zn7, ˇ ı matice zn8: tzv. korelacn´ d´ıvka iq zn7 zn8 ,
d´ıvka 1.0000 -0.0597 -0.3054 -0.2661
iq -0.0597 1.0000 -0.6559 -0.6236
zn7 -0.3054 -0.6559 1.0000 0.9481
zn8 -0.2661 -0.6236 0.9481 1.0000 33/99
Popisna´ statistika
´ Charakteristiky zavislosti
Regresn´ı pˇr´ımka - metoda nejmenˇs´ıch cˇ tvercu˚ ´ Mame sadu dvojic (xi , yi ), i = 1, . . . , n. Chceme z dan´ych hodnot ´ ame ´ ´ ı znaku x odhadnout hodnoty znaku y . Pˇredpoklad linearn´ ´ zavislost y na x, tj. zˇ e pˇribliˇzneˇ plat´ı . y =a+b·x
Parametry a a b regresn´ı pˇr´ımky se odhadnou metodou ´ ˇ ıch ctverc ˇ nejmens´ u, ˚ tj. hledame hodnoty, pro ktere´ je v´yraz P n 2 minimaln´ ˇ sen´ım jsou: ´ (y − (a + b · x )) ı . Reˇ i i=1 i Pn Sxy (xi · yi ) − n · x · y ˆ = i=1 ˆ·x ˆ =y −b b = a Pn 2 2 Sx2 i=1 xi − n · x
,
34/99
Popisna´ statistika
´ Charakteristiky zavislosti
´ ´ ˇ ı linearn´ ´ ı zavislosti dvou Regresn´ı pˇr´ımka: znazorn en´ kvantitativn´ıch znaku˚
+ + + ++ +
+
+
+
+ +
+ +
90
+ +
+
+
+
+ + +
+ +
+
+
+ +
+ +
70
+ 1.0
1.5
140
+ 80
80
+
,
130 120
+
+ + + + + +
2.0
110
+
+
iq
+
++
++
100
110
+ +
100
iq
+ +
chlapec dívka trend trend chl. trend dív.
90
+
+ +
+
2.5
70
140
+
+ + + +
120
+ + +
130
lineární regrese
3.0 35/99
Matematicka´ statistika
Matematicka´ statistika
´ ame, ´ Pˇredpoklad zˇ e napozorovana´ data X1 , X2 , . . . , Xn jsou ´ ˇ ym modelem s nahodn´ ym vzorkem z populace a ˇr´ıd´ı se nejak´ ´ ymi parametry neznam´ ´ e´ parametry Snaha: odhadnout tyto neznam ˇ pˇredpoklad ´ ame ´ ´ ıho Nejˇcasteji model tzv. normaln´ ´ ˇ ı pravdepodobnosti. ˇ (Gaussova) nebo binomickeho rozdelen´
,
36/99
Matematicka´ statistika
ˇ Pravdepodobnost
ˇ Teorie pravdepodobnosti ´ - se zab´yva´ tzv. nahodn ymi ´ pokusy, tj. pokusy, u nichˇz v´ysledek nen´ı pˇredem jednoznaˇcneˇ urˇcen ´ ´ mnoˇzinu vˇsech moˇzn´ych v´ysledku˚ nahodn eho pokusu oznaˇcujeme Ω ´ ´ ı jevy prvky Ω oznaˇcujeme ωi a naz´yvame elementarn´ ´ nahodn y´ jev (ozn. A, B, atpd.) - tvrzen´ı o v´ysledku ´ ´ ˇ nahodn eho pokusu, je to podmnoˇzina Ω tvoˇrena nekter´ ymi elem. jevy ´ ´ ˇ Pravdepodobnost nahodn eho jevu A (ozn. P(A)): vyjadˇruje ´ an´ ´ ı, zˇ e nastane jev A. m´ıru oˇcekav ´ poˇctu opakovan´ ´ ı tohoto nahodn ´ ´ pˇri velkem eho pokusu se relativn´ı cˇ etnost jevu A bl´ızˇ ´ı k P(A).
,
37/99
Matematicka´ statistika
ˇ Pravdepodobnost
ˇ Klasicka´ pravdepodobnost
´ ´ mnoˇzina vˇsech v´ysledku˚ nahodn eho pokusu Ω je sloˇzena z ´ ´ ıch jevu˚ ω1 , . . . , ωn koneˇcneho poˇctu (n) elementarn´ ˇ ´ ıch jevu˚ je stejneˇ pravdepodobn´ ˇ kaˇzd´y z techto elementarn´ y ´ ıch jevu, oznaˇcme m(A) poˇcet elementarn´ ˚ ktere´ tvoˇr´ı jev (jsou pˇr´ıznive´ jevu) A Potom P(A) =
,
m(A) poˇcet pˇr´ızniv´ych elem. jevu˚ = n poˇcet vˇsech elem. jevu˚
38/99
Matematicka´ statistika
ˇ Pravdepodobnost
Pˇr´ıklad: hod kostkou ˇ jednou hod´ıme symetrickou sˇ estistenou kostkou s cˇ ´ısly 1, 2, . . . , 6 jev A - padne sˇ estka jev B - padne liche´ cˇ ´ıslo kaˇzda´ z 6 moˇznost´ı, ktere´ mohou nastat, jsou stejneˇ ˇ pravdepodobn e´ urˇc´ıme m(A) = 1 a m(B) = 3 Proto P(A) = a P(B) =
,
m(A) 1 = n 6
m(B) 3 1 = = n 6 2 39/99
Matematicka´ statistika
ˇ Pravdepodobnost
Pˇr´ıklad (permutace) ˇ ´ ´ seˇrazen´ı p´ısmen P, Jaka´ je pravdepodobnost, zˇ e pˇri nahodn em A, V, E, L vznikne slovo PAVEL? ´ n! = 1 · 2 · . . . · n je poˇcet zpusob faktorial: u, ˚ ˚ jak ´ uspoˇradat do ˇrady n ruzn´ ˚ ych prvku˚ - poˇcet permutac´ı poˇcet vˇsech moˇznost´ı seˇrazen´ı je tedy ˇ 5! = 1 · 2 · 3 · 4 · 5 = 120, kaˇzda´ stejneˇ pravdepodobn a´ z nich pˇr´ızniva´ je pouze jedna 1 proto P = 5!1 = 120 Jak by to dopadlo s p´ısmeny slova ANANAS? ˇ ´ ım (nekter zde jde o permutace s opakovan´ e´ prvky se 6! ´ an´ ´ ı je 2!·3! opakuj´ı), poˇcet moˇznost´ı pˇreuspoˇrad , z nich pˇr´ızniva´ je pouze jedna 2·6 1 proto P = 6!1 = 2!·3! = 720 = 60 6! 2!·3!
,
40/99
Matematicka´ statistika
´ Nahodn a´ veliˇcina
´ Nahodn a´ veliˇcina ´ pouˇzit´ı jen nahodn´ ych jevu˚ nestaˇc´ı ´ ´ cˇ asto je v´ysledkem nahodn eho pokusu cˇ ´ıslo ´ zaj´ıma´ poˇcet sˇ estek pˇri hodu deseti kostkami, napˇr. nas ´ nebo jak dlouho vydrˇz´ı sv´ıtit zˇ arovka ´ ren´ı v´ysledku nahodn ´ ´ ´ ˇ Nahodn a´ velicina: cˇ ´ıselne´ vyjadˇ eho pokusu ´ ´ a´ jak´ych hodnot s jakou ˇ Rozdelen´ ı nahodn e´ veliˇciny: udav ˇ pravdepodobnost´ ı veliˇcina nab´yva´ ˇ ı lze jednoznaˇcneˇ urˇcit napˇr. pomoc´ı distribuˇcn´ı rozdelen´ funkce ´ veliˇciny X urˇcuje pro kaˇzde´ ˇ ı funkce FX (x) nah. Distribucn´ ˇ ´ veliˇcina menˇs´ı neˇz cˇ ´ıslo x: x pravdepodobnost, zˇ e je nah. FX (x) = P(X < x)
x ∈R
ˇ ˇ sek kumulat. pravdepodobnost (pˇredstava: teoretick´y protejˇ ´ bodeˇ R) kumulativn´ı relativn´ı cˇ etnosti poˇc´ıtane´ v kaˇzdem ,
41/99
Matematicka´ statistika
´ Nahodn a´ veliˇcina
ˇ ı Typy rozdelen´
´ X je nahodn ´ ´ ı rozdelen´ ˇ Diskretn´ ı (FX (x) “schodovita”): a´ veliˇcina ´ ım rozdelen´ ˇ ım pravdepodobnosti, ˇ s diskretn´ jestliˇze existuje ˇ seznam hodnot x1 , x2 , . . . a kladn´ych pravd ı P epodobnost´ ˇ ıc´ıch i P(X = xi ) = 1. P(X = x1 ), P(X = x2 ), . . . splnuj´ ´ existuje tzv. hustota fX (x), ˇ Spojite´ rozdelen´ ı (FX (x) spojita): ´ a´ ”pravdepodobnost ˇ ktera´ udav v´ysledku” ˇ sek hranice histogramu pro delku ´ pˇredstava: teoretick´y protejˇ intervalu˚ jdouc´ıch k nule
,
42/99
Matematicka´ statistika
´ Nahodn a´ veliˇcina
Pˇr´ıklad 1 ´ ı rozdelen´ ˇ ı): Ze zkuˇsenosti je znamo, ´ ˇ ı v´ysledku z (diskretn´ zˇ e rozdelen´ ˇ MV2 u nahodn ´ ´ ´ pˇredmetu eˇ vybraneho studenta (X ) je nasleduj´ ıc´ı: xi P(X = xi )
1 0,05
2 0,2
3 0,4
4 0,35
´ Urˇcete P(X < 3) a distribuˇcn´ı funkci nahodn e´ veliˇciny X . FX (3) = P(X < 3) = P(X = 1) + P(X = 2) = 0,05 + 0,2 = 0,25 nutno urˇcit FX (x) = P(X < x) pro kaˇzde´ x ∈ R
FX(x) 0 0.25 0.65
1
Graf distribuční funkce X
,
0
1
2
3
4
5
43/99
Matematicka´ statistika
´ Nahodn a´ veliˇcina
Pˇr´ıklad 2 ˇ ı): Tramvaj jezd´ı v pravideln´ych petiminutov´ ˇ (spojite´ rozdelen´ ych ´ ´ intervalech. Pˇredpokladejme, zˇ e cˇ as naˇseho pˇr´ıchodu na zastavku je ´ ˇ ı nahodn ´ ´ ı na nahodn´ y. Jake´ je rozdelen´ e´ veliˇciny X znaˇc´ıc´ı dobu cˇ ekan´ ˇ emu ´ ˇ ı rozdelen´ tramvaj? k rovnomern ˇ ı fX (x) staˇc´ı urˇcit distribuˇcn´ı funkci FX (x) nebo hustotu rozdelen´ pro kaˇzde´ x ∈ R zˇrejmeˇ pro x ∈ (0, 5) plat´ı FX (x) = P(X < x) = x5 , a fX (x) = 51 Graf hustoty X
,
0
0
fX(x)
FX(x)
1
0.2
Graf distribuční funkce X
0 1 2 3 4 5 x (min)
0 1 2 3 4 5 x (min)
44/99
Matematicka´ statistika
ˇ ı Charakteristiky rozdelen´
Stˇredn´ı hodnota ´ ´ Stˇredn´ı hodnota (oˇcekavan a´ hodnota) nahodn e´ veliˇciny X ´ hodnota, kolem ktere´ se kumuluj´ı hodnoty nahodn e´ veliˇciny X ´ ı rozdelen´ ˇ ı: vaˇ ´ zen´y prum ˇ moˇzn´ych hodnot, pro diskretn´ ˚ er ´ ˇ vahami jsou pravdepodobnosti hodnot X EX = xi · P(X = xi ) = x1 · P(X = x1 ) + x2 · P(X = x2 ) + . . . i
u : EX = 1 · 0,05 + 2 · 0,2 + 3 · 0,4 + 4 · 0,35 = 3,05 ´ ´ (stˇredn´ı, oˇcekavan a´ znamka) ˇ ı: integral ´ vˇsech moˇzn´ych hodnot x, pro spojite´ rozdelen´ ´ vahovou funkc´ı je hustota Z ∞ EX = x · fX (x) dx Pˇr. 1
−∞
R5 R∞ u Pˇr. 2 : EX = −∞ x · 0 dx + 0 x · 15 dx + 5 x · 0 dx = ´ ´ ı) (stˇredn´ı, oˇcekavan a´ doba cˇ ekan´ R0
,
5 2
45/99
Matematicka´ statistika
ˇ ı Charakteristiky rozdelen´
Rozptyl ´ vel. X : var X = E(X − EX )2 - udav ´ a´ variabilitu rozdelen´ ˇ ı Rozptyl nah. ´ nahodn e´ veliˇciny X kolem jej´ı stˇredn´ı hodnoty, je to stˇredn´ı hodnota cˇ tvercu˚ odchylek moˇzn´ych hodnot od stˇredn´ı hodnoty ´ ı rozdelen´ ˇ ı: pro diskretn´ var X = E(X − EX )2 =
X
(xi − EX )2 · P(X = xi ) =
i 2
= (x1 − EX ) · P(X = x1 ) + (x2 − EX )2 · P(X = x2 ) + . . . u Pˇr. 1 : var X = 2,052 · 0,05 + 1,052 · 0,2 + 0,052 · 0,4 + 0,952 · 0,35 = 0,7475 ˇ ı: pro spojite´ rozdelen´ 2
Z
∞
var X = E(X − EX ) =
(x − EX )2 · fX (x) dx
−∞
√ ,
u Pˇr. 2 : R R5 R∞ . 0 var X = −∞ (x − 25 )2 · 0 dx + 0 (x − 52 )2 · 15 dx + 5 (x − 52 )2 · 0 dx = 2,083 ´ vel. X ˇ var X se naz´yva´ smerodatn a´ odchylka nah. 46/99
Matematicka´ statistika
´ ı rozdelen´ ˇ ı Diskretn´
Pˇr´ıklad
ˇ ı): V testu je 5 otazek, ´ (binomicke´ rozdelen´ na kaˇzdou ´ a´ prav ´ eˇ jedna z odpoved´ ˇ ı a), b), c), d). Jaka´ je je spravn ˇ ´ eˇ na 3 otazky ´ pravdepodobnost, zˇ e odpov´ıme prav ´ e, ˇ pokud tipujeme nahodn ´ ˇ spravn e? ´ ych odp. jako X ozn. poˇcet spravn´ ´ eˇ s pravdepodobnost´ ˇ na kaˇzdou odpov´ıme spravn ı p = 1/4 ˇ na jednotlive´ otazky ´ ´ odpovedi jsou nezavisl e´
ˇ zˇ e ve tˇrech dan´ych (napˇr. prvn´ıch tj. pravdep., ´ ach ´ odpov´ıme spravn ´ eˇ a v ostatn´ıch tˇrech) otazk ´ eˇ (ozn. 11100), je p3 · (1 − p)2 nespravn ´ ach: ´ mohli jsme se ale trefit i v jin´ych tˇrech otazk ´ z peti, ˇ na ktere´ poˇcet zpusob u, ˚ ˚ jak vybrat tˇri otazky ˇ ´ eˇ je 53 = 10 muˇ spravn ˚ zeme odpovedet ˇ zˇ e odpov´ıme prav ´ eˇ na 3 otazky ´ ´ eˇ Tedy pravdep., spravn 5 3 2 3 2 P(X = 3) = 3 ·p ·(1−p) = 10·(1/4) ·(3/4) = 0,088 ,
11100 11010 10110 01110 11001 10× 10101 01101 10011 01011 00111
47/99
Matematicka´ statistika
´ ı rozdelen´ ˇ ı Diskretn´
ˇ ı Binomicke´ rozdelen´ ´ ´ ´ Zaj´ıma´ nas ´ X cˇ etnost Opakujeme nezavisle stejn´y nahodn´ y pokus n-krat. ˇ eho ´ ´ ´ ˇ ˇ nejak nahodn eho jevu v techto n pokusech, jestliˇze je pravdepodobnost ´ rovna p. X muˇ tohoto jevu ve vˇsech pokusech stejna, ˚ ze nab´yvat pouze ˇ ı dane´ pravdepodobnostmi ˇ hodnot 0, 1, . . . , n a ma´ rozdelen´ n P(X = i) = · pi · (1 − p)n−i , i = 0, 1, . . . , n; kde 0 < p < 1 i ˇr´ıkame, ´ ˇ zˇ e X ma´ binomicke´ rozdelen´ ı s parametry n a p ´ zkracen eˇ p´ısˇ eme X ∼ Bi(n, p) Pn stˇredn´ı hodnota EX = i=0 i · ni · pi · (1 − p)n−i = n · p rozptyl var X = n · p · (1 − p) u Pˇr.: ,
X ∼ Bi(5, 1/4)
EX =
5 4
var X = 5 ·
1 4
·
3 4
=
15 16
48/99
Matematicka´ statistika
ˇ ı Spojite´ rozdelen´
´ ı (Gaussovo) rozdelen´ ˇ ı Normaln´ ´ ˇ ım s hustotou Necht’ X je nahodn a´ veliˇcina se spojit´ym rozdelen´ 1 (x − µ)2 1 exp − , pro x ∈ R. fX (x) = √ 2 σ2 2πσ ˇ ı. kde µ = EX a σ 2 = var X jsou parametry rozdelen´ ˇr´ıkame, ´ ´ ı rozdelen´ ˇ zˇ e X ma´ normaln´ ı se stˇr. hod. µ a rozptylem σ 2 ´ zkracen eˇ p´ısˇ eme X ∼ N(µ, σ 2 ) ´ ren´ı pro distribuˇcn´ı funkc´ı FX (x) neexistuje explicitn´ı vyjadˇ ´ pro N(0, 1) jsou hodnoty pˇresneˇ tabelovany ˇ s´ı spojite´ rozdelen´ ˇ ı nejduleˇ ˚ zitejˇ ˇ u˚ I Vznik: souˇctem mnoha nepatrn´ych pˇr´ıspevk ,
49/99
Matematicka´ statistika
ˇ ı Spojite´ rozdelen´
´ ıho rozdelen´ ˇ ı N(µ, σ 2 ) Grafy hustot normaln´
0.8
I symetricke´ kolem stˇredn´ı hodnoty
0.0
0.2
0.4
0.6
N(0,1)N(0,1) N(1,1) N(-2,1) N(0,4) N(0,0.25)
,
-4
-2
0
2
4
50/99
Matematicka´ statistika
ˇ ı Spojite´ rozdelen´
´ ı rozdelen´ ˇ ı Z ∼ N(0, 1) Normovane´ normaln´
0.4
I distrib. funkce N(0, 1) znaˇc´ıme Φ(z) = P(Z < z) z tabulek I napˇr. Φ(1,38) = P(Z < 1,38) ====== 0,916
0.2
0.3
F(z) = P(Z < z)
0.0
0.1
hustota N(0,1)
-3 ,
-2
-1
0
1 z
2
3 51/99
Matematicka´ statistika
ˇ ı Spojite´ rozdelen´
´ ı rozdelen´ ˇ ı Z ∼ N(0, 1) Normovane´ normaln´
F(- z) = P(Z < - z) 1 - P(Z < z)
0.0
0.1
0.2
0.3
0.4
I ze symetrie N(0, 1) plyne: Φ(−z) = 1 − Φ(z) I napˇr. P(Z < −1,38) = Φ(−1,38) = 1 − Φ(1,38) =z=tab. == 1 − 0,916 = 0,084
-3 ,
-2
-z
0
1
z
2
3 52/99
Matematicka´ statistika
ˇ ı Spojite´ rozdelen´
´ ı rozdelen´ ˇ ı Z ∼ N(0, 1) Normovane´ normaln´
0.2
0.3
0.4
I P(a < Z < b) = P(Z < b) − P(Z < a) = Φ(b) − Φ(a) z tab. I napˇr. P(−1 < Z < 2) = Φ(2) − Φ(−1) ==== 0,977 − 0,158 = 0,819
0.0
0.1
P( a < Z < b)
-3
,
-2
a
0
1
b
3
53/99
Matematicka´ statistika
ˇ ı Spojite´ rozdelen´
´ ı rozdelen´ ˇ ı Z ∼ N(µ, σ 2 ) Obecne´ normaln´ pro X ∼ N(µ, σ 2 ) plat´ı, zˇ e ozn.
Z === P(X < x) = P( X −µ < σ proto
X −µ ∼ N(0, 1) σ
x−µ ) σ
=Φ
P(a < X < b) = Φ
x−µ σ
b−µ σ
−Φ
a−µ σ
Pˇr.: V´ysˇ ka chlapcu˚ v sˇ este´ tˇr´ıdeˇ X ∼ N(µ σ 2 =49): = 143, . 150−143 130−143 urˇceme P(130 < X < 150) = Φ −Φ = 0,81 7 7 tedy mezi chlapci v sˇ este´ tˇr´ıdeˇ je pˇribliˇzneˇ 81% vysok´ych 130 aˇz 150 cm. ,
54/99
Matematicka´ statistika
ˇ ı Spojite´ rozdelen´
ˇ Pˇr.: Jake´ v´ysˇ ky dosahuje jen 5% chlapcu˚ v sˇ este´ tˇr´ıde? 2 ˇ ı N(µ = 143, σ = 49) . . . 95%-n´ı kvantil rozdelen´
,
55/99
Matematicka´ statistika
ˇ ı Spojite´ rozdelen´
´ ´ ıho rozdelen´ ˇ ı1 Kvantily normovaneho normaln´
0.2
0.3
0.4
´ vel. Z ∼ N(0, 1) znaˇc´ıme Φ−1 (α) I kvantilovou funkci nah. −1 I plat´ı P(Z < Φ (α)) = Φ(Φ−1 (α)) = α ´ Φ(x) inverzn´ım postupem I lze naj´ıt v tabulkach ´ Φ−1 (0,95) = 1,65 a Φ−1 (0,975) = 1,96 I cˇ asto pouˇz´ıvane:
0.0
0.1
0.95
-3 ,
-2
-1
0
F-1(0.95) = 1.65
3 56/99
Matematicka´ statistika
ˇ ı Spojite´ rozdelen´
´ ´ ıho rozdelen´ ˇ ı2 Kvantily normovaneho normaln´ ´ cˇ asto jen kvantily pro α ≥ 0,5 I v tabulkach ˇ ı): I pro α < 0,5 lze vyuˇz´ıt vztahu (plyne ze symetrie rozdelen´ Φ−1 (α) = −Φ−1 (1 − α)
0.1
0.2
0.3
0.4
I napˇr: 5%-n´ı kvantil N(0, 1) je Φ−1 (0,05) = −Φ−1 (0,95) = −1,65
0.0
0.05 -3
,
F-1(0.05) = - 1.65
0
F-1(0.95) = 1.65
3 57/99
Matematicka´ statistika
ˇ ı Spojite´ rozdelen´
´ ´ ıho rozdelen´ ˇ ı Kvantily obecneho normaln´ ozn.
pro X ∼ N(µ, σ 2 ) plat´ı, zˇ e Z === X −µ ∼ N(0, 1) σ ´ vel X je takova´ hodnota h, pro kterou plat´ı α-kvantil nah. h−µ P(X < h) = α Φ =α σ X −µ h−µ h−µ P < =α = Φ−1 (α) σ σ σ h−µ P Z < =α h = σ · Φ−1 (α) + µ σ ˇ ı N(µ = 143, σ 2 = 49) Pˇr.: Urˇceme 95%-n´ı kvantil rozdelen´ −1 je roven σ · Φ (0,95) + µ = 7 · 1,65 + 143 = 154,5 ˇ r´ı v´ıce neˇz 154,5 cm. tedy jen 5% chlapcu˚ v sˇ este´ tˇr´ıdeˇ meˇ ,
58/99
Matematicka´ statistika
Odhady
´ ˇ Nahodn´ y v´yber ´ ´ ˇ je n-tice X1 , X2 , . . . , Xn nahodn´ Nahodn y´ vyb ´ er ych veliˇcin, ktere´ ´ ˇ ı. jsou nezavisl e´ a maj´ı stejne´ rozdelen´ ´ I Pˇr. 1: V´ysˇ ka chlapcu˚ sˇ est´ych tˇr´ıd, velka´ populace, nahodn eˇ ˇ r´ıme v´ysˇ ku Xi vybereme n chlapcu˚ u nichˇz zmeˇ ˇ ren´ı pevnosti tkaniny, zmeˇ ˇ r´ıme pevnost na n I Pˇr. 2: Meˇ ´ nahodn eˇ vybran´ych vzorc´ıch ˇ poˇcet veliˇcin n oznaˇcujeme pojmem rozsah vyb ´ eru 2 ´ ˇ ı (stˇr. hodnotu µ, rozptyl σ , atd.) nah. parametry rozdelen´ ´ veliˇcin Xi cˇ asto nezname ´ ´ ˇ lze tyto nezname ´ ˇ ı z nahodn eho v´yberu parametry rozdelen´ odhadnout P ˇ ˇ X = n1 ni=1 Xi je (bodov´ym) odhadem vyb ´ erov y´ prum ˚ er stˇredn´ı hodnoty (v´ysˇ ky, pevnosti) Pn 1 2 ˇ vyb ´ erov y´ rozptyl S 2 = n−1 ym) i=1 (Xi − X ) je (bodov´ ˇ ı odhadem rozptylu rozdelen´ ´ X a S 2 jsou take´ nahodn e´ veliˇciny ,
59/99
Matematicka´ statistika
Odhady
ˇ eho ´ ˇ Vlastnosti v´yberov prum ˚ eru
´ ˇ z rozdelen´ ˇ ı se stˇredn´ı Necht’ X1 , X2 , . . . , Xn je nahodn´ y v´yber 2 hodnotou µ a rozptylem σ . Potom 1) EX = µ (X je nestrann´y odhad µ) 2
2) var (X ) = σn ´ ˇ rozptylu, tj. ES 2 = σ 2 podobneˇ lze dokazat nestrannost v´yber.
,
60/99
Matematicka´ statistika
Odhady
ˇ u˚ Histogramy prum ˚ er ´ zˇ ivotnost vyrab ´ en´ ˇ ych zaˇ ´ rivek, nahodn ´ ´ rivek, Pˇr.: Zaj´ıma´ nas eˇ vybereme n zaˇ ´ ˇ ˇ u˚ otestujeme je a spoˇc´ıtame jejich prum zˇ ivotnost. Takov´ych prum ˚ ernou ˚ er ´ ´ spoˇc´ıtame 1 000 a nakresl´ıme jejich histogram. (Data vygenerovana z ´ ıho rozdelen´ ˇ ı se stˇredn´ı hodnotou 1) exponencialn´ ´ ˇ a zlepˇsuje se I z obrazku patrno, zˇ e s rostouc´ım n klesa´ variabilita prum ˚ eru ´ ı limitn´ı veta) ˇ normalita (centraln´ n=2
0
0
100
100
200
200
300
300
n=1
0
1
2
3
4
5
6
7
1
2
3
5
6
4
5
6
7
0
50
50
150
150
250
250
4
n = 50
0 ,
0
n = 10
0
1
2
3
4
5
6
7
0
1
2
3
61/99
7
Matematicka´ statistika
Odhady
ˇ Pˇr.: Cesk a´ obchodn´ı inspekce chce zkontrolovat v´yrobce coly, zda ´ neˇsid´ı zakazn´ ıky. Chce proto odhadnout stˇredn´ı mnoˇzstv´ı coly v ´ eˇ dvoulitrove´ lahvi a zkontrolovat tak, zda je pln´ıc´ı automat spravn ´ ´ nastaven. Nahodn eˇ bylo za t´ımto uˇ 100 lahv´ı a byl ´ celem vybrano ´ pln´ıc´ım ˇ jejich prum ˇ y obsah X = 1,982 litru. zjiˇsten ˚ O danem ˚ ern´ ´ ˇ ˇ eho ´ automatu je nav´ıc znamo, zˇ e smerodatn a´ odchylka mnoˇzstv´ı plnen 2 do dvoulitrov´ych lahv´ı je σ = 0,05 litru˚ (tedy rozptyl σ = 0,0025 litru˚ 2 ) ´ ´ eˇ a mnoˇzstv´ı napoje v jedne´ lahvi se da´ povaˇzovat za normaln 2 ˇ ´ rozdelenou nahodnou veliˇcinu N(µ, σ = 0,0025). Potvrzuj´ı data ˇ domnenku, zˇ e je automat sˇ patneˇ nastaven a v´yrobce tak sˇ id´ı spotˇrebitele? X = 1,982 se da´ povaˇzovat za bodov´y odhad stˇredn´ıho mnoˇzstv´ı ´ nahodn ´ ´ v´yberu ˇ lahv´ı vyjde jin´y odhad v lahvi µ. Pˇri kaˇzdem em ’ ˇ Co ted ? (prum ˚ er). ˇ y interval (...intervalov´y odhad), o kterem ´ Nelze naj´ıt napˇr. nejak´ ´ ˇr´ıct, zˇ e pokr´yva´ neznam ´ e´ stˇredn´ı mnoˇzstv´ı µ s bychom dokazali ˇ velkou pravdepodobnost´ ı? ˇ rit domnenku ˇ ´ ı hypotez), ´ Jak oveˇ (...testovan´ zˇ e v´yrobce sˇ patn´ym ˇ ´ nastaven´ım automatu sid´ı zakazn´ıky? ,
62/99
Matematicka´ statistika
Odhady
Matematicka´ statistika ´ ´ ˇ z nejak ˇ eho ´ Pˇredpokladejme, zˇ e X1 , X2 , . . . , Xn je nahodn´ y v´yber ˇ ı vetˇ ˇ sinou s neznam´ ´ ymi parametry rozdelen´ ˇ sinou pˇredpoklad ´ ame, ´ ´ v´yber ˇ pochaz´ ´ ı z pevneˇ daneho ´ Vetˇ zˇ e nah. ˇ ı (nejˇcasteji ˇ normaln´ ´ ıho) a snaˇz´ıme se odhadnout neznam ´ e´ rozdelen´ ˇ ı nebo oveˇ ˇ rit (testovat) hypotezy ´ o techto ˇ parametry tohoto rozdelen´ parametrech (u norm. rozd. pujde o stˇredn´ı hodnotou µ a rozptyl σ 2 ) ˚ ´ eho ´ bodovy´ odhad neznam parametru je jedna hodnota, kterou ´ ´ ´ ´ ˇ spoˇc´ıtame z hodnot realizovaneho nahodn eho v´yberu, napˇr. X je bodov´ym odhadem µ ´ eho ´ intervalovy´ odhad neznam parametru (take´ interval ´ ı na nahodn ´ ´ spolehlivosti) je interval (jehoˇz hranice take´ zavis´ em ˇ ´ eho ´ v´yberu), kter´y pokr´yva´ hodnotu neznam parametru s ˇ pˇredepsanou pravdepodobnost´ ı ˇ ´ ı hypotez ´ se snaˇz´ıme rozhodnout mezi dvema v testovan´ ´ ´ parametru odporuj´ıc´ımi si tvrzen´ımi (hypotezami) o danem ˇ ı, napˇr. zda je automat na plnen´ ˇ ı lahv´ı spravn ´ eˇ nastaven rozdelen´ (µ = 2 litry) nebo nen´ı (µ 6= 2 litry) ,
63/99
Matematicka´ statistika
Intervaly spolehlivosti
´ Interval spol. pro µ, kdyˇz σ 2 zname, u N(µ, σ 2 ) ´ ˇ X1 , X2 , . . . , Xn z rozdelen´ ˇ ı N(µ, σ 2 ) plat´ı Pro nahodn´ y v´yber σ2 ´ ı data X ∼ N µ, z CLV plat´ı pro n velke´ i pro nenormaln´ n proto X −µ √ · n ∼ N(0, 1) σ a tedy plat´ı, zˇ e ! √ X − µ P −Φ−1 (1 − α/2) < · n < Φ−1 (1 − α/2) = 1 − α σ ´ e´ σ 2 je tedy 100(1 − α)%-n´ı interval spolehlivosti pro µ a znam σ σ X − Φ−1 (1 − α/2) · √ ; X + Φ−1 (1 − α/2) · √ n n ´ ´ tento interval (je nahodn´ y) pokr´yva´ neznamou stˇredn´ı hodnotu µ s ˇ pravdepodobnost´ ı1−α ´ e´ µ I jen zhruba 100(1 − α)% takov´ych intervalu˚ obsahuje neznam ,
64/99
Matematicka´ statistika
Intervaly spolehlivosti
´ ´ ˇ jejich ˇ k Pˇr. : Nahodn eˇ vybrano 100 lahv´ı coly a byl zjiˇsten zpet ˇ rene´ hodnoty povaˇzujeme za ˇ y obsah X = 1,982 litru. prum ˚ Nameˇ ˚ ern´ ´ ´ v´yberu ˇ z rozdelen´ ˇ ı N(µ, σ 2 = 0,0025). Spoˇc´ıtejme realizaci nahodn eho 95%-n´ı interval spolehlivosti pro stˇredn´ı mnoˇzstv´ı coly v jedne´ lahvi µ. 100(1 − α)%-n´ı int. spol. je X − Φ−1 (1 − α/2) · √σn ; X + Φ−1 (1 − α/2) ·
√σ n
pro 95%-n´ı int. spol. poloˇz´ıme α = 0,05 a najdeme tedy Φ−1 (1 − 0,05/2) = Φ−1 (0,975) = 1,96 dosad´ıme za X = 1,982, σ = 0,05 a n = 100: 0,05 0,05 . 1,982 − 1,96 · √ ; 1,982 + 1,96 · √ = 100 100 . = (1,982 − 0,010; 1,982 + 0,010) = = (1,972; 1,992) ˇ ´ S pravdepodobnost´ ı 95% tento interval obsahuje neznamou stˇredn´ı hodnotu µ, ale neobsahuje hodnotu 2. Lze tedy s velkou jistotou tvrdit, ´ eˇ nastaven. zˇ e automat nen´ı spravn ,
65/99
Matematicka´ statistika
Intervaly spolehlivosti
´ ´ ´ Pˇr.: Z populace jedenactilet´ ych chlapcu˚ bylo nahodn eˇ vybrano 16 a ˇ byla zjistena jejich hmotnost (v kilogramech): 33,1 38,2
36,7 39,5
34,5 28,9
30,5 36,3
35,9 35,5
36,5 35,8
40,5 45,8
37,9 43,4
ˇ ren´ı budeme povaˇzovat za realizaci nah. ´ v´yberu ˇ z rozdelen´ ˇ ı Meˇ N(µ, σ 2 ). Chceme 95%-n´ı interval spolehlivosti pro stˇredn´ı hmotnost ´ jedenactilet´ ych chlapcu. ˚ ´ ´ Problem: nelze pouˇz´ıt pˇredchoz´ı postup, protoˇze nezname ˇ ˇ ren´ı σ. smerodatnou odchylku meˇ
,
66/99
Matematicka´ statistika
Intervaly spolehlivosti
´ Interval spol. pro µ, kdyˇz σ 2 nezname, u N(µ, σ 2 ) ´ e´ σ nahrad´ıme odhadem, tzv. vyb ˇ ˇ neznam ´ erovou smerodatnou odchylkou v u n p u 1 X t 2 (Xi − X )2 S= S = n−1 i=1
´ e´ σ 2 pro v´yber ˇ z 100(1 − α)%-n´ı interval spolehlivosti pro µ a neznam ´ ıho rozdelen´ ˇ ı je normaln´ S S X − tn−1 (1 − α/2) · √ ; X + tn−1 (1 − α/2) · √ n n ˇ s´ı nahrazen´ı kvantilu Φ−1 (1 − α/2) kvantilem tn−1 (1 − α/2) (je vetˇ ´ → sˇ irˇs´ı interval) je dan´ı za to, zˇ e neznamou hodnotu σ nahrazujeme jej´ım odhadem S. ˇ ı o n stupn´ıch tn (α) oznaˇcuje α-kvantil tzv. (Studentova) t-rozdelen´ ´ volnosti; najdeme ho v tabulkach interpretace je stejna´ jako u pˇredchoz´ıho intervalu ,
67/99
Matematicka´ statistika
Intervaly spolehlivosti
ˇ ren´ych hodnot chceme spoˇc´ıtat 95%-n´ı interval ˇ k Pˇr. : Z 16 nameˇ zpet spolehlivosti pro stˇredn´ı hmotnost. ´ spoˇc´ıtame X = 36,8125 , S = 4,2711 a poloˇz´ıme n = 16 pro 95%-n´ı int. spol. poloˇz´ıme α = 0,05 a najdeme . t15 (1 − 0,05/2) = t15 (0,975) = 2,13 ˇ Tedy s 95%-n´ı pravdepodobnost´ ı je stˇredn´ı hmotnost pokryta intervalem: S S . = X − tn−1 (1 − α/2) · √ ; X + tn−1 (1 − α/2) · √ n n 4,2711 4,2711 . . = 36,8125 − 2,13 · √ ; 36,8125 + 2,13 · √ = 16 16 . . = (36,8125 − 2,274; 36,8125 + 2,274) = . = (34,54; 39,09) pro 99%-n´ı int. spol. je α = 0,01 a t15 (1 − 0,01/2) = t15 (0,995) = 2,95 tedy 99%-n´ı interval spolehlivosti pro µ je (33,66; 39,96) ,
68/99
Matematicka´ statistika
Intervaly spolehlivosti
´ ˇ b´yt podle normy jeho Pˇr.: U stroje na v´yrobu souˇcastek by mela ˇ chybovost (tj. pravdepodobnost, zˇ e vyrob´ı zmetek) nejv´ysˇ e 10%. Pˇri ´ ´ ´ ˇ kontrole nahodn eho vzorku 400 souˇcastek bylo mezi nimi zjisteno 42 zmetku. ˚ Jak urˇcit 95%-n´ı a 99%-n´ı interval spolehlivosti pro chybovost stroje. ´ oznaˇcme jako p neznamou chybovost stroje ´ vybrano ´ ´ ˇ p zmetek nah. n = 400 souˇcastek, kaˇzda´ s pravdep. tedy celkov´y poˇcet zmetku˚ mezi vybran´ymi Y ∼ Bi(n = 400, p) ´ v´yberem ˇ ˇ poˇcet zmetku˚ ve v´yberu ˇ (absolutn´ı cˇ etnost) nah. zjiˇsten ˇ y = 42 (realizac´ı Y zjiˇstena hodnota y) 42 ˆ = yn = 400 I bodov´ym odhadem p je relativn´ı cˇ etnost p = 0,105 I jak bychom mohli odhadnout p intervalem? ´ ı limitn´ı vety: ˇ pro Y ∼ Bi(n, p) ma´ z Centraln´ · Y ∼ N(n · p, n · p · (1 − p)) pro dostateˇcneˇ velke´ n tedy ,
Y n
·
∼ N(p, p·(1−p) ) n 69/99
Matematicka´ statistika
Intervaly spolehlivosti
´ ˇ ı Interval spol. pro parametr p binomickeho rozdelen´ ·
´ ´ veliˇcinu Y z rozdelen´ ˇ ı Bi(n, p), pak Yn ∼ N(p, p·(1−p) Mame-li nah. )a n ´ emu ´ ˇ ı nezname, ´ protoˇze rozptyl (kvuli p) tohoto rozdelen´ ˚ neznam ˆ) p ˆ . Tedy Yn ∼· N(p, pˆ·(1− nahrad´ıme p v rozptylu odhadem p ) a plat´ı n ! Y √ − p P −Φ−1 (1 − α/2) < p n · n < Φ−1 (1 − α/2) = 1 − α ˆ · (1 − p ˆ) p ˆa za Yn pak dosad´ıme napozorovanou relativn´ı cˇ etnost yn = p dostaneme: ´ ˇ ı je 100(1 − α)%-n´ı int. spol. pro parametr p binomickeho rozdelen´ ! r r ˆ · (1 − p ˆ) ˆ · (1 − p ˆ) p p −1 −1 ˆ − Φ (1 − α/2) · ˆ + Φ (1 − α/2) · p ; p n n interpretace je podobna´ jako u pˇredchoz´ıch intervalu˚ ,
70/99
Matematicka´ statistika
Intervaly spolehlivosti
´ vybran´ych souˇcastek ´ ˇ k Pˇr. : Ze 400 nah. bylo 42 zmetku. zpet ˚ Chceme spoˇc´ıtat 95%-n´ı a 99%-n´ı interval spolehlivosti pro chybovost stroje. ˇ bodov´ym odhadem chybovosti p je pod´ıl vadn´ych ve v´yberu 42 ˆ = yn = 400 = 0,105 p pro 95%-n´ı (resp. 99%-n´ı) int. spol. poloˇz´ıme α = 0,05 (resp. α = 0,01) a najdeme Φ−1 (1 − 0,05/2) = Φ−1 (0,975) = 1,96 Φ−1 (1 − 0,01/2) = Φ−1 (0,995) = 2,58
a
Tedy 95%-n´ı int. spol. pro chybovost p stroje je: ! r r ˆ · (1 − p ˆ) ˆ · (1 − p ˆ) . p p −1 −1 ˆ − Φ (1 − α/2) · ˆ − Φ (1 − α/2) · p ; p = n n ! r r 0,105 · (1 − 0,105) 0,105 · (1 − 0,105) . = 0,105 − 1,96 · ; 0,105 + 1,96 · 400 400 . = (0,075; 0,135) = (7,5%; 13,5%) resp. 99%-n´ı int. spol. by vyˇsel (0,065; 0,145) = (6,5%; 14,5%) ,
71/99
Matematicka´ statistika
Intervaly spolehlivosti
Vlastnosti intervalu˚ spolehlivosti
sˇ ´ıˇrka intervalu roste s vyˇssˇ ´ı poˇzadovanou spolehlivost´ı (viz. posledn´ı pˇr´ıklad) ´ ı) sˇ ´ırˇka intervalu klesa´ s vyˇssˇ ´ım n (poˇctem pozorovan´ 2 I napˇr. u intervalu pro µ u N(µ, σ ) nebo pro p u Bi(n, p) je sˇ ´ıˇrka ˇ a´ odmocnineˇ z n; a tedy k z´ıskan´ ´ ı dvakrat ´ uˇzsˇ ´ıho nepˇr´ımo um ´ ern ˇ s´ıho) intervalu spolehlivosti je tˇreba 4-krat ´ v´ıce pozorovan´ ´ ı (pˇresnejˇ ˇ v nekter´ ych pˇr´ıpadech lze z poˇzadavku na sˇ ´ırˇku intervalu ´ ı n. odhadnout potˇrebn´y poˇcet pozorovan´
,
72/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ rovat hypotezy? ´ Jak oveˇ
´ em ´ parametru jak rozhodnout, zda plat´ı tvrzen´ı o neznam ˇ ı? rozdelen´ spoˇc´ıtali jsme intervalov´y odhad pro stˇredn´ı mnoˇzstv´ı µ coly v lahvi: (1,972; 1,992) lze (a s jakou jistotou) tvrdit, zˇ e je automat sˇ patneˇ nastaven? ˇ bychom napˇr., aby pravdepodobnost ˇ ´ poˇzadavek: chteli “kˇriveho ˇ ı” byla mala´ obvinen´ ´ ıme standardizovane´ postupy pro takove´ rozhodovan´ ´ ı proto: zavad´
,
73/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ ı hypotez ´ Testovan´ ´ v´yb. z rozdelen´ ˇ ı s nezn. parametrem(y). X1 , X2 , . . . , Xn je nah. ´ ´ o parametru(ech) daneho ´ ˇ ı: Mame dveˇ odporuj´ıc´ı si hypotezy rozdelen´ ˇ ´ tzv. nulovou hypotezu H0 : parametr se rovna´ urˇcite´ hodnote, parametry se rovnaj´ı,... ´ ´ tzv. alternativn´ı hypotezu H1 : opak nulove´ hypotezy, cˇ asto to, co ´ se snaˇz´ıme prokazat ´ Podle typu H0 a H1 se zvol´ı rozhodovac´ı kriterium (test, testove´ ´ ´ ı na (vypoˇctu ho z) realizovanem ´ nahodn ´ ´ kriterium), ktere´ zavis´ em ˇ (napozorovan´ych datech). v´yberu Moˇzna´ rozhodnut´ı: ´ ˇ c´ı proti n´ı zam´ıtame H0 , pokud data (a tedy i test) svedˇ ´ nezam´ıtame H0 , pokud data (a tedy i test) neposkytuj´ı dostatek “dukaz u” ˚ ˚ proti H0
,
74/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ ı Postup a moˇzne´ chyby pˇri rozhodovan´ chyba 1. druhu: H0 plat´ı a my ji zam´ıtneme chyba 2. druhu: H0 neplat´ı a my ji nezam´ıtneme ˇ = 0,05), je hladina testu: oznaˇcujeme ji α (tu vol´ıme, nejˇcasteji ˇ nejvyˇssˇ ´ı pˇr´ıpustna´ pravdepodobnost chyby 1. druhu rozhodnut´ı\skuteˇcnost ´ nezam´ıtame H0 ´ zam´ıtame H0
H0 plat´ı ´ eˇ spravn chyba 1. druhu ≤ α
H0 neplat´ı chyba 2. druhu ´ eˇ spravn
Postup: Podle toho, co chceme zjistit, zformulujeme H0 a H1 a ´ zvol´ıme α. Pak zvol´ıme vhodne´ rozhodovac´ı kriterium: tj. z testu, ˚ ´ ı jejichˇz hladina je menˇs´ı neˇz α vybereme obvykle ten s minimaln´ ˇ pravdepodobnost´ ı chyby 2. druhu
,
75/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ ´ ˇ jejich ˇ k Pˇr. : Nahodn eˇ vybrano 100 lahv´ı coly a byl zjiˇsten zpet ˇ y obsah X = 1,982 litru. ˇ rene´ hodnoty povaˇzujeme za prum ˚ ern´ ˚ Nameˇ ´ ´ ˇ z rozdelen´ ˇ ı N(µ, σ 2 = 0,0025). Da´ se realizaci nahodn eho v´yberu tvrdit, zˇ e je automat sˇ patneˇ nastaven? ˇ bychom provest ´ na hladineˇ α = 0,05 test hypotezy ´ Chteli ´ eˇ nastaven) H0 : µ = 2 litry (automat je spravn proti alternativeˇ ´ eˇ nastaven) H1 : µ 6= 2 litry (automat nen´ı spravn ´ Jak zvolit testove´ kriterium?
,
76/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ y test stˇredn´ı hodnoty (σ 2 zname) ´ Z-test: jednov´yberov´ ´ v´yb. z rozdelen´ ˇ ı N(µ, σ 2 ), kde σ 2 zname. ´ X1 , X2 , . . . , Xn je nah. Z jiˇz ´ odvozeneho plyne, zˇ e ! |X − µ| √ −1 P · n ≥ Φ (1 − α/2) = α σ ´ H0 : µ = µ0 proti alternativeˇ H1 : µ 6= µ0 lze Tedy pro test hypotezy pouˇz´ıt testovou statistiku X − µ0 √ · n σ ´ ´ H0 (pˇriklon´ıme se k H1 ), pokud a na hladineˇ α zam´ıtame hypotezu −1 |Z | ≥ Φ (1 − α/2) ´ ´ er: ˇ H0 muˇ pokud |Z | < Φ−1 (1 − α/2), tak H0 nezam´ıtame. Zav ˚ ze platit ´ ı limitn´ı vet ˇ eˇ i pro Pozn.: Pro dostateˇcneˇ velka´ n plat´ı d´ıky Centraln´ ˇ ı neˇz normaln´ ´ ı jina´ rozdelen´ Z =
,
77/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ ´ ˇ k Pˇr. : Nahodn eˇ vybrano 100 lahv´ı coly, X = 1,982 litru. zpet ˚ Pˇredp, ´ ı z rozdelen´ ˇ ı N(µ, σ 2 = 0,0025). Da´ se tvrdit, zˇ e je zˇ e data pochazej´ automat sˇ patneˇ nastaven? ˇ bychom provest ´ na hladineˇ α = 0,05 test hypotezy ´ Chteli ´ eˇ nastaven) H0 : µ = 2 litry (automat je spravn proti alternativeˇ ´ eˇ nastaven) H1 : µ 6= 2 litry (automat nen´ı spravn ´ Testove´ kriterium (testova´ statistika) je Z =
X − µ0 √ 1,982 − 2 √ · n= · 100 = −3,6 σ 0,05
Tedy |Z | = 3,6 ≥ Φ−1 (1 − α/2) = Φ−1 (0,975) = 1,96 ´ ´ ıme se k H1 a proto na hladineˇ 0,05 zam´ıtame H0 a pˇriklan´ ´ er: ˇ automat nen´ı spravn ´ eˇ nastaven Zav Lze usoudit i z toho, zˇ e: 2 ∈ / (1,972; 1,992) (95%-n´ı int. spol. pro µ) ,
78/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ rena hmotnost 16 jedenactilet´ ´ ˇ k Pˇr. : Byla zmeˇ ych chlapcu. zpet ˚ ˇ ren´ı povaˇzujeme za realizaci nah. ´ v´yberu ˇ z rozdelen´ ˇ ı N(µ, σ 2 ). Lze Meˇ ˇ tvrdit, zˇ e se jejich hmotnost zmenila oproti dobeˇ pˇred 25 lety, kdy byla ´ stˇredn´ı hmotnost jedenactilet´ ych 34 kg? Volme hladinu testu α = 0,01 ˇ bychom tedy provest ´ na hladineˇ α = 0,01 test hypotezy ´ Chteli H0 : µ = 34 kg (hmotnost je rovna hmotnosti pˇred 25 lety) proti alternativeˇ H1 : µ 6= 34 kg (hmotnost nen´ı rovna hmotnosti pˇred 25 lety) ´ ´ Problem: nelze pouˇz´ıt pˇredchoz´ı postup, protoˇze nezname ˇ ˇ ren´ı σ. smerodatnou odchylku meˇ
,
79/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ y t-test: test stˇr. hodnoty (σ 2 nezname) ´ Jednov´yberov´ ´ v´yb. z rozdelen´ ˇ ı N(µ, σ 2 ), kde σ 2 nezname. ´ X1 , X2 , . . . , Xn je nah. Plat´ı, √ X −µ zˇ e S · n ∼ tn−1 , z cˇ ehoˇz podobneˇ jako u Z-testu plyne: ! |X − µ| √ · n ≥ tn−1 (1 − α/2) = α P S ´ H0 : µ = µ0 proti alternativeˇ H1 : µ 6= µ0 lze Tedy pro test hypotezy pouˇz´ıt testovou statistiku T =
X − µ0 √ · n S
´ ´ H0 (pˇriklon´ıme se k H1 ), pokud a na hladineˇ α zam´ıtame hypotezu |T | ≥ tn−1 (1 − α/2) ´ ´ er: ˇ H0 muˇ pokud |T | < tn−1 (1 − α/2), tak H0 nezam´ıtame. Zav ˚ ze platit ,
80/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ rena hmotnost 16 jedenactilet´ ´ ˇ k Pˇr. : Byla zmeˇ ych chlapcu. zpet ˚ 2 ˇ ren´ı pochazej´ ´ ı z rozdelen´ ˇ ı N(µ, σ ). Lze tvrdit, zˇ e se jejich hmotnost Meˇ ˇ zmenila oproti dobeˇ pˇred 25 lety, kdy byla stˇredn´ı hmotnost ´ jedenactilet´ ych 34 kg? ˇ bychom tedy provest ´ na hladineˇ α = 0,01 test hypotezy ´ Chteli H0 : µ = 34 kg (hmotnost je rovna hmotnosti pˇred 25 lety) proti alternativeˇ H1 : µ 6= 34 kg (hmotnost nen´ı rovna hmotnosti pˇred 25 lety) ´ Testove´ kriterium (testova´ statistika) je X − µ0 √ 36,8125 − 34 √ T = · n= · 16 = 2,634 S 4,2711 Tedy |T | = 2,634 < tn−1 (1 − α/2) = t15 (0,995) = 2,947 ´ a proto na hladineˇ 0,01 nezam´ıtame H0 ´ er: ˇ Nevyluˇcujeme, zˇ e je hmotnost rovna hmotnosti pˇred 25 lety Zav Pozn.: na hladineˇ α = 0,05 bychom H0 zam´ıtli (pˇriklonili se k H1 ), protoˇze |T | = 2,634 ≥ tn−1 (1 − α/2) = t15 (0,975) = 2,131 (ekviv. 34 ∈ / (34,54; 39,09)) ,
81/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ y t-test Parov´ ˇ ´ ˇ ren´ı) a snaˇz´ıme se je Nekdy mame k dispozici dveˇ sady dat (meˇ porovnat (jejich stˇredn´ı hodnoty). Oznaˇcme napozorovane´ veliˇciny ´ (X1 , Y1 ), . . . , (Xn , Yn ) a pˇredpokladejme, zˇ e veliˇciny X a Y se stejn´ym ´ ˇ rena na indexem nelze povaˇzovat za nezavisl e´ (ˇcasto proto, zˇ e jsou meˇ ´ jednom objektu), ale veliˇciny s ruzn´ e´ povaˇzovat ˚ ymi indexy za nezavisl ˇ ren´ı spolu nesouvisej´ıc´ı, napˇr. proto, zˇ e jsou provedena na jiˇz lze (meˇ ruzn´ ˚ ych objektech). ´ ´ ˇ Byla Pˇr.: Nahodn eˇ vybrano 8 lid´ı, kteˇr´ı byli podrobeni diete. ´ zaznamenana jejich hmotnost (v kg) pˇred dietou a po n´ı. Osoba Pˇred Po
1 81 84
2 85 68
3 92 73
4 82 79
5 86 71
6 88 80
7 79 71
8 85 72
ˇ bychom zjistit, zda ma´ dieta vliv na hmotnost. Chteli ´ Jak zvolit testove´ kriterium? ,
82/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ y t-test Parov´ ´ ´ ˇ y nahodn´ ´ ˇ (X1 , Y1 ), Pˇredpokladejme, zˇ e mame dvourozmern´ y v´yber ´ ktere´ nelze povaˇzovat za . . . , (Xn , Yn ) takov´y, zˇ e X a Y tvoˇr´ı pary, ´ ´ Oznaˇcme µX = EXi a µY = EYi . nezavisl e. ´ poloˇzme Z1 = X1 − Y1 , . . . , Zn = Xn − Yn a pˇredpokladejme, ´ Dale zˇ e ´ ˇ z rozdelen´ ˇ ı N(µ, σ 2 ), veliˇciny Z se daj´ı povaˇzovat za nahodn´ y v´yber kde µ = µX − µY . ´ ˇ ren´ı pochazej´ ´ ı z rozdelen´ ˇ ı o stejne´ Tedy test hypotezy, zˇ e obeˇ sady meˇ ´ z jako test hypotezy ´ stˇredn´ı hodnoteˇ H0 : µX − µY = 0 je toteˇ ´ H0 : µ = 0 proti alternativeˇ H1 : µ 6= 0 je H0 : µ = 0. Test hypotezy ˇ eho ´ ulohou jednov´yberov t-testu. ´ P 1 Pn 2 ´ Tedy spoˇc´ıtame Z = n1 ni=1 Zi a SZ2 = n−1 a i=1 (Zi − Z ) pokud |Z − 0| √ |T | = · n ≥ tn−1 (1 − α/2) SZ ´ ´ H0 (pˇriklon´ıme se k H1 : µX 6= µY ) tak na hladineˇ α zam´ıtame hypotezu ,
83/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ y t-test, intervalov´y odhad Parov´ ˇ ´ zaj´ıma´ intervalov´y odhad rozd´ılu µ = µX − µY (podobneˇ Nekdy nas ˇ s neznam´ ´ ym rozptylem). jako pro jeden v´yber 100(1 − α)%-n´ı interval spolehlivosti pro µ = µX − µY : S S Z − tn−1 (1 − α/2) · √Z ; Z + tn−1 (1 − α/2) · √Z n n
´ ˇ ren´ı Tento interval lze pouˇz´ıt i pro test hypotezy, zˇ e obeˇ sady meˇ ´ ı z rozdelen´ ˇ ı o stejne´ stˇredn´ı hodnoteˇ H0 : µ = 0 proti pochazej´ alternativeˇ H1 : µ 6= 0 na hladineˇ α: SZ SZ √ Pokud 0 ∈ / Z − tn−1 (1 − α/2) · √ ; Z + t (1 − α/2) · tak na n−1 n n ´ ´ H0 (pˇriklon´ıme se k H1 : µX 6= µY ) hladineˇ α zam´ıtame hypotezu
,
84/99
Matematicka´ statistika
ˇ k zpet
Pˇr.
´ ı hypotez ´ Testovan´
ˇ Ma´ dieta vliv na hmotnost? : 8 lid´ı podrobeno diete. Osoba X=Pˇred Y=Po Z=Rozd´ıl
1 81 84 -3
2 85 68 17
3 92 73 19
4 82 79 3
5 86 71 15
6 88 80 8
7 79 71 8
8 85 72 13
´ Provedeme na hladineˇ α = 0,05 test hypotezy ´ H0 : µ = µX − µY = 0 kg (dieta nema vliv na hmotnost) proti H1 : µ = µX − µY 6= 0qkg (dieta ma´ vliv na hmotnost) √ Spoˇcteme Z = 10 a SZ = SZ2 = 55,71429 = 7,4642 Testova´ statistika je Z −0 √ 10 − 0 √ T = · n= · 8 = 3,789 SZ 7,4642 Tedy |T | = 3,789 ≥ tn−1 (1 − α/2) = t7 (0,975) = 2,365 ´ a proto na hladineˇ 0,05 zam´ıtame H0 . ´ ˇ ´ Zaver: dieta ma vliv na hmotnost. Pozn.: i pro α = 0,01 bychom H0 zam´ıtali (t7 (0,995) = 3,499) ,
85/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ y t-test Dvouv´yberov´ ˇ ´ ˇ ren´ı), ktere´ se snaˇz´ıme Nekdy mame k dispozici dveˇ sady dat (meˇ ´ eˇ porovnat (jejich stˇredn´ı hodnoty), pˇriˇcemˇz veliˇciny nejsou parov ´ zavisl e´ a nemus´ı jich b´yt stejn´y poˇcet. Oznaˇcme napozorovane´ veliˇciny ´ X1 , . . . , Xn a Y1 . . . , Ym a budeme je povaˇzovat za dva nezavisl e´ ´ ˇ (vˇsechny veliˇciny jsou mezi sebou nezavisl ´ ´ nahodn e´ v´ybery e). ˇ nasleduj´ ´ ´ u˚ (v cm): Pˇr.: Ve tˇr´ıdeˇ byly zjiˇsteny ıc´ı v´ysˇ ky zˇ ak Chlapci D´ıvky Chlapci D´ıvky
130 135 139 141
140 141 136 131
136 143 138 142
141 132 142 141
139 146 127
133 146 139
149 151 147
151 141
ˇ stejneˇ vysoc´ı. Volte Testujte, zda jsou chlapci a d´ıvky v prum ˚ eru α = 0,05. ´ Jak nyn´ı zvolit testove´ kriterium? ,
86/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ y t-test Dvouv´yberov´ ´ ´ ´ ˇ X1 , . . . , Xn ∼ N(µX , σ 2 ) a Pˇredpokladejme, zˇ e mame nahodn´ y v´yber 2 ´ ˇ Y1 , . . . , Ym ∼ N(µY , σ ) a tyto dva v´ybery ˇ jsou nahodn´ y v´yber ´ nezavisl e´ se stejn´ym rozptylem. Poloˇz´ıme 1 S ∗2 = · (n − 1) · SX2 + (m − 1) · SY2 , n+m−2 1 Pn 1 Pm 2 2 kde SX = n−1 i=1 (Xi − X )2 a SY2 = m−1 i=1 (Yi − Y ) . ´ ˇ ren´ı pochazej´ ´ ı z rozdelen´ ˇ ı o stejne´ Pro test hypotezy, zˇ e obeˇ sady meˇ stˇredn´ı hodnoteˇ H0 : µX − µY = 0 proti alternativeˇ H1 : µX − µY 6= 0 lze pouˇz´ıt statistiku: r X −Y −0 n·m T = · ∗ S n+m ´ ´ a pokud |T | ≥ tn+m−2 (1 − α/2), tak na hladineˇ α zam´ıtame hypotezu ´ H0 (pˇriklon´ıme se k H1 : µX 6= µY stˇredn´ı hodnoty nejsou stejne) ,
87/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ y t-test, intervalov´y odhad Dvouv´yberov´ ˇ ´ zaj´ıma´ intervalov´y odhad rozd´ılu µX − µY . Nekdy nas 100(1 − α)%-n´ı interval spolehlivosti pro µX − µY : ∗
X − Y − tn+m−2 (1 − α/2) · S ·
r
n+m ; X − Y + tn+m−2 (1 − α/2) · S ∗ · n·m
r
n+m n·m
!
´ ˇ ren´ı Tento interval lze pouˇz´ıt i pro test hypotezy, zˇ e obeˇ sady meˇ ´ ı z rozdelen´ ˇ ı o stejne´ stˇredn´ı hodnoteˇ H0 : µX − µY = 0 proti pochazej´ alternativeˇ H1 : µX − µY 6= 0 na hladineˇ α: Pokud 0 neleˇz´ı v tomto 100(1 − α)%-n´ım intervalu spolehlivosti pro ´ ´ H0 (pˇriklon´ıme se k µX − µY , tak na hladineˇ α zam´ıtame hypotezu H1 : µX 6= µY )
,
88/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ k Pˇr. : na hladineˇ α = 0,05 testujte, zda jsou chlapci a d´ıvky v zpet ˇ stejneˇ vysoc´ı. prum ˚ eru Chlapci D´ıvky Chlapci D´ıvky
130 135 139 141
140 141 136 131
136 143 138 142
141 132 142 141
139 146 127
133 146 139
149 151 147
test H0 : µX − µY = 0 cm (jsou stejneˇ vysoc´ı) proti H1 : µX − µY 6= 0 cm (nejsou stejneˇ vysoc´ı) Spoˇcteme X = 139,133; Y = 140,833; SX2 = 42,981; s S∗ =
1 · (n − 1) · SX2 + (m − 1) · SY2 = n+m−2
r
151 141
SY2 = 33,788;
1 (14 · 42,981 + 11 · 33,788) = 6,240 25
Testova´ statistika je X −Y −0 T = · S∗
r
n·m 139,133 − 140,833 − 0 = · n+m 6,240
r
15 · 12 = −0,703 15 + 12
Tedy |T | = 0,703 < tn+m−2 (1 − α/2) = t25 (0,975) = 2,060 a proto na ´ hladineˇ 0,05 nezam´ıtame H0 . ´ er: ˇ je moˇzne, ´ zˇ e chlapci a d´ıvky jsou v prum ˇ stejneˇ vysoc´ı. Zav ˚ eru ´ ˇ ˇ Na kaˇzde niˇzs´ı hladine (i α = 0,01) bychom H0 t´ım sp´ısˇ e nezam´ıtli ,
89/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ Znamenkov´ y test ˇ ´ ´ pˇri velkem ´ poˇctu Nekdy mame k dispozici jen informaci, kolikrat ´ ´ ı zkoumana´ veliˇcina pˇrekroˇcila (+) nebo byla nezavisl´ ych opakovan´ ˇ a´ dana´ hodnota. A chceme testovat hypotezu, ´ menˇs´ı (-) neˇz nejak zˇ e ˇ ´ (50%-n´ı oboj´ı nastava´ se stejnou pravdepodobnost´ ı, tj. zˇ e median ˇ ı je roven te´ dane´ hodnote. ˇ kvantil) rozdelen´ Pˇr.: Ze 46 piv, ktere´ se u vaˇseho stolu veˇcer vypily, bylo 27 podm´ırov´ych a 19 nadm´ırov´ych. Lze tvrdit, zˇ e v´ycˇ epn´ı systematicky ´ sˇ id´ı (at’ uˇz zakazn´ ıky nebo majitele hospody)? ˇ rit, zda median ´ mnoˇzstv´ı piva ve sklenici muˇ Chceme oveˇ ˚ ze b´yt pul ˚ ´ litru. Zname pˇritom jen poˇcet piv pod a nad touto m´ırou. Jak zvolit ´ testove´ kriterium?
,
90/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ Znamenkov´ y test - asymptotick´y (pro velke´ n) ´ ´ ˇ ı s medianem ´ Mame veliˇciny X1 , . . . , Xn ze spojiteho rozdelen´ x˜ . Tedy plat´ı 1 i = 1, . . . , n P(Xi < x˜ ) = P(Xi > x˜ ) = 2 ´ H0 : x˜ = x0 proti H1 : x˜ 6= x0 , kde x0 je Chceme testovat hypotezu dane´ cˇ ´ıslo. Utvoˇr´ı se rozd´ıly X1 − x0 , . . . , Xn − x0 a ty nulove´ se vynechaj´ı (a pˇr´ısluˇsneˇ se zmenˇs´ı n). ´ Za platnosti H0 ma´ poˇcet rozd´ılu˚ s kladn´ym znamenkem ´ ı limitn´ı vety ˇ pro velke´ n plat´ı: Y ∼ Bi(n, p = 1/2) a tedy podle Centraln´ ´ ı rozdelen´ ˇ ı N(n/2, n/4) Y ma´ pˇribliˇzneˇ normaln´ Za platnosti H0 tedy Y − n/2 2Y − n · = √ ∼ N(0, 1) U= p n n/4 H0 : x˜ = x0 na hladineˇ α zam´ıtneme, pokud |U| ≥ Φ−1 (1 − α/2) ,
91/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ k Pˇr. : Ze 46 piv bylo 27 podm´ırov´ych a 19 nadm´ırov´ych. Lze zpet tvrdit, zˇ e v´ycˇ epn´ı nedodrˇzuje m´ıru (at’ uˇz jedn´ım nebo druh´ym ˇ smerem)? Na hladineˇ α = 0,05 testovat H0 : x˜ = 500 ml proti H1 : x˜ 6= 500 ml. Asymptotick´y test: Spoˇcteme U=
2Y − n 2 · 19 − 46 √ √ = = −1,180 n 46
´ H0 nezam´ıtame, protoˇze |U| = 1,180 Φ−1 (0,975) = 1,960
,
92/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ Znamenkov´ y test - moˇzne´ pouˇzit´ı
´ u nah. ´ v´yberu ˇ X1 , . . . , Xn ze spojiteho ´ ˇ ı. test o medianu rozdelen´ ˇ eho ´ ´ eho) ´ lze pouˇz´ıt i nam´ısto jednov´yberov (resp. parov t-testu ´ ı rozdelen´ ˇ ı v´yberu ˇ v´yhoda: nevyˇzaduje se normaln´ ´ eˇ rozdelen ˇ eho ´ ˇ je o neco ˇ vyˇssˇ ´ı chyba nev´yhoda: u normaln v´yberu ´ ı s t-testem 2. druhu v porovnan´ Pokud jsme si jisti normalitou dat, je tedy nejlepˇs´ı pouˇz´ıt t-test ´ Zkuste pouˇz´ıt znamenkov´ y test na pˇr´ıklady, na ktere´ byly pouˇzity ˇ y nebo parov´ ´ y t-test jednov´yberov´
,
93/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ ˇ ı Test o parametru p binomickeho rozdelen´
ˇ ´ ´ pˇri velkem ´ poˇctu Nekdy mame k dispozici jen informaci, kolikrat ´ ´ ı nastal nejak´ ˇ y jev a zaj´ıma´ nas ´ nezavisl´ ych opakovan´ ˇ ´ o pravdepodobnosti), ˇ pravdepodobnost (chceme testovat hypotezu zˇ e dan´y jev nastane. ´ Testujte hypotezu, ´ Pˇr.: Pˇri 600 hodech kostkou padla sˇ estka 137-krat. ´ kostce s pravdepodobnost´ ˇ zˇ e sˇ estka pada´ na teto ı 1/6 ˇ rit, zda p = 1/6. Jak Poˇcet sˇ estek ma´ Bi(n = 600, p). Chceme oveˇ ´ zvolit testove´ kriterium?
,
94/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
Test o parametru p binom. rozd. (asymptotick´y) ´ ´ ´ Pˇredpokladejme, zˇ e mame napozorovanou realizaci nahodn e´ veliˇciny ´ ´ Y ∼ Bi(n, p), tj. napˇr. poˇcet udalost´ ı v n stejn´ych nezavisl´ ych ˆ = Y /n pokusech. p ´ o pravdepodobnosti ˇ ´ Chceme testovat hypotezu p, zˇ e udalost nastane H0 : p = p0 proti alternativeˇ H1 : p 6= p0 ´ ı limitn´ı vety ˇ pro velke´ n plat´ı: Y ma´ pˇribliˇzneˇ normaln´ ´ ı Z Centraln´ ˇ ı rozdelen´ N(n · p, n · p · (1 − p)) Za platnosti H0 tedy ˆ − p0 p Y − n · p0 · U=p =p ∼ N(0, 1) n · p0 · (1 − p0 ) p0 · (1 − p0 )/n H0 : p = p0 na hladineˇ α zam´ıtneme, pokud |U| ≥ Φ−1 (1 − α/2) ´ ´ ım pˇr´ıpadem pro p0 = 1/2 Pozn.: Znamenkov´ y test je specialn´ ,
95/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
ˇ k Pˇr. : Pˇri 600 hodech kostkou padla 137-krat ´ sˇ estka. Oveˇ ˇ rme, zpet ´ kostce s pravdepodobnost´ ˇ zda sˇ estka pada´ na teto ı 1/6. Na hladineˇ α = 0,05 testovat H0 : p = 1/6 proti H1 : p 6= 1/6. (Asymptotick´y) test toho, zˇ e parametr p binom. rozd. je roven 1/6: Spoˇcteme 137 − 600 · 1/6 137 − 100 U=p = √ = 4,053 83,33 600 · 1/6 · 5/6 ´ a H0 zam´ıtame, protoˇze |U| = 4,053 ≥ Φ−1 (0,975) = 1,960
,
96/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ ı dvou populaˇcn´ıch pravdepodobnost´ ˇ Porovnan´ ı ˇ ˇ eho ´ Nekdy Chceme porovnat, zda v´yskyt nejak jevu je stejneˇ ˇ pravdepodobn´ y ve dvou ruzn´ y ch populac´ ı ch. ˚ ´ ˇ ı bylo zapojeno 800 nahodn ´ Pˇr.: Do pruzkumu veˇrejneho m´ınen´ eˇ ˚ ´ ˇ zv´ysˇ it danˇ z vybran´ych osob. Odpov´ıdali na otazku, zda by se mela ´ ´ u˚ odpoved ˇ elo ˇ 351 ano. Ze 195 kuˇrak ´ u˚ tabaku. Z 605 nekuˇrak ˇ ˇ odpovedelo ano 41. Je to dostateˇcn´y dukaz, abychom na hladineˇ ˚ ´ otazce ´ v´yznamnosti α = 0,05 mohli tvrdit, zˇ e se v teto populace ´ u˚ a populace nekuˇrak ´ u˚ v´yznamneˇ liˇs´ı? kuˇrak ´ u˚ s kladnou odpoved´ ˇ ı ma´ Bi(n = 605, p1 ). Poˇcet kuˇrak ´ u˚ Poˇcet nekuˇrak ˇ ı ma´ Bi(n = 195, p2 ). Chceme oveˇ ˇ rit, zda p1 = p2 . s kladnou odpoved´ ´ Jak zvolit testove´ kriterium?
,
97/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ ı dvou populaˇcn´ıch pravdepodobnost´ ˇ Porovnan´ ı ´ ´ ´ ´ Pˇredpokladejme, zˇ e mame napozorovane´ nezavisl e´ nahodn e´ veliˇciny Y1 ∼ Bi(n1 , p1 ) a Y2 ∼ Bi(n2 , p2 ). ˆ1 = Y1 /n1 , p ˆ2 = Y2 /n2 a p ˆ = (Y1 + Y2 )/(n1 + n2 ) Poloˇz´ıme p ´ o pravdepodobnostech ˇ Chceme testovat hypotezu H0 : p1 = p2 proti alternativeˇ H1 : p1 6= p2 ˇ vyuˇz´ıt Centraln´ ´ ı limitn´ı vetu. ˇ Pro velke´ n1 a n2 lze opet Za platnosti H0 je ˆ1 − p ˆ2 p · U=p ∼ N(0, 1) ˆ ˆ p · (1 − p) · (1/n1 + 1/n2 ) H0 : p1 = p2 na hladineˇ α zam´ıtneme, pokud |U| ≥ Φ−1 (1 − α/2) 100(1 − α)%-n´ı interval spolehlivosti pro p1 − p2 : s ˆ ˆ ˆ ˆ p · (1 − p ) p · (1 − p ) 1 1 2 2 p ˆ1 − p ˆ2 ∓ Φ−1 (1 − α/2) · + n1 n2 ,
98/99
Matematicka´ statistika
´ ı hypotez ´ Testovan´
´ u˚ odpoved ˇ elo ˇ 351 ano. Ze 195 kuˇrak ´ u˚ ˇ k Pˇr. : Z 605 nekuˇrak zpet ˇ elo ˇ ano 41. Lze tvrdit, zˇ e se nazor ´ ´ u˚ a nekuˇrak ´ u˚ odpoved kuˇrak v´yznamneˇ liˇs´ı? Na hladineˇ α = 0,05 testovat H0 : p1 = p2 proti H1 : p1 6= p2 . Spoˇcteme U=q
351/605 − 41/195 392 800
· (1 −
392 800 )
1 · ( 605 +
= 1 195 )
0,58 − 0,21 = 8,99 0,0412
´ a H0 na hladineˇ α = 0,05 zam´ıtame, protoˇze ´ |U| = 8,99 ≥ Φ−1 (0,975) = 1,96. Jejich nazory se v´yznamneˇ liˇs´ı. 95%-n´ı interval spolehlivosti pro p1 − p2 : r 0,58 − 0,21 ∓ 1,96 ·
0,58 · (1 − 0,58) 0,21 · (1 − 0,21) + 605 195
! = (0,30; 0,44)
´ u˚ je o 30 aˇz 44% v´ıce pˇr´ıznivcu˚ zv´ysˇ en´ı dane. ˇ Tj. v populaci nekuˇrak ,
99/99