Interval spolehlivosti pro podí podíl http://www.causeweb.org/repository/statjava/ConfIntApplet.html
Náhodný výbě výběr Zkoumaný proces chápeme jako náhodnou veličinu s určitým, nám neznámým rozdělením a měřená data jako realizace této náhodné veličiny. Výběr dotazovaných jednotek musí být nezávislý. Jestliže výběr opakujeme, dostaneme jiné odpovědi. Abstraktně lze definovat náhodný výběr jako uspořádanou n-tici (vektor) náhodných veličin. De f i n i c e Náhodný výběr X = [X1, X2, . . . ,Xn] je vektor nezávislých a stejně rozdělených náhodných veličin. – n – rozsah výběru – Konkrétní hodnoty – realizace náhodného výběru
1
Bodový odhad parametru Parametry základního souboru (populace), resp. parametry rozdělení Základní soubor (populace)
střední hodnota µ
rozptyl
Výběrový soubor (výběr)
průměr
X
Výběrové charakteristiky
σ2
směrodatná odchylka σ
pravděpodobnost rel. četnost π
výběrový rozptyl s2
výběrová směr. odchylka s
relativní četnost p p=
ni n
e mýlit." slů se nemůž "100.000 sy ých čísel) (Zákon velk
Bernoulliho zákon velkých čísel Relativní četnost sledovaného jevu v posloupnosti nezávislých pokusů konverguje podle pravděpodobnosti k pravděpodobnosti sledovaného jevu, roste-li počet pokusů nade všechny meze S lim P n − p > ε = 0 n→∞ n
Chinč Chinčinů inův zákon velkých čísel Aritmetický průměr nezávislých výběrů ze stejného rozdělení konverguje podle pravděpodobnosti ke střední hodnotě. 1 n lim P ∑ X i − µ > ε = 0 n→∞ n i =1
2
Vlastnosti dobré dobrého odhadu Nestrannost (nevychýlenost, nezkreslenost) střední hodnota statistiky je rovna odhadovanému parametru Asymptoticky nestranný odhad – Při rostoucím rozsahu výběru se vychýlení zmenšuje Konzistence – konverguje podle pravděpodobnosti k odhadovanému parametru. S rostoucím rozsahem výběru klesá pravděpodobnost, že se použitá statistika bude od odhadovaného parametru významně lišit. Vydatnost (eficience). O statistice, která má ze všech nestranných odhadů nejmenší rozptyl říkáme, že je vydatným (nejlepším) nestranným odhadem Maximálně věrohodný odhad parametru t je maximem věrohodnostní funkce f(x,t), kde f(x) je hustota proměnné x.
Urč Určení ení přesnosti odhadu
16 ± 2 Přesnost měření (pozor na počet platných číslic) Průměr + SD. – (směrodatná odchylka) Průměr a meze tolerančního intervalu Průměr + SEM (standard error of mean ) – info o vydatnosti odhadu průměru SEM = s / n Průměr a meze intervalu spolehlivosti
3
Intervalový Intervalový odhad parametru Intervalový odhad – získáme z bodového odhadu a zadáním pravděpodobnosti (koeficientu spolehlivosti) s jakou parametr leží v tomto intervalu. Většinou počítáme 95%, nebo 99 % intervaly spolehlivosti (CI -confidence interval). – Čím větší je koeficient spolehlivosti, tím větší je i délka intervalu
Centrá Centrální lní limitní limitní věta Údaje, které jsou ovlivňovány velkým počtem malých a na sobě nezávislých efektů budou rozděleny přibližně normálně Čím větší je rozsah výběru, tím více se rozdělení průměrů blíží normálnímu rozdělení
4
Centrá Centrální lní limitní limitní věta Lévyho-Lindebergova věta. Pokud je náhodná veličina X součtem n vzájemně nezávislých náhodných veličin X1, X2,…Xn se shodným rozdělením libovolného typu, s konečnou střední hodnotou µ a s konečným rozptylem σ2, pak pro normovanou náhodnou veličinu X − nµ U= nσ 2 platí vztah
lim P (U < u ) = Φ (u ) n→ ∞
kde Φ(u) je distribuční funkce normovaného normálního rozdělení N(0,1). Př: Doba životnosti auta má exponenciální rozdělení s parametrem (1/15). Potom normovaný tvar průměru dob životnosti nezávisle vyráběných aut
U=
X − 15 15 n
je možné aproximovat normálním rozdělením N(0,1)
Centrá Centrální lní limitní limitní věta
http://www.causeweb.org/repository/statjava/CLTApplet.html
5
Konstrukce intervalových odhadů odhadů Zvolíme vhodnou výběrovou charakteristiku, jejíž rozdělení známe– T(X) 100(1-α)% hladina spolehlivosti, α - hladina významnosti (volíme 0,05; 0,01) Jednostranné – Levostranné
(− ∞; xα );
P (T ( X ) < xα ) = 1 − α
– Pravostranné
(x1−α ; ∞ );
P(T ( X ) > x1−α ) = 1 − α
Konstrukce intervalových odhadů odhadů Zvolíme vhodnou výběrovou charakteristiku, jejíž rozdělení známe (testová statistika) – T(X) Dvoustranné
α P (T ( X ) < xα ) = P T ( X ) ≥ x α = 1− 2 2 2
P xα < T ( X ) < x α = 1 − α 1− 2 2
6
Intervalových odhad pro stř střední ední hodnotu Zvolíme vhodnou výběrovou charakteristiku, jejíž rozdělení známe (testová statistika) – Z(X) Dvoustranné
Z(X ) =
X −µ
σ
α P (T ( X ) < z α ) = P Z ( X ) ≥ z α = 1− 2 2 2
n
P z α < T ( X ) < z α = 1 − α 1− 2 2 X −µ P z α < n < z α = 1 − α 1− σ 2 2 σ σ = 1−α P X − z α <µ< X +z α − 1− 1 n n 2 2
Intervalový odhad stř střední ední hodnoty Předpoklady – Normální rozdělení nebo velký rozsah výběru – Neznámý rozptyl (pokud rozptyl známe nahradíme kvantily trozdělení kvantily normálního rozdělení)
s s P X − ⋅t α <µ<X + ⋅ t α n 1− 2 , n−1 n 1− 2 , n −1
= 1−α
s s interval spolehlivosti je X − ⋅t α ; X + ⋅ t α 1 − , n − 1 1 − , n − 1 n n 2 2 (1-α).100% interval spolehlivosti v Excelu 95% interval spolehlivosti v Excelu 2003 2003 NORMSINV(alfa/2) NORMSINV(0,025) TINV(alfa; TINV(0,05;n-1) n-1)
kvantil kvantilnormálního normálníhorozdělení rozdělení kvantil studentova kvantil studentovarozdělení rozdělení
7
8
Intervalový odhad stř střední ední hodnoty Příklad – V průběhu jednoho roku byl náhodně zjišťován počet cestujících ve vlacích na trase Praha – Olomouc. Ze 30 hodnot byl vypočtený průměr 450 a směrodatná odchylka s = 30. Určete 99% interval spolehlivosti. s s interval spolehlivosti je X − ⋅t α ; X + ⋅ t α n 1− 2 , n −1 n 1− 2 , n−1 s 30 30 ⋅t α = ⋅ t 0, 005; 29 = ⋅ 2,756 = 15,095 1 − , n − 1 n 30 30 2
(450 − 15,095; 450 + 15,095) = (434;465) Můžeme tedy s pravděpodobností 95% říci, že střední hodnota počtu cestujících je mezi 434 a 465.
Rozsah výbě výběru pro odhad stř střední ední hodnoty Známe směrodatnou odchylku
σ σ IS X − ⋅ zα ; X + ⋅ z α n 2, n 2, Rozsah výběru pro 100(1-α)% IS pro µ se zadanou chybou ∆µ: zα σ ∆µ = ⋅ zα ⇒ n = 2 n 2 ∆µ
σ
2
Př: Určete rozsah výběru nutný k tomu, aby byla odhadnuta s 95 % spolehlivostí hledaná střední hodnota IQ studentů ČVUT s přípustnou chybou 5 bodů inteligenční stupnice. 2
1,96 ⋅15 n= = 34,6 5
9
Jednovýbě Jednovýběrový z-test o stř střední ední hodnotě hodnotě H0: µ=µ0 při známém rozptylu (dvoustranný test) Testová statistika
Z(X ) =
X − µ0
σ
n ≈ N (0,1)
H0 zamítáme na hladině významnosti α, jestliže hodnota parametru daná nulovou hypotézou nepadne do (1-α)100% intervalu spolehlivosti pro testovaný parametr.
Obor přijetí:
zα , z α 2 1− 2
P-hodnota: = 2*MIN( ZTEST(array,x,[sigma]), 1-ZTEST(array,x,[sigma]) )
2 min( P ( Z ≤ zc ), P( Z ≥ zc ))
Jednovýbě Jednovýběrový z-test o stř střední ední hodnotě hodnotě H0: µ < µ0 při známém rozptylu (levostranný test) Obor přijetí :
(− ∞, z1−α )
P-hodnota P (Z ≥ z0 )
H0: µ > µ0 při známém rozptylu (pravostranný test) Obor přijetí :
(zα , ∞ )
P (Z ≤ z0 )
P-hodnota pro H0:
µ < µ0 :
= ( ZTEST(array,x,[sigma])
10
Jednovýbě Jednovýběrový Z-test
Intervalový odhad rozptylu Předpoklady – Normální rozdělení
n −1 2 n −1 2 2 P 2 ⋅s <σ < 2 ⋅s = 1−α χ α χ α , n −1 1− , n −1 2 2 n −1 2 n −1 ⋅ s2 interval spolehlivosti je 2 ⋅s ; 2 χ α χ α , n −1 1− , n −1 2 2 (1-α)100% spolehlivosti v Excelu 95% intervalinterval spolehlivosti v Excelu 2003 CHIINV(alfa/2,n-1),CHIINV(0,975,n-1) CHIINV(1-alfa/2,n-1) CHIINV(0,025,n-1),
11
Intervalový odhad podí podílu Předpoklady – Počet výskytu hledaného znaku je alespoň 5 p−
p ⋅ (1 − p ) ⋅ z α 1 − n 2
p ⋅ (1 − p ) ⋅z α; p+ 1− n 2
kde zα je kvantil normovaného normálního rozdělení. 2
Rozsah výběru pro přípustnou chybu odhadu ∆p. z n = p(1 − p ) α / 2 ∆p
2
95% interval spolehlivosti v Excelu 2003 NORMSINV(0,975)
kvantil normálního rozdělení
DU: Rozsah výbě výběru pro podí podíl z n = p(1 − p ) α / 2 ∆p
2
Kolikrát musíme opakovat hod mincí, abychom s 95% pravděpodobností dostali výsledek relativní četnosti v intervalu (0,4; 0,6). ů] okus [96 p
Během pátečního odpoledne byla naměřena doba čekání na metro ve stanici Dejvická (txt – údaje v sekundách). Testujte, zda je průměrná doba čekání větší než 2 minuty. min, . 10 -6 ] µ<2 1 [H0: nota=2, d o h P
12