cvičící Ing. Jana Fenclová
7. cvičení 4ST201-řešení Obsah: ☺ ☺ ☺
Bodový odhad Intervalový odhad Testování hypotéz
Vysoká škola ekonomická
VŠE kurz 4ST201
1
Ing. Jana Fenclová
Úvod: bodový a intervalový odhad • Statistický soubor lze popsat pomocí popisných charakteristik jako aritmetický průměr, rozptyl, relativní četnost. • Vlastnosti základního souboru (např. obyvatel ČR), které se nedají zjistit přímo (těžko se dotázat všech 10 mil. obyvatel) odhadujeme pomocí výběrového souboru a jeho výběrových charakteristik. • Zatímco charakteristiky ZS jsou pevné hodnoty, statistiky VS se mění od jednoho náhodného výběru ke druhému a mají charakter náhodných veličin, neboť jsou získávány s hodnot náhodného výběru.
2
VŠE kurz 4ST201
Ing. Jana Fenclová
Bodový odhad • •
Odhadujeme parametr ZS pomocí jednoho čísla Neznámou hodnotu parametru G základního souboru odhadneme pomocí vypočítané hodnoty vhodné výběrové charakteristiky g
•
Bodovým odhadem N
1.
Průměru ZS
μ=
∑x i =1
N
i
je výběrový průměr x =
N N
σ = 2
∑ (x i =1
2.
Rozptylu ZS
3.
Relativní četnosti ZS
i
− μ)
∑x i =1
i
n
N
2
je výběrový rozptyl
N
π=
M N
s´,x2 =
∑ (x i =1
i
− x)
2
n−1
je výběrová relativní četnost p =
m n
3
VŠE kurz 4ST201
Ing. Jana Fenclová
Intervalový odhad Chceme co nejužší interval takový, že se zvolenou spolehlivostí obsahuje odhadovaný parametr. Odhad charakteristiky ZS činíme pomocí intervalu, v němž bude hledaná charakteristika ležet s určitou spolehlivostí. Spolehlivost odhadu = 1-α (95%,99%) α = riziko, že charakteristika nebude intervalem pokryta, volíme sami, nejčastěji 5%, 1% Přesnost intervalového odhadu roste s rozsahem souboru. Přesnost intervalového odhadu klesá s rostoucí spolehlivostí.
Interval je pro každý výběr jiný a je náhodný! Ve (1-α)*100% pokusů konstrukce intervalu, bude tento interval zahrnovat sledovaný parametr. Interval samotný jeden, sledovaný parametr zahrnuje nebo nezahrnuje! 4
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklady: Bodový a intervalový odhad Příklad. 7.1.: V souboru data_cv07.sas7bdat je proměnná „body z testu“. V souboru je uvedeno 60 výsledků z 1. průběžného testu. Budeme odhadovat dosažené body za celou školu. Budeme předpokládat, že tito studenti byli náhodně vybráni ze všech. 1.
Na základě tohoto výběru odhadněte střední hodnotu dosažených bodů z testu, pokud z minulých výzkumů víme, že rozptyl dosažených bodů ze statistiky je přibližně roven 20,91. (POZOR, rozlišovat, zda rozptyl známe či neznáme!!)
2.
Sestrojte 95% interval spolehlivosti pro střední hodnotu získaných bodů.
3.
Pomocí jednostranného intervalu spolehlivosti určete dolní mez pro střední hodnotu dosažených bodů takovou, aby pravděpodobnost jejího překročení byla 0,95. Úkoly řešte ručně i v SASu. 5
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklad 7.1. - Řešení 1.
Bodový odhad:
2.
Intervalový odhad:
μˆ = x = 16 ,45 σ σ < μ < x + u1-α / 2 * P x - u1-α / 2 * = 1− a n n 4 ,57 4 ,57 < μ < x + u0.975 * P x - u0.975 * = 0.95 60 60 4 ,57 4 ,57 < μ < x + 1.96 * P x - 1.96 * = 0.95 60 60 P (16.45 - 1.96 * 0.59 < μ < 16.45 + 1.96 * 0.59 ) = 0.95 P (15.29 < μ < 17.6 ) = 0.95
3.
Intervalový odhad:
σ P ( x - u1-α * < μ) = a n 4 ,57 P ( x - u0.95 * < μ ) = 0.95 60 4 ,57 P ( 16 ,45 - 1,645 * < μ ) = 0.95 60 P (16 ,45 - 0 ,97 < μ ) = 0.95 P (15 ,48 < μ ) = 0.95
6
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklad 7.1. v SASu 1.
Zjistíme bodový odhad a další charakteristiky: průměr, směrodatnou odchylku, směrodatnou chybu odhadu a) Describe-Summary Statistics-Analysis Variable b) Zadám proměnnou c) V listu Statistics Basic: Mean, Standard deviation, Standard error. 2. Zjistíme intervaly spolehlivosti: a) Describe-Summary Statistics-Analysis Variable b) Zadám proměnnou První způsob c) V listu Statistics Additional-Confidence limits od the mean d) Zaškrtnu 95%
Druhý způsob
i. ii. iii. iv.
Describe-Distibution Analysis-Task role-zadám proměnnou V listu Distributions vyberu rozdělení-Normal V listu Tables-Basic confidence interval Zadám type: two-side, 95%. (pokud jednostranný: upper, lower)
7
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklady: Bodový a intervalový odhad Příklad 7.2. : Byla zjišťována spokojenost zákazníků restaurace po změně jídelního lístku. Bylo náhodně osloveno celkem 320 zákazníků, z nichž 59 bylo celkově s restaurací nespokojeno. 1.
Na základě tohoto výběrů odhadněte procento spokojených zákazníků.
2.
Sestrojte 95% dvoustranný interval spolehlivosti pro odhad procenta nespokojených zákazníků.
3.
Jaký je nejmenší podíl nespokojených zákazníků s novou restaurací za výše daných podmínek? (nápověda: nejmenší=levostranný interval)
4.
Pokud známe celkový počet zákazníků této restaurace a to 30 000 lidí, jaký je minimální počet nespokojených zákazníků?
8
VŠE kurz 4ST201
Ing. Jana Fenclová
Řešení příkladu 7.2. πˆ = p =
1.
Bodový odhad:
2.
Intervalový odhad:
3.
Intervalový odhad:
4.
Počet zákazníků!:
320 − 59 = 0 ,816 320
p * (1 - p ) p * (1 - p ) P p - u1-α / 2 * < π < p + u1-α / 2 * = 1− a n n 0,184 * 0,816 0,184 * 0,816 P 0 ,184 - 1.96 * < π < 0 ,184 + 1.96 * 320 320 P (0 ,142 < π < 0 ,226 ) = 0.95
= 0.95
p * (1 - p ) P p - u1-α * < π = 1 − a n 0,184 * 0,816 P 0 ,184 - 1,645 * < π = 0.95 320 P (0 ,148 < π ) = 0.95 P (30000 * 0 ,148 < N * π ) = 0.95 P (4440 < N * π ) = 0.95
9
VŠE kurz 4ST201
Ing. Jana Fenclová
Testování hypotéz •
Chceme ověřit, jestli platí nějaké tvrzení (testovaná hypotéza). V případě parametrických testů je tato hypotéza formulována jako tvrzení o parametrech rozdělení náhodné veličiny.
•
Testovanou hypotézu přijímáme nebo vyvracíme na základě vypočítané hodnoty testového kritéria. Tím je vhodná funkce hodnot náhodného výběru, která má při platnosti testované hypotézy známé rozdělení.
•
Na základě znalosti rozdělení testového kritéria rozdělíme obor jeho hodnot na obor přijetí a kritický obor tak, aby pravděpodobnost, že hodnota testového kritéria bude v kritickém oboru byla rovna α. Tuto pravděpodobnost nazýváme hladina významnosti.
•
Pravděpodobnost, že hodnota testového kritéria spadne do kritického oboru a my tak chybně zamítneme pravdivou hypotézu, by měla být malá. Čím je však α menší, tím větší je pravděpodobnost, že naopak přijmeme chybnou hypotézu. 10
VŠE kurz 4ST201
Ing. Jana Fenclová
Přehled testů 1.
Test hypotézy o střední hodnotě a) Pokud známe rozptyl b) Pokud neznáme rozptyl
2.
Test hypotézy o relativní četnosti
3.
Test hypotézy o shodě dvou středních hodnot a)
Pokud známe hodnotu rozptylů
b)
Pokud neznáme hodnotu rozptylů, ale domníváme se, že se rovnají
c)
Pokud neznáme hodnotu rozptylů a domníváme se, že se nerovnají
! Podívat se do vzorců, Vždy se zamyslet, najít co testuji, zvolit správný test! !!!Podívat se do Aplikací, jak vypadají výstupy ke všem těmto testům!!! 11
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklady: testování hypotéz Příklad 7.3.: Vyučující tvrdí, že výsledek studentů z testu ze statistiky je v průměru 15 bodů. Na základě zjištěných 60 údajů z příkladu 7.1. se pokuste na hladině významnosti 5% prokázat, že to tak není.
12
VŠE kurz 4ST201
Ing. Jana Fenclová
Řešení příkladu 7.3. 1. Hypotézy:
H 0 : μ = 15 H 1 : μ ≠ 15
2. Testové kritérium:
3. Kritický obor:
U=
x − μ0 σ n
U=
16 ,45 − 15 = 2 ,458 4 ,57 60
W0 ,05 = {U ≥ u1−α / 2 } W0 ,05 = {U ≥ 1,96}
4. Výsledek: U>=1,96……. Testované kritérium spadá do kritického oboru. Na 5% hladině významnosti se nám podařilo zamítnout hypotézu, že průměrný výsledek studentů je 15 bodů.
13
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklady – testování hypotéz Příklad. 7.4.: Vraťme se k zadání příkladu 7.2.: Byla zjišťována spokojenost zákazníků restaurace po změně jídelního lístku. Bylo náhodně osloveno celkem 320 zákazníků, z nichž 59 bylo celkově s restaurací nespokojeno. Pokud měla restaurace při starém lístku v průměru 20% nespokojených zákazníků, ověřte předpoklad, zda se tento podíl po změně jídelního lístku změnil. (hladina významnosti je 5%). (SAS umí, podívejte se do Aplikací!)
! Porovnejte doma interval spolehlivosti pro podíl nespokojených zákazníků a testovanou hypotézu!
14
VŠE kurz 4ST201
Ing. Jana Fenclová
Řešení příkladu 7.3. 1. Hypotézy:
H 0 : π = 0 ,2 H 1 : π ≠ 0 ,2
2. Testové kritérium:
3. Kritický obor:
U=
p − π0 π0 * (1 − π0 ) n
U=
0 ,184 − 0 ,2 0 ,2 * 0 ,8 320
= −0 ,704
W0 ,05 = {U ≥ u1−α / 2 } W0 ,05 = {U ≥ 1,96}
4. Výsledek: U>=1,96……. Testované kritérium nespadá do kritického oboru. Na 5% hladině významnosti se nám nepodařilo zamítnout testovanou hypotézu. Změnou jídelního lístku se počet nespokojených zákazníků nezměnil. 15
VŠE kurz 4ST201
Ing. Jana Fenclová
Děkuji za pozornost! Pokud budete mít jakékoliv dotazy či připomínky, pište mi na mail
[email protected] nebo přijďte do konzultačních hodin každý pátek 9:00-11:00 JM317.
16