Tomáš Karel LS 2012/2013
Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál – není v nich obsaženo zdaleka všechno, co byste měli umět. Dalším studijním materiálem je učebnice, cvičebnice a také poznámky z přednášek a cvičení!
Tomáš Karel - 4ST201
2.12.2013
2
cv.
Program cvičení
1.
Úvod, popisná statistika
2.
Popisná statistika
3.
Míry variability, pravděpodobnost
4.
Pravděpodobnost, náhodné veličiny a jejich charakteristiky
5.
Pravděpodobnostní rozdělení
6.
TEST, odhady parametrů
7.
Testování hypotéz
8.
Chí – kvadrát test dobré shody, kontingenční tabulky, ANOVA
9.
Regrese
10. Regrese 11. Korelace, časové řady (bazické a řetězové indexy) 12. TEST, Časové řady 13. Indexní analýza
Z provedeného průzkumu máme informace o pohlaví a preferenci bydliště. Na základě těchto údajů rozhodněte, zda závisí preference trvalého bydlení na pohlaví. Bydliště Pohlaví
Město
Venkov
Muž
71
91
Žena
82
56
- McNemarova statistika QMN
(n12 n 21 ) 2 n12 n 21
pro n12+n21>30 má Chí kvadrát s 1 st. Volnosti
Z tabulky: 95% kvantil 3,84 QMN
(91 82)2 0, 468 91 82
Nezamítáme na 5% hladině významnosti testovanou hypotézu o nezávislosti
Je třeba rozhodnout, zda varianty testu (označíme je jako A, B, C) jsou stejně náročné. Každou variantu si napsali 4 náhodně vybraní studenti. Jejich výsledky jsou zaneseny v tabulce. Rozhodněte, zda se průměrný počet bodů získaný za různé varianty testu významně liší. (Řešte ručně a v Excelu)
Varianta testu
Dosažené body
A
91
81
74
57
B
83
72
63
47
C
71
69
58
40
Na zvolené 5% hladině významnosti přijímáme testovanou hypotézu o rovnosti středních hodnot
slouží k popisu jednostranné závislosti dvou číselných proměnných, kdy proti sobě stojí vysvětlující (nezávislá) proměnná jako „příčina“ a vysvětlovaná (závislá) proměnná jako „následek“ regresní funkce = „idealizující“ matematická funkce, která co nejlépe vyjadřuje charakter závislosti
V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tisících dolarů): Náklady
835
63
240
1005
184
213
313
658
195
545
Cena
136
24
52
143
42
43
67
106
61
99
a) b) c) d) e)
modelujte závislost nákladů na údržbu na ceně regresní přímkou zhodnoťte kvalitu modelu pomocí koeficientu determinace interpretujte věcně hodnotu regresního koeficientu b1 odhadněte střední hodnotu nákladů u domů za 80. tisíc dolarů ověřte pomocí testu, zda se jedná o významnou závislost
Výpočet pomocí EXCELU a metody nejmenších čtverců i
yi
xi
xiy i
xi2
1 2 3 4 5 6 7 8 9 10 suma průměr
835 63 240 1005 184 213 313 658 195 545 4251 425,1
136 24 52 143 42 43 67 106 61 99 773 77,3
113560 1512 12480 143715 7728 9159 20971 69748 11895 53955 444723 44472,3
18496 576 2704 20449 1764 1849 4489 11236 3721 9801 75085 7508,5
závislost nákladů na údržbu na ceně můžeme modelovat následující přímkou:
MS excel: 1) 2) 3) 4)
data analýza dat regrese Vstupní oblast y– sloupec „Náklady“ Vstupní oblast x – sloupec „Cena“ Nic jiného neupravovat (max. popisky)- OK významnost koeficientu < alfa
bo - konstanta
významnost koeficientu < alfa b1 – směrnice přímky, regresní koeficient
T.K. pro významnost koeficientu
b) zhodnoťte kvalitu modelu pomocí koeficientu determinace
vztah je tím silnější a regresní funkce je tím lepší, čím více jsou empirické hodnoty vysvětlované proměnné soustředěné kolem odhadnuté regresní funkce, a naopak tím slabší, čím více jsou vzdálené od odhadnuté regresní funkce závislost y a x bude tím silnější, čím větší bude podíl rozptylu vyrovnaných hodnot na celkovém rozptylu
i
yi
xi
Yi
yi-Yi
(yi-Yi)2
(yi-y_)2
1
835
136
869,68
-34,68
1202,43
168018,01
2
63
24
21,42
41,58
1728,74
131116,41
3
240
52
233,49
6,51
42,44
34262,01
4
1005
143
922,69
82,31
6774,61
336284,01
5
184
42
157,75
26,25
689,14
58129,21
6
213
43
165,32
47,68
2273,18
44986,41
7
313
67
347,09
-34,09
1162,19
12566,41
8
658
106
642,47
15,53
241,33
54242,41
9
195
61
301,65
10
545
99
589,45
-44,45
1975,74
14376,01
-
0
27463,75
906926,90
suma
-106,65 11373,95
SR
52946,01
Sy
R2 = I2 – Index determinace Upravený index determinace
2.12.2013
26
c) interpretujte věcně hodnotu regresního koeficientu b1
d) odhadněte střední hodnotu nákladů u domů za 80. tisíc dolarů
e.) Ověřte pomocí testu, zda se jedná o významnou závislost.
Výběrový regresní koeficient b1 je náhodná veličina v tom smyslu, že jeho hodnota závisí na konkrétním výběru (tj. na konkrétních datech, jimiž jsme prokládali přímku). V našem případě vyšla hodnota
Teoretický regresní koeficient β1, který neznáme (a je konstantou), může být přesto roven nule. V tom případě by mezi cenou a náklady neexistovala lineární závislost. Otestujme proto hypotézu o nulové hodnotě teoretického regresního koeficientu β1.
e) ověřte pomocí testu, zda se jedná o významnou závislost
Test. kritérium
Teoretický součet čtverců Reziduální součet čtverců Celkový součet čtverců
P- hodnota
P-hodnota 0,00 je menší než hladina významnosti (α=0,05). Zamítáme tedy nulovou hypotézu. Lineární závislost je statisticky významná.
Na 5% hladině významnosti můžeme na základě testu o modelu zamítnout hypotézu o nulové hodnotě regresního parametru β1. Lineární závislost je tedy statisticky významná