1. Příklad U 12 studentů jsme sledovali počet dosažených bodů na závěrečném testu (od 0 do 60). Vždy 4 z těchto studentů chodili k jednomu ze 3 cvičících – panu Kubovi, panu Kubinovi, nebo panu Kubinčákovi. Má osoba cvičícího vliv na počet dosažených bodů u závěrečného testu? Jaká je těsnost závislosti? Cvičící
Kuba 53 47 55 50
Body u závěrečného testu
Kubina 42 48 48 50
Kubinčák 39 46 39 43
H0: μ1 = μ2 = μ3 (nezávislost) H1: non H0 (závislost) Anova: jeden faktor Faktor Výběr Kuba Kubina Kubinčák
Počet 4 4 4
Součet 205 188 167
Průměr Rozptyl 51,25 12,25 47 12 41,75 11,58333
ANOVA Zdroj variability Mezi výběry Všechny výběry
SS 181,1667 107,5
Celkem
288,6667
Hodnota Rozdíl MS F P F krit 2 90,58333 7,583721 0,011737 4,256495 9 11,94444 11
F 7,58 F (k 1; n k ) W F F1 ; F0,95 (2;9) F krit 4, 26;W0,05 F 4, 26 F W0,05 ; H 0 zamítám, H1 přijímám, na 5% hladině významnosti Alternativně: p-hodnota = "Hodnota P" = 0,0117 p-hodnota = 0,0117 < α = 0,05 ->zamítám H0, přijímám H1, na 5% hladině významnosti (ale na 1% bychom nezamítali). Intenzita závislosti P 2
181,167 0,628 . 62,8 % variability počtu bodů je vysvětlitelné cvičícím. 288,667
2. Příklad V souboru „Vysledky“ máte k dispozici kompletní výsledky čtyř variant prvního průběžného testu z loňského. Otestujte v Excelu hypotézu, že varianta vybraného testu ovlivňuje bodový výsledek studenta. Zhodnoťte kvalitu vytvořeného modelu. H0: μ1 = μ2 = μ3 = μ4 (nezávislost) H1: non H0 (závislost) Anova: jeden faktor Faktor Výběr Adamek Barunka Jiricek DetinskeKol
Počet 30 17 32 21
Součet Průměr Rozptyl 450 15 22,41379 236 13,88235 36,36029 412 12,875 12,69355 266 12,66667 28,63333
ANOVA Zdroj variability Mezi výběry Všechny výběry Celkem
F 1,14
SS 95,10863 2197,931
Rozdíl
2293,04
MS 3 31,70288 96 22,89512
Hodnota F P F krit 1,3847 0,252143 2,699393
99
F (k 1; n k )
W F F1 ; F0,95 (3;96) F krit 2,70;W0,05 F 2,70 F W0,05 ; H 0 nezamítám, H1 nepřijímám, na 5% hladině významnosti Alternativně: p-hodnota = "Hodnota P" = 0,252143 p-hodnota = 0,252143 < α = 0,05 -> nezamítám H0, nepřijímám H1, na 5% hladině významnosti. Intenzita závislosti P 2
95,109 0,041 . 4,1 % variability počtu bodů je vysvětlitelné variantou 2293,04
testu.
3. Příklad V následující tabulce jsou vybrané údaje z provedené analýzy rozptylu. Jednalo se o test, zda-li se liší spotřeba automobilu při použití různých typů benzínu. Doplňte tabulku a zjistěte z ní následující údaje: Počet celkových pokusů (testovacích jízd)
Počet testovaných typů benzínu Množství variability vysvětlené modelem Liší se statisticky významně (na hladině významnosti 0,05) spotřeba automobilu v závislosti na typu benzínu?
ANOVA Zdroj variability
SS
Rozdíl
Mezi výběry Všechny výběry
Sy.m Sy.v
k-1 n-k
Sy
n-1
Celkem
Hodnota MS F P F krit pSy.m/(k - 1) MS(MV/MS(VV) hodnota F1-α (k - 1; n - k) Sy.v/(n - k)
R-Square
P2 = Sy.m/Sy
ANOVA Zdroj variability
SS
Rozdíl
MS
F
Hodnota P
Mezi výběry Všechny výběry
0,164
3
0,055/0,010=5,5
???
0,115
12
0,164/3=0,055 0,115/12=0,01 0
Celkem
0,279
15
R-Square
0,587276
Sy.m = P2 * Sy = 0,279 * 0,587276 = 0,164 Sy.v = Sy - Sy.m = 0,279 - 0,164 = 0,115 Počet celkových pokusů (testovacích jízd) n - 1 = 15 -> n = 16
F krit F0,95 (3; 12) = 3,49
Počet testovaných typů benzínu k - 1 = 3 -> k = 4 Množství variability vysvětlené modelem P2 = 0,587276 -> 58,7 % Liší se statisticky významně (na hladině významnosti 0,05) spotřeba automobilu v závislosti na typu benzínu? H0: μ1 = μ2 = μ3 = μ4 (nezávislost) H1: non H0 (závislost)
F 5,5 F (k 1; n k ) W F F1 ; F0,95 (3;12) F krit 3, 49;W0,05 F 3, 49 F W0,05 ; H 0 zamítám, H1 přijímám, na 5% hladině významnosti
4. Příklad Existuje závislost hodnocení filmu na serveru www.csfd.cz na jeho žánru? Testujte na 5% hladině významnosti a posuďte těsnost testované závislosti. Žánr Komedie Akční Drama
87 62 83
Hodnocení 84 70 84
87 64 91
74 58 79
H0: μ1 = μ2 = μ3 (nezávislost) H1: non H0 (závislost) Anova: jeden faktor Faktor Výběr Komedie Akční Drama
Počet 5 5 5
Součet 413 321 425
Průměr 82,6 64,2 85
Rozptyl 29,3 21,2 21,5
ANOVA Zdroj variability Mezi výběry Všechny výběry
SS 1294,933 288
Celkem
1582,933
Hodnota MS F P F krit 2 647,4667 26,97778 3,63E-05 3,885294 12 24
Rozdíl
14
81 67 88
F 26,98 F (k 1; n k ) W F F1 ; F0,95 (2;12) F krit 3,89;W0,05 F 3,89 F W0,05 ; H 0 zamítám, H1 přijímám, na 5% hladině významnosti Alternativně: p-hodnota = "Hodnota P" = 3,63*10-5 = 0,000036 p-hodnota = 0,000036 < α = 0,05 -> zamítám H0, přijímám H1, na 5% hladině významnosti. Intenzita závislosti P 2
1294,93 0,818 . 81,8 % variability hodnocení filmu je vysvětlitelné jeho 1582,93
žánrem.
5. Příklad V souboru STA2-04 máte k dispozici na Listu 2 údaje o věku a hmotnosti vybraných dětí. Sestrojte regresní funkci ve smyslu podmíněných průměrů hmotnosti v závislosti na věku. Věk 1 2 3 4 5 6 7
Střední hodnota výšky při daném věku 72,66667 88 99,5 105 108 118,5 121,25
V Excelu -> seřadit tabulku podle věku a pak počítat průměry výšky pro daný věk. Nebo použít funkci AVERAGEIF(oblast; kritérium; oblast pro průměr) Odhadněte hodnoty regresní přímky této regresní funkce přímo z celých dat. Posuďte kvalitu modelu pomocí indexu determinace a F-testu. Pomocí Analýza dat -> Regrese; X - věk, Y - výška VÝSLEDEK Regresní statistika Násobné R Hodnota spolehlivosti R Nastavená hodnota spolehlivosti R Chyba stř. hodnoty Pozorování
0,963509739 0,928351017 0,924370518 4,645221891 20
ANOVA Rozdíl Regrese Rezidua Celkem
SS MS F 5032,544444 5032,544444 233,2248 388,4055556 21,57808642 5420,95
1 18 19
Významnost F 9,54218E-12
Hodnota Koeficienty Chyba stř. hodnoty t Stat P 71,63888889 2,216981861 32,31370095 2,15E-17 7,477777778 0,48964938 15,27169864 9,54E-12
Hranice Věk (roky)
Regresní funkce: Y = 71,639 + 7,478x Index determinace: R 2
5032,54 0,928 92,8 % variability výšky je vysvětlitelné věkem. 5420,95
F-test: H0: β0 = c, β1 = 0 (y nezávisí na žádné z vysvětlujících proměnných x; zde výška nezávisí na věku) H1: non H0 (závislost)
F 233,22
F ( p 1; n p)
W F F1 ; F0,95 (1;18) 4, 41;W0,05 F 4, 41 F W0,05 ; H 0 zamítám, H1 přijímám, na 5% hladině významnosti Alternativně: p-hodnota = "Významnost F" = 9,54*10-12 = 0,00000000000954 p-hodnota = 0,00000000000954 < α = 0,05 -> zamítám H0, přijímám H1, na 5% hladině významnosti.
6. Příklad Na základě tabulky zapište regresní funkci jako funkci podmíněných průměrů, dále odhadněte parametry lineární regresní funkce (přímky) popisující závislost y na x a zapište pro dané hodnoty x vyrovnané hodnoty y. X Y
1 3
1 5
2 8
2 10
3 12
3 9
x 1 1 2 2 3 3 4 4 5 5 6 6 y 3 5 8 10 12 9 15 14 17 19 25 14 x*y 3 5 16 20 36 27 60 56 85 95 150 84 x2 1 1 4
4
9
9 16 16 25 25 36 36
4 15 Průměry 3,5 12,583 53,083 15,1671
4 14
5 17
5 19
6 25
6 14
b1
xy x y x2 x
2
53,083 3,5 12,583 3,1 15,167 3,52
b0 y b1 x 12,583 3,1 3,5 1,733 Y = 1,733 + 3,1*x Vyrovnané hodnoty (odhady z regresní funkce): x Y
1 2 3 4 5 6 4,833 7,933 11,03 14,13 17,23 20,33
7. Příklad V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů). Náklady Cena
835 136
63 24
240 52
1005 143
184 42
213 43
313 67
658 106
195 61
Regresní statistika Násobné R Hodnota spolehlivosti R Nastavená hodnota spolehlivosti R Chyba stř. hodnoty Pozorování
0,984743 0,969718 0,965933 58,59154 10
ANOVA Rozdíl Regrese Rezidua Celkem
1 8 9
Koeficienty Hranice Cena
-160,3468801 7,573698319
SS MS F 879463,1504 879463,1504 256,1815 27463,74958 3432,968698 906926,9
Chyba stř. hodnoty
t Stat
Hodnota P
41,00253356 3,910657858 0,004477 0,473188412 16,0056716 2,33E-07
a.) Modelujte závislost nákladů na údržbu na ceně regresní přímkou. y - náklady; x - cena Y = - 160,35 + 7,57x b.) Ověřte pomocí testu, zda se jedná o významnou závislost (α = 0,05).
Významnost F 2,32776E-07
545 99
H0: β0 = c, β1 = 0 (y nezávisí na žádné z vysvětlujících proměnných x; zde náklady nezávisí na ceně) H1: non H0 (závislost)
F 256,18 F ( p 1; n p) W F F1 ; F0,95 (1;8) 5,32;W0,05 F 5,32 F W0,05 ; H 0 zamítám, H1 přijímám, na 5% hladině významnosti Alternativně: p-hodnota = "Významnost F" = 2,33*10-7 = 0,000000233 p-hodnota = 0,000000233 < α = 0,05 -> zamítám H0, přijímám H1, na 5% hladině významnosti. c.) Zhodnoťte kvalitu modelu pomocí koeficientu determinace.
R2
879463 0,97 97 % variability nákladů na údržbu je vysvětlitelné cenou domu. 906927
d.) Interpretujte věcně hodnotu regresního koeficientu b1. b1 = 7,57 znamená, že když se x zvýší o 1, y vzroste o 7,57, tedy věcně: když se cena domu v modelu zvýší o 1 000 dolarů, vzrostou náklady na údržbu o 7,57. e.) Odhadněte střední hodnotu nákladů u domů za 80 tis. dolarů. Y = - 160,35 + 7,57*80 = 445,55
8. Příklad Máte tento výstup z Excelu modelující závislost mezi cenou domu (v tis. dolarech) a počtem pokojů:
Regresní statistika R (vícenásobný korelační koeficient)
Násobné R
R2 Hodnota spolehlivosti R Nastavená hodnota spolehlivosti R Chyba stř. hodnoty Pozorování
ST SY
R2ADJ MSE n
ANOVA
Regrese Rezidua Celkem
Rozdíl p-1 n-p n-1
SS
Hranice x
Koeficienty Chyba stř. hodnoty b0 s(b0) b1 s(b1)
ST SR Sy
MS F St/(p - 1) MS(Reg)/MS(Rez) Sr/(n - p)
Významnost F p-hodnota
t Stat Hodnota P b0/s(b0) p-hodnota b1/s(b1) p-hodnota
a. Dopočítejte teoretický a reziduální součet čtverců. ST = R2*SY = 0,791*8 997 200 000 = 7 116 785 200 ST = SY - ST = 8 997 200 000 - 7 116 785 200 = 1 880 414 800 b. Vypočítejte hodnoty testových kritérií pro celkový F-test a jednotlivé t-testy, proveďte dané testy na 1% hladině významnosti. H0: β0 = c, β1 = 0 (y nezávisí na žádné z vysvětlujících proměnných x; zde cena nezávisí počtu pokojů) H1: non H0 (závislost)
7116785200 1 F 68,12 1880414800 18
F ( p 1; n p )
W F F1 ; F0,95 (1;18) 4, 41;W0,05 F 4, 41 F W0,05 ; H 0 zamítám, H1 přijímám, na 5% hladině významnosti
H 0 : b0 0 (konstanta je v modelu zbytečná) H1 : b0 0 t
38689,58 3, 42 11318, 29
t (n p )
W t t1 /2 ; t0,975 (18) 2,101;W0,05 t 2,101 t W
0,05
H 0 zamítám, H1 přijímám, na 5% hladině významnosti.
H 0 : b1 0 (proměnná x je v modelu zbytečná) H1 : b1 0 t
17764,97 8, 25 t (n p ) 2152, 45
W t t1 /2 ; t0,975 (18) 2,101;W0,05 t 2,101 t W
0,05
H 0 zamítám, H1 přijímám, na 5% hladině významnosti.
c. Odhadněte cenu domu s 5 pokoji. Y = -38 689,58 + 17 764,97 * 5 = 50 135,27