Neparametrické testy (motto: „Hypotézy jsou lešením, které se staví před budovu a pak se strhává, je-li budova postavena. Jsou nutné pro vědeckou práci, avšak skutečný vědec nepokládá hypotézy za předmětnou pravdu, podobně jako nelze pokládat lešení za stavbu samu.“ J. W. Goethe)
1. Příklad Následující tabulka udává region pijáka piva a preferenci pití piva točeného nebo z lahve. Posuďte na jejím základě, zdali existují rozdíly v preferenci pití piva (z plechovky nebo točeného) v různých částech země. Hladina významnosti je 10%. Vypočítejte míru těsnosti této závislosti.
Plechovka Točené
Sever 300 200
Jih 190 110
Západ 60 40
χ20,90[2] = 4,61; r = 2 (počet řádků), s = 3 (počet sloupců) W0,1 = [G ≥ 4,61]
Plechovka Točené Součty
Plechovka Točené Součty
Plechovka Točené Součty
Sever 300 200 500
Jih 190 110 300
Západ 60 40 100
Součty 550 350 900
Sever 305.56 194.44 500
Jih 183.33 116.67 300
Západ 61.11 38.89 100
Součty 550 350 900
Sever 0.10 0.16
Jih 0.24 0.38
Západ 0.02 0.03 G=
Součty
0.94
Nespadá do kritického oboru, nezamítáme nulovou hypotézu ve prospěch hypotézy alternativní, že existuje vztah mezi regionem a preferencí způsobu pití piva.
C
G 0,94 0,032 nG 900,94
V
G 0,94 0,032 n(m 1) 900
2. Příklad Ve 12 supermarketech byl testován vliv způsobu vystavení zboží na jeho odbyt. Zboží bylo umístěno 2 různými způsoby (A a B), vždy v 6 supermarketech stejně a sledoval se počet prodaných kusů za určitou dobu. Rozhodněte pomocí testu, zda způsob umístění zboží statisticky významně ovlivňuje počet prodaných kusů na hladině významnosti 0,01. Zhodnoťte kvalitu vytvořeného modelu.
A B
42 104
46 79
37 122
48 115
53 71
92 89
H0: μ1 = μ2 (nezávislé) H1: non H0 (závislé) F0,99 [1; 10] = 10,044 W0,01 = {F ≥ 10,044} Tabulka se překopíruje do MS Excel. Následně je potřeba mít aktivován doplněk „Analýza dat“. K jeho aktivaci vede tento postup: Soubor → Možnosti → Doplňky → Přejít → Analytické nástroje (zaškrtnout) a OK. Doplněk se potom nachází v záložce Data vpravo. Volba, kterou z Analýzy dat použijeme je ANOVA: jeden faktor. Do vstupní oblasti označíme data, pokud jsou přepsané přesně jako v zadání, tak je potřebujeme sdružit po řádcích. Pokud je v označených datech záhlaví, pak je potřeba zaškrtnout volbu Popisky. Anova: jeden faktor Faktor Výběr A B
Počet 6 6
Součet Průměr Rozptyl 318 53 394.4 580 96.66667 412.2667
ANOVA Zdroj variability Mezi výběry Všechny výběry
SS 5720.333 4033.333
Celkem
9753.667
Hodnota Rozdíl MS F P F krit 1 5720.333 14.18264 0.003686 4.964603 10 403.3333 11
F = 14,18 Spadá do kritického oboru, tedy zamítáme nulovou hypotézu, že jsou si střední hodnoty v jednotlivých skupinách rovny a tudíž způsob umístění neovlivňuje prodej, ve prospěch alternativní, že způsob prodeje ovlivňuje prodejnost.
Alternativní způsob jak vyhodnotit test je použít p-hodnotu. V tomto výstupu je označena jako Hodnota P. Platí, že jestliže p-hodnota ≤ α, pak nulovou hypotézu zamítáme. Zde je p-hodnota 0,0037, tj. je menší než hladina významnosti a nulovou hypotézu skutečně zamítáme. Síla závislosti je dána poměrem determinace P2 = Sy,m/Sy = 5 720,33/9 753,66 = 0,586480; znamená to, že model vysvětluje 58,65% variability sledované proměnné.
3. Příklad V souboru „Vysledky“ máte k dispozici kompletní výsledky čtyř variant prvního průběžného testu z loňského. Otestujte v Excelu hypotézu, že varianta vybraného testu ovlivňuje bodový výsledek studenta. Zhodnoťte kvalitu vytvořeného modelu. Výsledky: Sy.m = 95,11; Sy,v = 2197,93; Sy = 2293,04; F = 1,38; Hodnota P = 0,2521; na 25,21% a jakékoliv nižší hladině významnosti nemůžeme zamítnout nulovou hypotézu o rovnosti středních hodnot výsledků daných testů.
4. Příklad V následující tabulce jsou vybrané údaje z provedené analýzy rozptylu. Jednalo se o test, zda-li se liší spotřeba automobilu při použití různých typů benzínu. Doplňte tabulku a zjistěte z ní následující údaje: Počet celkových pokusů (testovacích jízd) Počet testovaných typů benzínu Množství variability vysvětlené modelem Liší se statisticky významně (na hladině významnosti 0,05) spotřeba automobilu v závislosti na typu benzínu? ANOVA Zdroj variability Mezi výběry Všechny výběry
SS
Celkem
0.279
R-Square
ANOVA Zdroj variability Mezi výběry Všechny výběry Celkem
Rozdíl
MS
F
Hodnota P
MS Sy,m/(k-1) Sy,v/(n-k)
F F
Hodnota P p-hodnota
F krit
12 15
0.587276
SS Sy,m Sy,v
Rozdíl k-1 n-k
Sy
n-1
F krit F1-α(k-1; n-k)
P2
R-Square
Doplněná tabulka: ANOVA Zdroj variability Mezi výběry Všechny výběry
SS 0,164 0,115
Rozdíl 3 12
Celkem
0.279
15
R-Square
MS 0,0546 0,0096
F 5,69
Hodnota P ?
F krit 3,49
0.587276
Počet pokusů = n = 16 Počet typů benzínu = k = 4 Množství variability = R-square = 0,587276 Wα = {F; F ≥ F1-α} F0,95 (3; 12) = 3,49 W0,05 = {F;F ≥ 3,49} F = 5,69 F patří do kritického oboru, tudíž zamítáme nulovou hypotézu ve prospěch alternativní. Spotřeba závisí na typu benzínu. P-hodnotu neumíme v rámci kurzu dopočítat, ale byla by nižší než 0,05.
Regrese 5. Příklad Odhadněte parametry lineární regresní funkce (přímky) popisující závislost y na x (ručně, SAS) a zapište pro dané hodnoty x vyrovnané hodnoty y.
X Y X*Y X2
b1
1 3 3 1
1 5 5 1
2 8 16 4
2 10 20 4
3 12 36 9
53,08 3,5 12,58 3,1 15,17 3,52
3 9 27 9
4 15 60 16
4 14 56 16
5 17 85 25
5 6 6 19 25 14 95 150 84 25 36 36
Průměry 3.50 12.58 53.08 15.17
b0 12,58 3,1 3,5 1,73 Y = 1,73 + 3,1x Vyrovnané (= odhadnuté) hodnoty: X 1 2 3 4 5 6
y 4.83 6.57 8.30 10.03 11.77 13.50
6. Příklad V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů). Náklady 835 63 240 1005 184 213 313 658 195 545
Cena 136 24 52 143 42 43 67 106 61 99
a. Modelujte závislost nákladů na údržbu na ceně regresní přímkou. b. Ověřte pomocí testu, zda se jedná o významnou závislost (α = 0,05). c. Zhodnoťte kvalitu modelu pomocí koeficientu determinace. d. Interpretujte věcně hodnotu regresního koeficientu b1. e. Odhadněte střední hodnotu nákladů u domů za 80 tis. dolarů. Údaje přepíšeme do Excelu ve formátu tabulky jako je výše (tj. proměnné píšeme do sloupců). Následně v doplňku Analýza dat zvolíme možnost Regrese. Vstupní oblast Y má obsahovat hodnoty vysvětlované proměnné (zde Náklady) a vstupní oblast X má obsahovat hodnoty vysvětlujících proměnných (zde je jenom jedna a to Cena). Opět je třeba dávat pozor na popisky, tj. jestli ve vstupních oblastech jsou nebo nejsou popisky (záhlaví). Nic jiného není v rámci kurzu nutné nastavovat. Výstup je následující:
VÝSLEDEK Regresní statistika Násobné R 0.9847425 Hodnota spolehlivosti R 0.969717791 Nastavená hodnota spolehlivosti R 0.965932515 Chyba stř. hodnoty 58.59154118 Pozorování 10 ANOVA Rozdíl Regrese Rezidua Celkem Koeficienty
Hranice Cena
Významnost SS MS F F 1 879463.1504 879463.15 256.18152 2.32776E-07 8 27463.74958 3432.9687 9 906926.9 CHSH
t Stat
Hodnota P -160.346880 41.00253356 3.9106579 0.0044769 7.573698319 0.473188412 16.005672 2.328E-07
Ad a.) Y = - 160,35 + 7,57x Ad b.) F-test: Významnost F (p-hodnota) je 0,000000233, tj. menší než 0,05. Zamítáme nulovou hypotézu tohoto testu (vysvětlovaná proměnná nezávisí na žádné z vysvětlujících), což znamená, že má smysl se touto regresí dále zabývat. t-test: b0 Hodnota P (p-hodnota) je zde 0,00448, tj. menší než hladina významnosti a zamítám nulovou hypotézu (že je parametr nulový). To znamená, že má smysl v modelu nechat příslušnou proměnnou (zde tedy konstantu, která je bez proměnné) b1 Hodnota P (p-hodnota) je zde 0,000000233, tj. menší než hladina významnosti a zamítám nulovou hypotézu (že je parametr nulový). To znamená, že má smysl v modelu nechat příslušnou proměnnou (zde tedy cenu) Ad c.) R2 = „Hodnota spolehlivosti R“ = 0,9697 (Model vysvětluje 96,97 % variability vysvětlované proměnné, zde Nákladů) Ad d.) S každým tisícem dolarů, o který je dům dražší, stoupají odhadované náklady o 7,57 dolaru. Ad e.) Y = - 160,35+7,57*80 = 445,55