Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Neparametrické testy (motto: „Hypotézy jsou lešením, které se staví před budovu a pak se strhává, je-li budova postavena. Jsou nutné pro vědeckou práci, avšak skutečný vědec nepokládá hypotézy za předmětnou pravdu, podobně jako nelze pokládat lešení za stavbu samu.“ J. W. Goethe)

1. Příklad Následující tabulka udává region pijáka piva a preferenci pití piva točeného nebo z lahve. Posuďte na jejím základě, zdali existují rozdíly v preferenci pití piva (z plechovky nebo točeného) v různých částech země. Hladina významnosti je 10%. Vypočítejte míru těsnosti této závislosti.

Plechovka Točené

Sever 300 200

Jih 190 110

Západ 60 40

χ20,90[2] = 4,61; r = 2 (počet řádků), s = 3 (počet sloupců) W0,1 = [G ≥ 4,61]

Plechovka Točené Součty



Sever 300 200 500

Jih 190 110 300

Západ 60 40 100

Součty 550 350 900

Sever 305.56 194.44 500

Jih 183.33 116.67 300

Západ 61.11 38.89 100

Součty 550 350 900

Sever 0.10 0.16

Jih 0.24 0.38

Západ 0.02 0.03 G=

Součty

0.94

Nespadá do kritického oboru, nezamítáme nulovou hypotézu ve prospěch hypotézy alternativní, že existuje vztah mezi regionem a preferencí způsobu pití piva.

C

G 0,94   0,032 nG 900,94

V

G 0,94   0,032 n(m  1) 900

2. Příklad Ve 12 supermarketech byl testován vliv způsobu vystavení zboží na jeho odbyt. Zboží bylo umístěno 2 různými způsoby (A a B), vždy v 6 supermarketech stejně a sledoval se počet prodaných kusů za určitou dobu. Rozhodněte pomocí testu, zda způsob umístění zboží statisticky významně ovlivňuje počet prodaných kusů na hladině významnosti 0,01. Zhodnoťte kvalitu vytvořeného modelu.

A B

42 104

46 79

37 122

48 115

53 71

92 89

H0: μ1 = μ2 (nezávislé) H1: non H0 (závislé) F0,99 [1; 10] = 10,044 W0,01 = {F ≥ 10,044} Tabulka se překopíruje do MS Excel. Následně je potřeba mít aktivován doplněk „Analýza dat“. K jeho aktivaci vede tento postup: Soubor → Možnosti → Doplňky → Přejít → Analytické nástroje (zaškrtnout) a OK. Doplněk se potom nachází v záložce Data vpravo. Volba, kterou z Analýzy dat použijeme je ANOVA: jeden faktor. Do vstupní oblasti označíme data, pokud jsou přepsané přesně jako v zadání, tak je potřebujeme sdružit po řádcích. Pokud je v označených datech záhlaví, pak je potřeba zaškrtnout volbu Popisky. Anova: jeden faktor Faktor Výběr A B

Počet 6 6

Součet Průměr Rozptyl 318 53 394.4 580 96.66667 412.2667

ANOVA Zdroj variability Mezi výběry Všechny výběry

SS 5720.333 4033.333

Celkem

9753.667

Hodnota Rozdíl MS F P F krit 1 5720.333 14.18264 0.003686 4.964603 10 403.3333 11

F = 14,18 Spadá do kritického oboru, tedy zamítáme nulovou hypotézu, že jsou si střední hodnoty v jednotlivých skupinách rovny a tudíž způsob umístění neovlivňuje prodej, ve prospěch alternativní, že způsob prodeje ovlivňuje prodejnost.

Alternativní způsob jak vyhodnotit test je použít p-hodnotu. V tomto výstupu je označena jako Hodnota P. Platí, že jestliže p-hodnota ≤ α, pak nulovou hypotézu zamítáme. Zde je p-hodnota 0,0037, tj. je menší než hladina významnosti a nulovou hypotézu skutečně zamítáme. Síla závislosti je dána poměrem determinace P2 = Sy,m/Sy = 5 720,33/9 753,66 = 0,586480; znamená to, že model vysvětluje 58,65% variability sledované proměnné.

3. Příklad V souboru „Vysledky“ máte k dispozici kompletní výsledky čtyř variant prvního průběžného testu z loňského. Otestujte v Excelu hypotézu, že varianta vybraného testu ovlivňuje bodový výsledek studenta. Zhodnoťte kvalitu vytvořeného modelu. Výsledky: Sy.m = 95,11; Sy,v = 2197,93; Sy = 2293,04; F = 1,38; Hodnota P = 0,2521; na 25,21% a jakékoliv nižší hladině významnosti nemůžeme zamítnout nulovou hypotézu o rovnosti středních hodnot výsledků daných testů.

4. Příklad V následující tabulce jsou vybrané údaje z provedené analýzy rozptylu. Jednalo se o test, zda-li se liší spotřeba automobilu při použití různých typů benzínu. Doplňte tabulku a zjistěte z ní následující údaje: Počet celkových pokusů (testovacích jízd) Počet testovaných typů benzínu Množství variability vysvětlené modelem Liší se statisticky významně (na hladině významnosti 0,05) spotřeba automobilu v závislosti na typu benzínu? ANOVA Zdroj variability Mezi výběry Všechny výběry

SS

Celkem

0.279

R-Square

ANOVA Zdroj variability Mezi výběry Všechny výběry Celkem

Rozdíl

MS

F

Hodnota P

MS Sy,m/(k-1) Sy,v/(n-k)

F F

Hodnota P p-hodnota

F krit

12 15

0.587276

SS Sy,m Sy,v

Rozdíl k-1 n-k

Sy

n-1

F krit F1-α(k-1; n-k)

P2

R-Square

Doplněná tabulka: ANOVA Zdroj variability Mezi výběry Všechny výběry

SS 0,164 0,115

Rozdíl 3 12

Celkem

0.279

15

R-Square

MS 0,0546 0,0096

F 5,69

Hodnota P ?

F krit 3,49

0.587276

Počet pokusů = n = 16 Počet typů benzínu = k = 4 Množství variability = R-square = 0,587276 Wα = {F; F ≥ F1-α} F0,95 (3; 12) = 3,49 W0,05 = {F;F ≥ 3,49} F = 5,69 F patří do kritického oboru, tudíž zamítáme nulovou hypotézu ve prospěch alternativní. Spotřeba závisí na typu benzínu. P-hodnotu neumíme v rámci kurzu dopočítat, ale byla by nižší než 0,05.

Regrese 5. Příklad Odhadněte parametry lineární regresní funkce (přímky) popisující závislost y na x (ručně, SAS) a zapište pro dané hodnoty x vyrovnané hodnoty y.

X Y X*Y X2

b1 

1 3 3 1

1 5 5 1

2 8 16 4

2 10 20 4

3 12 36 9

53,08  3,5  12,58  3,1 15,17  3,52

3 9 27 9

4 15 60 16

4 14 56 16

5 17 85 25

5 6 6 19 25 14 95 150 84 25 36 36

Průměry 3.50 12.58 53.08 15.17

b0  12,58  3,1  3,5  1,73 Y = 1,73 + 3,1x Vyrovnané (= odhadnuté) hodnoty: X 1 2 3 4 5 6

y 4.83 6.57 8.30 10.03 11.77 13.50

6. Příklad V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů). Náklady 835 63 240 1005 184 213 313 658 195 545

Cena 136 24 52 143 42 43 67 106 61 99

a. Modelujte závislost nákladů na údržbu na ceně regresní přímkou. b. Ověřte pomocí testu, zda se jedná o významnou závislost (α = 0,05). c. Zhodnoťte kvalitu modelu pomocí koeficientu determinace. d. Interpretujte věcně hodnotu regresního koeficientu b1. e. Odhadněte střední hodnotu nákladů u domů za 80 tis. dolarů. Údaje přepíšeme do Excelu ve formátu tabulky jako je výše (tj. proměnné píšeme do sloupců). Následně v doplňku Analýza dat zvolíme možnost Regrese. Vstupní oblast Y má obsahovat hodnoty vysvětlované proměnné (zde Náklady) a vstupní oblast X má obsahovat hodnoty vysvětlujících proměnných (zde je jenom jedna a to Cena). Opět je třeba dávat pozor na popisky, tj. jestli ve vstupních oblastech jsou nebo nejsou popisky (záhlaví). Nic jiného není v rámci kurzu nutné nastavovat. Výstup je následující:

VÝSLEDEK Regresní statistika Násobné R 0.9847425 Hodnota spolehlivosti R 0.969717791 Nastavená hodnota spolehlivosti R 0.965932515 Chyba stř. hodnoty 58.59154118 Pozorování 10 ANOVA Rozdíl Regrese Rezidua Celkem Koeficienty

Hranice Cena

Významnost SS MS F F 1 879463.1504 879463.15 256.18152 2.32776E-07 8 27463.74958 3432.9687 9 906926.9 CHSH

t Stat

Hodnota P -160.346880 41.00253356 3.9106579 0.0044769 7.573698319 0.473188412 16.005672 2.328E-07

Ad a.) Y = - 160,35 + 7,57x Ad b.) F-test: Významnost F (p-hodnota) je 0,000000233, tj. menší než 0,05. Zamítáme nulovou hypotézu tohoto testu (vysvětlovaná proměnná nezávisí na žádné z vysvětlujících), což znamená, že má smysl se touto regresí dále zabývat. t-test: b0 Hodnota P (p-hodnota) je zde 0,00448, tj. menší než hladina významnosti a zamítám nulovou hypotézu (že je parametr nulový). To znamená, že má smysl v modelu nechat příslušnou proměnnou (zde tedy konstantu, která je bez proměnné) b1 Hodnota P (p-hodnota) je zde 0,000000233, tj. menší než hladina významnosti a zamítám nulovou hypotézu (že je parametr nulový). To znamená, že má smysl v modelu nechat příslušnou proměnnou (zde tedy cenu) Ad c.) R2 = „Hodnota spolehlivosti R“ = 0,9697 (Model vysvětluje 96,97 % variability vysvětlované proměnné, zde Nákladů) Ad d.) S každým tisícem dolarů, o který je dům dražší, stoupají odhadované náklady o 7,57 dolaru. Ad e.) Y = - 160,35+7,57*80 = 445,55

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Recommend Documents