1. Příklad Byly sledovány rodinné stavy nevěst a ženichů při uzavírání sňatků a byla vytvořena následující tabulka četností. Stav
Svobodný Rozvedený
Vdovec
Svobodná
37
10
6
Rozvedená
8
12
8
Vdova
5
8
6
Zjistěte na 1% hladině významnosti, zda existuje statistická závislost mezi rodinným stavem ženicha a nevěsty a to ručně i v SAS. Vypočítejte míru těsnosti závislosti. Jedná se o obdobu Chí-kvadrát testu dobré shody, kde musíme porovnat tuto četnostní tabulku s hypotetickou četnostní tabulkou, jež představuje rozvrstvení těchto dvojic stavů za předpokladu, že jsou na sobě stav nevěsty a ženicha nezávislé. Stav Svobodný Rozvedený Svobodná 37 10 Rozvedená 8 12 Vdova 5 8 Celkem 50 30
Vdovec 6 8 6 20
Celkem 53 28 19 100
Předchozí tabulka doplněná o součty. Nyní vytvoříme tabulku nezávislých četností. V každém políčku bude počet odpovídající násobku součtu příslušného řádku a sloupce dělený celkovým počtem sňatků. Pro dvojici SvobodnýXSvobodná tedy 53*50/100 = 26,5. Toto číslo odpovídá počtu sňatků svobodných, jestliže by tento počet nezávisel na jejich stavu. Nyní tedy: Stav Svobodný Rozvedený Svobodná 26,5 15,9 Rozvedená 14 8,4 Vdova 9,5 5,7 Celkem 50 30
Součtové řádky a sloupce se navzájem musí rovnat.
Vdovec 10,6 5,6 3,8 20
Celkem 53 28 19 100
Následuje výpočet samotné statistiky G, která je počítána stejně jako v předchozím příkladě, tedy čtverec rozdílu mezi skutečnou a teoretickou četností dělený teoretickou četností. Tyto jednotlivé mezivýpočty se sečtou a tento součet je hledanou hodnotou statistiky G. Příklad pro svobodné: (37 – 26,5)2/26,5 Stav Svobodný Rozvedený Vdovec Celkem Svobodná 4,16 2,19 2,00 Rozvedená 2,57 1,54 1,03 Vdova 2,13 0,93 1,27 Celkem 17,82
G = 17,82 χ20,99[4] = 13,3; r = 3 (počet řádků), s = 3 (počet sloupců) W0,01 = [G ≥ 13,3] Spadá do kritického oboru, zamítáme nulovou hypotézu ve prospěch hypotézy alternativní, že existuje vztah mezi rodinným stavem nevěsty a ženicha. C= V=
V SAS: Musíme nejdříve přenést data do nové tabulky tak, aby si s tím software poradil. Vytvoříme nová data (File – New – Data). V sloupci A rozepíšeme 3x každý stav ženicha (či nevěsty). V sloupci B rozepíšeme třikrát stav nevěsty (či ženicha) tak, abychom vytvořili všech 9 kombinací, které máme v naší kontingenční tabulce. Ve sloupci C vyplníme příslušné četnosti z kontingenční tabulky. Nyní se pustíme do výpočtu: Describe – Table Analysis. V Task Roles pošleme proměnné A a B do skupiny „Table variables“ a proměnnou C do „Frequency Count“. V záložce Tables zrekonstruujeme naší tabulku, tedy proměnnou A přetáhneme do hořejšího řádku a proměnnou B do levého sloupce. Takto máme vytvořenou tabulku. V záložce Cell Statistics si můžeme zvolit zobrazení různých mezivýpočtů, zrekonstruujeme nyní ty naše pomocí záložek: „Cell frequencies“, „Cell contribution to Pearson chi-square“ a „Expected cell frequency“. V záložce Association zaškrtneme políčko „Chi-square tests…“, díky tomu zjistíme hodnotu chí-kvadrát koeficientu i jeho p-value. Pak už stačí jenom „Run“ a skouknout výsledky.
Vidíme hodnotu „Chi-square“ 17,82 s „Prob“ = 0,0013. Jelikož hodnota „Prob“ je nižší než zvolená hladina významnosti, zamítáme nulovou hypotézu. Sloupec DF značí počet stupňů volnosti daného testu. C a V jsou dány jako Contingency Coefficient resp. Cramer´s V.
2. Příklad Následující tabulka udává region pijáka piva a preferenci pití piva točeného nebo z lahve. Posuďte na jejím základě, zdali existují rozdíly v preferenci pití piva (z plechovky nebo točeného) v různých částech země. Hladina významnosti je 10%. Vypočítejte míru těsnosti této závislosti.
Sever
Jih
Západ
Plechovka
300
190
60
Točené
200
110
40
V SAS: Chi-square test Prob = 0,6265, tj > 0,1, potom H0 nezamítáme. Koeficient C i Cramerovo V = 0,322
3. Příklad Ve 12 supermarketech byl testován vliv způsobu vystavení zboží na jeho odbyt. Zboží bylo umístěno 2 různými způsoby (A a B), vždy v 6 supermarketech stejně a sledoval se počet prodaných kusů za určitou dobu. Rozhodněte pomocí testu, zda způsob umístění zboží statisticky významně ovlivňuje počet prodaných kusů na hladině významnosti 0,01. Zhodnoťte kvalitu vytvořeného modelu. A
42
46
37
48
53
92
B
104
79
122
115
71
89
H0: μ1 = μ2 H1: non H0 F0,99 [1; 10] = 10,044 W0,01 = {F ≥ 10,044} Vnitroskupinový součet čtverců
4033, 33
1. skupina 42 46 37 48 53 92 celkem průměr
53
Čtvercová odchylka od Čtvercová průměru 2. odchylka od skupiny skupina průměru skupiny 121 104 53,77778 49 79 312,1111 256 122 641,7778 25 115 336,1111 0 71 658,7778 1521 89 58,77778 1972 2061,333 96,66667
4033,333
Meziskupinový součet čverců: Sy,m = 5 720,33
A B Celkem
Čtvercová odchylka Průměry od průměru 53 2860,167 96,66667 2860,167 74,83333 5720,333
Celkový součet čtverců = 9753,66
Spadá do kritického oboru, tedy zamítáme nulovou hypotézu, že jsou si střední hodnoty v jednotlivých skupinách rovny a tudíž způsob umístění neovlivňuje prodej, ve prospěch alternativní, že způsob prodeje ovlivňuje prodejnost. Síla závislosti je dána poměrem determinace P2 = Sy,m/Sy = 5 720,33/9 753,66 = 0,586480; znamená to, že model vysvětluje 58,65% variability sledované proměnné. V SAS: Znovu je potřeba vytvořit správně datový soubor – v jednom sloupci zapíšeme všechny způsoby prodeje pro všechny napočítané hodnoty (tedy šestkrát A, šestkrát B). Ke každému ze způsobů do vedlejšího sloupce zapíšeme právě jedno množství prodaných výrobků. Nyní pokračujeme přes záložky Analyze – ANOVA – One-Way ANOVA. V Task Roles je Dependent Value (závislá proměnná) sloupec s množstvím prodaných kusů a Independent Value sloupec se způsobem prodeje. V zásadě nic více nepotřebujeme, můžeme si nechat například vyjet nějaký z grafů znázorňující rozdílné průměry ve skupinách.
Ve výsledcích vidíme hodnoty Sum of Squares – ty značí součty čtverců meziskupinový (Model) – 5 720,33 a vnitroskupinový (Error) – 4033,33. Celkem (Corrected Total) = 9753,66. DF značí stupně volnosti; F Value značí hodnotu testového kritéria F; Pr > F značí hladinu významnosti, na které je model označen jako významný ve smyslu zamítnutí nulové hypotézy. Na 5% hladině hypotézu zamítáme. R-Square je poměr determinace, množství variability vysvětlené modelem.