3 Analýza rozptylu – ANOVA
3 ANALÝZA ROZPTYLU – ANOVA RYCHLÝ NÁHLED KAPITOLY Analýza rozptylu je statistickým nástrojem, který nám umožňuje zkoumat závislost kvantitativního znaku na kvalitativním znaku. Základní myšlenka analýzy rozptylu spočívá v rozkladu celkového rozptylu na dílčí rozptyly příslušející jednotlivým vlivům, podle nichž jsou data roztříděna. Kromě dílčích rozptylů je jednou složkou celkového rozptylu tzv. reziduální rozptyl, způsobený nepostiženými vlivy. Podle počtu analyzovaných faktorů, tj. podle počtu vlivů na hodnoty kvantitativního znaku, rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu. Všeobecně používané označení ANOVA je akronymem anglických slov „ANalysis Of VAriance“ (doslovný překlad z angličtiny: analýza rozptylu).
3.1 ANALÝZA ROZPTYLU S JEDNÍM FAKTOREM Často se vyskytuje situace, kdy máte k (např. k=5) nezávislých náhodných výběrů, které nemusí pocházet z jednoho základního souboru, s příslušnými rozsahy n1 , n2 ,..., nk . Přitom k může být 2,3,..., a součet těchto rozsahů je N. Tyto rozsahy výběrů rovněž nemusí být stejné, v každém z nich je znám průměr xi , a také rozptyl si2 , i = 1,2,...,k. V praktických situacích obvykle tyto výběry vzniknou tak, že základní soubor rozdělíme podle určitého obvykle kvalitativního - nečíselného třídícího statistického znaku X do k skupin, v každé z nich pak vybíráme samostatně ni prvků. Znak X se pak označuje jako faktor, jehož hodnoty jsou předem stanoveny a hovoří se proto často o faktoru kontrolovaném, nebo faktoru pozorovaném, např. věková skupina, druh výrobku, typ reklamy, typ služby apod. Hodnoty faktoru X se označují x1 , x2 ,..., xk Faktor X má k úrovní – kategorií a ovlivňuje jiný statistický znak Y, jež má kvantitativní - intervalovou nebo podílovou (tedy číselnou) povahu. Hodnoty znaku Y příslušné hodnotě xi faktoru X označujeme yi1 , yi 2 ,..., yini Pro analýzu rozptylu je výhodné uspořádat výchozí údaje do přehledné tabulky: Číslo výběru
Zjištěné hodnoty sledovaného znaku
Počet prvků
Průměr
Rozptyl
1
y11 , y12 ,..., y1 j ,..., y1n1
n1
y1
s12
2
y 21 , y 22 ,..., y 2 j ,..., y 2 n2
n1
y2
s 22
i
yi1 , yi 2 ,..., yij ,..., yini
ni
yi
si2
k
y k1 , y k 2 ,..., y kj ,..., y knk
nk
yk
s k2
N
y
s2
Celkem
- 40 -
Elena Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy
Celková variabilita znaku (souboru) se měří obvykle (výběrovým) rozptylem: s2
y i
ij
y
2
j
N 1
V souvislosti s analýzou rozptylu nás bude zajímat pouze čitatel výše uvedeného zlomku, totiž součet čtverců odchylek zjištěných hodnot y ij od celkového průměru y , přičemž tento průměr je dán vztahem: 1 k Ni y yij N i 1 j 1 Tento celkový součet čtverců se označuje symbolem S y , tedy:
S y yij y k
Ni
i 1
j 1
2
Celkovému součtu čtverců přísluší počet stupňů volnosti dfc = N - 1. Variabilitu uvnitř skupin označujeme jako vnitroskupinovou, nebo také reziduální a používáme přitom označení S y ,v , přičemž definujeme vnitroskupinový (reziduální) součet čtverců takto:
S y ,v yij yi k
Ni
i 1
j 1
2
Vnitroskupinovému součtu čtverců přísluší počet stupňů volnosti dfv = N - k. Variabilitu mezi skupinami měříme meziskupinovým součtem čtverců S y ,m , který definujeme následovně: S y , m N i yi y k
2
i 1
Meziskupinovému součtu čtverců přísluší počet stupňů volnosti dfm = k - 1. Aritmetickými úpravami výše uvedených vzorců lze snadno odvodit základní vztah analýzy rozptylu, totiž, že celkový součet čtverců je roven sumě meziskupinového a vnitroskupinového součtu čtverců, symbolicky: S y S y , m S y ,v
Analýza rozptylu je statistickým testem, který zkoumá vliv faktorů X na hodnoty znaku Y. Postup testování: 1. Stanovení hypotézy: H0: hodnoty faktoru X nemají na hodnoty znaku Y žádný vliv (nezávislost znaků), H1: negace H0. S y ,m
2. Testové kritérium: T k 1 S y ,v
N k 3. Obor přijetí: 0, F( k 1, N k ) ( ) , kritický obor F( k 1,N k ) ( ), , kde F( k 1, N k ) ( ) je kritická
hodnota F rozdělení pro stupně volnosti k 1 a N k . 4. Závěr. Analýzya rozptylu je založena na předpokladu shody rozptylů v jednotlivých k skupinách. Pokud jsou předpoklady splněny, pak popsaná metoda ANOVA poskytuje nejlepší výsledky – je nejúčinnější. Není-li tento předpoklad splněn, pak použití výše uvedeného testu může poskytnout neadekvátní výsledek. V takovém případě lze použít jiné testy, např. Chi-kvadrát test, nebo F-test, případně některé neparametrické testy, jako Kruskal-Wallisův nebo Friedmanův test, viz kapitola 6, nebo literatura, např. [Seger]. - 41 -
3 Analýza rozptylu – ANOVA
V Excelu můžete jak podmíněné průměry, tak i hodnoty všech součtů čtverců, testového kritéria, kritickou hodnotu i hodnotu p zjistit pomocí analytického nástroje Anova: jeden faktor. Výsledkem jsou dvě tabulky, tabulka „Faktor“ a tabulka „Anova“. V tabulce „Faktor“ je pro každý z faktorů určený celkový přehled – počet pozorování pro faktor, součet hodnot, průměr a výběrový rozptyl. V tabulce „Anova“ jsou postupně hodnoty, které jsou využity v testu: Zdroj variability
SS
Rozdíl
MS
F
Hodnota P
F krit
p-hodnota
F( k 1)( N k ) ( )
-
-
-
-
-
-
S ym Mezi výběry
S ym
dfm = k - 1
S ym k 1
T k 1 S yv N k
Všechny výběry
S yv
dfv = N - k
Celkem
Sy
dfc = N - 1
S yv N k -
ŘEŠENÝ PŘÍKLAD 3.1 Porovnejte úspěšnost absolventů gymnázií, SPŠ a odborných učilišť s maturitou (OU) u přijímacích zkoušek na vysokou školu. Na hladině významnosti 0,05 testujte, zda faktor absolvovaná střední škola má vliv na úspěšnost žáků u přijímacích zkoušek na vysokou školu. Body, získané u přijímacích zkoušek u 30 náhodně vybraných studentů jsou zadány v následující tabulce: Gymnázium
SPŠ
OU
85
56
78
73
58
76
58
69
64
76
67
56
64
70
69
58
78
67
80
79
70
78
67
78
76
67
64
89
56 34
Řešení: Příklad vyřešíte pomocí analytického nástroje Anova: jeden faktor. Po otevření dialogového okna (Data Analýza dat Anova: jeden faktor) lze zadat vstupní oblast dat s popiskami, vyznačit, že popisky se nachází v prvním řádku a zadat hladinu významnosti testu (Obr. 3.1).
- 42 -
Elena Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy Obrázek 3.1
Zdroj: Vlastní zpracování.
Výsledkem jsou dvě tabulky (Obr. 3.2): Obrázek 3.2
Zdroj: Vlastní zpracování.
Postup testování: 1. Stanovení hypotézy: H0: hodnoty faktoru X nemají na hodnoty znaku Y žádný vliv (faktor „škola“ nemá vliv na výsledky přijímacího řízení.), H1: negace H0. 2. Testové kritérium: T 0,2618 3. Obor přijetí: 0; 3,354 , kritický obor 3,3514; , („F krit“ je kritická hodnota
F rozdělení pro stupně volnosti 2 a 27.) 4. Závěr: Na hladině významnosti alfa = 0,05 nelze zamítnout hypotézu H0 o nezávislosti výsledků přijímacího řízení na absolvované škole uchazečů. __________________________________________________________________________ - 43 -
3 Analýza rozptylu – ANOVA
3.2 DVOUFAKTOROVÁ ANOVA Analýza rozptylu se dvěma faktory znamená testovat závislost kvantitativního znaku na dvou znacích kvalitativních, tj. na dvou faktorech. Předpokládáme, že působení těchto faktorů na sledovaný znak je nezávislé. Podle 1. faktoru budeme hodnoty znaku Y třídit do skupin, podle 2. faktoru do bloků. Rozklad celkového součtu čtverců Sy se provede analogicky jako v případě jednofaktorové analýzy rozptylu, pouze přibude nový sčítanec. Označíme jej S yb , a přináleží blokovému faktoru. Součet čtverců S ym přináleží meziskupinovému faktoru, součet čtverců S yv přináleží vnitroskupinovému faktoru. Rozklad celkového součtu čtverců S potom bude: S y S ym S yv S yb . U dvoufaktorové analýzy bez opakování se jedná o dva simultánní testy. Postup testování: 1. Hypotézy: : H 01 : Znak (faktor) X 1 nemá na znak Y žádný vliv, H 11 : Znak (faktor) X 1 má na znak Y vliv, H 02 : Znak (faktor) X 2 nemá na znak Y žádný vliv, H 12 : Znak (faktor) X 2 má na znak Y vliv, 2. Testová kritéria: S ym S yb k 1 r 1 F1 1 F2 S yv S yv (k 1).(r 1) (k 1).(r 1) kde k je počet skupin pro faktor 1 a r je počet bloků pro faktor 2. 3. Kritické hodnoty: F(1k 1),( k 1)( r 1) ( ) a F( 2r 1),( k 1)( r 1) ( ) . 4. Závěr: Je-li F 1 F(1k 1),( k 1)( r 1) ( ) , znak X 1 statisticky významně ovlivňuje znak Y . Je-li F 2 F( k21),( k 1)( r 1) ( ) , znak X 2 statisticky významně ovlivňuje znak Y . K dvoufaktorové analýze rozptylu bez opakování použijeme v Excelu analytický nástroj Anova:dva faktory bez opakování. Výsledkem jsou dvě tabulky, tabulka „Faktor“ a tabulka „Anova“. V tabulce „Faktor“ je pro každý z faktorů a bloků určený celkový přehled – počet pozorování pro faktor a blok, součet hodnot, průměr a výběrový rozptyl. V tabulce „Anova“ jsou postupně hodnoty, které jsou využity v testu: Zdroj variability
SS
Rozdíl
Řádky
S ym
k 1
Sloupce
S yb
r 1
Chyba
S yv
(k 1).(r 1)
Celkem
Sy
N 1
MS
S ym k 1 S yb
r 1
S yv (k 1).(r 1)
F
Hodnota P
F krit
F1
p-hodnota 1
F(1k 1),( k 1)( r 1) ( )
F2
p-hodnota 2
F( 2r 1),( k 1)( r 1) ( )
-
- 44 -
Elena Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy
Použití dvoufaktorové analýzy demonstruje následující řešený příklad. Je důležité si uvědomit, že data pro Faktor 1 se zadávají do řádků, zatímco data pro Faktor 2 do sloupců vstupní tabulky. ŘEŠENÝ PŘÍKLAD 3.2 Testujte závislost výsledků přijímacích zkoušek na předmětu zkoušek a absolvované škole uchazečů. Na hladině významnosti 0,01 testujte, zda faktor vystudovaná střední škola má vliv na úspěšnost žáků u přijímacích zkoušek na vysokou školu. Body, získané u přijímacích zkoušek pro 4 absolventy u 4 zkouškových předmětů jsou v následující tabulce.
Matematika Angličtina Ekonomie Všeobecný přehled
Gymnázium 85 73 77 76
SPŠ 76 59 69 67
OU 56 48 64 56
Řešení: Příklad lze vyřešit pomocí analytického nástroje Anova: dva faktory bez opakování. Po otevření dialogového okna (Data Analýza dat Anova: dva faktory bez opakování) lze zadat vstupní oblast dat s popiskami, vyznačit, že vstupní oblast obsahuje popisky a zadat hladinu významnosti testu (Obr. 3.3).
Obrázek 3.3
Zdroj: Vlastní zpracování.
Výsledkem výpočtu jsou dvě tabulky (Obr. 3.4). Test hypotézy: 1. Hypotézy: : H 01 : Předmět zkoušky neovlivňuje výsledek zkoušky, H 11 : Předmět zkoušky má vliv na výsledek zkoušky, H 02 : Škola uchazeče nemá vliv na výsledek zkoušky, H 12 : Škola uchazeče ovlivňuje výsledek zkoušky.
- 45 -
3 Analýza rozptylu – ANOVA
2. Testová kritéria: F 1 5,58 1 F 2 30,53 1 2 3. Kritické hodnoty: FKRIT 9,78 a FKRIT 10,92 . 1 1 4. Závěr: Protože F FKRIT , předmět zkoušky neovlivňuje výsledek zkoušky. 2 2 Vzhledem k tomu, že F FKRIT , škola uchazeče má vliv na výsledek zkoušky. Obrázek 3.4
Zdroj: Vlastní zpracování.
___________________________________________________________________________
3.3
PŘÍKLADY K PROCVIČENÍ
PŘÍKLAD 3.1 Pan Novák může jet do zaměstnání pěti různými trasami. Čtyřikrát projel jednotlivé trasy a zaznamenal si dobu, po kterou jel do zaměstnání. Na hladině významnosti 0,05 zjistěte, zda záleží na tom, kterou trasou pojede. Výsledky měření jsou v následující tabulce: Trasa 1
Trasa 2
Trasa 3
Trasa 4
Trasa 5
34
37
32
37
33
35
37
31
38
32
42
36
30
39
29
30
34
32
36
30
___________________________________________________________________________
- 46 -
Elena Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy
PŘÍKLAD 3.2 Zjistěte, zda počet vyrobených výrobků závisí na stroji nebo na operátorovi, popř. zda oba tyto faktory mají vliv na počet vyrobených výrobků. Test proveďte na hladině významnosti 0,05 . Počet vyrobených výrobků zachycuje následující tabulka. Stroj Operátor I II III IV V
A 53 47 46 50 49
B 61 55 52 58 54
C 51 51 49 54 50
___________________________________________________________________________ PŘÍKLAD 3.3 Sledují se emise výfukových plynů v závislosti na dvou faktorech. Jedná se o typ přísady (A,B,C,D), což představuje první faktor, který ovlivňuje emise výfukových plynů. Druhým faktorem je vliv řidiče (I,II,III,IV). Celkem byly provedeny 4 pokusy s každým typem přísady. Naměřené hodnoty emise jsou v následující tabulce. Proveďte test na hladině významnosti 5%, kterým ověříte, zda jsou emise výfukových plynů statisticky významně ovlivněny prvním faktorem (typ přísady), nebo druhým faktorem (vliv řidiče), popř. oběma faktory současně. Řidič I II III IV
A 21 20 16 15
B 26 27 15 20
Přísada C 25 26 16 17
D 20 23 13 20
__________________________________________________________________________
3.4 ŘEŠENÍ PŘÍKLADŮ ŘEŠENÍ PŘÍKLADU 3.1 Test hypotézy: 1. Stanovení hypotézy: H0: faktor „trasa“ nemá vliv na dobu cesty do zaměstnání, H1: negace H0. 2. Testové kritérium: T 5,204 3. Obor přijetí: 0; 3,056 , kritický obor 3,056;
4. Závěr: Na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti doby cestování na trase – faktor „trasa“ má vliv na celkovou dobu cesty do zaměstnání ___________________________________________________________________________
- 47 -
3 Analýza rozptylu – ANOVA
ŘEŠENÍ PŘÍKLADU 3.2 Obě nulové hypotézy o nezávislosti faktorů na počet vyrobených výrobků lze zamítnout. Můžete tedy z 95% tvrdit, že počet vyrobených výrobků je ovlivněn jak strojem, tak i operátorem. ___________________________________________________________________________ ŘEŠENÍ PŘÍKLADU 3.3 Emise výfukových plynů jsou ovlivňovány řidičem, ale nejsou ovlivňovány typem přísady. __________________________________________________________________________
3.5 PŘÍPADOVÉ STUDIE PŘÍPADOVÁ STUDIE 3.1 Porovnejte úspěšnost absolventů gymnázií, SEŠ, Hotelových škol a Integrovaných škol u přijímacích zkoušek na vysokou školu. Na hladinách významnosti 0,05, 0,01 a 0,1 testujte, zda faktor vystudovaná středná škola má vliv na úspěšnost žáků u přijímacích zkoušek na vysokou školu. Body, získané u přijímacích zkoušek jsou zadány v následující tabulce. Gymnázium 69 67 70 78 79 67 80 78 76 64 56 34 67 70 78 79 67 67 89 56 23 89 78 58 49 78 68 79 80
SEŠ 56 58 69 67 70 78 79 67 67 89 76 75 73 74 62 67 66 77 89 78 79 76 57 65 56 67 70 78 79
Hotelová škola 69 67 68 66 56 64 45 46 37 56 57 85 73 58 76 64 58 80 78 76 64 56 34 58 69 45 46 56 67
- 48 -
Integrovaná škola 78 76 64 56 69 67 70 78 32 35 25 20 36 29 67 70 78 79 67 67 89 56 56 34 58 69 45 46 45
Elena Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy
86 72 91 54 67 70 78 79 67 67 89 84 76 77
67 67 89 54 45 46 67 57 56 58 68 66 55 45
38 56 45 38 40 65 53 51 22 49 44 48 34 35
46 56 67 38 56 45 38 40 80 78 76 64 56 34
PŘÍPADOVÁ STUDIE 3.2 Sledují se emise výfukových plynů v závislosti na dvou faktorech. Jedná se o typ přísady (A,B,C,D), což představuje první faktor, který ovlivňuje emise výfukových plynů. Druhým faktorem je vliv řidiče (1, 2, 3,...,12). Celkem bylo provedeno 12 pokusů s každým typem přísady. Naměřené hodnoty emise jsou v následující tabulce. Proveďte testy na hladině významnosti 1%, 5%, a 10%, kterými ověříte, zda jsou emise výfukových plynů statisticky významně ovlivněny prvním faktorem (typ přísady), nebo druhým faktorem (vliv řidiče), popř. oběma faktory současně. Přísada Řidič
A
B
C
D
1
21
26
25
20
2
20
27
26
23
3
16
15
16
13
4
15
20
17
20
5
26
23
23
26
6
27
13
13
27
7
15
20
20
15
8
20
26
26
20
9
25
27
27
23
10
26
26
23
13
11
16
16
13
20
12
17
17
20
26
- 49 -