Jednofaktorov´a anal´yza rozptylu David Hampel ´ Ustav statistiky a operaˇcn´ıho v´yzkumu, Mendelova univerzita v Brnˇe
Kurz pokroˇcil´ych statistick´ych metod Global Change Research Centre AS CR, 5.–7. 8. 2015 Tato akce se kon´ a v r´ amci projektu: Vybudov´ an´ı vˇedeck´eho t´ymu environment´ aln´ı metabolomiky a ekofyziologie a jeho zapojen´ı do mezin´ arodn´ıch s´ıt´ı (ENVIMET; r.ˇc. CZ.1.07/2.3.00/20.0246) realizovan´eho v r´ amci Operaˇcn´ıho programu Vzdˇel´ av´ an´ı pro konkurenceschopnost ´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
1 / 46
Obsah 1
Motivace
2
Pˇredpoklady a oznaˇcen´ı
3
Matematick´y model
4
Testov´an´ı hypot´ezy o shodˇe stˇredn´ıch hodnot
5
Testov´an´ı hypot´ezy o shodˇe rozptyl˚ u
6
Post-hoc metody mnohon´asobn´eho porovn´av´an´ı
7
Doporuˇcen´y postup pˇri prov´adˇen´ı anal´yzy rozptylu
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
2 / 46
Motivace
V urˇcit´ych pˇr´ıpadech je m´ame za u ´kol rozhodnout o rovnosti tˇr´ı a v´ıce stˇredn´ıch hodnot. Pro anal´yzu je tˇreba splnit urˇcit´e pˇredpoklady. Nakonec je ˇz´adouc´ı zjistit, kter´e konkr´etn´ı stˇredn´ı hodnoty se od sebe liˇs´ı.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
3 / 46
Pˇredpoklady a oznaˇcen´ı
Jednofaktorov´a anal´yza rozptylu – t´eˇz anal´yza rozptylu jednoduch´eho tˇr´ıdˇen´ı (ONEWAY, speci´aln´ı pˇr´ıpad v´ıcefaktorov´e anal´yzy rozptylu ANOVA) zkoum´a z´avislost intervalov´e ˇci pomˇerov´e promˇenn´e X na nomin´aln´ı promˇenn´e A, kter´a m´a aspoˇ n dvˇe varianty. Promˇenn´a A se naz´yv´a faktor a jej´ı varianty u ´rovnˇe faktoru. Z´avislost X na A se projev´ı t´ım, ˇze existuje statisticky v´yznamn´y rozd´ıl v pr˚ umˇerech promˇenn´e X v n´ahodn´ych v´ybˇerech, kter´e vznikly tˇr´ıdˇen´ım podle variant promˇenn´e A.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
4 / 46
Pˇredpoklady a oznaˇcen´ı
Metodu ANOVA odvodil R. A. Fisher ve 30. letech 20. stolet´ı. Jej´ı podstata spoˇc´ıv´a v tom, ˇze celkov´y rozptyl sledovan´e promˇenn´e X se rozloˇz´ı na rozptyl uvnitˇr jednotliv´ych v´ybˇer˚ u a na rozptyl mezi v´ybˇery. Pokud je rozptyl mezi v´ybˇery nepravdˇepodobnˇe velk´y, svˇedˇc´ı to o v´yznamn´em vlivu faktoru A.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
5 / 46
Pˇredpoklady a oznaˇcen´ı
Pˇredpokl´ad´ame, ˇze faktor A m´a r ≥ 2 u ´rovn´ı A1 , . . . , Ar , pˇriˇcemˇz i-t´e u ´rovni odpov´ıd´a ni pozorov´an´ı Xi1 , . . . , Xini , kter´a tvoˇr´ı n´ahodn´y v´ybˇer z norm´aln´ıho rozloˇzen´ı N µi , σ 2 , i = 1, . . . , r . P Celkov´y poˇcet pozorov´an´ı je n = ri=1 ni . Jednotliv´e n´ahodn´e v´ybˇery jsou stochasticky nez´avisl´e.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
6 / 46
Pˇredpoklady a oznaˇcen´ı Pomoc´ı teˇckov´e notace oznaˇcujeme souˇcet hodnot v i-t´em v´ybˇeru Xi. =
ni X
Xij ,
j=1
v´ybˇerov´y pr˚ umˇer v i-t´em v´ybˇeru Mi. =
1 Xi. , ni
souˇcet hodnot vˇsech v´ybˇer˚ u X.. =
ni r X X
Xij
i=1 j=1
a celkov´y pr˚ umˇer vˇsech r v´ybˇer˚ u M.. = ´ David Hampel (USOV MENDELU)
1 X.. . n
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
7 / 46
Matematick´y model
N´ahodn´e veliˇciny Xij se ˇr´ıd´ı modelem Xij = µi + εij = µ + αi + εij
pro i = 1, . . . , r , j = 1, . . . , ni ,
pˇriˇcemˇz µ je spoleˇcn´a ˇc´ast stˇredn´ı hodnoty z´avisle promˇenn´e veliˇciny X, αi je efekt faktoru A na u ´rovni Ai , εij jsou stochasticky nez´avisl´e n´ahodn´e veliˇciny s rozdˇelen´ım 2 N 0, σ .
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
8 / 46
Matematick´y model
Parametry µ, αi nezn´ame. Poˇzadujeme, aby platila tzv. reparametrizaˇcn´ı rovnice r X
ni αi = 0.
i=1
Pokud je tˇr´ıdˇen´ı vyv´aˇzen´e, tj. pokud maj´ı vˇsechny v´ybˇery stejn´y rozsah n1 = n2 = . . . = nr , pak lze pouˇz´ıt zjednoduˇsenou podm´ınku r X
αi = 0.
i=1
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
9 / 46
Matematick´y model
X11 X12 .. . X1n1 X21 X22 .. . X2n2 .. . Xr 1 Xr 2 .. .
=
Xrnr ´ David Hampel (USOV MENDELU)
1 0 ··· 1 0 ··· .. .. . . 1 0 ··· 0 1 ··· 0 1 ··· .. .. . .
0 0 .. .
0 1 ··· .. .. . . 0 0 ··· 0 0 ··· .. .. . .
0 .. . 1 1 .. .
0 0 ···
1
0 0 0 .. .
µ1 µ2 .. . µr
Jednofaktorov´ a anal´ yza rozptylu
+
ε11 ε12 .. . ε1n1 ε21 ε22 .. . ε2n2 .. . εr 1 εr 2 .. .
εrnr 5.–7. 8. 2015
10 / 46
Matematick´y model
X11 X12 .. . X1n1 X21 X22 .. . X2n2 .. . Xr 1 Xr 2 .. .
=
Xrnr ´ David Hampel (USOV MENDELU)
··· ···
0 0 .. .
··· ··· ···
0 0 0 .. .
1 0 1 ··· .. .. .. . . . 1 0 0 ··· 1 0 0 ··· .. .. .. . . . 1 0 0 ···
0 .. .
1 1 0 1 1 0 .. .. .. . . . 1 1 0 1 0 1 1 0 1 .. .. .. . . .
1 1 .. .
1
Jednofaktorov´ a anal´ yza rozptylu
µ α1 α2 .. . αr
+
ε11 ε12 .. . ε1n1 ε21 ε22 .. . ε2n2 .. . εr 1 εr 2 .. .
εrnr 5.–7. 8. 2015
11 / 46
Matematick´y model Zavedeme celkov´y souˇcet ˇctverc˚ u ST =
ni r X X
(Xij − M.. )2 ,
i=1 j=1
kter´y charakterizuje variabilitu jednotliv´ych pozorov´an´ı kolem celkov´eho pr˚ umˇeru, m´a poˇcet stupˇ n˚ u volnosti fT = n − 1, d´ale skupinov´y souˇcet ˇctverc˚ u r X SA = ni (Mi. − M.. )2 , i=1
jeˇz charakterizuje variabilitu mezi jednotliv´ymi n´ahodn´ymi v´ybˇery, m´a poˇcet stupˇ n˚ u volnosti fA = r − 1,
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
12 / 46
Matematick´y model
a nakonec rezidu´aln´ı souˇcet ˇctverc˚ u SE =
ni r X X
(Xij − Mi. )2 ,
i=1 j=1
kter´y charakterizuje variabilitu uvnitˇr jednotliv´ych v´ybˇer˚ u, m´a poˇcet stupˇ n˚ u volnosti fE = n − r . Lze dok´azat, ˇze ST = SA + SE .
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
13 / 46
Testov´an´ı hypot´ezy o shodˇe stˇredn´ıch hodnot
Na hladinˇe v´yznamnosti α testujeme nulovou hypot´ezu, kter´a tvrd´ı, ˇze vˇsechny stˇredn´ı hodnoty jsou stejn´e, tj. H0 : µ 1 = . . . = µ r proti alternativn´ı hypot´eze H1 , kter´a tvrd´ı, ˇze aspoˇ n jedna dvojice stˇredn´ıch hodnot se liˇs´ı. Tato hypot´eza vlastnˇe ˇr´ık´a, ˇze vliv faktoru A na promˇennou X je nev´yznamn´y.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
14 / 46
Testov´an´ı hypot´ezy o shodˇe stˇredn´ıch hodnot
Testov´a statistika FA =
SA /fA SE /fE
se ˇr´ıd´ı rozloˇzen´ım F (r − 1, n − r ), je-li H0 pravdiv´a. Nulovou hypot´ezu tedy zam´ıtneme na hladinˇe v´yznamnosti α, kdyˇz FA se bude realizovat v kritick´em oboru W = hF1−α (r − 1, n − r ) , ∞) .
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
15 / 46
Testov´an´ı hypot´ezy o shodˇe stˇredn´ıch hodnot
V´ysledky v´ypoˇct˚ u zapisujeme do tabulky ANOVA: Zdroj variability souˇcet ˇctverc˚ u stupnˇe volnosti pr˚ um. ˇctverec skupiny SA fA = r − 1 SA /fA rezidu´aln´ı SE fE = n − r SE /fE celkov´y ST fT = n − 1 –
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
FA SA /fA SE /fE
5.–7. 8. 2015
– –
16 / 46
Pˇr´ıklad – zad´an´ı
Je d´ano pˇet nez´avisl´ych n´ahodn´ych v´ybˇer˚ u o rozsaz´ıch 5, 7, 6, 8, 5, pˇriˇcemˇz i-t´y v´ybˇer poch´az´ı z rozloˇzen´ı N(µi , σ 2 ), i = 1, . . . , 5. Byl vypoˇcten celkov´y souˇcet ˇctverc˚ u ST = 15 a rezidu´aln´ı souˇcet ˇctverc˚ u SE = 3. Na hladinˇe v´yznamnosti 0,05 testujte hypot´ezu o shodˇe stˇredn´ıch hodnot.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
17 / 46
Pˇr´ıklad – ˇreˇsen´ı
Poˇcet v´ybˇer˚ u je r = 5, celkov´y rozsah vˇsech pˇeti v´ybˇer˚ u je n = 5 + 7 + 6 + 8 + 5 = 31. Vypoˇcteme skupinov´y souˇcet ˇctverc˚ u: SA = ST − SE = 15 − 3 = 12. Testovou statistiku z´ısk´ame jako FA =
SA /(r − 1) 12/4 = = 26. SE /(n − r ) 3/26
Kritick´y obor je W = (F0,95 (4, 26) , ∞i = (2,7426, ∞i. Protoˇze se testov´a statistika realizuje v kritick´em oboru, H0 zam´ıt´ame na hladinˇe v´yznamnosti 0,05.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
18 / 46
Pˇr´ıklad – ˇreˇsen´ı
Tabulka ANOVA: Zdroj variability souˇcet ˇctverc˚ u skupiny SA = 12 rezidu´aln´ı SE = 3 celkov´y ST = 15
´ David Hampel (USOV MENDELU)
stupnˇe volnosti pr˚ umˇern´y ˇctverec fA = r − 1 = 4 SA /fA = 3 fE = n − r = 26 SE /fE = 3/26 fT = n − 1 = 30 –
Jednofaktorov´ a anal´ yza rozptylu
FA = 26 – –
SA /fA SE /fE
5.–7. 8. 2015
19 / 46
Testov´an´ı hypot´ezy o shodˇe rozptyl˚ u
Pˇred proveden´ım anal´yzy rozptylu je zapotˇreb´ı ovˇeˇrit pˇredpoklad o shodˇe rozptyl˚ u v dan´ych r v´ybˇerech, tedy je nutn´e prov´est test nulov´e hypot´ezy H0 : σ12 = . . . = σr2 proti alternativn´ı hypot´eze H1 , kter´a tvrd´ı, ˇze aspoˇ n jedna dvojice rozptyl˚ u se liˇs´ı.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
20 / 46
Testov´an´ı hypot´ezy o shodˇe rozptyl˚ u
Leven˚ uv test. Poloˇzme Zij = |Xij − Mi. |. Oznaˇc´ıme MZi =
ni 1 X Zij , ni
r
MZ =
j=1
SZE =
ni r X X
(Zij − MZi )2 ,
i=1 j=1
SZA =
i=1 j=1
´ David Hampel (USOV MENDELU)
n
i 1 XX Zij , n
r X
ni (MZi − MZ )2 .
i=1
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
21 / 46
Testov´an´ı hypot´ezy o shodˇe rozptyl˚ u
Plat´ı-li hypot´eza o shodˇe rozptyl˚ u, pak statistika FZA =
SZA / (r − 1) SZE / (n − r )
se asymptoticky ˇr´ıd´ı rozloˇzen´ım F (r − 1, n − r ). Hypot´ezu o shodˇe rozptyl˚ u tedy zam´ıt´ame na asymptotick´e hladinˇe v´yznamnosti α, kdyˇz testov´a statistika FZA ∈ W , kde W = hF1−α (r − 1, n − r ) , ∞) je kritick´y obor. Leven˚ uv test je vlastnˇe zaloˇzen na anal´yze rozptylu absolutn´ıch hodnot centrovan´ych pozorov´an´ı.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
22 / 46
Testov´an´ı hypot´ezy o shodˇe rozptyl˚ u
Brown˚ uv-Forsythe˚ uv test je modifikac´ı Levenova testu. Modifikace spoˇc´ıv´a v tom, ˇze m´ısto v´ybˇerov´eho pr˚ umˇeru i-t´eho v´ybˇeru se pˇri v´ypoˇctu veliˇciny Zij pouˇz´ıv´a medi´an i-t´eho v´ybˇeru.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
23 / 46
Testov´an´ı hypot´ezy o shodˇe rozptyl˚ u Bartlett˚ uv test. Plat´ı-li hypot´eza o shodˇe rozptyl˚ u a rozsahy vˇsech v´ybˇer˚ u jsou vˇetˇs´ı neˇz 6, pak statistika " # r X 1 2 2 B= (n − r ) ln S∗ − (ni − 1) ln Si C i=1
se asymptoticky ˇr´ıd´ı rozloˇzen´ım
χ2 (r
− 1).
Pˇritom konstanta 1 C =1+ 3 (r − 1) a
S∗2
r X i=1
1 1 − ni − 1 n − r
!
je v´aˇzen´y pr˚ umˇer v´ybˇerov´ych rozptyl˚ u Si2 , i = 1, . . . , r .
Hypot´ezu o shodˇe rozptyl˚ u zam´ıt´ame na asymptotick´e hladinˇe v´yznamnosti α, kdyˇz se B realizuje v kritick´em oboru
W = χ21−α (r − 1) , ∞) . ´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
24 / 46
Post-hoc (n´asledn´e) metody mnohon´asobn´eho porovn´av´an´ı
Zam´ıtneme-li na hladinˇe v´yznamnosti α hypot´ezu o shodˇe stˇredn´ıch hodnot, chceme zjistit, kter´e dvojice stˇredn´ıch hodnot se liˇs´ı na dan´e hladinˇe v´yznamnosti α. Existuje cel´a ˇrada post-hoc test˚ u, k nejzn´amˇejˇs´ım patˇr´ı metoda Tukeyova, Scheff´eho, Duncanova, Fisherova LSD, Newmanova-Keulsova a dalˇs´ı. Kaˇzd´a z tˇechto metod m´a svoje pˇrednosti a nedostatky a ˇz´adn´a nen´ı vˇseobecnˇe pˇrij´ım´ana jako ide´aln´ı. Zde struˇcnˇe pop´ıˇseme Tukeyovu a Scheff´eho metodu.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
25 / 46
Post-hoc (n´asledn´e) metody mnohon´asobn´eho porovn´av´an´ı
Tukeyova metoda. Maj´ı-li vˇsechny v´ybˇery t´yˇz rozsah p, pak rovnost stˇredn´ıch hodnot µk a µl zam´ıtneme na hladinˇe v´yznamnosti α, kdyˇz S∗ |Mk. − Ml. | ≥ q1−α (r , n − r ) √ , p kde kvantily q1−α (r , n − r ) studentizovan´eho rozpˇet´ı najdeme ve statistick´ych tabulk´ach. Existuje modifikace Tukeyovy metody pro nestejn´e rozsahy v´ybˇer˚ u, Tukey HSD.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
26 / 46
Post-hoc (n´asledn´e) metody mnohon´asobn´eho porovn´av´an´ı
Scheff´eho metoda. Rovnost stˇredn´ıch hodnot µk a µl zam´ıtneme na hladinˇe v´yznamnosti α, kdyˇz s 1 1 |Mk. − Ml. | ≥ S∗ (r − 1) + F1−α (r − 1, n − r ). nk nl
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
27 / 46
Post-hoc (n´asledn´e) metody mnohon´asobn´eho porovn´av´an´ı
Metody mnohon´asobn´eho porovn´av´an´ı maj´ı obecnˇe menˇs´ı s´ılu neˇz ANOVA. M˚ uˇze proto nastat situace, kdy pˇri zam´ıtnut´ı H0 nenajdeme metodami mnohon´asobn´eho porovn´av´an´ı v´yznamn´y rozd´ıl u ˇz´adn´e dvojice stˇredn´ıch hodnot. K tomu doch´az´ı zvl´aˇstˇe tehdy, kdyˇz p-hodnota pro ANOVU je jen o m´alo niˇzˇs´ı neˇz zvolen´a hladina v´yznamnosti. Pak slabˇs´ı test patˇr´ıc´ı do skupiny metod mnohon´asobn´eho porovn´av´an´ı nemus´ı odhalit ˇz´adn´y rozd´ıl.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
28 / 46
Doporuˇcen´y postup pˇri prov´adˇen´ı anal´yzy rozptylu
a) Je zapotˇreb´ı ovˇeˇrit, ˇze jednotliv´e n´ahodn´e v´ybˇery poch´azej´ı z norm´aln´ıch rozdˇelen´ı. M˚ uˇzeme pouˇz´ıt grafickou metodu (napˇr. N-P plot, Q-Q plot, histogram) nebo testy hypot´ez o norm´aln´ım rozloˇzen´ı (napˇr. Lilieforsovu variantu Kolmogorovova-Smirnovova testu nebo Shapir˚ uv-Wilk˚ uv test). Doporuˇcuje se kombinace obou zp˚ usob˚ u.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
29 / 46
Doporuˇcen´y postup pˇri prov´adˇen´ı anal´yzy rozptylu
a) Je zapotˇreb´ı ovˇeˇrit, ˇze jednotliv´e n´ahodn´e v´ybˇery poch´azej´ı z norm´aln´ıch rozdˇelen´ı. Obecnˇe lze ˇr´ıci, ˇze anal´yza rozptylu nen´ı pˇr´ıliˇs citliv´a na poruˇsen´ı pˇredpokladu normality, zvl´aˇstˇe pˇri vˇetˇs´ıch rozsaz´ıch v´ybˇer˚ u (nad 20). M´ırn´e poruˇsen´ı normality tedy nen´ı na z´avadu, pˇri vˇetˇs´ım poruˇsen´ı pouˇzijeme napˇr. Kruskal˚ uv-Wallis˚ uv test jako neparametrickou obdobu anal´yzy rozptylu jednoduch´eho tˇr´ıdˇen´ı.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
30 / 46
Doporuˇcen´y postup pˇri prov´adˇen´ı anal´yzy rozptylu
b) Po ovˇeˇren´ı normality mus´ıme testovat homogenitu rozptyl˚ u. Graficky ovˇeˇrujeme shodu rozptyl˚ u pomoc´ı krabicov´ych diagram˚ u, kdy sledujeme, zda je ˇs´ıˇrka krabic pˇribliˇznˇe stejn´a. Numericky testujeme homogenitu rozptyl˚ u pomoc´ı Levenova testu, Brownova-Forsytheova testu ˇci Bartlettova testu. Slab´e poruˇsen´ı homogenity rozptyl˚ u nevad´ı, pˇri vˇetˇs´ım se doporuˇcuje medi´anov´y test.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
31 / 46
Doporuˇcen´y postup pˇri prov´adˇen´ı anal´yzy rozptylu
c) Pokud jsou splnˇeny pˇredpoklady normality a homogenity rozptyl˚ u, m˚ uˇzeme pˇristoupit k testov´an´ı shody vˇsech stˇredn´ıch hodnot. d) Dojde-li na zvolen´e hladinˇe v´yznamnosti k zam´ıtnut´ı hypot´ezy o shodˇe stˇredn´ıch hodnot, zaj´ım´a n´as, kter´e dvojice stˇredn´ıch hodnot se od sebe liˇs´ı. K ˇreˇsen´ı tohoto probl´emu slouˇz´ı post-hoc metody mnohon´asobn´eho porovn´av´an´ı, napˇr. Scheff´eho nebo Tukeyova metoda.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
32 / 46
Pˇr´ıklad – zad´an´ı
Zjiˇst’ujeme moˇznou z´avislost v´ynosu na obsahu urˇcit´e l´atky v p˚ udˇe. K dispozici je 68 pozorov´an´ı. Obsah sledovan´e l´atky je rozdˇelen do 6 skupin (18–24, 25–31, . . . , 53–59) – promˇenn´a A. V´ynos je promˇenn´a X (viz tabulka n´ıˇze).
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
33 / 46
Pˇr´ıklad – zad´an´ı A 18–24 18–24 18–24 18–24 18–24 25–31 25–31 25–31 25–31 25–31 32–38 32–38 32–38 32–38 32–38 32–38 32–38
X 27 31 39 38 39 37 35 40 40 31 34 36 34 41 30 44 44
´ David Hampel (USOV MENDELU)
A 39–45 39–45 39–45 39–45 39–45 39–45 39–45 46–52 46–52 46–52 46–52 53–59 53–59 25–31 32–38 32–38 53–59
X 34 34 43 44 40 47 45 35 34 34 41 35 37 25 32 31 28
A 18–24 18–24 53–59 18–24 25–31 25–31 39–45 46–52 46–52 18–24 25–31 32–38 53–59 53–59 18–24 18–24 25–31
Jednofaktorov´ a anal´ yza rozptylu
X 37 34 25 32 28 30 34 28 31 30 29 32 34 28 26 27 24
A 25–31 46–52 53–59 39–45 39–45 46–52 53–59 18–24 18–24 46–52 46–52 46–52 53–59 25–31 46–52 53–59 53–59
X 29 28 26 31 28 26 28 28 27 26 27 21 29 25 20 18 26 5.–7. 8. 2015
34 / 46
Pˇr´ıklad – zad´an´ı
Na hladinˇe v´yznamnosti 0,05 m´ame testovat hypot´ezu, ˇze rozd´ıly ve v´ynosu jsou zp˚ usobeny pouze n´ahodn´ymi vlivy. V pˇr´ıpadˇe zam´ıtnut´ı nulov´e hypot´ezy je tˇreba identifikovat, kter´e dvojice skupin se liˇs´ı na hladinˇe v´yznamnosti 0,05.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
35 / 46
Pˇr´ıklad – charakteristiky dat Skupina 18–24 25–31 32–38 39–45 46–52 53–59
Pr˚ umˇer 31,9231 31,0833 35,8000 38,0000 29,2500 28,5455
Skupina 18–24 25–31 32–38 39–45 46–52 53–59
Odchylka 4,95751 5,66422 5,30827 6,59966 6,04716 5,29837
´ David Hampel (USOV MENDELU)
Medi´an 31,0000 29,5000 34,0000 37,0000 28,0000 28,0000 C.V. 0,155296 0,182227 0,148276 0,173675 0,206741 0,185612
Minimum 26,0000 24,0000 30,0000 28,0000 20,0000 18,0000
Maximum 39,0000 40,0000 44,0000 47,0000 41,0000 37,0000
ˇ Sikmost 0,312563 0,434070 0,639137 −0,0464489 0,255538 −0,151714
ˇ Cetnost 13,0 12,0 10,0 10,0 12,0 11,0
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
36 / 46
Pˇr´ıklad – charakteristiky dat 45
40
35
30
25
20 18-24 ´ David Hampel (USOV MENDELU)
25-31
32-38
39-45
Jednofaktorov´ a anal´ yza rozptylu
46-52
53-59 5.–7. 8. 2015
37 / 46
Pˇr´ıklad – normalita dat Normal Probability Plot
0.95
0.90
0.90
0.90
0.75
0.75
0.75
0.50
Probability
0.98
0.95
0.50
0.50
0.25
0.25
0.25
0.10
0.10
0.10
0.05
0.05
0.02
0.02
26
28
30
32 18-24
34
36
38
0.05
25
30
35
0.02
40
0.90
0.90
0.90
0.75
0.75
0.75
0.50
Probability
0.95
Probability
0.98
0.95
0.50
36 38 32-38
0.25
0.25
0.10
0.10
0.10
0.05
0.05
40
45
39-45
´ David Hampel (USOV MENDELU)
0.02
40
42
44
0.50
0.25
35
34
Normal Probability Plot
0.98
0.95
30
32
Normal Probability Plot
0.98
0.02
30
25-31
Normal Probability Plot
Probability
Normal Probability Plot
0.98
0.95
Probability
Probability
Normal Probability Plot 0.98
0.05
20
25
30 46-52
35
40
Jednofaktorov´ a anal´ yza rozptylu
0.02
20
25
30
35
53-59
5.–7. 8. 2015
38 / 46
Pˇr´ıklad – normalita dat
Pro posouzen´ı normality d´ale pouˇzijeme Shapir˚ uv-Wilk˚ uv test. Skupina p-hodnota
18–24 0,0653
´ David Hampel (USOV MENDELU)
25–31 0,1941
32–38 0,0674
39–45 0,3608
Jednofaktorov´ a anal´ yza rozptylu
46–52 0,8088
53–59 0,4538
5.–7. 8. 2015
39 / 46
Pˇr´ıklad – shoda rozptyl˚ u
Nyn´ı se zamˇeˇr´ıme na ovˇeˇren´ı pˇredpokladu o homogenitˇe rozptyl˚ u, tj. na hladinˇe v´yznamnosti 0,05 testujeme hypot´ezu H0 : σ12 = . . . = σr2 proti alternativn´ı hypot´eze H1 , kter´a tvrd´ı, ˇze aspoˇ n jedna dvojice rozptyl˚ u se liˇs´ı. Pouˇzijeme Leven˚ uv test.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
40 / 46
Pˇr´ıklad – shoda rozptyl˚ u
Skupinov´y souˇcet ˇctverc˚ u SZA nab´yv´a hodnoty 28,79949, skupinov´y poˇcet stupˇ n˚ u volnosti fZA je 5, rezidu´aln´ı souˇcet ˇctverc˚ u SZE je 729,6711, rezidu´aln´ı poˇcet stupˇ n˚ u volnosti fZE je 62, testov´a statistika FZA se realizuje hodnotou 0,489417, odpov´ıdaj´ıc´ı p-hodnota je 0,78290, tedy na hladinˇe v´yznamnosti 0,05 nelze zam´ıtnout hypot´ezu o homogenitˇe rozptyl˚ u.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
41 / 46
Pˇr´ıklad – shoda stˇredn´ıch hodnot
D´ale se budeme vˇenovat testov´an´ı hypot´ezy o shodˇe stˇredn´ıch hodnot norm´aln´ıch rozloˇzen´ı, z nichˇz poch´azej´ı sledovan´e n´ahodn´e v´ybˇery, tj. testujeme hypot´ezu H0 : µ 1 = . . . = µ r proti alternativn´ı hypot´eze H1 , kter´a tvrd´ı, ˇze aspoˇ n jedna dvojice stˇredn´ıch hodnot se liˇs´ı.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
42 / 46
Pˇr´ıklad – shoda stˇredn´ıch hodnot
Vid´ıme, ˇze skupinov´y souˇcet ˇctverc˚ u SA je 733,2742, skupinov´y poˇcet stupˇ n˚ u volnosti fA je 5, rezidu´aln´ı souˇcet ˇctverc˚ u SE je 1976,417, rezidu´aln´ı poˇcet stupˇ n˚ u volnosti fE je 62, testov´a statistika FA se realizuje hodnotou 4,600547, odpov´ıdaj´ıc´ı p-hodnota je 0,001239.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
43 / 46
Pˇr´ıklad – shoda stˇredn´ıch hodnot
Na hladinˇe v´yznamnosti 0,05 (a dokonce i na hladinˇe v´yznamnosti 0,01) zam´ıt´ame hypot´ezu o rovnosti stˇredn´ıch hodnot. Znamen´a to, ˇze s rizikem omylu nejv´yˇse 0,05 jsme prok´azali, ˇze stˇredn´ı hodnoty v´ynosu se pro r˚ uzn´e skupiny obsahu sledovan´e l´atky liˇs´ı.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
44 / 46
Pˇr´ıklad – p´arov´a porovn´an´ı
Vzhledem k tomu, ˇze na hladinˇe v´yznamnosti 0,05 jsme zam´ıtli hypot´ezu o shodˇe stˇredn´ıch hodnot, provedeme mnohon´asobn´e porovn´av´an´ı, abychom identifikovali, kter´e dvojice n´ahodn´ych v´ybˇer˚ u pˇrispˇely k zam´ıtnut´ı nulov´e hypot´ezy. V´ysledek Scheff´eho metody ukazuje, ˇze na hladinˇe v´yznamnosti 0,05 se liˇs´ı skupiny 39–45 a 46–52 a d´ale 39–45 a 53–59. Rozd´ıly mezi ostatn´ımi dvojicemi skupin nejsou prokazateln´e na hladinˇe v´yznamnosti 0,05.
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
45 / 46
ANOVA – pˇr´ıklad
data ANOVA nekomplet.sta
´ David Hampel (USOV MENDELU)
Jednofaktorov´ a anal´ yza rozptylu
5.–7. 8. 2015
46 / 46