Masarykova univerzita v Brnˇe Pˇr´ırodovˇedeck´a fakulta
´ RSK ˇ ´ PRACE ´ BAKALA A Anal´yza rozptylu
Vypracovala: Marika Dienov´a Vedouc´ı bakal´aˇrsk´e pr´ace: Mgr. Jan Kol´aˇcek, Ph.D.
Brno 2006/2007
Prohl´ aˇ sen´ı Prohlaˇsuji, ˇze jsem svou bakal´aˇrskou pr´aci napsala samostatnˇe pod odborn´ ym veden´ım Mgr. Jana Kol´aˇcka, Ph.D. a v´ yhradnˇe s pouˇzit´ım citovan´ ych pramen˚ u. V Brnˇe dne 23.kvˇetna 2007 Marika Dienov´a
2
Podˇ ekov´ an´ı Dˇekuji Mgr. Janu Kol´aˇckovi, Ph.D. za odborn´e veden´ı bakal´aˇrsk´e pr´ace, cenn´e rady a pˇripom´ınky, poskytnut´e materi´aly a pˇredevˇs´ım ˇcas, kter´ y mi vˇenoval.
3
Obsah ´ Uvod
6
1 Jednofaktorov´ a ANOVA 1.1 Oznaˇ cen´ı . . . . . . . . . . . . . . . . . . 1.2 Testov´ an´ı hypot´ ezy o shodˇ e stˇ redn´ıch 1.3 Mnohon´ asobn´ e pozorov´ an´ı . . . . . . . 1.3.1 Bonferroniho metoda . . . . . . . . 1.3.2 Scheff´eho metoda . . . . . . . . . . 1.3.3 Tukeyova metoda . . . . . . . . . . 1.4 Pˇ r´ıklad 1 . . . . . . . . . . . . . . . . . .
. . . . . hodnot . . . . . . . . . . . . . . . . . . . . . . . . .
2 Dvoufaktorov´ a ANOVA 2.1 Oznaˇ cen´ı . . . . . . . . . . . . . . . . . . . 2.2 Dvojit´ e tˇ r´ıdˇ en´ı bez interakc´ı . . . . . . . 2.2.1 Testov´an´ı hypot´ezy o shodˇe stˇredn´ıch 2.2.2 Mnohon´asobn´e pozorov´an´ı . . . . . . 2.3 Dvojit´ e tˇ r´ıdˇ en´ı s interakcemi . . . . . . 2.3.1 Testov´an´ı hypot´ezy o shodˇe stˇredn´ıch 2.3.2 Mnohon´asobn´e pozorov´an´ı . . . . . . 2.4 Pˇ r´ıklad 2 . . . . . . . . . . . . . . . . . . . 3 V´ ychoz´ı situace 3.1 Pˇ redpoklady pouˇ zit´ı anal´ yzy rozptylu 3.2 Test homogenity rozptyl˚ u . . . . . . . 3.2.1 Bartlet˚ uv test . . . . . . . . . . . . 3.2.2 Leven˚ uv test . . . . . . . . . . . . . 3.2.3 Cochran˚ uv test . . . . . . . . . . . 3.3 Pˇ r´ıklad 3 . . . . . . . . . . . . . . . . . .
4
. . . . . .
. . . . . . .
. . . . . . . . . . hodnot . . . . . . . . . . hodnot . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . . . .
. . . . . .
. . . . . . .
. . . . . . . .
. . . . . .
. . . . . . .
. . . . . . . .
. . . . . .
. . . . . . .
. . . . . . . .
. . . . . .
. . . . . . .
. . . . . . . .
. . . . . .
. . . . . . .
. . . . . . . .
. . . . . .
. . . . . . .
7 7 8 12 12 13 13 14
. . . . . . . .
18 18 19 19 22 22 22 25 26
. . . . . .
31 31 31 31 32 32 33
Z´ avˇ er
36
Literatura
37
5
´ Uvod Tato pr´ace se zab´ yv´a probl´emem, zdali je moˇzn´e v´ıce nez´avisl´ ych v´ ybˇerov´ ych soubor˚ u, kter´e se ˇr´ıd´ı norm´aln´ım rozloˇzen´ım se stejn´ ym rozptylem, povaˇzovat za realizaci jedn´e n´ahodn´e veliˇciny. Zkoum´am tedy vliv jednoho nebo dvou faktor˚ u na experiment pˇri nˇekoliker´em opakov´an´ı pokusu s pevnˇe nastaven´ ymi u ´rovnˇemi faktoru. Je tˇreba na hladinˇe v´ yznamnosti α testovat nulovou hypot´ezu, kter´a tvrd´ı, ˇze vˇsechny stˇredn´ı hodnoty jsou stejn´e, tedy H0 : µ1 = . . . = µI . Na prvn´ı pohled se zd´a, ˇze staˇc´ı vytvoˇrit I(I − 1)/2 dvojic a na kaˇzdou z nich aplikovat dvouv´ ybˇerov´ y t-test. Tento postup vˇsak nen´ı vhodn´ y, protoˇze nesplˇ nuje podm´ınku, ˇze pravdˇepodobnost chyby prvn´ıho druhu je α. Z tohoto d˚ uvodu se pro test hypot´ezy H0 pouˇz´ıvaj´ı metody anal´ yzy rozptylu (ANOVY), kter´e udrˇz´ı pravdˇepodobnost chyby prvn´ıho druhu na hladinˇe α. Podstatou samotn´e ANOVY je rozloˇzit variabilitu souboru dat na pˇr´ıspˇevky, kter´e poch´azej´ı od zmˇeny u ´rovnˇe faktoru a kter´e jsou zp˚ usoben´e n´ahodn´ ymi chybami. Budu tedy testovat hypot´ezu H0 a pokud dojde k zam´ıtnut´ı, budu hledat v´ ybˇery kter´e se od sebe liˇs´ı a ˇreˇsit tedy strukturu nehomogenity stˇredn´ıch hodnot. K tomuto u ´ˇcelu slouˇz´ı metody mnohon´asobn´eho srovn´av´an´ı. V prvn´ı a druh´e kapitole jsou uvedeny teoretick´e konstrukce ANOVY a metod mnohon´asobn´eho srovn´av´an´ı. V posledn´ı kapitole uv´ad´ım pˇredpoklady ANOVY a metody pouˇz´ıvan´e k jejich testov´an´ı. Tyto testy jsou odvozeny pro jednofaktorovou ANOVU a pouˇz´ıv´a se pˇri nich oznaˇcen´ı z pˇredchoz´ıch kapitol, proto je uv´ad´ım aˇz na z´avˇer. Na konci vˇsech kapitol je problematika demonstrov´ana na konkr´etn´ıch pˇr´ıkladech, kter´e pracuj´ı s re´aln´ ymi daty, z´ıskan´e z d´avkov´an´ı odpad˚ u a tradiˇcn´ıch paliv pˇri procesu p´alen´ı cementu. K testov´an´ı je pouˇzit software STATISTIKA.
6
Kapitola 1 Jednofaktorov´ a ANOVA 1.1
Oznaˇ cen´ı
Pˇri jednofaktorov´e anal´ yze rozptylu zkoum´ame vliv pouze jedin´eho faktoru A na sledovan´ y v´ ysledek. Definice 1.1.1. Necht’ m´ame nez´avisl´e v´ybˇery z rozloˇzen´ı N (µ1 , σ 2 )...N (µI , σ 2 ). N´ahodn´y v´ybˇer z rozloˇzen´ı N (µi , σ 2 ) oznaˇc´ıme Xi1 ...Xini Jeho rozsah je tedy ni • N=
I P
ni je celkov´y rozsah vˇsech v´ybˇer˚ u
i=1
• Xi. =
ni P
Xij je souˇcet hodnot v i-t´e u ´rovni
j=1
• X.. =
I P
Xi. =
• M.. =
Xij je souˇcet hodnot vˇsech v´ybˇer˚ u
i=1 j=1
i=1
• Mi. =
ni I P P
1 X ni i.
=
1 X N ..
=
1 ni
1 N
ni P
Xij je v´ybˇerov´y pr˚ umˇer v i-t´e u ´rovni
j=1 ni I P P
Xij je celkov´y pr˚ umˇer vˇsech v´ybˇer˚ u
i=1 j=1
Situaci lze zachytit nejl´epe v pˇrehledn´e tabulce:
7
u ´roveˇ n faktoru
rozsah vu ´rovni
zjiˇstˇen´e hodnoty
suma v u ´rovni
pr˚ umˇer vu ´rovni
1
n1
X11 , X12 , . . . , X1n1
X1.
M1.
2
n2
X21 , X22 , . . . , X2n2
X2.
M2.
...
...
...
...
...
I
nI
XI1 , XI2 , . . . , XInI
XI.
MI.
celkov´ y souˇcet I P X.. = Xi.
celkov´ y pr˚ umˇer
celkov´ y rozsah I P N= ni i=1
i=1
M.. =
1 X N ..
Definice 1.1.2. Maj´ı-li vˇsechny v´ybˇery stejn´y rozsah, tedy n1 = . . . = nI ˇr´ık´ame, ˇze tˇr´ıdˇen´ı je vyv´ aˇ zen´ e. Pokud k tomu dojde, pak oznaˇc´ıme rozsah v´ybˇeru symbolem P .
1.2
Testov´ an´ı hypot´ ezy o shodˇ e stˇ redn´ıch hodnot
Na hladinˇe v´ yznamnosti α testujeme nulovou hypot´ezu, kter´a tvrd´ı, ˇze vˇsechny stˇredn´ı hodnoty jsou stejn´e oproti alternativn´ı, kter´a tvrd´ı, ˇze alespoˇ n jedna dvojice stˇredn´ıch hodnot se od sebe signifikantnˇe liˇs´ı. H0 : µ1 = . . . = µI
H1 : non H0
Kaˇzd´e pozorov´an´ı lze popsat n´asleduj´ıc´ım modelem Xij = µ + αi + εij
(1.2.1)
kde µ je spoleˇcn´a ˇc´ast stˇredn´ı hodnoty promˇenn´e veliˇciny, αi je vliv faktoru A na u ´rovni i a εij je realizace n´ahodn´e chyby, coˇz je realizace n´ahodn´e veliˇciny z rozloˇzen´ı N (0, σ 2 ). Kdyby nez´aleˇzelo na faktoru A, platila by hypot´eza α1 = . . . = αI = 0 a dostali bychom submodel: Xij = µ + εij (1.2.2) Stˇredn´ı hodnotu µ odhadneme hodnotou celkov´eho pr˚ umˇeru vˇsech v´ ybˇer˚ u M.. a stˇredn´ı hodnotu pˇri dan´e u ´rovni µi = µ + αi odhadneme v´ ybˇerov´ ym pr˚ umˇerem 8
v i -t´e u ´rovni Mi. . Tedy αi = Mi. − M.. . Realizaci n´ahodn´e chyby lze vyj´adˇrit jako odchylku namˇeˇren´e hodnoty od odhadu stˇredn´ı hodnoty pro danou u ´roveˇ n faktoru, tedy εij = Xij − Mi. Po dosazen´ı do modelu (1.2.1) dost´av´ame Xij = M.. + (Mi. − M.. ) + (Xij − Mi. ) Pˇrevedeme-li celkov´ y pr˚ umˇer na levou stranu, obˇe strany rovnice umocn´ıme na druhou a seˇcteme pˇres vˇsechna i a j, dostaneme n´asleduj´ıc´ı vztah ni I P P
(Xij − M.. )2 =
i=1 j=1 ni I P P
(Mi. − M.. )2 +
i=1 j=1
ni I P P
(Xij − Mi. )2 + 2
i=1 j=1
ni I P P
(Xij − Mi. )(Mi. − M.. )
i=1 j=1
Lemma 1.2.1. Posledn´ı ˇclen je roven nule: ni I X X 2 (Xij − Mi. )(Mi. − M.. ) = 0 i=1 j=1
D˚ ukaz. 2
ni I X X
(Xij − Mi. )(Mi. − M.. ) = 2
ni I X X i=1
= 2(X..
(Xij Mi. − Xij M.. − Mi.2 + Mi. M.. )
i=1 j=1
i=1 j=1
= 2(
ni I X X
Xij Xij − ni j=1
ni I X X i=1
I
I
Xij X 2 X + Mi. − Mi. M.. ) Xij N i=1 i=1 j=1
X..2
X.. − − M..2 + M..2 ) = 0 N N
Definice 1.2.1. Zaved’me n´asleduj´ıc´ı souˇcty ˇctverc˚ u: • Celkov´ y souˇ cet ˇ ctverc˚ u ST , kter´y charakterizuje variabilitu jednotliv´ych pozorov´an´ı kolem celkov´eho pr˚ umˇeru ST =
ni I P P
(Xij − M.. )2
i=1 j=1
• Skupinov´ y souˇ cet ˇ ctverc˚ u SA , kter´y charakterizuje variabilitu mezi jednotliv´ymi n´ahodn´ymi v´ybˇery 9
SA =
I P
ni (Mi. − M.. )2
i=1
• Rezidu´ aln´ı souˇ cet ˇ ctverc˚ u SE , kter´y charakterizuje variabilitu uvnitˇr jednotliv´ych n´ahodn´ych v´ybˇer˚ u SE =
ni I P P
(Xij − Mi. )2
i=1 j=1
Lemma 1.2.2. Zjednoduˇsenˇe lze tedy ps´at: ST = SA + SE D˚ ukaz. Podrobn´e odvozen´ı vzorc˚ u a d˚ ukaz vztah˚ u pro souˇcty ˇctverc˚ u lze nal´ezt v knize Andˇel[2]. Z tohoto lemmatu plyne, ˇze celkov´a variabilita hodnot se rozdˇelila na pod´ıl zp˚ usoben´ y faktorem A a pod´ıl zp˚ usoben´ y n´ahodn´ ymi chybami. Veliˇcina ST m´a χ2 rozloˇzen´ı s fT = (N − 1) stupni volnosti, stejnˇe jako veliˇcina SA m´a χ2 rozloˇzen´ı s fA = (I − 1) stupni volnosti a veliˇcina SE m´a tak´e χ2 rozloˇzen´ı s fE = (N − R) stupni volnosti, viz [1]. Je patrn´e, ˇze: fT = fA + fE Lemma 1.2.3. Pro praktick´e v´ypoˇcty se doporuˇcuje vyˇc´ıslit celkov´y souˇcet ˇctverc˚ u a skupinov´y souˇcet ˇctverc˚ u jako ST =
ni I P P
Xij2 − N M..2
SA =
I P
ni Mi.2 − N M..2
i=1
i=1 j=1
Rezidu´aln´ı souˇcet ˇctverc˚ u se dopoˇc´ıt´a z rozd´ılu ST − SA .
10
D˚ ukaz. SA = =
=
I X i=1 I X i=1 I X
2
ni (Mi. − M.. ) =
=
ST =
ni Mi.2 − 2 ni Mi.2 − 2
I X
ni
−2
Xij
i=1 j=1
Xij + N
ni Mi.2 − 2N M..2 + N M..2 =
ni Mi. M.. +
I X
ni
ni M..2
i=1
X..2 N2
i=1 ni I X X
ni
i=1 j=1
I X
I X
Xij2 N2
ni Mi.2 − N M..2
i=1
i=1 ni I X X
2
(Xij − M.. ) =
ni I X X
I X i=1
X.. 1 Xi. + ni N
i=1 ni I X X
i=1 j=1
=
ni Mi.2
i=1
i=1 I X
I X
ni I X X
Xij2
−2
i=1 j=1
Xij2 − 2N M..2 + M..2 =
i=1 j=1
ni I X X i=1 j=1
ni I X X
Xij
Xij + M..2 N
Xij2 − N M..2
i=1 j=1
Proti testovac´ı hypot´eze svˇedˇc´ı pˇr´ıpady, ve kter´ ych se statistiky v´ yraznˇe liˇs´ı od M.. . Pˇri vlastn´ım proveden´ı testujeme, zdali se liˇs´ı rozptyl zp˚ usoben´ y faktorem od rozptylu zp˚ usoben´eho n´ahodn´ ymi chybami (odtud vypl´ yv´a i n´azev metody, anal´ yza rozptylu). Nulov´a a alternativn´ı hypot´eza se pak formuluj´ı n´asledovnˇe H0 : σA2 = σ 2
H1 : σA2 6= σ 2
(1.2.3)
Pod´ıl, kter´ y je testovac´ım krit´eriem, m´a Fisher-Snedecorovo rozloˇzen´ı s (N − 1) a (N − I) stupni volnosti. FA =
SA fE SA (N − I) = SE (I − 1) SE fA
(1.2.4)
Pokud pˇrekroˇc´ı veliˇcina FA kritickou hodnotu F1−α (I −1, N −I) zam´ıtneme H0 na hladinˇe α. Definice 1.2.2. Hodnota
SE N −I
se naz´yv´a rezidu´ aln´ı rozptyl.
11
ˇ ım vˇetˇs´ı je hodnota SA , t´ım m´ame vˇetˇs´ı d˚ Pozn´ amka 1.2.1. C´ uvod si myslet, fA ˇ ım vˇetˇs´ı bude ˇze mezi jednotliv´ymi stˇredn´ımi hodnotami existuje skuteˇcn´y rozd´ıl. C´ SE hodnota fE , t´ım v´ıce m´ame d˚ uvod se domn´ıvat, ˇze rozd´ıly mezi jednotliv´ymi v´ybˇery jsou zp˚ usobeny pouze n´ahodn´ymi vlivy. Obecnˇe lze ˇr´ıci, ˇze ˇc´ım vˇetˇs´ı je rozd´ıl mezi SA SE a , t´ım vˇetˇs´ı je pravdˇepodobnost zam´ıtnut´ı H0 . fA fE V´ ypoˇcty se shrnuj´ı v tabulce anal´ yzy rozptylu Zdroj variability
stupeˇ n volnosti
pod´ıl
skupiny rezidu´aln´ı
Souˇcet ˇctverc˚ u SA SE
fA = I − 1 fE = N − I
SA fA SE fE
Celkov´ y
ST
fT = N − 1
−
1.3
Testovac´ı statistika FA = SSAE ffEA − −
Mnohon´ asobn´ e pozorov´ an´ı
Dojdeme-li anal´ yzou rozptylu k zam´ıtnut´ı nulov´e hypot´ezy, m˚ uˇzeme si poloˇzit ot´azku, kter´e u ´rovnˇe faktoru se od sebe statisticky v´ yznamnˇe liˇs´ı. K tˇemto u ´ˇcel˚ um slouˇz´ı metody mnohon´asobn´eho srovn´av´an´ı. V t´eto kapitole se omez´ıme pouze na Bonferroniho, Scheff´eho a Tukeyovu metodu. Nˇekdy se pouˇz´ıvaj´ı i jin´e metody.
1.3.1
Bonferroniho metoda
Tato metoda porovn´av´a vˇsechny moˇzn´e dvojice pr˚ umˇer˚ u, porovn´av´a tedy I(I − 1)/2 dvojic. Dvˇe stˇredn´ı hodnoty µi. , µj. se pak liˇs´ı na hladinˇe α, kdyˇz plat´ı: s 1 SE 1 + (1.3.1) |Mi. − Mj. | ≥ t mα (N − I) N − I ni nj kde t mα (N − I) je kvantil Studentova rozdˇelen´ı a m pˇredstavuje poˇcet vˇsech moˇzn´ ych pozorov´an´ı, tedy m = I(I − 1)/2. Pozn´ amka 1.3.1. Pokud je nˇekter´y v´ybˇer zvolen jako kontroln´ı, pak v Bonferroniho metodˇe vol´ıme m = (I −1) a zaj´ım´ame se pouze o dvojice pr˚ umˇer i-t´e skupiny a referenˇcn´ı pr˚ umˇer.
12
1.3.2
Scheff´ eho metoda
Tato metoda je v praxi preferovan´a. Velkou v´ yhodou Scheff´eho metody je jej´ı obecnost, avˇsak m´a o nˇeco menˇs´ı citlivost neˇz nˇekter´e jin´e metody, protoˇze zpravidla nevyuˇz´ıv´a celou pravdˇepodobnost chyby prvn´ıho druhu α. Rovnost stˇredn´ıch hodnot µi. , µj. zam´ıtneme na hladinˇe α, kdyˇz plat´ı: s 1 1 SE + (I − 1)F1−α (I − 1, N − I) (1.3.2) |Mi. − Mj. | ≥ ni nj N − I kde F1−α (I − 1, N − I) je kvantil Fisher-Snedecorova rozloˇzen´ı.
1.3.3
Tukeyova metoda
Tukeyova metoda se pouˇz´ıv´a pro pˇr´ıpad vyv´aˇzen´ ych tˇr´ıdˇen´ı, existuje vˇsak i jej´ı modifikace pro pˇr´ıpad nevyv´aˇzen´eho tˇr´ıdˇen´ı, kter´a se ˇcasto oznaˇcuje jako Tukey HSD. Tato metoda nen´ı sice tak obecn´a jako Scheff´eho metoda, ale je o nˇeco citlivˇejˇs´ı, protoˇze pravdˇepodobnost chyby prvn´ıho druhu je rovna α. Rovnost stˇredn´ıch hodnot µi. , µj. zam´ıtneme na hladinˇe α, kdyˇz plat´ı n´asleduj´ıc´ı nerovnice: 1.
s |Mi. − Mj. | ≥
SE q1−α (I, P − I) P (P − I)
(1.3.3)
pro pˇr´ıpad vyv´aˇzen´eho tˇr´ıdˇen´ı P = N 2.
s |Mi. − Mj. | >
SE 2(N − I)
1 1 + q1−α (I, N − I) ni nj
(1.3.4)
modifikace Tukeyova testu pro pˇr´ıpad nevyv´aˇzen´eho tˇr´ıdˇen´ı kde q1−α (I, N − I) je kvantil studentizovan´eho rozpˇet´ı. Pozn´ amka 1.3.2. Tukeyovu metodu je v´yhodnˇejˇs´ı pouˇz´ıt, kdyˇz plat´ı q1−α (I, N − I) < 2(I − 1)F1−α (I − 1, N − I). Protoˇze je tato nerovnost nez´avisl´a na Xij , m˚ uˇzeme si mezi jednotliv´ymi metodami vyb´ırat.
13
1.4
Pˇ r´ıklad 1
M´ame namˇeˇren´e v´ yhˇrevnosti (v MJ/kg) ˇctyˇr druh˚ u odpad˚ u, kter´e se dodaj´ı na sp´alen´ı do cement´arny: Oleje (eto), uheln´ y prach (Kormul), drcen´ y odpad (TTS) a masokostn´ı mouˇcka (MKM). Hodnoty jsou mˇeˇren´e laboratornˇe, vˇzdy na zaˇc´atku mˇes´ıce. Tyto hodnoty jeˇstˇe pro n´azornost budu porovn´avat s namˇeˇren´ ymi hodnotami v´ yhˇrevnosti uhl´ı. Na hladinˇe v´ yznamnosti α = 0, 05 testujeme hypot´ezu, ˇze rozd´ıly v namˇeˇren´ ych v´ yhˇrevnostech paliv jsou zp˚ usobeny pouze n´ahodn´ ymi vlivy. V´ ysledky m´ame uveden´e v tabulce: odpady uhl´ı eto kormul TTS MKM
30, 61 25, 18 26, 14 19, 79 18, 35
30, 05 24, 22 24, 86 18, 9 18, 11
v´ yhˇrevnosti 30, 84 30, 51 30, 96 31, 58 26, 13 27, 36 27, 85 25, 87 26, 13 27, 91 25, 71 27, 00 19, 77 19, 12 17, 48 18, 5 16, 6 18 18, 7 19, 1 18, 64 17, 95
ˇ sen´ı Reˇ Data povaˇzujeme za realizace pˇeti n´ahodn´ ych v´ ybˇer˚ u z norm´aln´ıch rozloˇzen´ı se stejn´ ym rozptylem. D˚ ukaz bude proveden v posledn´ı kapitole.
Intervaly spolehlivosti Vypoˇcteme nejprve intervaly spolehlivosti pro stˇredn´ı hodnotu v kaˇzd´em z pˇeti paliv (I = 5).
14
odpady uhl´ı eto kormul TTS MKM
rozsah NI 6 3 10 8 6
souˇcet XI. 184, 55 75, 53 264, 82 148, 16 110, 85
pr˚ umˇer MI. 30, 758 25, 177 26, 482 18, 520 18, 475
Interval spolehlivosti (30, 222; 31, 294) (22, 804; 27, 549) (25, 764; 27, 199) (17, 587; 19, 453) (18, 032; 18, 918)
celkov´ y
33
783, 90
23, 755
(22, 001; 25, 509)
Intervaly spolehlivosti jeˇstˇe zobraz´ıme graficky:
Vid´ıme, ˇze nˇekter´e intervaly spolehlivosti se v˚ ubec nepˇrekr´ yvaj´ı, jejich stˇredn´ı hodnoty jsou tedy navz´ajem r˚ uzn´e a nulov´a hypot´eza H0 : µ1 = . . . = µI bude n´asleduj´ıc´ım testem zam´ıtnuta.
Anal´ yza rozptylu Nyn´ı provedeme anal´ yzu rozptylu:
15
Zdroj variability skupiny rezidu´aln´ı Celkov´ y
Souˇcet ˇctverc˚ u SA = 761, 152 SE = 21, 799 ST = 782, 951
stupeˇ n volnosti fA = 4 fE = 28 fT = 32
pod´ıl 190, 288 0, 779 −
Testovac´ı statistika FA = 244, 414 − −
Kritickou hodnotu F-rozdˇelen´ı zjist´ıme z tabulek F1−0,05 (4, 28) = 2, 71, coˇz je menˇs´ı neˇz FA = 244, 414, a proto zam´ıt´ame H0 . Mezi jednotliv´ ymi palivy jsou v´ yznamn´e rozd´ıly.
Mnohon´ asobn´ a pozorov´ an´ı Nyn´ı by n´as zaj´ımalo, kter´e dvojice paliv se od sebe liˇs´ı. V tomto pˇr´ıkladˇe provedeme Scheff´eho test (podle vzorce 1.3.2) a Tukey˚ uv test (podle vzorce 1.3.4). Z tˇechto dvou metod je citlivˇejˇs´ı Tukey˚ uv test, protoˇze q0,95 (5, 28) < 8·F0,95 (4, 28). Tabulka metod mnohon´asobn´eho pozorov´an´ı: srovn´avan´a paliva rozd´ıl |Mi. − Mj. | uhl´ı a eto uhl´ı a kormul uhl´ı a TTS uhl´ı a MKM eto a kormul eto a TTS eto a MKM kormul a TTS kormul a MKM TTS a MKM
5, 581 4, 276 12, 238 12, 283 1, 305 6, 657 6, 702 7, 962 8, 006 0, 045
prav´a strana Scheff´eho testu 2, 054 1, 500 1, 569 1, 677 1, 912 1, 967 2, 054 1, 378 1, 500 1, 569
prav´a strana Tukeyova testu 1, 24 1, 24 1, 30 1, 39 1, 59 1, 63 1, 70 1, 14 1, 24 1, 30
Obˇe metody se shoduj´ı a vid´ıme, ˇze se na hladinˇe v´ yznamnosti 0, 05 neliˇs´ı pouze eto s kormulem a TTS s MKM.
16
Z´ avˇ er Z v´ ysledk˚ u, ke kter´ ym jsme dospˇeli vypl´ yv´a, ˇze je nejlepˇs´ı d´avkovat pouze uhl´ı. Uhl´ı je vˇsak tak´e velice drah´e, a tak cement´arna d´avkuje kolem 30% alternativn´ıch paliv. Z alternativn´ıch paliv m´a nejlepˇs´ı v´ yhˇrevnost olej a kormul, bohuˇzel je z tˇechto odpad˚ u tak´e nejniˇzˇs´ı zisk. Z ekonomick´eho hlediska je pro cement´arnu v´ yhodn´e d´avkovat drcen´ y odpad a masokostn´ı mouˇcku. Tyto dva odpady vˇsak zan´aˇs´ı pec, kterou je z tohoto d˚ uvodu potˇreba na nˇejak´ y ˇcas vˇzdy odstavit a vyˇcistit. Kdyˇz ovˇsem pec nep´al´ı cement, doch´az´ı k ohromn´ ym finanˇcn´ım ztr´at´am. Stanoven´ı ide´aln´ıho pomˇeru pro d´avkov´an´ı je tak znaˇcnˇe sloˇzit´e a urˇcuje se pˇredevˇs´ım podle situace ve, kter´e je pec.
17
Kapitola 2 Dvoufaktorov´ a ANOVA 2.1
Oznaˇ cen´ı
Pˇri dvoufaktorov´e anal´ yze rozptylu zkoum´ame vliv dvou faktor˚ u (A na I u ´rovn´ıch a B na J u ´rovn´ıch) na sledovan´ y v´ ysledek. V t´eto kapitole se omez´ım pouze na vyv´aˇzen´a tˇr´ıdˇen´ı, tedy na pˇr´ıpady, kdy je poˇcet pozorov´an´ı nij pro vˇsechny dvojice (i, j) stejn´ y a je roven P ≥ 1. Pˇr´ıpad nestejn´eho poˇctu pozorov´an´ı lze vyˇreˇsit bud’ vypuˇstˇen´ım ”pˇresahuj´ıc´ıch hodnot”, nebo tzv. nev´aˇzenou anal´ yzou rozptylu, kterou se zde nebudeme zab´ yvat. Definice 2.1.1. Necht’ m´ame nij nez´avisl´ych pozorov´an´ı z norm´aln´ıho rozloˇzen´ı s konstantn´ım rozptylem. M´ame tedy nij pokus˚ u, jejichˇz v´ysledky oznaˇc´ıme Xij1 , . . . , Xijp • N = IJP je celkov´y rozsah veliˇcin Xijp • Xij. =
P P
Xijp je souˇcet hodnot v i-t´e a j-t´e u ´rovni
p=1
• Xi.. =
J P P P
Xijp je souˇcet hodnot v i-t´e u ´rovni
j=1 p=1
• X... =
I P J P P P
Xijp je celkov´y souˇcet hodnot
i=1 j=1 p=1
• Mij. =
Xij. P
je v´ybˇerov´y pr˚ umˇer v i-t´e a j-t´e u ´rovni
• Mi.. =
Xi.. JP
je v´ybˇerov´y pr˚ umˇer v i-t´e u ´rovni 18
• M... =
X... N
je celkov´y v´ybˇerov´y pr˚ umˇer
Situace zachycen´a ve faktorov´e tabulce pro P = 2, n = 12 faktory A a B
B1 x111 x112 X11. M11.
B2 x121 x122 X12. M12.
B3 x131 x132 X13. M13.
sloupcov´e pr˚ umˇery X1.. M1..
x221 x222 X22. M22.
x231 x232 X23. M23.
X2.. M2..
pr˚ umˇery
x211 x212 X21. M21.
ˇra´dkov´e pr˚ umˇery
X.1. M.1.
X.2. M.2.
X.3. M.3.
X... M...
A1 pr˚ umˇery A2
2.2 2.2.1
Dvojit´ e tˇ r´ıdˇ en´ı bez interakc´ı Testov´ an´ı hypot´ ezy o shodˇ e stˇ redn´ıch hodnot
Dvourozmˇern´a ANOVA bez interakc´ı bude provedena ve dvou kroc´ıch. V prvn´ım kroku testujeme vliv faktoru A, kter´emu odpov´ıdaj´ı ˇr´adky faktorov´e tabulky. V druh´em kroku testujeme vliv faktoru B, kter´emu odpov´ıdaj´ı sloupce faktorov´e tabulky. N´ahodn´e veliˇciny Xijp se ˇr´ıd´ı n´asleduj´ıc´ım modelem Xijp = µ + αi + βj + εijp
(2.2.1)
pro i = 1, . . . , I; j = 1, . . . , J; p = 1, . . . , P , kde µ je spoleˇcn´a ˇca´st stˇredn´ı hodnoty promˇenn´e veliˇciny, αi je vliv faktoru A na u ´rovni i, tzv. ˇr´adkov´e efekty, βj je vliv faktoru B na u ´rovni j, tzv. sloupcov´e efekty, a εijp je realizace n´ahodn´e chyby, coˇz jsou nez´avisl´e n´ahodn´e veliˇciny z rozloˇzen´ı N (0, σ 2 ). Kdyby nez´aleˇzelo na faktoru A, platila by hypot´eza α1 = . . . = αI = 0 a dostali bychom submodel: Xijp = µ + βj + εijp (2.2.2) 19
Ten odpov´ıd´a jednoduch´emu tˇr´ıdˇen´ı, kde je poˇcet pozorov´an´ı v kaˇzd´e u ´rovni roven IP . D´ale pokraˇcujeme metodou jednofaktorov´e ANOVY. Jestliˇze v submodelu 2.2.2 poloˇz´ıme β1 = . . . = βJ = 0, dostaneme dalˇs´ı submodel: Xijp = µ + εijp (2.2.3) Definice 2.2.1. Zaved’me n´asleduj´ıc´ı souˇcty ˇctverc˚ u: • Celkov´ y souˇ cet ˇ ctverc˚ u ST , kter´y charakterizuje variabilitu jednotliv´ych pozorov´an´ı kolem celkov´eho pr˚ umˇeru ST =
I P J P P P
x2ijp − N M...2
i=1 j=1 p=1
ˇ adkov´ • R´ y souˇ cet ˇ ctverc˚ u SA , kter´y charakterizuje variabilitu mezi jednotliv´ymi ˇr´adky tabulky SA = JP
I P
2 − N M...2 Mi..
i=1
• Sloupcov´ y souˇ cet ˇ ctverc˚ u SB , kter´y charakterizuje variabilitu mezi jednotliv´ymi sloupci tabulky SB = IP
J P
2 − N M...2 M.j.
j=1
• Rezidu´ aln´ı souˇ cet ˇ ctverc˚ u SE , kter´y charakterizuje variabilitu uvnitˇr jednotliv´ych n´ahodn´ych v´ybˇer˚ u SE =
I P J P P P
x2ijp − P
i=1 j=1 p=1
I P J P
2 Mij.
i=1 j=1
Lemma 2.2.1. Zjednoduˇsenˇe lze tedy ps´at: SE = ST − SA − SB D˚ ukaz. Podrobn´e odvozen´ı vzorc˚ u a d˚ ukaz vztah˚ u pro souˇcty ˇctverc˚ u lze nal´ezt v knize Andˇel[2].
20
Celkov´a variabilita se n´am rozdˇelila na pod´ıl zp˚ usoben´ y faktorem A, pod´ıl zp˚ usoben´ y faktorem B a pod´ıl zp˚ usoben´ y n´ahodn´ ymi chybami. Opˇet plat´ı, ˇze jednotliv´e souˇcty ˇctverc˚ u maj´ı χ2 rozloˇzen´ı a to ST m´a s fT = (N − 1) stupni volnosti, SA s fA = (I − 1) stupni volnosti, SB s fB = (J − 1) stupni volnosti a SE s fE = (N − I − J + 1) stupni volnosti,viz [1]. Plat´ı: fT = fA + fB + fE Platnost modelu 2.2.2, a tedy testov´an´ı hypot´ezy H0 : σA2 = σ 2 oproti H1 : σA2 6= σ 2 , ovˇeˇrujeme pomoc´ı veliˇciny: FA =
SA fE SA (N − I − J + 1) = SE (I − 1) SE fA
(2.2.4)
kter´a m´a za platnosti 2.2.2 Fisher-Snedecorovo rozloˇzen´ı s (I −1) a (N −I −J +1) stupni volnosti. Rozd´ıl mezi 2.2.2 a 2.2.3, a tedy testov´an´ı hypot´ezy H0 : σB2 = σ 2 oproti H1 : σB2 6= σ 2 , ovˇeˇrujeme pomoc´ı veliˇciny: FB =
SB (N − I − J + 1) S B fE = SE (J − 1) S E fB
(2.2.5)
kter´a m´a za platnosti 2.2.3 Fisher-Snedecorovo rozloˇzen´ı s (J −1) a (N −I −J +1) stupni volnosti. Pozn´ amka 2.2.1. Submodel 2.2.2 odpov´ıd´a situaci, kdy testujeme rovnost ˇr´adkov´ych efekt˚ u a z´aroveˇ n pˇrihl´ıˇz´ıme k eventu´aln´ım sloupcov´ym efekt˚ um. Naproti tomu, pˇri testov´an´ı rovnosti sloupcov´ych efekt˚ u pomoc´ı FB , se nebere v u ´vahu pˇr´ıpadn´y vliv ˇr´adk˚ u. Nyn´ı bychom tedy mohli prov´adˇet stejn´e u ´vahy, ale v opaˇcn´em poˇrad´ı. Nejprve bychom testovali variabilitu mezi sloupci a pak teprve variabilitu mezi ˇr´adky. To vˇsak nen´ı nutn´e, protoˇze bychom dostali shodn´e v´ysledky, coˇz je d˚ usledkem pˇredpokladu o vyv´aˇzen´em tˇr´ıdˇen´ı. V´ ypoˇcty shrnut´e v tabulce anal´ yzy rozptylu: Zdroj variability
Souˇcet ˇctverc˚ u
stupeˇ n volnosti
pod´ıl
Testovac´ı statistika
ˇra´dky
SA
fA = I − 1
FA =
sloupce
SB
fB = J − 1
rezidu´aln´ı
SE
fE = N − I − J + 1
SA fA SB fB SE fE
Celkov´ y
ST
fT = N − 1
−
−
21
FB = −
S A fE S E fA SB fE SE fB
2.2.2
Mnohon´ asobn´ e pozorov´ an´ı
Jestliˇze zjist´ıme v´ yznamn´ y rozd´ıl mezi ˇr´adky, obvykle n´as zaj´ım´a, kter´e dvojice ˇra´dk˚ u se od sebe v´ yznamnˇe liˇs´ı, stejnˇe tak i pro sloupce. Zde uvedeme obdobn´e vzorce jako v prvn´ı kapitole, omez´ıme se vˇsak pouze na Scheff´eho metodu a Tukeyovu metodu. Z tˇechto dvou metod si pak vˇzdy vybereme tu, kter´a je citlivˇejˇs´ı. Na hladinˇe v´ yznamnosti α tedy testujeme hypot´ezu H0 : αi = αt (respektive H0 : βj = βt ).
Scheff´ eho metoda 1. Rovnost αi = αt zam´ıtneme, jestliˇze plat´ı s 2(I − 1)SE F1−α (I − 1, N − I − J + 1) (2.2.6) |Mi.. − Mt.. | > JP (N − I − J + 1) 2. Rovnost βj = βt zam´ıtneme, jestliˇze plat´ı s 2(J − 1)SE F1−α (J − 1, N − I − J + 1) (2.2.7) |M.j. − M.t. | > IP (N − I − J + 1)
Tukeyova metoda 1. Rovnost αi = αt zam´ıtneme, jestliˇze plat´ı s SE |Mi.. − Mt.. | > q1−α (I, N − I − J + 1) JP (N − I − J + 1) 2. Rovnost βj = βt zam´ıtneme, jestliˇze plat´ı s SE |M.j. − M.t. | > q1−α (J, N − I − J + 1) IP (N − I − J + 1)
2.3 2.3.1
(2.2.8)
(2.2.9)
Dvojit´ e tˇ r´ıdˇ en´ı s interakcemi Testov´ an´ı hypot´ ezy o shodˇ e stˇ redn´ıch hodnot
ˇ se ˇcasto st´av´a, ˇze faktory A a B se vz´ajemnˇe ovlivˇ V dvourozmˇern´e ANOVE nuj´ı. Z tohoto d˚ uvodu se prov´ad´ı ANOVA ve tˇrech kroc´ıch. V prvn´ım kroku testujeme 22
vliv faktoru A, kter´emu odpov´ıdaj´ı ˇra´dky faktorov´e tabulky, v druh´em kroku testujeme vliv faktoru B, kter´emu odpov´ıdaj´ı sloupce faktorov´e tabulky a ve tˇret´ım kroku ˇreˇs´ıme interakce obou promˇenn´ ych. V n´asleduj´ıc´ı kapitole se pˇredpokl´ad´a, ˇze P ≥ 2. N´ahodn´e veliˇciny Xijp se ˇr´ıd´ı n´asleduj´ıc´ım realistiˇctˇejˇs´ım modelem Xijp = µ + αi + βj + λij + εijp
(2.3.1)
pro i = 1, . . . , I; j = 1, . . . , J; p = 1, . . . , P , kde µ je spoleˇcn´a ˇc´ast stˇredn´ı hodnoty promˇenn´e veliˇciny, αi jsou ˇr´adkov´e efekty, βj jsou sloupcov´e efekty, λij jsou interakce a εijp je realizace n´ahodn´e chyby, coˇz jsou nez´avisl´e n´ahodn´e veliˇciny z rozloˇzen´ı N (0, σ 2 ). Kdyby interakce mezi faktorem A a B byly bezv´ yznamn´e, platila by hypot´eza λij = 0 pro vˇsechna i = 1, . . . , I; j = 1, . . . , J a dostali bychom submodel Xijp = µ + αi + βj + εijp
(2.3.2)
D´ale postupujeme jako v pˇr´ıpadˇe dvoufaktorov´e ANOVY bez interakc´ı. Testujeme tedy postupnˇe α1 = . . . = αI = 0 a β1 = . . . = βJ = 0. Dostaneme postupnˇe submodely Xijp = µ + βj + εijp (2.3.3) Xijp = µ + εijp
(2.3.4)
Pozn´ amka 2.3.1. I v tomto pˇr´ıpadˇe nez´aleˇz´ı na tom v jak´em poˇrad´ı klademe rovny nule parametry λij , αi , βj , je to d˚ usledek vyv´aˇzen´eho tˇr´ıdˇen´ı. Interakce je souˇca´st´ı variability mezi r˚ uzn´ ymi skupinami mˇeˇren´ı, je tedy souˇca´st´ı vnˇejˇs´ıho rozptylu, proto budou platit n´asleduj´ıc´ı vzorce: SAB = ST − SA − SB − SE fAB = fT − fA − fB − fE kde SAB je souˇcet ˇctverc˚ u interakce, kter´ y m´a χ2 rozloˇzen´ı s fAB = (I − 1)(J − 1) stupni volnosti. 2 Platnost modelu 2.3.2, a tedy testov´an´ı hypot´ezy H0 : σAB = σ 2 oproti H1 : 2 2 σAB 6= σ , ovˇeˇrujeme pomoc´ı veliˇciny: FAB =
SAB fE SAB (N − IJ) = SE (I − 1)(J − 1) SE fAB 23
(2.3.5)
kter´a m´a za platnosti 2.3.2 Fisher-Snedecorovo rozloˇzen´ı s (IJ − I − J + 1) a (N − IJ) stupni volnosti. Pojem interakce m´a tak´e sv´a u ´skal´ı: • Je nutn´a opatrnost pˇri interpretaci rozd´ılu mezi ˇr´adkov´ ymi, resp. sloupcov´ ymi efekty. M˚ uˇze se st´at, ˇze nˇekter´e interakce jsou mnohem v´ yraznˇejˇs´ı neˇz pˇr´ısluˇsn´e ˇr´adkov´e ˇci sloupcov´e efekty, takˇze interpretace z´ıskan´ ych v´ ysledk˚ u m˚ uˇze b´ yt nespr´avn´a. • Nˇekdy volba hodnoty z´avisl´e promˇenn´e nen´ı jednoznaˇcn´a, proto nen´ı jednoznaˇcn´a ani hodnota interakce. (Studujeme napˇr´ıklad kvalitu slepic. Tuto promˇennou m˚ uˇzeme mˇeˇrit vahou slepice, poˇctem snesen´ ych vajec nebo logaritmem snesen´ ych vajec atd) • Vhodnou transformac´ı z´avisl´e promˇenn´e lze nˇekdy interakce odstranit. Nˇekter´e pˇr´ıpady slab´e interakce lze pˇrev´est na pˇr´ıpady bez interakce, proto nem´a moc smysl tvrdit, ˇze interakce existuje nebo neexistuje. To ovˇsem v˚ ubec neznamen´a, ˇze nem´a smysl interakce studovat, mnohdy lze naopak interakce jednoznaˇcnˇe prok´azat. V´ ypoˇcty shrnut´e v tabulce anal´ yzy rozptylu: Zdroj variability
Souˇcet ˇctverc˚ u
stupeˇ n volnosti
pod´ıl
Testovac´ı statistika
ˇra´dky
SA
fA = I − 1
FA =
sloupce
SB
fB = J − 1
interakce
SAB
fAB = (I −1)(J −1)
rezidu´aln´ı
SE
fE = N − IJ
SA fA SB fB SAB fAB SE fE
Celkov´ y
ST
fT = N − 1
−
−
SA fE SE fA FB = SSBE ffBE fE FAB = SSAB E fAB
−
Pozn´ amka 2.3.2. Je vhodn´e si vˇsimnout, ˇze souˇcet SE + SAB , resp. fE + fAB d´a hodnotu SE , resp. fE v tabulce bez interakc´ı. Model s interakcemi tedy vznikl rozˇstˇepen´ım rezidu´aln´ıho ˇr´adku v tabulce anal´yzy rozptylu dvojit´eho tˇr´ıdˇen´ı bez interakc´ı. Pozn´ amka 2.3.3. Z tabulky anal´yzy rozptylu je tak´e zˇrejm´e, ˇze pˇredpoklad P ≥ 2 byl nutn´y, protoˇze pˇr´ıpad P = 1 d´av´a nepˇrijateln´y v´ysledek fe = 0. Velmi ˇcasto se 24
vˇsak v praxi st´av´a, ˇze v dvojit´em tˇr´ıdˇen´ı m´ame pouze jedno pozorov´an´ı v kaˇzd´e podtˇr´ıdˇe, ale pˇresto je nutn´e poˇc´ıtat s pˇr´ıtomnost´ı interakc´ı. V tomto pˇr´ıpadˇe poloˇz´ıme I J 2 P P SAB = SAIJSB Xij(Mi. − M.. )(M.j − M.. ) i=1 j=1
SE = ST − SA − SB − SAB pˇriˇcemˇz pro poˇcet stupˇ n˚ u volnosti plat´ı: fAB = 1
2.3.2
fE = (I − 1)(J − 1) − 1
Mnohon´ asobn´ e pozorov´ an´ı
Na hladinˇe v´ yznamnosti α testujeme hypot´ezu H0 : αi = αt (respektive H0 : βj = βt ). I zde se omez´ım pouze na Scheff´eho metodu a Tukeyovu metodu, z kter´ ych si vybereme tu citlivˇejˇs´ı.
Scheff´ eho metoda 1. Rovnost αi = αt zam´ıtneme, jestliˇze plat´ı s 2(I − 1)SE F1−α (I − 1, N − IJ) |Mi.. − Mt.. | > JP (N − IJ) 2. Rovnost βj = βt zam´ıtneme, jestliˇze plat´ı s 2(J − 1)SE F1−α (J − 1, N − IJ) |M.j. − M.t. | > IP (N − IJ)
(2.3.6)
(2.3.7)
Tukeyova metoda 1. Rovnost αi = αt zam´ıtneme, jestliˇze plat´ı s SE q1−α (I, N − IJ) |Mi.. − Mt.. | > JP (N − IJ) 2. Rovnost βj = βt zam´ıtneme, jestliˇze plat´ı s SE |M.j. − M.t. | > q1−α (J, N − IJ) IP (N − IJ) 25
(2.3.8)
(2.3.9)
2.4
Pˇ r´ıklad 2
Prvn´ı zad´ an´ı V tomto pˇr´ıkladˇe se zamˇeˇr´ıme pouze na jeden druh odpadu a to emulzn´ı topn´e oleje (eto). Zkoumat budeme vliv dvou promˇenn´ ych. Prvn´ı promˇennou je m´ısto odebr´an´ı vzork˚ u k anal´ yze v´ yhˇrevnosti, druhou promˇennou je dodavatel. M´ame tedy laboratornˇe namˇeˇren´e v´ yhˇrevnosti od tˇr´ı dodavatel˚ u (oznaˇc´ıme je A,B,C) vˇzdy tˇesnˇe po dod´an´ı odpad˚ u a v cement´arnˇe pˇred spalov´an´ım (po dod´an´ı, pˇred sp´alen´ım). Situace je zachycena v n´asleduj´ıc´ı tabulce: faktory dodavatel/m´ısto
po dod´an´ı
pˇred sp´alen´ım
A
B
C
36, 33
38, 46
38, 43
36, 8
37, 65
38, 56
37, 28
38, 36
38, 62
10, 44
26
20, 11
18, 66
25, 18
35, 82
15, 96
24, 22
26, 13
ˇ sen´ı Reˇ Pˇri ˇreˇsen´ı pˇr´ıkladu bychom mohli prov´est dva oddˇelen´e experimenty jednofaktorov´e anal´ yzy rozptylu. V jednom experimentu zkoumat vliv prvn´ıho faktoru (dodavatel) v r˚ uzn´ ych podm´ınk´ach (mˇeˇreno po dod´an´ı a mˇeˇreno pˇred sp´alen´ım). V druh´em experimentu zkoumat vliv druh´eho faktoru (m´ısto odebr´an´ı vzork˚ u) za tˇrech podm´ınek (vzorky od dodavatele A,B,C). Mnohem lepˇs´ı ale je zkoumat oba vlivy dohromady ve dvoufaktorov´e anal´ yze rozptylu, protoˇze pˇri tom m˚ uˇzeme studovat interakci (tedy vz´ajemn´ y vliv faktor˚ u).
26
Anal´ yza rozptylu Tabulka anal´ yzy rozptylu: Zdroj variability
Souˇcet ˇctverc˚ u
stupeˇ n volnosti
pod´ıl
Testovac´ı statistika
m´ısto
SA = 1057, 54
fA = 1
1057, 54
FA = 77, 76
dodavatel
SB = 168, 06
fB = 2
84, 03
FB = 6, 178
interakce
SAB = 96, 24
fAB = 2
48, 12
FAB = 3, 538
rezidu´aln´ı
SE = 163, 20
fE = 12
13, 60
−
Celkov´ y
ST = 1485, 04
fT = 17
−
−
Vliv prvn´ıho faktoru (m´ısto odebr´ an´ı vzork˚ u): Kritickou hodnotu F-rozdˇelen´ı zjist´ıme z tabulek F1−0,05 (1, 12) = 4, 75, coˇz je menˇs´ı neˇz FA = 77, 76, a proto zam´ıt´ame H0 . V´ yhˇrevnost oleje tedy ovlivˇ nuje m´ısto odebr´an´ı vzork˚ u. Vliv druh´ eho faktoru (dodavatel): Kritickou hodnotu F-rozdˇelen´ı zjist´ıme z tabulek F1−0,05 (2, 12) = 3, 9, coˇz je menˇs´ı neˇz FB = 6, 178, a proto zam´ıt´ame H0 . Vliv dodavatele na v´ yhˇrevnost je statisticky v´ yznamn´ y. Vliv interakc´ı mezi faktory: Kritickou hodnotu F-rozdˇelen´ı zjist´ıme z tabulek F1−0,05 (2, 12) = 3, 9, coˇz je vˇetˇs´ı neˇz FAB = 3, 54. To znamen´a, ˇze vliv interakce mezi faktory na v´ yhˇrevnost nen´ı statisticky v´ yznamn´a.
Mnohon´ asobn´ a pozorov´ an´ı Nyn´ı by n´as zaj´ımalo, kter´e dvojice dodavatel˚ u se od sebe liˇs´ı. V tomto pˇr´ıkladˇe pouˇzijeme Scheff´eho test. Rovnost βj = βt zam´ıtneme, jestliˇze plat´ı: s 2(J − 1)SE F1−α (J − 1, N − IJ) |M.j. − M.t. | > IP (N − IJ)
27
srovn´avan´ı dodavatel´e rozd´ıl |M.j. − M.t. | prav´a strana AaB
5, 73
5, 95
AaC
7, 03
5, 95
BaC
1, 3
5, 95
Vid´ıme, ˇze se na hladinˇe 0,05 liˇs´ı pouze dodavatel´e A a C.
Druh´ e zad´ an´ı Formulujme nyn´ı probl´em jinak. Opˇet budeme zkoumat vliv dvou faktor˚ u (dodavatel a m´ısto odebr´an´ı vzork˚ u) na oleje. Oleje vˇsak nyn´ı budou vyj´adˇreny cenou (v CZK), kterou plat´ı cement´arna za jeden GJ energie. Situace nyn´ı vypad´a n´asledovnˇe: faktory dodavatel/m´ısto
po dod´an´ı
pˇred sp´alen´ım
ˇ sen´ı Reˇ Anal´ yza rozptylu Tabulka anal´ yzy rozptylu:
28
A
B
C
66, 91
62, 45
62, 9
67, 25
64, 84
63, 53
64, 87
64, 02
49, 9
232, 85
92, 38
120, 2
132, 63
96, 95
68, 39
151, 53
101, 4
73, 76
Zdroj variability
Souˇcet ˇctverc˚ u
stupeˇ n volnosti
pod´ıl
Testovac´ı statistika
m´ısto
SA = 14079, 5
fA = 1
14079, 5
FA = 22, 65
dodavatel
SB = 7420, 3
fB = 2
3710, 1
FB = 5, 968
interakce
SAB = 5653
fAB = 2
2826, 5
FAB = 4, 547
rezidu´aln´ı
SE = 7460
fE = 12
621, 7
−
Celkov´ y
ST = 34612, 8
fT = 17
−
−
Vliv prvn´ıho faktoru (m´ısto odebr´ an´ı vzork˚ u): Kritickou hodnotu F-rozdˇelen´ı zjist´ıme z tabulek F1−0,05 (1, 12) = 4, 75, coˇz je menˇs´ı neˇz FA = 22, 65, a proto zam´ıt´ame H0 . Cenu za olej tedy ovlivˇ nuje m´ısto odebr´an´ı vzork˚ u. Vliv druh´ eho faktoru (dodavatel): Kritickou hodnotu F-rozdˇelen´ı zjist´ıme z tabulek F1−0,05 (2, 12) = 3, 9, coˇz je menˇs´ı neˇz FB = 5, 968, a proto zam´ıt´ame H0 . Vliv dodavatele na cenu je statisticky v´ yznamn´ y. Vliv interakc´ı mezi faktory: Kritickou hodnotu F-rozdˇelen´ı zjist´ıme z tabulek F1−0,05 (2, 12) = 3, 9, coˇz je menˇs´ı neˇz FAB = 4, 547. To znamen´a, ˇze vliv interakce mezi faktory na cenu je statisticky v´ yznamn´ y.
Mnohon´ asobn´ a pozorov´ an´ı Nyn´ı by n´as zaj´ımalo, kter´e dvojice dodavatel˚ u se od sebe liˇs´ı. I v tomto pˇr´ıkladˇe pouˇzijeme Scheff´eho test. Rovnost βj = βt zam´ıtneme, jestliˇze plat´ı: s 2(J − 1)SE F1−α (J − 1, N − IJ) |M.j. − M.t. | > IP (N − IJ) srovn´avan´ı dodavatel´e rozd´ıl |M.j. − M.t. | prav´a strana AaB
78
40, 2
AaC
91, 44
40, 2
BaC
14, 44
40, 2
Vid´ıme, ˇze se na hladinˇe 0,05 liˇs´ı dodavatel´e A a B, d´ale A a C. 29
Z´ avˇ er Z tohoto pˇr´ıkladu je zˇrejm´e, ˇze pˇr´ıpad se slabou interakc´ı lze pˇrev´est na pˇr´ıklad bez interakc´ı, staˇc´ı jen na m´ısto ceny za GJ uvaˇzovat v´ yhˇrevnost. Pˇri pohledu na namˇeˇren´e hodnoty se m˚ uˇzeme pt´at, jak je moˇzn´e, ˇze mezi hodnotami namˇeˇren´ ymi po dod´an´ı a pˇred sp´alen´ım jsou tak znaˇcn´e rozd´ıly. Tento probl´em vznikl v cement´arnˇe bˇehem minul´eho roku a byl zp˚ usoben´ y ˇspatn´ ym skladov´an´ım. V z´asobn´ıc´ıch na skladov´an´ı oleje bylo praskl´e potrub´ı, t´ımto potrub´ım se oleje ohˇr´ıvaj´ı, aby bylo moˇzn´e olej ˇcerpat. Do z´asobn´ıku takto tekla voda, a tak v´ ysledn´e v´ yhˇrevnosti byly mnohem menˇs´ı a samozdˇrejmˇe i cena, kterou musela zaplatit cement´arna za GJ energie byla vyˇsˇs´ı. Z ceny za GJ energie po dod´an´ı uˇz nen´ı tak tˇeˇzk´e dopoˇc´ıtat, jak´a ztr´ata vznikla bˇehem roku v d˚ usledku ˇspatn´eho skladov´an´ı.
30
Kapitola 3 V´ ychoz´ı situace 3.1
Pˇ redpoklady pouˇ zit´ı anal´ yzy rozptylu
• Nez´ avislost jednotliv´ ych v´ ybˇ er˚ u • Normalita. M´ırn´e poruˇsen´ı normality nevad´ı, pˇri v´ yraznˇejˇs´ım poruˇsen´ı se pouˇz´ıv´a Kruskal˚ uv-Wallis˚ uv test, viz [1]. • Shoda rozptyl˚ u. Tento pˇredpoklad se d´a testovat, pouˇz´ıv´a se k tomu Bartlet˚ uv test, Leven˚ uv test ˇci Cochran˚ uv test.
3.2
Test homogenity rozptyl˚ u
Pˇred proveden´ım anal´ yzy rozptylu je zapotˇreb´ı ovˇeˇrit pˇredpoklad o shodˇe rozptyl˚ u ˇ nevad´ı, pˇri vˇetˇs´ım je zapotˇreb´ı v dan´ ych I v´ ybˇerech. M´ırn´e poruˇsen´ı ANOVE pouˇz´ıt Kruskal˚ uv-Wallis˚ uv test. Testuji tedy hypot´ezu H0 : σ12 = . . . = σI2
3.2.1
H1 : non H0
(3.2.1)
Bartlet˚ uv test
Bartlet˚ uv test lze vyuˇz´ıt k hodnocen´ı shodnosti rozptyl˚ u u vyv´aˇzen´ ych i nevyv´aˇzen´ ych soubor˚ u. Testovan´ ym krit´eriem je veliˇcina B, kter´a je definovan´a jako I
B=
X 1 [(N − I) ln s2 − (ni − 1) ln s2i ] C i=1 31
(3.2.2)
kde 1 s2i = ni − 1
ni X
! (Xij − Mi. )2
I 1 X s = (ni − 1)s2i N − I i=1 ! I X 1 1 1 − ni − 1 N − I 3(I − 1) i=1 2
C =1+
(3.2.3)
j=1
(3.2.4)
(3.2.5)
Je-li ni > 6, pak m´a B za platnosti H0 pˇribliˇznˇe χ2I−1 rozdˇelen´ı. Testovac´ı hypot´ezu zam´ıtneme, pokud B ≥ χ21−α (I − 1). Bartlet˚ uv test lze vyuˇz´ıt k hodnocen´ı shodnosti rozptyl˚ u u vyv´aˇzen´ ych i nevyv´aˇzen´ ych soubor˚ u. Tento test je vˇsak pomˇernˇe slab´ y a dost citliv´ y na poruˇsen´ı normality, obzvl´aˇstˇe u soubor˚ u s mal´ ym poˇctem pozorov´an´ı.
3.2.2
Leven˚ uv test
Dnes se pouˇz´ıv´a nejˇcastˇeji. Vytvoˇr´ı se I skupin n´ahodn´ ych veliˇcin, a to Zij = |Xij −Mi. |, na tˇechto skupin´ach se prov´ad´ı jednofaktorov´a anal´ yza rozptylu. Tento test je vˇsak pouze aproximativn´ı, protoˇze nejsou splnˇeny pˇredpoklady Anovy, je tomu tak proto, ˇze veliˇciny Zij nejsou nez´avisl´e a absolutn´ı hodnoty tˇechto veliˇcin nemaj´ı norm´aln´ı rozdˇelen´ı. V jist´ ych pˇr´ıpadech je moˇzn´e Leven˚ uv test modifikovat, lze napˇr´ıklad m´ısto Mi. vyuˇz´ıt medi´anu.
3.2.3
Cochran˚ uv test
Testovan´ ym krit´eriem je veliˇcina C, kter´a je definovan´a jako s2max C= 2 s1 + . . . + s2I
(3.2.6)
n
s2i
i 1 X = (Xij − Mi. )2 ni − 1 j=1
(3.2.7)
s2max = max{s21 , . . . , s2I }
(3.2.8)
Testovac´ı hypot´ezu zam´ıtneme, pokud C pˇrekroˇc´ı kritickou hodnotu Cochranovy statistiky. Tedy C ≥ C1−α (I, N − 1). 32
3.3
Pˇ r´ıklad 3
Pro data z pˇr´ıkladu 1 ovˇeˇrte pˇredpoklady pouˇzit´ı anal´ yzy rozptylu.
ˇ sen´ı Reˇ Ovˇ eˇ ren´ı normality V statistice je implementov´an test normality, kter´ y provedeme postupnˇe pro vˇsech pˇet v´ ybˇer˚ u. Zde provedeme Shapir˚ uv-Wilk˚ uv test normality, kter´ y je zaloˇzen na ovˇeˇren´ı, zda body v Q-Q plotu jsou v´ yznamnˇe odliˇsn´e od regresn´ı pˇr´ımky proloˇzen´e tˇemito body, viz [3]. Q-Q plot je graf, kter´ y umoˇzn ˇuje posoudit, zda data poch´azej´ı z norm´aln´ıho rozloˇzen´ı. Test normality pro uhl´ı: Promˇenn´a N W P v´ yhˇrevnost
6
0, 97 0, 892
Test normality pro eto: Promˇenn´a N W P v´ yhˇrevnost
3
1, 00 0, 994
Test normality pro TTS: Promˇenn´a N W P v´ yhˇrevnost
8
0, 947 0, 680
Test normality pro kormul: Promˇenn´a N W P v´ yhˇrevnost 10 0, 929 0, 436 Test normality pro MKM: Promˇenn´a N W P v´ yhˇrevnost
6
33
0, 970 0, 892
V tabulk´ach jsou uvedeny testovac´ı statistiky (W ) pro Shapir˚ uv-Wilk˚ uv a j´ım odpov´ıdaj´ıc´ı p-hodnoty. P-hodnota vyjadˇruje pravdˇepodobnost, s jakou ˇc´ıseln´e realizace n´ahodn´eho v´ ybˇeru podporuj´ı H0 , je-li pravdiv´a. U vˇsech v´ ybˇer˚ u je vypoˇcten´a p-hodnota vˇetˇs´ı neˇz α = 0, 05, H0 tedy nezam´ıt´ame. Vˇsechny v´ ybˇery se ˇr´ıd´ı norm´aln´ım rozloˇzen´ım. Sestroj´ıme norm´aln´ı pravdˇepodobnostn´ı grafy, kter´e umoˇzn ˇuj´ı graficky posoudit, zda data poch´azej´ı z norm´aln´ıho rozloˇzen´ı:
Vid´ıme, ˇze body leˇz´ı pˇribliˇznˇe na pˇr´ımce, normalita dat je tedy naruˇsena jen m´ırnˇe. Data m˚ uˇzeme nad´ale povaˇzovat za norm´aln´ı.
Test homogenity rozptyl˚ u Testujeme hypot´ezu: H0 : σ12 = . . . = σI2
H1 : non H0
Nejprve provedeme Bartlet˚ uv test: B=
1 [(N C
− I) ln s2 −
s2i =
1 ni −1
ni P
I P
(ni − 1) ln s2i ] i=1 !
(Xij − Mi. )2
j=1
34
I P s2 = N 1−I (ni − 1)s2i I i=1 P 1 1 1 C =1+ − N −I 3(I−1) ni −1 i=1
s2
C
B
3, 89 1, 84 16, 69 Hypot´ezu bychom mˇeli zam´ıtnout, protoˇze B > 9.488, avˇsak nesplnili jsme pˇredpoklady Bartletova testu (ni ≤ 6) a jeho pouˇzit´ı v naˇsem pˇr´ıkladˇe je znaˇcnˇe nevhodn´e. Na ovˇeˇren´ı hypot´ezy se nejl´epe hod´ı Leven˚ uv test. Tento test je tak´e implementov´an ve Statistice. V´ ypoˇcet hodnot Zij = |Xij − Mi. | zde nebudeme prov´adˇet a pˇrejdˇeme pˇr´ımo k tabulce anal´ yzy rozptylu: Zdroj variabi- Souˇcet lity ˇctverc˚ u
stupeˇ n nosti
skupiny
SA = 1, 824
rezidu´aln´ı Celkov´ y
vol-
pod´ıl
Testovac´ı statistika
fA = 4
σA2 = 0, 456
FA = 2, 166
SE = 5, 896
fE = 28
σ 2 = 0, 211
−
ST = 7, 721
fT = 32
−
−
Kritick´a hodnota je F1−0,05 (4, 28) = 2, 71, coˇz je vˇetˇs´ı neˇz FA = 2, 166, a proto hypot´ezu H0 nezam´ıt´ame.
Z´ avˇ er Nejprve jsme testovali normalitu dat, kterou Shapir˚ uv-Wilk˚ uv test nezam´ıtl. Pˇri testu homogenity rozptyl˚ u sice doˇslo k zam´ıtnut´ı Bartletov´ ym testem, nicm´enˇe silnˇejˇs´ı Leven˚ uv test uk´azal, ˇze m˚ uˇzeme rozptyly povaˇzovat za shodn´e. Pˇredpoklady anal´ yzy rozptylu jsou tedy splnˇeny.
35
Z´ avˇ er C´ılem t´eto pr´ace bylo pˇribl´ıˇzit ˇcten´aˇri princip jednofaktorov´e a dvoufaktorov´e anal´ yzy rozptylu, vˇcetnˇe metod mnohon´asobn´eho pozorov´an´ı. V kaˇzd´e kapitole je na zaˇca´tku pod´an v´ yklad statistick´ ych metod, kter´e jsou v z´avˇeru kapitol aplikov´any na pˇr´ıkladech z odpadov´eho hospod´aˇrstv´ı. V prvn´ı kapitole je vˇenov´ana pozornost jednofaktorov´e anal´ yze rozptylu, v pˇr´ıkladu jsou porovn´av´any v´ yhˇrevnosti alternativn´ıch paliv a studov´any rozd´ıly mezi jednotliv´ ymi palivy. Druh´a kapitola se vˇenuje dvoufaktorov´e anal´ yze rozptylu, v jej´ım z´avˇeru se studuje variabilita namˇeˇren´ ych hodnot emulzn´ıch topn´ ych olej˚ u, kter´e jsou nejdˇr´ıve vyj´adˇreny v´ yhˇrevnost´ı a pozdˇeji cenou za GJ energie. V tˇret´ı kapitole jsou uvedeny pˇredpoklady pouˇzit´ı anal´ yzy rozptylu a testov´any pro prvn´ı pˇr´ıklad.
36
Literatura [1] Andˇel Jiˇr´ı Z´aklady matematick´e statistiky, 1. vyd´an´ı. Praha, MATFYZPRESS, 2005. [2] Andˇel Jiˇr´ı Matematick´a statistika, 2. vyd. Praha, SNTL - Nakladatelstv´ı technick´e literatury, 1985 ˇ ep´an Z´akladn´ı statistick´e metody, [3] Bud´ıkov´a Marie - Lerch Tom´aˇs - Mikol´aˇs Stˇ 1. vyd. Brno, Masarykova univerzita, 2005.
37