Varianciaanalízis
A varianciaanalízis során kettőnél több sokaság középértékeinek minta alapján történő összehasonlítása történik. Ezért nevezik a kétmintás t-próba általánosításának. A nullhipotézis eldöntéséhez használjuk a szórásnégyzeteket, innen származik a varianciaanalízis elnevezés is. Azoknál a problémáknál használhatjuk, ahol a valószínűségi változó értéke egy vagy több szisztematikus hatástól, valamint a véletlentől függ. Elsősorban a mezőgazdasági kísérletek elemzésénél használták, ez a szóhasználatában még mindig fellelhető, de természetesen használhatósága ettől jóval általánosabb, mivel a gazdasági élet számos területén is alkalmazható. A varianciaanalízis-modell alkalmazásának feltétele, hogy a minták függetlenek legyenek, normális eloszlású sokaságokból származzanak, valamint azonos legyen a sokaságok varianciája. A minták függetlenségét leginkább a megfelelő kísérleti elrendezéssel biztosíthatjuk. A normális eloszlással kapcsolatban vagy szakmai ismereteink lehetnek, vagy a minta alapján ellenőrizhetjük a normalitás teljesülését. A harmadik feltétellel kapcsolatban a következő megkötést szokták tenni: ha közel azonosak a minták elemszámai, akkor a legnagyobb varianciának kisebbnek kell lennie, mint a legkisebb variancia kétszerese. Egytényezős kísérletek (Más néven: egyutas osztályozás, egyszempontos varianciaanalízis ANOVA) Egytényezős a kísérlet, ha k számú független mintánk van (ezek a kezelések), és minden mintában r számú mérés vagy megfigyelés található. Szokás az r-et ismétlésnek is nevezni. A következő táblázat a szokásos jelölésekről ad tájékoztatást. A sokaság sorszáma vagy a kezelések száma
Mintaelemek
A minta középértéke
1.
X11, X12, ...,X1r1
2. . . . k.
X21, X22, ...,X2r2 . . . Xk1, Xk2, ...,Xkrk
X1 X2 . . . Xk
A minta varianciája s12 s22 . . . sk2
Az egyes sokaságok várható értékeit µi, szórását σi jelöli. A nullhipotézis az, hogy az összes kezelés átlaga egyenlő. Az alternatív hipotézis pedig azt jelenti, hogy legalább egy olyan középérték pár van, ahol nem tekinthetők a középértékek azonosnak. Ho : µ1 = µ2 = …=µk H1 : legalább egyszer µi ≠ µj , i = 1, 2, … , k, j = 1, 2, …, k. A varianciaanalízis-modell felállítása Az adatokra úgynevezett modellegyenletek állíthatók fel. Ez egy lineáris egyenletrendszer lesz, ahol a kísérletben megfigyelt értékeket egy olyan összegre bontjuk fel, melynek egyik tagja a mesterséges hatást (kezelést), a másik tagja pedig a véletlen hatást (hibát) tartalmazza. Kezelés hatása alatt értjük azt a szisztematikus hatást, ami a valószínűségi változónkat befolyásolhatja (Baráthné, 1996). 1
A modellegyenlet: Xij = µi + eij ahol az i-edik minta j-edik mintaeleme, Xij µi az i-edik mintához tartozó sokaság várható értéke, a véletlen (hiba) hatása. A hibatag normális eloszlású változó, 0 várható értékkel és eij σ szórással. A szisztematikus különbséget a sokaságok várható értékei tartalmazzák, a véletlen hatásokat pedig a hibatag. A H0 hipotézissel a µi értékeire vonatkozóan feltételezzük, hogy azok azonosak. A modellegyenlet más formája:
µ αi eij
Xij = µ + αi + eij ahol a sokaságok közös várható értéke az i-edik sokaság várható értékének és a µ-nek a különbsége. a véletlen (hiba) hatása.
Mivel µi = µ + αi, a H0 hipotézis megfogalmazható a következő alakban is: Ho : αi = 0; i = 1, 2,...,k. A modellegyenletet átrendezve: Xij - µ = αi + eij . A bal oldalon látható Xij - µ az egyes mintaelemek eltérése a közös várható értéktől. Ez két részre bontható: αi a szisztematikus hatás okozta eltérésre, a véletlen okozta eltérésre. eij A modellben a kétféle eltérés várható értéke E (∑ α i ) = 0 , E (∑ eij ) = 0 (Baráthné, 1996). A sokaság µi értékeit az egyes mintákból számított X i középértékekkel becsüljük. A sokaság
( ) *
feltételezett azonos középértéke (µ) a minták főátlagával becsülhető X . Xij - µ = αi + eij, * * X ij − X = X i − X + (X ij − X i ) .
(
A képletben a X ij − X
*
)
az egyes mintaelemek összes eltérése a főátlagtól, ami az X i − X
*
szisztematikus hatás okozta eltérésből és az X ij − X i a véletlen hatás okozta eltérésből áll. Az eltérések összegei zérusok, ezért négyzetes eltérések összegeivel számolunk (Baráthné 1996). * ∑ X i − X = 0 , ∑ (X ij − X i ) = 0 .
(
)
Varianciaanalízis táblázat Azt vizsgáljuk, hogy a minták középértékei közötti kezelés hatása okozta variancia nagyobb-e a mintavételezésből származó véletlen hatás okozta hibavariancia értékénél. A döntést F-próba segítségével hozzuk meg. Szokásos varianciaanalízis táblázat: Tényező Szabadság fok (DF) Kezelés hatása k-1 Véletlen hatás Összes
n-k n-1
Négyzetösszeg (SS) SSB
Korrigált szórásnégyzet (MS) MSB
SSW SST
MSW
F MS B MS W
2
A kezelés okozta varianciát szokás a „csoportok közötti” varianciának is hívni, és indexekben az angol between szó alapján b betűvel jelölni, hasonlóképpen a véletlen hatás okozta varianciánál „csoporton belüli” varianciáról beszélni és w-vel hivatkozni rá a within szó alapján. A táblázatban szereplő értékek kiszámítása: * * X ij − X = X i − X + (X ij − X i ) ,
∑
(X
ij
−X
)
* 2
(
)
(
= ∑ ri X i − X
) + ∑ (X
* 2
− Xi ) , 2
ij
SS T = SS B + SS W ,
( = ∑ r (X
), −X ) ,
SS T = ∑ X ij − X
SS B
i
* 2
* 2
i
SSW = SST - SSB, SS B MS B = , DFB SS MSW = W . DFW F-próba a varianciák összehasonlítására Ha a sokaság normális eloszlású, akkor a szórásnégyzet fenti két becslése független egymástól, és ha a nullhipotézis igaz, akkor a kezelés okozta variancia (MSB) nem lehet nagyobb a véletlen hatása okozta variancánál (MSW). Ha mégis nagyobb, vagyis a nullhipotézist elvetjük, akkor az azt jelenti, hogy a vizsgált ismérv szempontjából a minta nem homogén. MS B F= , DF = (k-1), (n-k). MSW Az F próbában mindig a kezelés okozta variancia áll a számlálóban, mert azt vizsgáljuk, hogy ez a variancia nagyobb-e a véletlennek tulajdonítható hibavarianciánál. Egyoldali próbát kell végezni. A H0-t elfogadjuk, ha Fszámított érték ≤ Ftáblázatbeli érték. Ellenkező esetben elvetjük a nullhipotézist. Példa: Kísérletet végeztek búzafajták hozamának összehasonlítására. 9 db egyhektáros területen folyt a termesztési kísérlet, ahol 3 fajtát kívántak összehasonlítani. Az alábbi terméseredmények születtek. Ez alapján vizsgáljuk meg, hogy van-e különbség a fajták termése között? Fajta I. II. III.
6,2 5,7 4,2
Termés t/ha 4,8 5,9 6,9
3,9 7,1 5,3
Megoldás. Az átlagtermések az egyes fajtáknál: X 1 = 4,8 ; X 2 = 6,3 ; X 3 = 5,4 . A teljes átlag: X
*
= 5,5 .
3
Az alapadatok felbontása Baráthné (1996) alapján: *
−
*
*
X = X ij − X = X i − X + X ij − X i teljes összes szisztematikus véletlen = = + alapadat − átlag eltérés eltérés eltérés − 0,7 + 6,1 − 5,5 = 0,6 = 1,3 X ij
4,6 −
5,5 =
− 0,9 =
− 0,7 +
− 0,2
3,7 − 5,7 −
5,5 = 5,5 =
− 1,8 = 0,2 =
− 0,7 + 0,8 +
− 1,1 − 0,6
6,1 −
5,5 =
0,6 =
0,8 +
− 0,2
7,1 −
5,5 =
1,6 =
0,8 +
0,8
4,2 −
5,5 =
− 1,3 =
− 0,1 +
− 1,2
6,7 −
5,5 =
1,2 =
− 0,1 +
1,3
5,3 −
5,5 =
− 0,2 =
− 0,1 +
− 0,1
A varianciaanalízis táblázat: Tényező Kezelés hatása Véletlen hatás Összes
Szabadság fok (DF) k-1 = 2
Négyzetösszeg (SS) SSB = 3,42
Korrigált szórásnégyzet (MS) MSB = 1,71
n-k = 6
SSW = 7,12
MSW = 1,19
n-1 = 8
SST = 10,54
F MS B = 1,44 MS W 2 és 6 szabadság fokokkal
A táblázatban szereplő értékek kiszámítási módja:
( = ∑ r (X
SST = ∑ X ij − X SS B
i
i
−X
) = 0,6 + (−0,9) + ... + (− 0,2) = 10,54 , ) = 3 ⋅ (−0,7) + 3 ⋅ 0,8 + 3 ⋅ (− 0,1) = 3,42 ,
* 2
* 2
2
2
2
2
2
SSW = SST – SSB = 7,12, SS 3,42 MS B = B = = 1,71 , k −1 2 SS 7,12 MSW = W = = 1,19 . n−k 6 Az Ftáblázatbeli érték 95%-os megbízhatósági szinten 2 és 6 szabadság foknál: 4,14. Példánkban 1,44 < 4,14, tehát a nullhipotézist elfogadhatjuk, azaz a termések nem különböznek szignifikánsan egymástól. Példa: Egy minőségellenőrzési kísérletben különböző típusú elemek élettartamát vizsgálták. Minden típusú elemből 5-5 darabot választottak ki. Az élettartam órában van megadva a következő táblázatban. Vizsgáljuk meg, hogy van-e szignifikáns különbség a különböző típusú elemek élettartama között!
4
Elemek típusa A típus B típus C típus D típus
Élettartam (óra) 18, 16, 19, 17, 18 17, 17, 15, 16, 17 19, 18, 19, 20, 18 14, 15, 16, 17, 16
Megoldás: Számítsuk ki a kezelési átlagokat és a teljes átlagot! X A = 17,6 ; X B = 16,4 ; X C = 18,8 ; X D = 15,6 . A teljes átlag: X
*
= 17,1 . Ebben a feladatban a
kezelések száma k = 4, a mintaelemek száma n = 20. A varianciaanalízis táblázat: Tényező Kezelés hatása Véletlen hatás Összes
Szabadság fok (DF) k-1 = 3
Négyzetösszeg (SS) SSB = 29,4
Korrigált szórásnégyzet (MS) MSB = 9,8
n-k = 16
SSW = 16,4
MSW = 1,025
n-1 = 19
SST = 45,8
F MS B = 9,56 MS W 3 és 16 szabadság fokokkal
A táblázatban szereplő értékek kiszámítási módja:
(
(
SST = ∑ X ij − X
SS B = ∑ ri X i − X
) = (18 −17,1) + (16 −17,1)
* 2
) = 5 ⋅ (17,6 − 17,1)
* 2
2
2
2
+ ... + (16 − 17,1) = 45,8 , 2
+ 5 ⋅ (16,4 − 17,1) + 5 ⋅ (18,8 − 17,1) + 5 ⋅ (15,6 − 17,1) = 29,4 , 2
2
2
SSW = SST – SSB = 45,8 – 29,4 =16,4, SS 29,4 MS B = B = = 9,8 , k −1 3 SS 16,4 MSW = W = = 1,025 . 16 n−k A feladathoz tartozó Fkritikus érték 95%-os megbízhatósági szinten 3 és 16 szabadság fokoknál: 3,24. Példánkban 3,24 < 9,56, tehát a nullhipotézist elvetjük, vagyis a különböző márkájú elemek élettartama szignifikánsan különbözik. Középértékek többszörös összehasonlítása Amennyiben szignifikáns különbségek mutathatók ki a kezelés hatására, vagyis az alternatív hipotézis bizonyul igaznak, tovább kereshetjük, hogy melyik sokaság átlaga tér el jelentősen melyiktől. Azt a legnagyobb különbséget, amely még véletlenszerűen jelentkezik szignifikáns differenciának nevezünk és SzDα vagy SzDP%-kal jelöljük. Ha két kezelés átlagagának különbsége (X i − X j ) kisebb a szignifikáns differenciánál, akkor a különbség még a véletlennek, ha nagyobb, akkor pedig a szisztematikus hatásnak (kezeléseknek) tulajdonítható (Baráthné 1996). A szignifikáns differencia tetszőleges megbízhatósági szintre megadható, de leginkább a 95%-os megbízhatósági szint használatos.
5
2 ⋅ MSW , ahol 2 (n −k ) r a Student-féle t-táblázatban az α/2 szignifikancia szintre vonatkozó érték n-k SzD P % = tα
tα
2 (n − k )
MSW r P%
⋅
szabadság foknál, a hibavariancia a varianciaanalízis táblázatból, a mintánkénti elemszám, a tévedés valószínűsége %-ban megadva.
Példa: Az előző feladatban jelentős különbségek mutatkoztak a különböző márkájú elemek élettartama között. Számítsuk ki a szignifikáns differenciát. Mely márkák között volt szignifikáns különbség? Megoldás:
2 ⋅ MS E 2 ⋅ MS E 2 ⋅1,025 = t 0, 025;16 ⋅ = 2,12 = 1,36 . 2 (n−k ) r 5 r X A = 17,6 ; X B = 16,4 ; X C = 18,8 ; X D = 15,6 . Az alábbi táblázat az egyes kezelések átlagának különbségét mutatja: SzDP % = tα
⋅
Me.: óra Elemek típusai Az elem típusok átlagának különbségének abszolútértéke A és B 1,2 A és C 1,2 A és D 2 B és C 2,4 B és D 0,8 C és D 3,2 A táblázatból leolvasható, hogy a szignifikáns differencia értékét meghaladó különbség három esetben mutatható ki, tehát a véletlen hatásának tudható be az eltérés az A-B, A-C, B-D között, a típusokból eredő különbség adódik az A-D, B-C valamint a C-D esetek között. Kéttényezős kísérletek
Példa: Tegyük fel, hogy egy mezőgazdasági kísérletben 4 búzafajta hektáronkénti terméshozamát vizsgálják meg, és mindegyik fajtát 5 féle termőföldben termesztik. Így összesen 20 parcellát használnak a kísérlethez. A parcellákat blokkokba sorolják: 4 parcella kerül egy blokkba. Ebben az esetben két osztályozásról beszélhetünk, hiszen a hektáronkénti terméshozam eltérhet a termesztett búzafajta és a blokkok (a különböző talajok eltérő termőképessége) miatt. Beszélhetünk ebben az esetben kezelésről és blokkokról, de beszélhetünk egyszerűen első és második tényezőről.
6
A kezelések száma 1.
1.
2.
Blokkok …
X11
X12
…
X1r
X 1.
2. . . . k.
X21 . . . Xk1
X22 . . . Xk2
… . . . …
X2r . . . Xkr
X 2. . . . X k.
X .1
X .2
…
X .r
r.
Matematikai modell:
µ αi βj eij
Xij = µ + αi +βj + eij , ahol a sokaság közös várható értéke, kezeléshatás, blokkhatás, a véletlen okozta eltérés. ∑α i = 0 , ∑ β j = 0 , ∑ eij = 0 .
Két ellenőrizendő nullhipotézisünk van: H0(1): Minden kezelés átlaga egyenlő (sorátlag). αi = 0; i = 1, 2,...,k. H0(2): Minden blokk átlaga egyenlő (oszlopátlag). βj = 0; j = 1, 2,...,r. A varianciaanalízis táblázat az előzőhöz hasonló felépítésű: Tényező Kezelés hatása
Szabadság fok (DF) k-1
Négyzetösszeg (SS) SSR = r
∑ (X i
Korrigált szórásnégyzet (MS) *
i.
− X )2
F
SS R k −1
MS R , k-1 és (k-1)(r-1) MS E
SS C MSC = r −1
MSC , r-1 és (k-1)(r-1) MS E
MSR =
szabadság fokokkal Blokk hatása
r-1
Véletlen hatás
(k-1)(r-1)
Összes
kr-1
SSC =
k∑j (X. j − X )
* 2
szabadság fokokkal SSE = SST - SSR - SSC
SST =
∑
ij
(X
ij
−X
)
MSE =
SS E (k − 1)(r − 1)
* 2
A kapott F értékeket a megfelelő táblázatbeli értékekkel összehasonlítva hozhatjuk meg döntésünket. Példa: Négy cukorrépafajta magját vetették el öt blokkba. Minden blokkot négy parcellára osztottak, és ezekhez véletlenszerűen rendelték hozzá a négy fajta cukorrépát. Határozza meg 5%-os szignifikancia szinten, hogy statisztikailag kimutatható-e eltérés az egyes cukorrépafajták termésmennyisége, vagy az egyes talajok (blokkok) között! A kapott terméseredményeket az alábbi táblázat tartalmazza q/területegységben mérve.
7
Me.: q/területegység I. blokk II. blokk III. blokk IV. blokk V. blokk 12 15 14 11 16 15 19 18 16 17 10 12 15 12 11 14 11 12 16 14
A fajta B fajta C fajta D fajta
Megoldás: Számítsuk ki a sor és az oszlopátlagokat, valamint a teljes átlagot! Me.: q/területegység I. blokk II. blokk III. blokk IV. blokk V. blokk Sorátlagok A fajta 12 15 14 11 16 13,6 B fajta 15 19 18 16 17 17 C fajta 10 12 15 12 11 12 D fajta 14 11 12 16 14 13,4 Oszlopátlagok 12,75 14,25 14,75 13,75 14,5 *
= 14 . Készítsük el a varianciaanalízis táblázatot! Ebben a feladatban: k = 4, r = 5. A többi érték kiszámítása a táblázat alatt szereplő formulák segítségével történt.
A teljes átlag pedig X
Tényező
Szabadság fok (DF) k-1 = 3
Kezelés hatása
Négyzetösszeg (SS) SSR =
∑ r( X i
Korrigált szórásnégyzet (MS)
*
i.
− X ) 2 = 67,6
F
MS R = 5,83, MS E
SS R = 22,53 k −1
MSR =
3 és 12 szabadság fokokkal Blokk hatása
r-1 = 4
SSC =
∑ k(X j
*
.j
− X ) 2 = 10
MSC =
MSC = 0,65, MS E
SS C = 2,5 r −1
4 és 12 szabadság fokokkal Véletlen hatás
(k-1)(r-1) = 12
Összes
kr-1 = 19
SSE = SST - SSR - SSC = 46,4
SST =
(
∑
ij
SST = ∑ X ij − X
(
ij
−X
)
* 2
= 124
) = (12 −14) + (15 −14)
* 2
SS E = 3,87 (k − 1)(r − 1)
2
2
+ ... + (14 − 14) = 124 , 2
) = 5 ⋅ (13,6 − 14) + 5 ⋅ (17 − 14) + 5 ⋅ (12 − 14) + 5 ⋅ (13,4 − 14) = 67,6 , = ∑ k (X − X ) = 4 ⋅ (12,75 − 14) + 4 ⋅ (14,25 − 14 ) + ... + 4 ⋅ (14,5 − 14 ) = 10 ,
SS R = ∑ ri X i − X SS C
(X
MSE =
* 2
* 2
j
2
2
2
2
2
2
2
j
SSE= SST – SSR – SSC = 124 – 67,6 – 10 = 46,4, SS 67,6 MS R = R = = 22,53 , 3 k −1 SS 10 MS C = C = = 2,5 , r −1 4 SS E 46,6 MS E = = = 3,87 , kr − 1 12 8
MS R 22,53 = = 5,83 , MS E 3,87 MS C 2,5 = = 0,65 . MS E 3,87
A kezelés (cukorrépafajták) ellenőrzésére szolgáló Ftáblázatbeli érték 95%-os megbízhatósági szinten 3 és 12 szabadság fokoknál: 3,49. Példánkban 3,49 < 5,83, tehát a nullhipotézist elvetjük, a fajták között szignifikáns különbségek vannak. Mivel a blokkhatás ellenőrzésénél 1-nél kisebb számot kaptunk az F-re, ez azt jelenti, hogy nincs jelentős eltérés a blokkok (földterületek) között. Kéttényezős kísérletek ismétléssel
Az előző példában minden blokkhoz és kezeléshez csak egy adatot rendeltünk. Gyakran több információhoz juthatunk azzal, hogy megismételjük a kísérletet. Ekkor több adat is tartozik egy-egy kezeléshez ill. blokkhoz. (Legyen most „m” adat blokkonként és kezelésenként.) Matematikai modell:
µ αi βj γij eijl
Xijl = µ + αi +βj +γij + eijl , ahol a sokaság közös várható értéke, kezeléshatás, blokkhatás, kezelés-blokk kölcsönhatás, a véletlen okozta eltérés (hiba). ∑ α i = 0 , ∑ β j = 0 ∑ γ ij = 0 ∑ eijl = 0 .
Három ellenőrizendő nullhipotézisünk van: H0(1): Minden kezelés átlaga egyenlő (sorátlag). αi = 0; i = 1, 2,...,k. H0(2): Minden blokk átlaga egyenlő (oszlopátlag). βj = 0; j = 1, 2,...,r. H0(3): Nincs kölcsönhatás a kezelések és a blokkok között. γij = 0; i = 1, 2,...,k, j = 1, 2,...,r. A már jól ismert varianciaanalízis táblázat most egy újabb sorral bővült. Tényező Kezelés hatása
Szabadság fok (DF) k-1
Blokk hatása
r-1
Interakció
(k-1)(r-1)
Négyzetösszeg (SS) SSR = rm
SSC = km
∑ (X i
∑
Korrigált szórásnégyzet (MS) *
i ..
− X )2
j
( X . j. − X )
SSI =
(
m∑i , j X ij . − X i.. − X . j . + X Véletlen hatás
kr(m-1)
Összes
krm-1
SSE = SST - SSR - SSC - SSI
SST =
∑
ijl
(X
ijl
−X
SS R k −1
MS R , k-1 és kr(m-1) MS E
MSC = SS C r −1
szabadság fokokkal MSC , r-1 és kr(m-1) MS E szabadság fokokkal
MSR =
* 2
)
* 2
F
MSI =
SS I (k − 1)(r − 1) MSE =
)
MS I , (k-1)(r-1) és kr(m-1) MS E szabadság fokokkal
SS E kr (m − 1)
* 2
Először a harmadik nullhipotézis teljesülését ellenőrizzük le. 9
Ha H0(3)-at elfogadjuk, akkor nincs jelentős kölcsönhatás a kezelések és a blokkok között. Ha H0(3)-at elvetjük, akkor arra következtetünk, hogy kölcsönhatás van a kezelések és a blokkok között, MS R és MS C módon is szokás ekkor az F értékeket a táblázatban szereplő formula helyett MS I MS I számolni. Példa: Egy kísérletben négy csoport (brigád) öt gépsororon, 3 × 1 órán át termel, és minden esetben megszámolják a hibás darabok számát. Az eredményeket darabban megadva az alábbi táblázatban lehet megtekinteni. Vizsgálja meg 5%-os szignifikancia szinten hogy van-e eltérés a csoportok, a géptípusok között, és hogy van-e kölcsönhatás az csoportok és a gépsorok között! Me.: darab Csoportok A B C D
I. típus 18, 19, 21 16, 17, 16 22, 20, 23 20, 19, 21
II. típus 19, 22, 23 17, 18, 18 21, 21, 22 18, 17, 21
Gépsorok III. típus 20, 20, 19 19, 17, 16 20, 19, 21 19, 19, 18
IV. típus 17, 18, 20 18, 20, 19 23, 20, 20 22, 20, 19
V. típus 16, 20, 20 18, 19, 18 19, 21, 20 17, 18, 21
Megoldás: Számítsuk ki az egyes csoportokhoz (sorok) a gépsorokhoz (oszlopok), ezek metszetéhez (cellákhoz) tartozó átlagokat, valamint a teljes átlagot! Me.: darab I. típus II. típus III. típus IV. típus V. típus Sorátlagok A 19,47 19,33 21,33 19,67 18,33 18,67 B 17,73 16,33 17,66 17,33 19,00 18,33 C 20,80 21,66 21,33 20,00 21,00 20,00 D 19,27 20,00 18,67 18,67 20,33 18,67 Oszlopátlagok 19,33 19,75 18,92 19,67 18,92 *
= 19,32 . Készítsük el a varianciaanalízis táblázatot! Ebben a feladatban: k = 4, r = 5 és m = 3. A többi érték kiszámítása a táblázat alatt szereplő formulák segítségével történt.
(A dőlt betűs számok a 3-3 parcellához tartozó átlagokat jelentik.) A teljes átlag pedig X
10
Tényező
Szabadság fok (DF) k-1 = 3
Kezelés hatása
Négyzetösszeg (SS) SSR = rm
∑ (X i
Korrigált szórásnégyzet (MS)
*
− X )2 =
i ..
MSR =
70,98 Blokk hatása
r-1 = 4
SSC = km
∑ (X j
* 2
−X ) =
. j.
4,77 Interakció
(k-1)(r-1) = 12
SSI =
(
m∑i , j X ij . − X i.. − X . j . + X Véletlen hatás
kr(m-1) = 40
= 36,43 SSE = SST - SSR - SSC - SSI = 80,79
Összes
krm-1 = 59
(X
SST =
∑
ijl
−X
ijl
)
* 2
*
F
SS R = 23,66 k −1
MS R = 11,7, 3 és 40 MS E
MSC = SS C = 1,19 r −1
szabadság fokokkal MSC = 0,59, 4 és 40 MS E szabadság fokokkal
SS I (k − 1)(r − 1)
MS I = 1,5, 12 és 40 MS E
= 3,04
szabadság fokokkal
MSI =
MSE =
SS E = kr (m − 1) 2,02
=
192,98
(
SST = ∑ X ij − X
(
2
2
+ ... + (21 − 19,32) = 192,98 , 2
) = 15 ⋅ (19,47 − 19,32) + 15 ⋅ (17,73 − 19,32) + ... + 15 ⋅ (19,27 − 19,32) = 70,98 , = ∑ k m (X − X ) = 12 ⋅ (19,33 − 19,32) + 12 ⋅ (19,75 − 19,32 ) + ... + 12 ⋅ (18,92 − 19,32 ) = 4,77 , SS = m∑ (X − X − X + X ) = 3 ⋅ (19,33 − 19,47 − 19,33 + 19,32 ) +
SS R = ∑ ri m X i − X SS C
) = (18 − 19,32) + (19 − 19,32)
* 2
* 2
* 2
j
2
2
2
2
j
* 2
I
2
2
i, j
ij .
i ..
2
. j.
+ 3 ⋅ (21,33 − 19,47 − 19,75 + 19,32 ) + ... + 3 ⋅ (18,67 − 19,27 − 18,92 + 19,32 ) = 36,43, SSE = SST - SSR - SSC - SSI = 192,98 – 70,98 – 4,77 – 36,43 = 80,79, SS 7,98 MS R = R = = 23,66 , k −1 3 SS 4,77 MS C = C = = 1,19 , r −1 4 SS I 36,43 MS I = = = 3,04 , (k − 1)(r − 1) 12 SS E 80,79 MS E = = = 2,02 , kr (m − 1) 40 MS R 23,66 = = 11,71 , MS E 2,02 MS C 1,19 = = 0,59 , MS E 2,02 MS I 3,04 = = 1,5 . MS E 2,02 Először a kezelés és a blokkhatás kölcsönhatását vizsgáljuk meg. Az ehhez tartozó Fkritikus érték 95%-os megbízhatósági szinten 12 és 40 szabadság fokoknál: 2,00. Számításunkban Fszámított = 1,5. Ebből azt a következtetést vonhatjuk le, hogy nem mutatkozott kölcsönhatás a csoportok és a géptípusok között. A kezelés (csoportok) ellenőrzésére szolgáló Fkritikus érték 95%-os megbízhatósági szinten 3 és 40 szabadság fokoknál: 2,61. Példánkban 2,61 < 11,71, tehát a nullhipotézist elvetjük, a csoportok között szignifikáns különbségek mutatkoznak. Végül a blokkhatást vizsgáljuk meg. 2
2
11
Mivel a blokkhatásnál az F-re 1-nél kisebb számot kaptunk, ez azt jelenti, hogy nincs jelentős eltérés a blokkok (géptípusok) között.
Esetelemzés az SPSS használatával A gepj.sav fileban négy különböző típusú, összesen 80 db gépkocsi üzemanyag fogyasztási adatai találhatók. Vizsgálja meg, hogy befolyásolja-e az üzemanyag fogyasztás mértékét a gépkocsi típusa. Megoldás: A gépjárművek típusa négyféle volt: Ford, Opel, Suzuki, Toyota. Az előző feladatokban egy- illetve kétmintás t-próba segítségével oldottuk meg a problémát. Az összehasonlításokhoz használhatnánk itt is kétmintás t-próbát, de ily módon csak párokat tudunk összehasonlítani. Négy minta esetén hat páronkénti összehasonlítás kellene végrehajtani. Ebben az esetben célszerű alkalmazni az egytényezős varianciaanalízist. A menüből az ANALYZE / COMPARE MEANS / ONE-WAY ANOVA párbeszédablakot válasszuk ki. Az ábrán látható módon a függő változónak a fogyaszt (fogyasztást), faktornak pedig a gjtip-et (gépjármű típust) jelöljük meg.
Érdemes még az OPTIONS alpontban a DESCRIPTIVES szolgáltatásaival élni, ahol leíró statisztika segítségével egy általános tájékoztatást kapunk.
12
Descriptives Fogyasztás (l/100km) N Mean Ford Toyota Opel Suzuki Total
20 20 20 20 80
6.19 5.71 6.41 5.64 5.99
Std. Deviation
Std. Error
.209 .216 .251 .181 .391
.047 .048 .056 .041 .044
95% Confidence Interval for Mean Lower Bound 6.10 5.60 6.29 5.55 5.90
Upper Bound 6.29 5.81 6.53 5.72 6.07
Minimum
Maximum
6 5 6 5 5
7 6 7 6 7
Az átlagos üzemanyag fogyasztás (Mean) 5,99 l/100 km. Az átlagosan legkisebb fogyasztású autók a Suzuki gépkocsik, a legnagyobbak az Opelek. ANOVA Fogyasztás (l/100km) Between Groups Within Groups Total
Sum of Squares 8.512 3.542 12.055
df 3 76 79
Mean Square 2.837 .047
F 60.874
Sig. .000
A kapott táblázat az úgynevezett varianciaanalízis táblázat. Az utolsó oszlopban található 0,000 empirikus szignifikancia mutatja (Sig.), hogy jelentős különbségek vannak a gépjárművek között az üzemanyag fogyasztás tekintetében. Ha azt is szeretnénk megtudni, hogy pontosan mely típusok között van szignifikáns különbség, akkor az ANALYZE / COMPARE MEANS / ONE-WAY ANOVA párbeszédablakon belül a POST HOC gombra kattintva a többszörös összehasonlításhoz használt teszteket találjuk meg. Ezek közül a Tukey módszert ajánljuk, mert a felsoroltak közül ez a legszigorúbb, és háromnál több csoportra már alkalmazható.
13
Multiple Comparisons Dependent Variable: Fogyasztás (l/100km) Tukey HSD Mean Difference (I-J) (I) Gépjármű (J) Gépjármű típus típus Ford Toyota .49* Opel -.22* Suzuki .56* Toyota Ford -.49* Opel -.70* Suzuki .07 Opel Ford .22* Toyota .70* Suzuki .77* Suzuki Ford -.56* Toyota -.07 Opel -.77* * The mean difference is significant at the .05 level.
Std. Error
Sig.
.068 .068 .068 .068 .068 .068 .068 .068 .068 .068 .068 .068
.000 .012 .000 .000 .000 .735 .012 .000 .000 .000 .735 .000
95% Confidence Interval Lower Upper Bound Bound .31 .67 -.39 -.04 .38 .74 -.67 -.31 -.88 -.53 -.11 .25 .04 .39 .53 .88 .60 .95 -.74 -.38 -.25 .11 -.95 -.60
A Post Hoc teszt eredmény táblázatában felsorolásra kerül minden lehetséges párosítás. A harmadik oszlopban az átlagok közötti különbség van feltüntetve. Csillaggal azok a párosítások vannak megjelölve, ahol a szignifikancia szint 0,05 alatti, vagyis ahol jelentős különbség mutatkozik a csoportátlagok között. Esetünkben csak a Suzuki – Toyota párosításnál nincs csillag, közöttük nincs számottevő különbség, az összes többi típusra ugyanez már nem mondható el. Legkifejezettebb az eltérés a Suzuki és az Opel között. A következő táblázatban a gépjármű típusokat csoportokba sorolva láthatjuk. Fogyasztás (l/100km) Tukey HSD N Subset for alpha = .05 Gépjármű típus 1 Suzuki 20 5.64 Toyota 20 5.71 Ford 20 Opel 20 Sig. .735 Means for groups in homogeneous subsets are displayed. a Uses Harmonic Mean Sample Size = 20.000.
2
3
6.19 1.000
6.41 1.000
Ezek szerint a japán gépkocsik (Toyota, Suzuki) egy kategóriába sorolhatók üzemanyag fogyasztás tekintetében. Külön csoportba került a Ford, és megint külön csoportba az Opel. Most nézzük meg, van-e különbség a fogyasztásban eltérő gumiabroncsot használva! Az eljárás megegyezik az előzőekben leírtakkal, csak az ANALYZE / COMPARE MEANS / ONE-WAY ANOVA párbeszédablakon belül a faktor a gépjármű típus helyett a gumitip (gumiabroncs típusa) lesz, a függő változó továbbra is a fogyasztás marad.
14
Descriptives Fogyasztás (l/100km) N
Michelin Matador Firestone Goodyear Total
20 20 20 20 80
Mean
Std. Deviation
Std. Error
6.03 6.23 5.93 5.76 5.99
.375 .377 .333 .346 .391
.084 .084 .074 .077 .044
95% Confidence Interval for Mean Lower Upper Bound Bound 5.86 6.21 6.05 6.40 5.77 6.09 5.59 5.92 5.90 6.07
Minimum
Maximum
6 6 6 5 5
7 7 7 6 7
ANOVA Fogyasztás (l/100km) Between Groups Within Groups Total
Sum of Squares 2.320 9.735 12.055
df 3 76 79
Mean Square .773 .128
F 6.039
Sig. .001
A leíró statisztikai részben olvasható, hogy minden gumitípushoz 20-20 fogyasztási adatunk van. Átlagosan a legkisebb fogyasztást a Goodyear-nél találjuk (5,76 l/100 km), a legnagyobbat pedig a Matadornál (6,23 l/100 km). A variancia táblázat alapján láthatjuk, hogy az abroncsok is befolyásolják az üzemanyag fogyasztás mértékét, hiszen a szignifikancia oszlopban 0,001-et látunk és az kisebb 0,05-nál. Multiple Comparisons Dependent Variable: Fogyasztás (l/100km) Tukey HSD Mean Difference (I-J) (I) Gumi típus (J) Gumi típus Michelin Matador -.19 Firestone .10 Goodyear .28 Matador Michelin .19 Firestone .29 Goodyear .47* Firestone Michelin -.10 Matador -.29 Goodyear .17 Goodyear Michelin -.28 Matador -.47* Firestone -.17 * The mean difference is significant at the .05 level.
Std. Error
Sig.
.113 .113 .113 .113 .113 .113 .113 .113 .113 .113 .113 .113
.342 .790 .072 .342 .053 .000 .790 .053 .415 .072 .000 .415
95% Confidence Interval Lower Bound -.49 -.19 -.02 -.11 .00 .17 -.40 -.59 -.12 -.58 -.77 -.47
Upper Bound .11 .40 .58 .49 .59 .77 .19 .00 .47 .02 -.17 .12
15
A többszörös összehasonlítás során világossá válik, hogy szignifikáns különbség csak a Goodyear és a Matador márka között van. Az összes többinél a szignifikancia oszlopban 0,05-nál nagyobb értékeket találunk. Ezt erősíti meg a következő táblázat is. Fogyasztás (l/100km) Tukey HSD N Gumi típus Goodyear Firestone Michelin Matador Sig. Means for groups in homogeneous subsets are displayed. a Uses Harmonic Mean Sample Size = 20.000.
20 20 20 20
Subset for alpha = .05 1 5.76 5.93 6.03 .072
2 5.93 6.03 6.23 .053
A csoportokba sorolásnál két kategóriát készített a program, de ezek között most átfedés figyelhető meg. Az egyikbe tartozik a Goodyear, a Firestone és a Michelin, a másik kategóriába a Firestone, a Michelin és a Matador. Ez tehát azt jelenti, hogy fogyasztási paramétereit tekintve ezek a típusok közel állnak egymáshoz, a Firestone és a Michelin egyaránt tekinthető a felső kategória alsó szélének, vagy az alsó kategória felső részének. A gépkocsik típusa és a gumiabroncs minősége egyaránt befolyásolja tehát az üzemanyag fogyasztást. Ezen kívül még kölcsönhatás is előfordulhat közöttük, hiszen elképzelhető, hogy Goodyear gumiabroncs hatása eltérő egy Ford vagy egy Suzuki gépkocsin. A kérdés megválaszolására a kéttényezős varianciaanalízist alkalmazhatjuk. A szokásos elnevezéseket használva blokkoknak tekinthetjük a gépkocsik típusát, kezeléseknek pedig az egyes gumiabroncs márkákat. A kéttényezős varianciaanalízis lefuttatásához az ANALYZE / GENERAL LINEAR MODEL / UNIVARIATE pontját kell lefuttatni. A változókat az ábrán látható módon helyezzük el. Függő változó a fogyaszt (fogyasztás), fix hatásokhoz a gjtip és a gumitip (gépjármű típus és gumi típus) kerülnek.
16
Az OK gomb lenyomása után az output részben az alábbi táblázatot kapjuk. Tests of Between-Subjects Effects Dependent Variable: Fogyasztás (l/100km) Source Type III Sum of Squares Corrected Model 10.879 Intercept 2866.815 GJTIP 8.512 GUMITIP 2.320 GJTIP * GUMITIP 4.612E-02 Error 1.176 Total 2878.870 Corrected Total 12.055 a R Squared = .902 (Adjusted R Squared = .880)
df 15 1 3 3 9 64 80 79
Mean Square .725 2866.815 2.837 .773 5.125E-03 1.838E-02
F 39.470 156017.150 154.420 42.093 .279
Sig. .000 .000 .000 .000 .978
A varianciaanalízis táblázat gjtip és gumitip (gépjármű típusa és gumiabroncs típusa) sorában látható 0,000 empirikus szignifikancia érték ugyanazt mutatja, mint az előzőekben kapott eredmények, mivel az egytényezős varianciaanalízis számítások során már megbizonyosodtunk arról, hogy a gépkocsi típusok között is és a gumiabroncs típusok között is szignifikáns eltérés mutatkozik az üzemanyag fogyasztást tekintve. A gépkocsi – gumiabroncs kölcsönhatásra vonatkozik a gjtip*gumitip sor. A szignifikancia oszlopban a sorhoz tartozó P érték 0,978, így biztosak lehetünk benne, hogy nincs kölcsönhatás közöttük. A gépkocsi típusa és a gumiabroncs típusa külön-külön hatnak az üzemanyag fogyasztásra. A táblázat alatt látható R Squared vagyis R négyzet értékre érdemes még figyelni, amelyet magyarázó erőnek szoktak nevezni. Értéke 0 és 1 közé eshet, minél közelebb van az egyhez, annál jobban illeszkedik a modell az adott problémára. A 0,9-es érték jónak mondható, úgy is fogalmazhatjuk, hogy az autók fogyasztásának varianciáját 90%-ban az autó és a gumiabroncs típusa határozza meg.
Irodalomjegyzék
Baráth Cs. – Ittzés A. – Ugrósdy Gy.: Biometria. Mezőgazda Kiadó 1996 Kiss A. – Manczel J. – Pintér L. – Varga K.: Statisztikai módszerek alkalmazása a mezőgazdaságban. Mezőgazdasági Kiadó 1983 Kovács István: Statisztika. Szent István Egyetem Gazdálkodási és Mezőgazdasági Főiskolai Kar jegyzete. Gyöngyös 2000 Kriszt – Varga – Kenyeres: Általános statisztika II. Nemzeti tankönyvkiadó 1997. Fodor János: Biomatematika http://www.univet.hu/users/jfodor/index_h.html Meszéna György – Ziermann Margit: Valószínűségelmélet és matematikai statisztika Közgazdasági és Jogi Könyvkiadó 1981 Murray R. Spiegel: Statisztika. Elmélet és gyakorlat. Panem – McGraw – Hill 1995 Szűcs István: Alkalmazott statisztika. Agroinform Kiadó 2002 Vargha András: Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal. Pólya Kiadó
17