VARIANCIAANALÍZIS (szóráselemzés, ANOVA)
Varianciaanalízis 1. Varianciaanalízis (szóráselemzés, ANOVA) Adott: egy vagy több tetszőleges skálájú független változó és egy legalább intervallum skálájú függő változó. Cél: annak eldöntése, hogy van-e hatása a független változóknak a függő változókra, illetve hogy ez a hatás egyforma vagy különböző. A kapcsolat konkrét függvényszerű feltárása akkor sem cél, ha a független változó intervallum vagy arányskálájú (ez regresszió-analízissel végezhető el).
Varianciaanalízis 2. Ha egyetlen függő és egyetlen független változónk van, egyszempontos ANOVA-ról (one-way, azaz egyszeres osztályozásról), ha a független változók száma egynél nagyobb, többszörös osztályozásról beszélünk. Ha egynél több függő változót egyszerre kezelünk, többváltozós (multivariate) ANOVAról (MANOVA-ról) van szó. Ha pedig a függő változó értékei ugyanazon objektumokra – pl. személyekre – vonatkoznak, összetartozó mintás (Repeated Measure) ANOVA-ról beszélünk.
Varianciaanalízis 3. Egyszempontos ANOVA (egyszeres osztályozás)
× függő változó 1
2 3 …i… független változó Ö
L
Varianciaanalízis 3. Egyetlen függő és egyetlen független változó adott, a független változónak L >2 számú kategóriája (értéke, illetve szintje) van Főátlag (grand mean): az összes csoporton vett valamennyi mérés átlaga
×
x x
függő változó
x 1
x
x
x
i
3
2
1
2 3 …i… független változó Ö
L
L
L számú értéke van a független változónak, melyek abban az értelemben is függetlenek, hogy más-más objektumokhoz (legtöbbször személyekhez) tartoznak
Varianciaanalízis 4. Egyetlen függő és egyetlen független változó adott, a független változónak L >2 számú kategóriája (értéke, illetve szintje) van
×
x x
függő változó
x 1
1
2
Megjegyzés: ha L = 2, akkor az ANOVA egyenértékű a független mintás (két-mintás) t-próbával. Bizonyítható ugyanis, hogy ekkor F = t2.
2 3 …i… független változó Ö
L
Varianciaanalízis 5. Az i-edik minta j-edik adatára bevezetjük az xij jelölést, ahol i = 1, 2, 3, …L és j = 1, 2, 3, …ni
ni ×
.
x x
függő változó
x 1
x 2
3
3 2 1
x
x i
ni számú adat az i-edik mintában
xij
1
2 3 …i… független változó Ö
L
L
az i-edik minta j-edik adata
Varianciaanalízis 6. Bizonyítjuk, hogy a teljes Qt négyzetösszeg felbontható a minták közötti Qk és a mintákon belüli Qb négyzetösszegek összegére: Qt = Qk + Qb Qt = ∑∑( xij − x)2 = ∑∑( xij − xi + xi − x)2 =
[
]
= ∑∑ ( xij − xi )2 + ( xi − x)2 + 2( xij − xi )(xi − x) = Qb + Qk + 0.
1) Minden taghoz hozzáadtuk és levontuk a mintaátlagot, ami az egyenlet érvényességét nem változtatta meg. 2) A kétszeres szorzatról pedig mindjárt belátjuk, hogy nullával egyenlő.
Varianciaanalízis 7. A kétszeres szorzatról a következőképpen látjuk be, hogy nullával egyenlő: mivel az egyik tényezőben nem szerepel a j index, az a j szerinti összegezés szempontjából állandó, amit ezért kiemelhetünk a j-s szumma jel elé.
2∑∑(xij − xi )(xi − x) = 2∑(xi − x)∑(xij − xi ) i
j
Mivel az egyes xij mintaelemek saját xi átlaguktól való eltéréseinek összege nulla, a j szerinti összegezésben a negatív és pozitív tagok összege minden i-re éppen nulla. Ilyen módon az egész vegyesszorzat is csak nulla lehet.
Varianciaanalízis 8. Qt = Q k + Q b L n
∑ ∑( x − x ) i
i =1 j =1
ij
2
L
=
∑n ( x − x )
i =1
i
2
i
ni ×
.
x x
függő változó
x 1
x 2
3
3 2 1
x
L n
∑ ∑( x − x ) i
+
i =1 j =1
x i
i
ni darab adat az i-edik mintában
xij
1
2 3 …i… független változó Ö
L
ij
2
L
az i-edik minta j-edik adata
Varianciaanalízis 9. Qt = Q k + Q b L n
∑ ∑( x − x ) i
i =1 j =1
ij
2
L
=
∑n ( x − x )
i =1
i
i
2
L n
∑ ∑( x − x ) i
+
i =1 j =1
ij
2
i
A minták közötti eltéréseket úgy jellemezzük, hogy az egyes minták „helyzetét” az átlagukkal adjuk meg és azok különbségét képezzük a „főátlagtól” (grand mean); a minták átlagai közti különbség mértéke az ezekből számított variancia. A mintán belüli eltéréseket az egyes mintaelemek saját mintaátlaguktól mért négyzetes eltéréseinek az összegével jellemezzük.
Varianciaanalízis 10. Qt = Qk + Qb L n
∑ ∑( x − x ) i
i =1 j =1
2
ij
ft = n-1
L
=
∑n ( x − x )
i =1
i
i
fk = L-1
2
L n
∑ ∑( x − x ) i
+
i =1 j =1
ij
2
i
fb = n-L
Qk fk Qk n − L Ha a H0 igaz, akkor a = Qb L −1 Qb statisztika F eloszlású fk és fb szabadsági fokokkal. f b
Varianciaanalízis 11. Kétszempontos ANOVA (kétszeres osztályozás) Egyetlen függő és két független változó (A és B) adott. Bizonyítható, hogy
Qt = QA + QB + QAB + Qb QA , illetve QB az A illetve B változónak, QAB az A és B változók közötti interakciónak, Qb pedig a mintákon belüli változékonyságnak megfelelő négyzetösszegek. Ha a H0 igaz, akkor akkor az előbbieknek megfelelő hányadosok F eloszlásúak a nevező fb szabadsági foka mellett.
Varianciaanalízis 12. Háromszempontos ANOVA (háromszoros osztályozás) Egyetlen függő és három független változó (A, B és C) adott. Bizonyítható, hogy
Qt = QA+ QB+ QC+ QAB+ QAC + QBC + QABC + Qb QA , QB illetve QC az A, B illetve C változónak, QAB, QAC, QBC és QABC az interakcióknak, Qb pedig a mintákon belüli változékonyságnak megfelelő négyzetösszegek. Ha a H0 igaz, akkor akkor az előbbieknek megfelelő hányadosok F eloszlásúak a nevező fb szabadsági foka mellett.
Varianciaanalízis 13. Egyszempontos összetartozó mintás ANOVA (Repeated Measure, egyszeres osztályozás) n ×
.
x x
függő változó
x 1
x 2
3
3 2 1
x
x
L
i
1
2 3 …i… L független változó Ö
Varianciaanalízis 14. Egyetlen függő és egyetlen független változó adott, a független változónak L darab értéke van a kettőnél több értéke (szintje) van független
n ×
.
x x
függő változó
x 1
x 2
3
3 2 1
x
x
L
i
1
2 3 …i… L független változó Ö
változónak (ezek pl. helyzetek). Az L darab érték itt nem független, mert ugyanazon n számú objektumhoz (legtöbbször személyhez) tartoznak