Varianciaanalízis A kétmintás t-próba általánosítása h mintára: h különböző minta átlagát szeretnénk összehasonlítani, megállapítani, hogy van-e közöttük szignifikáns különbség. A t-próba használhatatlan: Bonferroni probléma, az I. típusú hibák összegződnek. Ennek megértéséhez tekintsünk egy 7-féle kezelésből álló kísérletet, amely tehát 7 minta átlagának összehasonlítását kívánja ⎛7⎞ meg. ⎜⎜ ⎟⎟ =21-féleképpen választhatunk ki 2 mintát összehasonlításra. Tudjuk, hogy kétmintás t-próbánál ⎝ 2⎠ az I. fajú hiba 5%-ban, átlagosan minden 20-ik esetben fellép, s ha nincs különbség a kezelések hatása között, akkor is minden 20-ik esetben hibásan szignifikáns különbséget észlelnénk. Az említett 7 mintás kísérletben tehát 21 összehasonlítás közül átlagosan több mint 1 összehasonlításnál az I. fajú hiba miatt hamisan a csoportátlagokat különbözőnek találnánk. Ez az effektus a minták számának növelésével nő. Megoldás: egyszempontú varianciaanalízis (ANOVA = analysis of variance) H0: az összes minta ugyanabból az alapsokaságból származik: µ1 = µ2 = ... = µh H1: legalább egy minta nem ugyanabból az alapsokaságból származik Alapelv: Ha a null hipotézis igaz, akkor minden minta varianciája ugyanazt az elméleti varianciát, σ2 –t becsli. Ezt, mivel több minta van, két különböző, független statisztikával becsüljük. Először a mintákon belüli varianciákból becsüljük az összvarianciát, másodszor a mintaátlagok becsült varianciájából. Ez utóbbi egyenlő az összvariancia n-ed részével, ha minden minta n elemű, mivel az átlag varianciája = variancia / n. (Ha a mintaelemszámok különböznek, akkor kicsit bonyolultabb a becslés képlete, de az elv ua.) Majd ezt a két becslést hasonlítjuk össze. Feltételek: 1) a minták függetlensége 2) normális eloszlású alappopuláció (val. vált.) 3) a varianciák homogenitása (a minták által becsült variancia ugyanannak a varianciának a becslése)
1
A két variancia becslés: 1) Mintákon belüli variancia (belső variancia) h
h
Qj
j =1
nj −1
sb2 = ∑
=
∑Q j =1
h
j
N −h
=
nj
∑∑ ( x j =1 i =1
ij
− x j )2 =
N −h
Qb N −h
2) Minták közötti variancia (külső variancia) meghatározzuk a főátlagot, x -t, és a mintaelemeket a mintaátlaggal helyettesítjük: h
sk2 =
∑ n (x j =1
j
j
− x) 2 =
h −1
Qk h −1
3) Teljes variancia: ha a minták egy populációból származnak, feltesszük h
st2 =
nj
∑∑ ( x j =1 i =1
ij
− x) 2
N −1
=
Qt Qb + Qk = N −1 N − h + h −1
Hipotézisvizsgálat: sb2 és sk2 összevetése F próbával. F = sk2 / sb2 (egyoldalú).
d.f. h - 1 és N - h
A számolás egyszerűsítése: Qk = C - A2 / N
Qt = B - A2 / N
ebből Qb = Qt - Qk
Az eltérésnégyzetösszegnek is nevezett Q-val jelölt mennyiségek a megfelelő varianciáktól abban különböznek, hogy nincsenek osztva a szabadságfokkal. Használatukat az indokolja, hogy a Qt az, ami felbontható Qb-re és Qk-ra, nem pedig maga a variancia. Kiszámításukra kétféle képletet is fel szoktak írni, az első jobban megérthető (definíciós képlet) a másodikkal hatékonyabb számolni (munkaképlet). Általánosságban: ⎛ n ⎞ ⎜ ∑ yi ⎟ n n Q y = ∑ ( y i − y ) 2 = ∑ y i2 − ⎝ i =1 ⎠ n i =1 i =1
2
Hasonló képleteket tanultunk a varianciával kapcsolatban is.
Összefoglaló táblázat Szórás oka Q Minták között Qk Mintákon belül Qb Teljes Qk + Qb
df h-1 N-h N-1
var Qk / h-1 Qb / N-h
sk2
F / sb2
Alaptáblázat 2
Minták 1 n1
Elemszám
… …
Összegezve a mintákra … …
j nj
h nh
h
∑nj = N j =1
Összeg
n1
∑ xi1
∑ xij
i =1
Átlag
n1
∑
i =1
(∑ x )2 / n
2
∑∑ xij = A
xh
-
nh
nj
xi21
∑
∑ xij2
i =1
i =1
⎛ nj ⎞ ⎜ ∑ xij ⎟ ⎜ i =1 ⎟ ⎠ ⎝ nj
(∑ x ) Q = ∑x − n 2
xj
2
⎛ nj ⎞ ⎜ ∑ xij ⎟ nj ⎜ ⎟ 2 ⎝ i =1 ⎠ ∑ xij − nj i =1
h nj
∑ xih
i =1
i =1
x1
Négyzet-összeg
nh
nj
xih2
j =1i =1
h nj
∑∑ xij2 = B
i =1 i =1
2
⎛ nj ⎞ ⎜ ∑ xij ⎟ ⎟ h ⎜ i =1 ⎝ ⎠ =C ∑ nj j =1 2
h
∑Qj j =1
xij : a j.-ik minta i.-ik eleme Q: eltérésnégyzetösszeg (sum of squares). Q-t osztva a szabadságfokkal kapjuk a becsült varianciát. 3
A variancia analízis leegyszerűsített magyarázata, arra az esetre, amikor minden csoportban ugyanannyi: n db mintaelem van Ha h mintánk van (h-féle kezelés) és összesen N = h⋅n mintaelemünk, akkor
Fˆ =
s k2 > Fkrit ( h −1, N − h ,α ) sb2
sz.fokok: h-1 és N − h =
h
∑ (n i =1
i
− 1)
azt jelenti, hogy a véletlen csak 6 valószínűséggel okoz ekkora eltérést. Általában 5%-os szignifikancia-szinten minősítünk, tehát elvetjük H0-t, ha a minták közötti variancia oly mértékben nagyobb a mintán belüli varianciánál amelyet a véletlen csak 5%-ban okozna. (Az 5% feliratú F-táblázatot kell használni, mivel itt az F-próba egyoldalú).
⎛
Ha igaz H0, akkor a mintaátlagok varianciája = variancia/n ⎜⎜ s x
=
2
⎝
s2 ⎞ ⎟ ahol n a minták elemszáma. n ⎟⎠
(Valójában a helyzet annyival bonyolultabb, hogy a minták elemszámai különbözőek lehetnek: n1, n2, …nh, melyek összege N, de ez a lényegen nem változtat.) Ha a mintaátlagok varianciájának n-szerese szignifikánsan nagyobb mint a (normál) variancia, akkor a mintaátlagok nem csupán a véletlen, hanem a kezelések miatt is eltérnek, azaz elvetjük H0-t. •
sb2 : az ún. mintán belüli variancia: a véletlen (nem szisztematikus hatás) okozta variancia becslése az összes h mintából álló nagy mintában (akár igaz H0 akár nem). h
s b2 =
n
∑∑ ( x j =1 i =1
ij
=
h
∑n j =1
− x j )2
j
−h
Qb , N −h
a mintaelemek eltérését a a saját mintájuk átlagától négyzetre emeljük, összegezzük és osztjuk az összesített szabadságfokkal, N-h-val. (Ez utóbbi azért nem N-1, mert több (h) mintából becsültük a varianciát:
∑ (n h
j =1
•
− 1) = ∑ n j − h = N − h ) h
j
j =1
sk2 : az ún. minták közötti variancia, valójában a mintaátlagok becsült varianciájának n-szerese, amely H0 fennálása 2
esetén szintén ugyanazt az összvarianciát becsli mint sb . h
s k2 =
∑n j =1
j
( x j − x) 2 =
h −1
Qk h −1
2
Ha a kezelések hatástalanok, akkor ugyanazt becsli mint sb , tehát ugyanaz a várható értéke: az elméleti variancia. Ha 2
azonban valamely kezelés hatásos, akkor s k várható értéke nagyobb lesz, mert a mintaátlagok nem csak a véletlen, hanem a szisztematikus hatás miatt is különböznek.
Fˆ kiszámításakor mindig sk2 -et osztjuk sb2 -tel, akkor is, ha esetleg sk2 a kisebb (ez a ritkább, ld. később). Tehát lehet Fˆ < 1, ilyenkor H0-t megtartjuk, meg sem kell nézni a táblázatban.
4
A variancia analízis két alapmodellje I. Modell A különbséget KEZELÉS okozza. Cél: a mintaátlagok közötti különbségek felmérése. Az egyes értékek összetevői a következők: xij =µ + αj + εij főátlag (várható érték) + kezelés okozta eltérés (pozitív v. negatív) + norm. eloszlású random komponens (nulla várható értékkel) Ha az F próba szignifikáns, tovább mehetünk annak kimutatására, hogy mely átlagok között vannak szignifikáns különbségek (SD). Ha 2 mintaátlag különbsége meghaladja az SD-t Æ ők okozzák a nagy varianciát. a) Ha előre eldöntöttük, hogy melyik csoportok átlagát akarjuk összehasonlítani (pl. többféle kezelés és egy kontroll esetén: a kezeltek különböznek-e a kontrolltól), akkor az ún. (meg)tervezett eset áll elő. b) Ha a kísérlet eredményének ismeretében választjuk ki a két leginkább különböző átlagú csoportot, az az ún. nem tervezett eset. Utóbbi esetben szigorúbb kritérium alapján döntjük el, hogy szignifikáns-e a különbség. I. modell F próba nem szignifikáns STOP
szignifikáns megtervezett eset a priori
nem tervezett eset a posteriori (szigorúbb)
II. Modell Nincsenek rögzített kezelések, a csoportok különbségét random hatások okozzák. xij =µ + Aj + εij ahol Aj egy normális eloszlású változó σA2 varianciával – lényegében a külső varincia. εij – belső variancia Ekkor az a kérdés, hogy mi a csoportok közötti különbség, érdektelen. A σA2 (külső) variancia az összvariancia hányad részét teszi ki? Cél: pl. mintavételezés optimalizálása. (elővizsgálat egy drágább vizsgálat előtt) Képzeljünk el egy olyan mintavételezést, amely szükségképpen rétegzett random típusú. Pl. Patkánymájban szeretnénk meghatározni egy enzim koncentrációját. Mivel egy patkánymájon belül is lehetnek eltérések, ezért egy-egy állat májából több mintát veszünk. (Tehát itt egy csoport megfelel egy patkány májából vett több mintának. Ha a máj teljesen homogén lenne, akkor nem lenne rá szükség, hogy egy májból több mintát vegyünk.) Ha a mintavételezés célja becslés, akkor csökkenteni szeretnénk a varianciát és ehhez - mintegy előkísérletképpen – varianciaanalízissel megállapítjuk, hogy a mintelemek varianciája nagyobb részben származik-e patkányok közötti különbségből vagy pedig az egyes patkányok májain belüli inhomogenitásból. 5
itt: Aj – melyik patkányt választom ki, εij – ingadozás Egyik végletképpen tekintsük azt az esetet, hogy minden egyes patkány szinte egyforma (beltenyésztett törzs, azonos tartási körülmények), de egy májon belül eltérések vannak. Ekkor a variancia szinte teljesen a csoporton belüli variációból ered, vagyis az egyes májakon belüli egyenetlenségből. ( sb2 > sk2 ) A becslés optimalizálásához az egyes májakon belüli mintaelemszámot kell növelni (csoporton belüli mintaelemszámot, n-t), hogy az összvarianciát csökkentsük, a patkányok számát nem érdemes. A másik végletnek megfelel az, ha a variancia fő forrása a patkányok közötti különbség, az egyes májakon belül alig tér el a mért változó. ( sk2 > sb2 ) Ekkor a variancia főként a csoportok közötti különbségből ered, tehát a becslés optimalizálásához a patkányok számát (csoportok számát, h-t) kell növelni, míg az egy-egy májon belüli mintaelemszámot nem érdemes.
A variancia-analízis folytatása Modell Ha az F-próba szignifikáns Æ mely párokra van szignifikáns eltérés??
SD = Szignifikáns differencia •
Megtervezett eset (a priori párok) érvényes a t eloszlás, a t képletében használjuk a jobb becslést adó teljes belső varianciát, s ne a két minta varianciáját n és m a két összehasonlítandó minta elemszáma
t=
x1 − x2 sb2 (
n+m ) nm
ebből a legkisebb, már szignifikáns különbség
SD = t(α , N −h) sb2 ( •
n+m ) nm
Nem tervezett (a posteriori) szigorítani kell a tesztet, hogy az I. hiba elkövetésének valószínűsége a végrehajtandó összehasonlításokban összesen ne haladja meg α-t. (SD magasabb legyen) α' = 1 – (1 – α)1/g
ahol g az összehasonlítások száma, α' – az I. típusú hiba egy összehasonlításnál ( α = 1 – (1 – α')g )
és SD-t a fenti képlettel, a kisebb α' mellett kikeresett kritikus értékkel számítjuk ki.
6
Az F eloszlás és a t-eloszlás kapcsolata Voltaképpen az ANOVA a h=2 esetre a t-próbával megegyező Az F = s12 / s22 egy variancia hányados
a t2 =
( x − µ )2 sx2
szintén variancia-hányados, hiszen a számláló is négyzetes eltérés 1 szab. fokkal. Vagyis általában
t(2h−1) = F(1,h−1) Ebből viszont következik, hogy a variancia elemzésben is feltétel a varianciák azonossága. Ennek próbája voltaképpen az első lépés az elemzés során. Többféle teszt van, a legegyszerűbb azonos mintanagyságokra az Fmax teszt: Fmax = maxi { si2 } / mini { si2} Ennek is van eloszlása, stb. a kritikus értékeket táblázat foglalja össze.
7