Varianciaanal´ızis
2012. ´aprilis 18.
Varianciaanal´ızis (analysis of variance, ANOVA) Ism´etelt m´er´eses ANOVA K´erd´esek: (1) van-e k¨ ul¨ onbs´eg a csoportok k¨ oz¨ ott (t-pr´oba ´altal´anos´ıt´asa), (2) van-e hat´asa a vizsg´alt t´enyez˝ onek (regresszi´osz´am´ıt´as: magyar´az´ o v´altoz´ ok hat´asa a f¨ ugg˝o v´altoz´ora). I
egyt´ enyez˝ os (egyszempontos): ha a f¨ uggetlen v´altoz´onak kett˝on´el t¨obb szintje van (pl. fiatalok, k¨ oz´epkor´ uak ´es id˝osek ¨osszehasonl´ıt´asa),
I
t¨ obbt´ enyez˝ os (t¨obbszempontos): t¨ obb f¨ uggetlen v´altoz´o szintjeinek kombin´aci´ oja,
I
f¨ uggetlen mint´ as: ha az adatok k¨ ul¨ onb¨ oz˝ o elemeken v´egzett m´er´esekb˝ol sz´armaznak (pl. magyar, cseh ´es angol besz´el˝ok),
I
ism´ etelt m´ er´ eses: ha egy adatk¨ ozl˝ ot˝ ol t¨ obbf´ele adat sz´armazik.
Alkalmaz´asi ter¨uletek
I
Egy adott kezel´es k¨ ul¨ onb¨ oz˝ o v´altozatainak hat´asa a kontrollcsoporthoz k´epest (pl. magasabb d´ ozis, alacsonyabb d´ozis, placeb´o).
I
T¨obbf´ele m´odszer hat´ekonys´aga egym´ashoz ´es a kontrollcsoporthoz k´epest.
I
Nomin´alis f¨ uggetlen v´altoz´ ok ´altal kiv´altott hat´as (pl. k¨ ul¨onb¨oz˝o szemantikai t´ıpusok hat´asa reakci´ oid˝ore).
Felt´etelek I
Egyes csoportokon bel¨ ul norm´alis eloszl´as ´es
I
azonos sz´or´as (varianci´ak homogenit´asa),
I
megfigyel´esek egym´ast´ ol val´ o f¨ uggetlens´ege (szfericit´as).
Norm´alis eloszl´as felt´etel´enek megs´ert´es´et nem szok´as sarkalatos probl´em´anak tekinteni, mert (1) 30 f¨ ol¨ otti elemsz´am m´ar term´eszetszer˝ uleg normlis eloszl´as´ u, (2) 10–20 elemn´el nem nagy az elt´er´es, (3) 10-n´el kisebb elem eset´en nincs igaz´an ´ertelme eloszl´asr´ol besz´elni. Varianci´ak homogenit´asa ´es a megfigyel´esek egym´ast´ol val´o f¨ uggetlens´ege (szfericit´as) viszont alapvet˝ o, k¨ ul¨ onben az eredm´enyek nem megb´ızhat´ oak.
Egyt´enyez˝os varianciaanal´ızis
Elj´ar´as: az ¨osszes variancia feloszt´asa a faktorok kombin´aci´oj´ab´ol ad´od´o csoportok k¨ oz¨ otti ´es a csoportokon bel¨ uli varianci´ara (innen az elnevez´es). 1. csoporton bel¨ uli variabilit´as kisz´am´ıt´asa a csoport´atlagt´ol val´o elt´er´es-n´egyzet¨osszeggel (→ variancia), 2. csoportok varianci´aj´anak ´atlaga → v´eletlen hiba varianciabecsl´ese = regresszi´ osz´am´ıt´as rezidu´alis varianci´aja, 3. d¨ont´es: ha a csoportok k¨ oz¨ otti variabilit´as nagyobb, mint a csoportokon bel¨ uli variabilit´as, akkor a t´enyez˝onek (f¨ uggetlen v´altoz´onak) van hat´asa.
Varianciat´abla ´ Atlagos elt´er´esn´egyzet¨ osszeg Mean Sq
Variancia eredete source Kezel´esek k¨ oz¨ otti between Kezel´esen bel¨ uli within
Szabads´agi fok df
Elt´er´esn´egyzet¨ osszeg Sum Sq
k −1
SSK
k(n − 1)
SSH
MSH =
Teljes total
nk − 1
SST
MST =
MSK =
SSH = rezidu´alis hiba a regresszi´ osz´am´ıt´as alapj´an
SSK k−1
SSH k(n−1)
SST nk−1
F
F =
p
MSK MSH
p
P´elda Reiczigel, Harnos & Solymosi, 316. o.: T´apoldat hat´ekonys´ag´anak tesztel´ese n¨ov´enyek n¨oveked´es´ere. Elj´ar´as: n¨ ov´enyek ¨ont¨oz´ese t¨om´eny, ill. h´ıg t´apoldattal, kontroll: v´ız. K´erd´es: serkenthet˝o-e a n¨ov´enyek n¨oveked´ese a t´apoldat seg´ıts´eg´evel? R-k´od: magassag = c(56,48,66,54,57,50,47,58,54,46,60,48) tapoldat = rep(c("tomeny","hig","viz"),each=4) novtap = data.frame(magassag,tapoldat) rep(): t´apoldat t´ıpus´anak ism´etl´ese: opci´ ok: times=4 (teljes sor ism´etl´ese n´egyszer), each=4 (minden egyes elem ism´etl´ese n´egyszer). Fontos: az adatm´atrixot a data.frame() paranccsal hozzuk l´etre, ami a tapoldat karakterv´altoz´ okat faktorr´a alak´ıtja. F¨ uggetlen v´altoz´ok´ent kiz´ar´olag factor t´ıpus´ u v´altoz´ ok adhat´oak meg!
Varianciaelemz´es az R-ben Norm´alis eloszl´as tesztel´ese: tapply(novtap$magassag,novtap$tapoldat,shapiro.test) tapply(): f¨ ugg˝o v´altoz´ o kisz´am´ıt´asa f¨ uggetlen v´altoz´o ¨osszes faktorszintj´ere a megadott f¨ uggv´eny szerint, azaz tapply(f¨ ugg¨ ov´ altoz´ o,f¨ uggetlenv´ altoz´ o(k),f¨ uggv´ eny). Mindh´arom cella norm´alis eloszl´as´ u. Varianci´ak homogenit´as´anak ellen˝ orz´ese: bartlett.test(novtap$magassag,novtap$tapoldat): varianci´ak azonosak. NB: Bartlett-pr´oba kett˝ on´el t¨ obb pr´ oba ¨ osszehasonl´ıt´as´ara is alkalmazhat´o, de csak norm´alis eloszl´as eset´en ↔ var.test() (F-pr´oba) csak k´et mint´at tud ¨ osszehasonl´ıtani. Ha t¨obb, nem norm´alis eloszl´as´ u pr´oba: levene.test() a car k¨onyvt´arb´ol.
Varianciaanal´ızis k´et f¨ uggv´eny alapj´an: aov() lm() K¨ ul¨onbs´eg: aov() csak azonos elemsz´am´ u cell´ak (kiegyens´ ulyozott elrendez´es) eset´en alkalmazhat´ o. Elt´er˝ o cellanagys´ag eset´en lm() (indokl´as ld. Reiczigel et al., 375ff.). h = aov(novtap$magassag∼novtap$tapoldat), vagy h = aov(magassag∼tapoldat,data=novtap)
Varianciaanal´ızis k´et f¨ uggv´eny alapj´an: aov() lm() K¨ ul¨onbs´eg: aov() csak azonos elemsz´am´ u cell´ak (kiegyens´ ulyozott elrendez´es) eset´en alkalmazhat´ o. Elt´er˝ o cellanagys´ag eset´en lm() (indokl´as ld. Reiczigel et al., 375ff.). h = aov(novtap$magassag∼novtap$tapoldat), vagy h = aov(magassag∼tapoldat,data=novtap) summary(h). T´abl´azat elrendez´ese megegyezik a 6. di´aval. Kapott F-´ert´ek az adott szabads´agfokokra nem mutat szignifik´ans elt´er´est a kezel´esek k¨oz¨ otti ´es kezel´eseken bel¨ uli ´atlagos elt´er´es-n´egyzet¨osszegek k¨ oz¨ ott. ⇒ t´apoldat alkalmaz´asa nincs hat´assal a n¨oveked´esre. Igaz ez a v´ız ´es a t¨om´eny oldat ¨ osszehasonl´ıt´as´ara is?
Post hoc-tesztek Probl´ema: az ¨osszehasonl´ıt´asok nagy sz´am´aval n˝ o az α-hiba lehet˝os´ege, azaz annak a val´ osz´ın˝ us´ege, hogy hib´as szignifik´ans p-´ert´eket kapunk. M´odszerek: I
P´aronk´enti ¨osszehasonl´ıt´as t-pr´ ob´akkal, majd a Bonferroni-korrekt´ ura alkalmaz´asa: szignifikancia-hat´ar , azaz konfidenciaintervallum / ¨ osszes lehets´eges α/ k(k−1) 2 p´aros´ıt´as. H´atr´any: nagy sz´am´ u kombin´aci´ o eset´en szinte lehetetlen szignifik´ans k¨ ul¨ onbs´eget kimutatni.
I
Tukey-f´ ele /tu:ki/ post-hoc teszt: csak a f¨ uggetlen mint´as varianciaanal´ızisre alkalmazhat´ o, az ism´etelt m´er´esesre nem.
I
Dunnett-pr´ oba: ´altal´anosabb alkalmazhat´ os´ag.
Post hoc-tesztek 1. Tukey-f´ele post hoc-teszt bemenete az aov() kimenetek´ent kapott objektum: h = aov(novtap$magassag∼novtap$tapoldat) TukeyHSD(h)
Post hoc-tesztek 1. Tukey-f´ele post hoc-teszt bemenete az aov() kimenetek´ent kapott objektum: h = aov(novtap$magassag∼novtap$tapoldat) TukeyHSD(h) Egyik p´aros´ıt´as sem k¨ ul¨ onb¨ ozik szignifik´ansan. 2. t-pr´oba Bonferroni-korrekt´ ur´aval Pl. v´ız ´es t¨om´eny oldat ¨ osszehasonl´ıt´asa. Lehets´eges kombin´aci´ok sz´ama 3, teh´at a konfidencia-intervallum hat´ara Bonferroni-korrekt´ ura ut´an 0,0167. hig = novtap$tapoldat == "hig" t.test(novtap$magassag[!hig]∼novtap$tapoldat[!hig]
Post hoc-tesztek 1. Tukey-f´ele post hoc-teszt bemenete az aov() kimenetek´ent kapott objektum: h = aov(novtap$magassag∼novtap$tapoldat) TukeyHSD(h) Egyik p´aros´ıt´as sem k¨ ul¨ onb¨ ozik szignifik´ansan. 2. t-pr´oba Bonferroni-korrekt´ ur´aval Pl. v´ız ´es t¨om´eny oldat ¨ osszehasonl´ıt´asa. Lehets´eges kombin´aci´ok sz´ama 3, teh´at a konfidencia-intervallum hat´ara Bonferroni-korrekt´ ura ut´an 0,0167. hig = novtap$tapoldat == "hig" t.test(novtap$magassag[!hig]∼novtap$tapoldat[!hig] p = 0.4462, azaz a k¨ ul¨ onbs´eg messze nem szigifik´ans.
T¨obbt´enyez˝os varianciaanal´ızis
K´et vagy t¨obb f¨ uggetlen v´altoz´ o hat´asa a f¨ ugg˝ o v´altoz´ora. Nullhipot´ezisek: (1) Els˝ o t´enyez˝ o (f¨ uggetlen v´altoz´o) nincs hat´assal a f¨ ugg˝o v´altoz´ora. (2) M´asodik t´enyez˝ o nincs hat´assal a f¨ ugg˝o v´altoz´ora. (3) K´et t´enyez˝ o nincs egym´asra hat´assal, nincs k¨oz¨ott¨ uk interakci´o. Elj´ar´as: el˝osz¨or a k´et f¨ uggetlen v´altoz´ o k¨ oz¨ otti interakci´ot tesztelj¨ uk, majd ezek hat´as´at k¨ ul¨ on-k¨ ul¨ on.
R-k´od ´ Ujabb n¨ov´enyeket ¨ont¨oz¨ unk meg t´apoldattal ´es v´ızzel, de most n¨ov´enyenk´ent k´et elt´er˝ o fajt´at tesztel¨ unk. K´od let¨olthet˝o innen: http://biostatkonyv.hu/ R-k´odok a 2010-es kiad´ashoz, biostat.R, fejezet10.R, 10.3-as p´elda. Adatm´atrix neve novtap2 legyen (adat t´ ul ´altal´anos). h = aov(magassag∼tapoldat*fajta,data=novtap2) summary(h)
R-k´od ´ Ujabb n¨ov´enyeket ¨ont¨oz¨ unk meg t´apoldattal ´es v´ızzel, de most n¨ov´enyenk´ent k´et elt´er˝ o fajt´at tesztel¨ unk. K´od let¨olthet˝o innen: http://biostatkonyv.hu/ R-k´odok a 2010-es kiad´ashoz, biostat.R, fejezet10.R, 10.3-as p´elda. Adatm´atrix neve novtap2 legyen (adat t´ ul ´altal´anos). h = aov(magassag∼tapoldat*fajta,data=novtap2) summary(h) T´apoldat t´ıpusa ´es fajta nincs hat´assal egym´asra, teh´at nincs interakci´o a k´et f¨ uggetlen v´altoz´ o k¨ oz¨ ott. h = aov(magassag∼tapoldat+fajta,data=novtap2) summary(h) Egyes p-´ert´ekek ´ıgy m´eg kisebbek.
´ ekel´es Ert´ D¨ont´es H1 jav´ara: az alkalmazott t´apoldat mindk´et n¨ov´enyfajta eset´eben szignifik´ansan nagyobb n¨ oveked´est okoz. K´erd´es: el´eg-e a k´et fajta eset´eben h´ıg t´apoldatot alkalmazni a szignifik´ans n¨oveked´es kiv´alt´as´ahoz?
´ ekel´es Ert´ D¨ont´es H1 jav´ara: az alkalmazott t´apoldat mindk´et n¨ov´enyfajta eset´eben szignifik´ansan nagyobb n¨ oveked´est okoz. K´erd´es: el´eg-e a k´et fajta eset´eben h´ıg t´apoldatot alkalmazni a szignifik´ans n¨oveked´es kiv´alt´as´ahoz? Elj´ar´as: 1-es ´es 2-es fajt´ara a v´ız ´es h´ıg oldat p-´ert´ek´enek o¨sszehasonl´ıt´asa Tukey-f´ele post hoc-teszttel (¨ osszes kombin´aci´ot interakci´ot felt´etelez˝o modellel kapjuk csak meg). h = aov(magassag∼tapoldat*fajta,data=novtap2) TukeyHSD(h)
´ ekel´es Ert´ D¨ont´es H1 jav´ara: az alkalmazott t´apoldat mindk´et n¨ov´enyfajta eset´eben szignifik´ansan nagyobb n¨ oveked´est okoz. K´erd´es: el´eg-e a k´et fajta eset´eben h´ıg t´apoldatot alkalmazni a szignifik´ans n¨oveked´es kiv´alt´as´ahoz? Elj´ar´as: 1-es ´es 2-es fajt´ara a v´ız ´es h´ıg oldat p-´ert´ek´enek o¨sszehasonl´ıt´asa Tukey-f´ele post hoc-teszttel (¨ osszes kombin´aci´ot interakci´ot felt´etelez˝o modellel kapjuk csak meg). h = aov(magassag∼tapoldat*fajta,data=novtap2) TukeyHSD(h) viz:1-hig:1 viz:2-hig:2
p adj 0.0181639 0.0005648
A h´ıg oldat szignifik´ansan nagyobb n¨ oveked´est eredm´enyez mindk´et fajta eset´eben, a t¨ om´eny ´es a h´ıg oldat k¨ oz¨ott viszont nem szignifik´ans a k¨ ul¨ onbs´eg.
Tov´abbi feladat
olthet˝ o: clarin.nytud.hu/∼mady, 8. ´ora ml vow.RData alapj´an (let¨ anyaga). Igaz-e az, hogy a fels˝o nyelv´all´as´ u mag´anhangz´ ok r¨ovidebbek, mint a k¨oz´eps˝o ´es als´o nyelv´all´as´ uak? (Sz¨ uks´eges oszlopok: dur, hgt.) Hat´assal van-e a tartamra a k¨ ornyez˝ o m´assalhangz´o z¨ong´ess´ege (voi), a mag´anhangz´o-hossz´ us´ag (quan), ´es a mag´anhangz´o min˝os´ege (qual)? Melyik tulajdons´agok vannak interakci´oban egym´assal? Az adatok elemz´ese el˝ ott ´erdemes a viszonyokat boxplotokon is megszeml´elni.