Nemparametrikus tesztek Ism´etelt m´er´eses ANOVA
2012. ´aprilis 25.
M´ajus 2-´an, azaz j¨ov˝o h´eten nem lesz ´ ora, ennek a p´otl´asa volt az ´aprilis 10-i ´ora. ´ vessz¨ M´ajus 9-´en az ism´etelt m´er´eses MANOVA-t uk, ezut´an gyakorl´o feladatok megold´asa, nyitott k´erd´esek megv´alaszol´asa stb. M´ajus 16-´an ZH azoknak, akik jegyet akarnak szerezni. Laptopra nem lesz sz¨ uks´eg, feladatlap lesz. A helysz´ın a 206-os szoba.
Nemparametrikus m´odszerek
Alkalmaz´asuk: I
nomin´alis adatok (gyakoris´agok) eset´en,
I
ordin´alis adatok eset´en,
I
metrikus adatok eset´en (intervallum ´es ar´anysk´ala), ha nem norm´alis eloszl´as´ uak, vagy ha varianciahomogenit´as felt´etele nem teljes¨ ul.
Az u ´n. Likert-sk´ala (pl. term´eszetess´egi ´ıt´eletek 1–5-ig terjed˝o sk´al´an) meg´ıt´el´ese nem egy¨ ontet˝ u: egyesek szerint ordin´alis, m´asok szerint metrikusnak is tekinthet˝ o.
χ2 -pr´oba
Egy vagy k´et nomin´alis sk´al´aj´ u minta eloszl´as´anak illeszked´es´et teszteli. V´art ´ert´ek cell´ank´ent legal´abb 5. Egy minta: khi-n´egyzet-pr´ oba eloszl´asvizsg´alatra. Megfigyel´esek gyakoris´ag´at ¨osszehasonl´ıtjuk a v´art gyakoris´aggal, azaz n/k-val. P´eld´aul: ugyanannyi gyerek sz¨ uletik-e minden h´ onapban? 100 f˝os minta eset´en megfigyelt gyakoris´agok ´es v´art gyakoris´agok sz´ama: megf. v´ art
jan 8 8,3
feb 9 8,3
m´ ar 10 8,3
´ apr 4 8,3
m´ aj 14 8,3
j´ un 7 8,3
j´ ul 9 8,3
aug 10 8,3
szept 6 8,3
okt 9 8,3
nov 8 8,3
dec 6 8,3
P´elda
Illeszkednek-e a megfigyelt gyakoris´agok a v´art gyakoris´aghoz? szuletes = c(8,9,10,4,14,7,9,10,6,9,8,6) chisq.test(szuletes) eredm´eny: p = 0.6698 Mivel p > 0.05, az illeszked´es hipot´ezis´et nem vetj¨ uk el. Akkor sem, ha m´ajusban legal´abb n´eggyel t¨ obb gyerek sz¨ uletett, mint b´armely m´as h´onapban! Ha p < 0.05, a megfigyelt gyakoris´agok nem illeszkednek a v´art gyakoris´agokhoz, azaz legal´abb egy ´ert´ek kil´ og (pl. m´ajusban 20 gyerek sz¨ uletett).
χ2 -pr´oba k´et mint´ara Khi-n´egyzet-pr´oba f¨ uggetlens´egvizsg´alatra: f¨ uggetlenek-e a gyakoris´agok a nomin´alis sk´ala szintjeit˝ ol? Itt a megfigyelt gyakoris´agokat nem a v´art gyakoris´aggal, hanem a m´asik mint´aval hasonl´ıtjuk ¨ ossze. Gyakoribb-e a hangs´ ulytalanod´as f´ okuszos mondatokban posztverb´alis helyzetben, mint mondatf´ okusz eset´en?
hangs´ ulytalan hangs´ ulyos
mondatf´ okusz 11 31
sz˝ uk f´ okusz 17 25
kontraszt´ıv f´okusz 14 28
H0 : az eloszl´asok f¨ uggetlenek a nomin´alis v´altoz´ o szintjeit˝ol, azaz egyform´an gyakori a hangs´ ulytalanod´as mindegyik oszt´alyban.
P´elda
deacc = cbind(c(11,31),c(17,25),c(14,28)) chisq.test(deacc) p = 0.38: az eloszl´as nomin´alis v´altoz´ ot´ ol val´ o f¨ uggetlens´eg´enek hipot´ezis´et nincs okunk elvetni. A gyakoris´agok teh´at f¨ uggetlenek a f´ okuszt´ıpust´ol. A teszt szerint a f´okuszos mondatokban nem szignifik´ansan gyakoribb az irt´ohangs´ uly, mint a mondatf´ okuszosokban (vagy f´ okusz n´elk¨ uliekben).
Rangpr´ob´ak (nemparam´eteres pr´ob´ak)
Alapgondolat: a pr´obastatisztik´at nem a megfigyelt ´ert´ekekb˝ol, hanem azok rangsz´am´ab´ ol sz´amoljuk ki (ld. Spearman-f´ele ρ). Felhaszn´al´asuk: I
ordin´alis f¨ ugg˝o v´altoz´ o eset´en,
I
nem norm´alis eloszl´as´ u metrikus f¨ ugg˝ o v´altoz´o eset´en.
Felt´etel: mint´ak ¨osszehasonl´ıthat´ os´aga, azaz a s˝ ur˝ us´egf¨ uggv´enyek azonos alakja, ez´altal a sz´ or´asok azonoss´aga.
Pr´ob´ak t´ıpusai Pr´ob´ak: I
Mann-Whitney-pr´ oba, U-pr´ oba: a f¨ uggetlen mint´as t-pr´oba megfelel˝oje: k´et ordin´alis vagy nem norm´alis eloszl´as´ u f¨ uggetlen minta.
I
Wilcoxon-pr´oba: a p´aros t-pr´ oba megfelel˝ oje: k´et ordin´alis vagy nem norm´alis eloszl´as´ u p´aros minta.
I
Kruskal-Wallis-pr´oba, H-pr´ oba: a f¨ uggetlen mint´as egyt´enyez˝os varianciaanal´ızis megfelel˝ oje: kett˝on´el t¨obb ordin´alis vagy nem norm´alis eloszl´as´ u f¨ uggetlen minta.
R-f¨ uggv´enyek: Mann-Whitney ´es Wilcoxon-pr´ oba: wilcox.test(paired=F vagy paired=T). Kruskal-Wallis-pr´oba: kruskal.test().
P´elda: Mann-Whitney-pr´oba 7.18 p´elda a Reiczigel et al. k¨ onyvb˝ ol: Hat´ekony-e egy tesztelt vask´esz´ıtm´eny a v´erszeg´enys´eg ellen? Az adatok a kezel´es (szer ´es placeb´ o) ut´ani hemoglobinszintet mutatj´ak. kezelt = c(9.1, 10.3, 11.0, 11.5, 11.9, 9.5, 10.6, 9.3, 11.0, 9.8) kontroll = c(8.1, 8.4, 9.2, 9.4, 8.8, 9.8, 8.2, 10.3, 9.5) wilcox.test(kezelt,kontroll) p = 0.011, azaz a nullhipot´ezist elvetj¨ uk, a kezelt csoport hemoglobinszintje szignifik´ansan magasabb.
P´elda: Wilcoxon-pr´oba Mennyire elfogadhat´o a hotelba, ill. hotelbe alak? Egy 1-t˝ol 5-ig terjed˝o sk´al´an kell ´ert´ekelni, 1: egy´altal´an nem elfogadhat´o, 5: teljesen elfogadhat´o. T´ız megk´erdezett: hatsom = c(5,5,5,5,4,5,5,5,4,5) elsom = c(1,3,5,4,2,3,2,4,5,2). Itt a t´ız megk´erdezett mindk´et alakot ´ert´ekelte, ez´ert a p´aros Wilcoxon-pr´ob´at alkalmazzuk: wilcox.test(hatsom,elsom,paired=T) p = 0.017, a nullhipot´ezist, a mint´ak rangsor´anak azonoss´ag´at elvetj¨ uk, ´es az ´ıt´eleteket k¨ ul¨ onb¨ oz˝ onek tekintj¨ uk.
P´elda: Kruskal-Wallis-pr´oba longvow.RData a clara.nytud.hu/∼mady oldalr´ ol, 7. ´ora mell˝ol. Ellen˝orizz¨ uk, hogy a tartamok a h´arom mag´anhangz´ocsoportban norm´alis eloszl´ast mutatnak-e.
P´elda: Kruskal-Wallis-pr´oba longvow.RData a clara.nytud.hu/∼mady oldalr´ ol, 7. ´ora mell˝ol. Ellen˝orizz¨ uk, hogy a tartamok a h´arom mag´anhangz´ocsoportban norm´alis eloszl´ast mutatnak-e. tapply(longvow$dur,longvow$vowel,shapiro.test) p /u:/-ra ´es /a:/-ra szignifik´ans, teh´at nem teljes¨ ul a norm´alis eloszl´as felt´etele. Ez´ert: kruskal.test(longvow$dur∼longvow$vowel) Hibajelz´es. Mi´ert?
P´elda: Kruskal-Wallis-pr´oba longvow.RData a clara.nytud.hu/∼mady oldalr´ ol, 7. ´ora mell˝ol. Ellen˝orizz¨ uk, hogy a tartamok a h´arom mag´anhangz´ocsoportban norm´alis eloszl´ast mutatnak-e. tapply(longvow$dur,longvow$vowel,shapiro.test) p /u:/-ra ´es /a:/-ra szignifik´ans, teh´at nem teljes¨ ul a norm´alis eloszl´as felt´etele. Ez´ert: kruskal.test(longvow$dur∼longvow$vowel) Hibajelz´es. Mi´ert? longvow$vowel nem faktor, ez´ert: kruskal.test(longvow$dur∼as.factor(longvow$vowel)) p ´ert´eke j´oval 0, 000001 alatt van, k¨ ul¨ onbs´eg szignifik´ans.
Ism´etelt m´er´eses m´odszerek Hum´an tudom´anyok ¨or¨ ok probl´em´aja: egy szem´elyt˝ol ´altal´aban nem egy, hanem t¨obbf´ele adatot gy˝ ujt¨ unk. Ennek elemz´es´ere az egyszer˝ u varianciaanal´ızis NEM alkalmas, mert ott alapfelt´etel a mint´ak f¨ uggetlens´ege (ld. f¨ uggetlen mint´as t-pr´ oba). A varianciaanal´ızis f¨ ugg˝ o mint´as megfelel˝ oje az ism´ etelt m´ er´ eses varianciaanal´ızis, angolul repeated measures ANOVA. Fontos: az ism´etelt m´er´es nem arra vonatkozik, hogy egyazon besz´el˝ot˝ol t¨obbsz¨or vessz¨ uk fel ugyanazt az adatot (pl. mondatokat ¨ot ism´etl´essel olvasnak fel), hanem hogy egyazon szem´ ellyel ism´etelt m´er´eseket v´egz¨ unk. P´eld´aul orvostudom´anyban: egy bizonyos gy´ ogyszer hat´asa kezel´es el˝ott, a kezel´es megkezd´ese ut´an k´et h´ettel, egy h´ onappal stb.
Elj´ar´as Egy f¨ ugg˝o ´es egy vagy t¨ obb f¨ uggetlen v´altoz´ o tesztel´ese, ahol az ism´etl´es bels˝ o t´enyez˝oi (szem´elyek, n¨ ov´enyek, akiken/amiken az ism´etelt m´er´eseket v´egezt¨ uk) k¨ oz¨ otti k¨ ul¨ onbs´eget v´ eletlen hat´asnak tekintj¨ uk (within subjects factor ). Az alanyok lehetnek k´et k¨ ul¨ onb¨ oz˝ o csoport tagjai, amiket o¨sszehasonl´ıtunk (pl. k¨ ul¨ onb¨ oz˝ o nyelvek besz´el˝ oi, egy n¨ov´enyfaj k¨ ul¨onb¨oz˝o fajt´ai stb.), ez a k¨ oztes t´enyez˝ o (between subjects factor ). Alapfelt´etelek: I
I
I
legal´abb ¨ot alany (szem´ely, n¨ ov´eny, t´argy, b´armi, amin t¨obb m´er´est v´egz¨ unk), faktorkombin´aci´onk´ent egyetlen adat - azaz ha egyazon faktort t¨obbsz¨or m´ert¨ unk (pl. felolvas´askor t¨ obb ism´etl´es), ezeket ´atlagolni kell minden egyes alanyra ´es cell´ara, kiegyens´ ulyozott diz´ajn, azaz ha az egyik faktor k´et szintj´ehez k´et tov´abbi faktor tartozik, akkor a m´asik faktorn´al is vizsg´alni kell ugyanezt a k´et szintet.
H´atul¨ut˝ok I
R-ben nincs t¨obb faktor kombin´aci´ oj´ara ´atlagol´o be´ep´ıtett f¨ uggv´eny,
I
mivel ´atlagokkal sz´amolunk, az egyes cell´akon bel¨ uli varianci´at nem tudjuk figyelembe venni (erre a mixed models k´ın´al kiutat),
I
nem tudunk t¨obb within subject t´enyez˝ ot kombin´alni (→ mixed models),
I
csak a szfericit´asi felt´etel teljes¨ ul´ese eset´en alkalmazhat´o (→ ism´etelt m´er´eses t¨ obbv´altoz´ os varianciaanal´ızis, l´asd j¨ov˝o ´or´an)
I
nincs post-hoc tesztje, csak t-pr´ ob´ak Bonferroni-korrekt´ ur´aval (konfidenciaszint/¨ osszes lehets´eges kombin´aci´o sz´ama).
A mixed models ld. Baayen (2008): Analizing linguistic data c. k¨onyv´eb˝ol, pdf el´erhet˝ o itt: http://www.ualberta.ca/ baayen/publications.html, 2008-as publik´aci´ok.
Cell´ank´enti ´atlagok sz´am´ıt´asa anova.mean.r nev˝ u R-f¨ uggv´eny let¨ olt´ese innen: clara.nytud.hu/∼mady Szkript ´es f¨ uggv´eny k¨oz¨ otti k¨ ul¨ onbs´eg: f¨ uggv´enyben l´etrehozott v´altoz´ok (R-objektumok) nem jelennek meg a munkamem´ori´aban. Szkript ´es f¨ uggv´eny egyar´ant bet¨ olthet˝ oa source("eleresiutvonal") paranccsal, szkriptet k¨ozvetlen¨ ul be is lehet m´asolni egy sz¨ ovegszerkeszt˝ ob˝ ol az R-be (copy-paste). Ha a f¨ uggv´enyben szintaktikai hiba van, bet¨ olt´es helyett hibajelz´est kapunk. F¨ uggv´eny els˝o sora: fuggvenynev = function(kotelezoargumentum1, kotelezoargumentum2, ...), ahol h´arom pont tov´abbi opcion´alis sz´am´ u opcion´alis argumentumot jel¨ ol.
P´elda
Mondatv´egi k´etsz´otag´ u, /s/-re ´es /z/-re v´egz˝ od˝ o szavakban megm´ert¨ uk a frikat´ıv´an bel¨ uli z¨ ong´es tartom´any hossz´at. Z¨ong´esebbek-e a mondatv´egi /z/-k, mint az /s/-ek? zfin.RData, let¨olt´es innen: clara.nytud.hu/∼mady zmean = anova.mean(zfin$cvoice,zfin$subj,zfin$voiced) Kapott adatm´atrix oszlopainak elnevez´ese: names(zmean) = c("cvoice","subj","voiced")
Ism´etelt m´er´eses varianciaanal´ızis f¨uggv´enye I
F¨ ugg˝o v´altoz´o: m´assalhangz´ o z¨ ong´ess´eg´enek tartama (cvoice).
I
F¨ uggetlen v´altoz´o: z¨ ong´ess´eg (voiced).
I
Within subject factor: besz´el˝ o (subj).
I
Between subject factor: nincs.
summary(aov(cvoice∼ voiced + Error(subj/voiced), data=zmean)) Relev´ans p-´ert´ek: Error: subj:voiced sor alatt (ez jelzi az alanyok szerinti interakci´ ot). ´ azol´as: Abr´ er´ es alanya, interaction.plot(x-tengely, ism´ etelt m´ param´ eter) interaction.plot(zmean$voiced,zmean$subj,zmean$cvoice)
T¨obb t´enyez˝o
T¨obbt´enyez˝os varianciaanal´ızis k´eplete, ha nincs between subject factor, pl. ha megel˝oz˝ o m´assalhangz´ ora is k´ıv´ancsiak vagyunk: summary(aov(cvoice ∼ voiced*c1 + Error(subj/(voiced*c1)), data=zmean)) Ehhez a cell´ank´enti ´atlagokat u ´jra kell sz´amolni: zmean = anova.mean(zfin$cvoice, zfin$subj, zfin$voiced, zfin$c1)
Eredm´enyek
´ Ertelmez´ es: Error: subj:voiced z¨ ong´ess´egi tartamok besz´el˝onk´ent, z¨ong´ess´eg f¨ uggv´eny´eben (a p-´ert´ek v´altozott, mert az ´atlagokat u ´jrasz´amoltuk). Error: subj:c1 z¨ong´ess´egi tartamok besz´el˝ onk´ent, a megel˝oz˝o m´assalhangz´o f¨ uggv´eny´eben. Error: subj:voiced:c1 z¨ ong´ess´egi tartamok besz´el˝onk´ent, z¨ong´ess´eg ´es megel˝oz˝o m´assalhangz´ o interakci´ oja, azaz befoly´asolja-e a megel˝ oz˝ o m´assalhangz´ o a z¨ ong´ess´eg hat´as´at?
T¨obb csoport F´erfi ´es n˝oi besz´el˝ok mag´anhangz´ onak 1. ´es 2. form´ansa alapj´an kisz´amoltuk az egyes mag´anhangz´ ok artikul´aci´ os k¨oz´eppontt´ol val´o t´avols´ag´at (euklideszi t´avols´ag). Er˝ osebben reduk´alnak-e a f´erfiak, mint a n˝ok, azaz k¨ozelebb vannak-e a mag´anhangz´oik a k¨oz´epponthoz? Adatok: euk.RData, let¨ olt´es: clara.nytud.hu/∼mady. summary(aov(ET ∼V.num * nem + Error(beszelo/V.num), data=euk)) besz´el˝ok csoportj´ara nem kapunk p-´ert´eket. Mi´ert?
T¨obb csoport F´erfi ´es n˝oi besz´el˝ok mag´anhangz´ onak 1. ´es 2. form´ansa alapj´an kisz´amoltuk az egyes mag´anhangz´ ok artikul´aci´ os k¨oz´eppontt´ol val´o t´avols´ag´at (euklideszi t´avols´ag). Er˝ osebben reduk´alnak-e a f´erfiak, mint a n˝ok, azaz k¨ozelebb vannak-e a mag´anhangz´oik a k¨oz´epponthoz? Adatok: euk.RData, let¨ olt´es: clara.nytud.hu/∼mady. summary(aov(ET ∼V.num * nem + Error(beszelo/V.num), data=euk)) besz´el˝ok csoportj´ara nem kapunk p-´ert´eket. Mi´ert? Mivel a k´odol´as sz´amokkal t¨ ort´enik, R az adatokat eg´esz sz´amokk´ent (azaz numerikus v´altoz´ ok´ent) ´ertelmezi. F¨ uggetlen v´altoz´o csak faktor lehet! V´altoz´ ot ´at kell k´ odolni faktorr´a: euk$nem = as.factor(euk$nem) euk$V.num = as.factor(euk$V.num)
Gyakorl´as
Hogyan hat a t´ag, sz˝ uk ´es kontraszt´ıv f´ okusz a f´ okuszban lev˝o sz´o hangs´ ulyos sz´otagj´anak tartam´ara, ´es a megel˝ oz˝ o topik hangs´ ulyos sz´otagj´anak tartam´ara? Let¨olt´es: accdur.RData Feladat: ism´etelt m´er´eses varianciaanal´ızis sz´amol´asa, egy´eni trendek megjelen´ıt´ese az interaction.plot() f¨ uggv´ennyel. T´etelezz¨ uk fel, hogy a besz´el˝ ok egy r´esze szelekt´ıven gy˝ ujti a hullad´ekot, m´ıg m´asok az ¨ osszes szemetet egy helyen gy˝ ujtik (eco v´altoz´o). Van-e k¨ ul¨onbs´eg a csoportok k¨ oz¨ ott?