ANOVA,MANOVA Márkus László
2013. március 30.
Márkus László
ANOVA,MANOVA
2013. március 30.
1 / 26
ANOVA / MANOVA
osztályozás
One-Way ANOVA (Egyszeres osztályozás)
Analysis of Variance (ANOVA) = szóráselemzés A szórásokat elemezzük, hogy információt nyerjünk a várható értékek egyenl˝oségér˝ol !!! Az eltér˝o várható értékek további ingadozás forrásai, ami ”fölös” varianciaként (excess variance) jelentkezik az adatokban, ennek tesztelése nyújt lehet˝oséget a döntésre.
Márkus László
ANOVA,MANOVA
2013. március 30.
2 / 26
ANOVA / MANOVA
osztályozás
A minta 1. osztály N(µ1 , σ 2 ) X1,1 X2,1 .. .
2. osztály N(µ2 , σ 2 ) X1,2 X2,2 .. .
... ... ... ... .. .
k. osztály N(µk , σ 2 ) X1,k X2,k .. ..
Xn,1
Xn,2
...
Xn,k
Szóhasználat: i. osztály = i. változó = i. minta - alkalmazásfügg˝o. Sokszor 1 oszlop adott és mellette egy csoportosító vátozó pl. férfi-n˝o, autótípusok (biztosításban), kezelt-kezeletlen (orvosi alkalmazásban) etc. innen az ”osztályozás”. Az osztályokat/változókat/mintákat függetlennek, közös szórásúnak, és normális eloszlásúnak feltételezzük, csak a várható érték lehet különböz˝o. (Ez mind kell ahhoz, hogy végül az F-próba érvényes legyen.) Márkus László
ANOVA,MANOVA
2013. március 30.
3 / 26
ANOVA / MANOVA
osztályozás
A hipotézisek
H0 : µ1 = µ2 = ... = µk H1 : ∃ : µi 6= µj (Van legalább 2 olyan µ amely nem egyenl˝o.) Jelölések:
n
X•,j = ∑ Xi,j , i=1
X •,j = X j =
Márkus László
1 n ∑ Xi,j n i=1
ANOVA,MANOVA
2013. március 30.
4 / 26
ANOVA / MANOVA
osztályozás
A döntési eljárás elve
Becsüljük meg a szórást kétféleképpen: – A teljes n × k-as mintából (Az osztályokkénti szórásbecslést átlagolva) – Az egyes osztályok átlagainak szórásából Amennyiben a várható értékek között nincs (lényeges) eltérés, úgy a kétféle szórásbecslésnek statisztikailag ugyanazt kell adnia, vagyis eltérésük nem lehet szignifikáns. Ezt független normális eloszlású mintákra F-próbával ellen˝orizhetjük.
Márkus László
ANOVA,MANOVA
2013. március 30.
5 / 26
ANOVA / MANOVA
osztályozás
A szórásbecslések függetlensége
A függetlenséget a Fisher-Cohran tétel biztosítja, ugyanis: Normális eloszlású minta esetén a szórás becslése, a tapasztalati szórásnégyzet, független a várható érték becslését˝ol, azaz az átlagtól. =⇒ A teljes mintából történ˝o szórás becslése (ami az egyes osztályok szórásnégyzet becslésének átlaga) független az átlagoktól, ezért az átlagból számolt szórás becslését˝ol is. =⇒ Két független normális mintából becsült szórásnégyzetünk van, összehasonlításukra az F-próba érvényes.
Márkus László
ANOVA,MANOVA
2013. március 30.
6 / 26
ANOVA / MANOVA
osztályozás
Csoporton belüli szórásnégyzet
A tényleges számítás: (Csoport=osztály) w jelentése: within group = csoporton belüli 2
MSw = Sw∗ =
1 k ∗2 1 k ∑ni=1 (Xi,j − X j )2 = ∑ Sj = k ∑ k j=1 n−1 j=1
∑kj=1 ∑ni=1 (Xi,j − X j )2 SSw SSw = = = σb 2 k(n − 1) k(n − 1) kn − k
Márkus László
ANOVA,MANOVA
2013. március 30.
7 / 26
ANOVA / MANOVA
osztályozás
Csoportok közötti szórásnégyzet
b jelentése: between group = csoportok közötti (Feltesszük: minden csoport ugyanannyi, n, megfigyelést tartalmaz.) 2
Sb∗ =
1 · SSb ∑kj=1 (X j − X)2 = n k−1 k−1
de ez az átlagok szórásnégyzetét becsüli, azaz 2
MSb = n · Sb∗ =
Márkus László
σ2 n -et.
Tehát az n-szerese kell:
2 SSb b b =σ k−1
ANOVA,MANOVA
2013. március 30.
8 / 26
ANOVA / MANOVA
osztályozás
Szabadsági fokok - F próba
A szórások egyezését F-próbával ellen˝orizzük: F=
MSb (kn − k) · SSb = ∼ Fdb ,dw MSw (k − 1) · SSw
A szabadsági fokok: db = k − 1, dw = kn − k, az egyes becslésekben pont annyi lineáris kapcsolat van, amennyit az összeadandók számából levontunk. F > Fα -ra elutasítunk, ahol Fα a kritikus érték, a fenti F-eloszlás 1 − α kvantilise.
Márkus László
ANOVA,MANOVA
2013. március 30.
9 / 26
ANOVA / MANOVA
osztályozás
Különböz˝o elemszámú minták Amennyiben az egyes osztályok nem ugyanannyi elemb˝ol állnak (nj -b˝ol a k
j-ik), akkor N = ∑ nj mellett: j=1
MSw =
SSw , N −k k
SSb = ∑ nj (X j − X)2 , j=1
MSb =
SSb k−1
és a többi ugyanaz, db = k − 1, dw = N − k -val m˝uködik az F-próba.
Márkus László
ANOVA,MANOVA
2013. március 30.
10 / 26
ANOVA / MANOVA
osztályozás
One-way MANOVA Most minden egyes megfigyelést adatok egy vektora jellemez. Pl.Vízmin˝oség: különböz˝o kémiai komponensek(=vektor), kutakban(=osztályok), évente(=esetek) mérve, vagy: különböz˝o meteorológiai jellemz˝ok, eltér˝o helyeken, évente mérve) Az elemzés durván: minden ugyanaz, csak aláhúzással. 1. osztály N(µ 1 , Σ2 )
2. osztály N(µ 2 , Σ2 )
... ...
k. osztály N(µ k , Σ2 )
X 1,1 X 2,1 .. .
X 1,2 X 2,2 .. .
... ... .. .
X 1,k X 2,k .. ..
X µ,1
X µ,2
...
X µ,k
A szórásmátrix ismeretlen, de megegyezik minden osztályban. Márkus László
ANOVA,MANOVA
2013. március 30.
11 / 26
ANOVA / MANOVA
osztályozás
A hipotézisek
H0 : {µ 1 = µ 2 = ... = µ k } (Ahol a fentiek szerint X i,j , µ j várható érték˝u d-dimenziójú vektor)
H1 : { H0 nem áll fenn }, azaz ∃k : µk,i 6= µk,j (Van legalább két olyan vektor, amely nem egyenl˝o, azaz valamely komponensük nem egyenl˝o.)
Márkus László
ANOVA,MANOVA
2013. március 30.
12 / 26
ANOVA / MANOVA
osztályozás
Döntési Elv Ahogy az 1 dimenzióbana szórást úgy most a variancia-kovariancia mátrixot (szórásmátrixot, Σ-t) becsüljük kétféleképpen. A hibamátrix: SSw,1,1 , SPw,1,2 , · · · , SPw,1,d SPw,2,1 , SSw,2,2 , · · · , SPw,2,d E= . .. .. .. .. . . . SPw,d,1 , SPw,d,2 , · · · , SSw,d,d A hipotézismátrix:
SSb,1,1 , SPb,1,2 , · · · , SPb,1,d SPb,2,1 , SSb,2,2 , · · · , SPb,2,d H= . .. .. .. .. . . . SPb,d,1 , SPb,d,2 , · · · , SSb,d,d Márkus László
ANOVA,MANOVA
2013. március 30.
13 / 26
ANOVA / MANOVA
Ezekben
osztályozás
k
SPb,l,m = n · ∑ [(X j )l − (X)l ][(X j )m − (X)m ] j=1
ahol pl.: (X)m az X vektor m-ik komponense, X pedig az összes mintaelemvektor átlaga, d-dimenziójú vektorokkal. k
n
SPw,l,m = ∑ ∑ [(X i,j )l − (X j )l ][(X i,j )m − (X j )m ] j=1 i=1
Az SS persze az SP azonos index mellett.
Márkus László
ANOVA,MANOVA
2013. március 30.
14 / 26
ANOVA / MANOVA
osztályozás
A Wilks próba Hogyan teszteljük a két szórásmátrix egyenl˝oségét? A likelihood-hányados teszt Wilks próbájához vezet, amely a Λ=
det(E) 1 = det(E + H) det(I + E−1 H)
próbastatisztika eloszlásának meghatározásán alapul, ez a Wilks-féle Λ eloszlás. Megj.: Ha λi -k az E−1 H sajátékrtékei, akkor r
1 1 + λi i=1
Λ=∏
ahol r a H rangja. A szabadsági fokok ugyanazok, mint az 1-dimenziós esetben: dH = k − 1, dE = k · n − k Márkus László
ANOVA,MANOVA
2013. március 30.
15 / 26
ANOVA / MANOVA
osztályozás
A Wilks féle Λ eloszlás
Az 1 dimenziós az F próbának felel meg. Mátrixok (nem definiált) hányadosa helyett az ”egyik inverze szer a másik” eltérését nézzük az egységmátrixtól. Az eloszlás Λ = Λ(d, m, n) két független Wishart eloszlású mátrix 1 A ∼ Wd (Σ, m), B ∼ Wd (Σ, n) esetén az det(I+A oáll −1 B) eloszlása, és el˝ mint nem azonos, de független β eloszlású valváltozók szorzatának eloszlása. Nagy m-re χ 2 közelítése ismert. H0 -at viszont Λ kis értékei esetén utasítjuk el, tehát Λ < Λkrit. -ra!
Márkus László
ANOVA,MANOVA
2013. március 30.
16 / 26
ANOVA / MANOVA
osztályozás
Roy tesztje
ϑ=
λ1 1 + λ1
ahol λ1 az E−1 H legnagyobb sajátértéke. ϑ > ϑkrit. -ra utasítjuk el, kritikus értékei ismertek (természetesen Roy határozta meg), a ϑ nagy értékeire utasítunk el.
Márkus László
ANOVA,MANOVA
2013. március 30.
17 / 26
ANOVA / MANOVA
osztályozás
Pillai-Bartlett teszt
A Pillai-statisztika: s
λi i=1 1 + λi
V (s) = ∑ A kritikus tartomány Xkrit :
(s)
Xkrit = {V (s) ≥ Vα } (s)
s itt a H rangja, Vα a kritikus érték, a Pillai eloszlás 1 − α kvantilise. Ez nyilván a Roy-teszt kiterjesztése. Sok esetben hasznos a további s − 1 sajátértékben lév˝o információ a nullhipotézis elutasításához.
Márkus László
ANOVA,MANOVA
2013. március 30.
18 / 26
ANOVA / MANOVA
osztályozás
Lawley-Hotelling teszt
Lawley-Hotelling statisztika: s
U (s) = ∑ λi i=1
Hotelling általános
T2
statiszitikája. (s)
Xkrit = {U (s) > Uα } Két változóra visszaadja a Hotelling T 2 próbáját! Ahogy a Pillai-statisztikában is, s itt is a H rangja,.
Márkus László
ANOVA,MANOVA
2013. március 30.
19 / 26
ANOVA / MANOVA
osztályozás
A próbák ereje Mindegyik próba egzakt próba, tehát az els˝ofajú hiba valószín˝usége α mindegyikre. A kérdés a próbák ereje. Egyébként egy adott mintára az egyik próba elutasíthat, míg a másik elfogadhat, H0 igaz volta mellett is. Történetileg Wilks tesztje domináns, mivel rég ismert, és jó χ 2 illetve F közelítései vannak. Nézzük a próbák erejét. Kell az elutasítás valószín˝usége, ha nem igaz a H0 , vagyis, hogyha nem egyenl˝oek a várható értékek. 1-dimenzióban a várható értékek lineárisan összefügg˝ok, de p-dimenzióban a várható érték vektorok a térben szétszórtan, esetleg egy altérben, vagy egy egyenesen fekhetnek. 1-dimenzióban az F-próba egyenletesen leger˝osebb. d-dimenzióban a fenti próbák egyike sem egyenletesen leger˝osebb, az alternatív hipotézis igaz volta mellett a várható érték vektorok (melyek ekkor különböz˝oek) konfigurációjától függ˝oen lesz az egyik, vagy másik teszt er˝osebb, illetve gyengébb. Márkus László
ANOVA,MANOVA
2013. március 30.
20 / 26
ANOVA / MANOVA
osztályozás
A próbák ereje a konfiguráció függvényéban A diffúz esetben, illetve ha ”köztes”, de nem kollineáris a várható értékek elrendez˝odése, a sorrend 1
2
V (s) ≥ Λ ≥ U (s) ≥ ϑ ám a kollineáris esetben ez éppen megfordul, ϑ ≥ U (s) ≥ Λ ≥ V (s)
Az 1.) sorrend áll szintén az els˝ofajú hibára akkor, ha a variancia-kovariancia mátrixok egyenl˝osége nem teljesül, azaz Σ1 , Σ2 ...Σk -k nem mind egyenl˝oek. Általában, ha a csoportok méretei(az osztályok elemszámai) megegyeznek, a tesztek elég robosztusak a variancia-kovariancia mátrixok heterogenitására. Ha a nagyobb varianciák és kovarianciák a nagyobb mintaelemszámú mintákhoz társulnak, az igazi α szint redukálódik, a próba konzervatív. Fordított helyzetben α ”inflálódik” és a teszt ”liberálissá” válik, túlzottan elfogad. Márkus László
ANOVA,MANOVA
2013. március 30.
21 / 26
ANOVA / MANOVA
osztályozás
Mikor mit használjunk?
Roy tesztje nem javasolt a kollineáristól eltér˝o esetben. Ha az adatok nem normálisak, ferde vagy pozitív csúcsosságú eloszlásból származnak, a másik 3 teszt egyaránt elfogadhatóan jó. Λ nem marad el sokkal V (s) mögött, kivéve, ha nagyon er˝os heterogenitást mutatnak a variancia-kovariancia mátrixok.
Ha a különböz˝o tesztek ellentétes döntést adnak (ez ritka, a tipikus eset az azonos), akkor a sajátértékeket, kovariancia mátrixokat, stb. kell tovább vizsgálni.
Márkus László
ANOVA,MANOVA
2013. március 30.
22 / 26
ANOVA / MANOVA
osztályozás
Unbalanced One-Way MANOVA
Akkor áll fenn, ha a mintaelemszémok nem egyez˝oek. Ekkor a két mátrix: k
H = ∑ nj · (X j − X)(X j − X)T j=1 k
nj
E = ∑ ∑ (X i,j − X j )(Xi,j − X j )T j=1 i=1
És ezekkel járunk el ugyanúgy, mint azonos mátrixok esetén.
Márkus László
ANOVA,MANOVA
2013. március 30.
23 / 26
ANOVA / MANOVA
osztályozás
Fisher-féle korreláció hányados
A modell “jóságának” mérésére szolgálhat a Fisher-féle korreláció hányados: Egyváltozós eset: SSb SSb η2 = = SStotal SSw + SSb A teljes “variáció” azon hányadát adja, amely a várható értékek különböz˝oségéb˝ol származik. (Variáció helyett inkább négyzetes eltérés kellene.) Szerepe a regresszió R2 statisztikájával azonos. Ha 0-közeli (SSb kicsi a totális változékonysághoz képest), akkor a várható értékek egyenl˝oek, ”nagy”, de egynél mindenképp kisebb értéke pedig a különböz˝oség mér˝oszáma.
Márkus László
ANOVA,MANOVA
2013. március 30.
24 / 26
ANOVA / MANOVA
osztályozás
A korreláció hányados Wilks féle általánosításai a MANOVA esetre
η12 = 1 − Λ Ha a várható értékek er˝osen szórtak, akkor 1 − Λ kicsi. det(E)-t és det(H)-t, illetve det(E + H)-t a SS-ek általánosításaként felfogva a Fisher-félének(η 2 -nek) az általánosítása.
Márkus László
ANOVA,MANOVA
2013. március 30.
25 / 26
ANOVA / MANOVA
osztályozás
Az E−1 H legnagyobb sajátértékéhez, λ1 -hez tartozó sajátvektor legyen a. Ez maximalizálja a Zi = aT Y i várható értékeinek szórását. Zi skalár, míg a és Y i vektorok! A µz,i = EZi szórását a Z-re vonatkozó SSb (Z)-nek relatív nagyságával mérjük SSw (Z)-hez képest. Ennek maximális értéke épp a legnagyobb sajátérték: λ1 = Innen: ϑ=
SSb (Z) SSw (Z)
λ1 SSb (Z) = = η 2 (Z), 1 + λ1 SSw (Z) + SSb (Z)
tehát ϑ = ηϑ2 ugyancsak értelmezhet˝o, mint a többváltozós asszociáció mér˝oszáma. q Más interpretációja is van: ηϑ = ηϑ2 egy kanonikus korreláció. Márkus László
ANOVA,MANOVA
2013. március 30.
26 / 26