Variancia-analízis (folytatás) 7. elıadás (13-14. lecke) Egytényezıs VA blokk-képzés nélkül és blokk-képzéssel 13. lecke • Egytényezıs variancia-analízis blokkképzés nélkül • Az átlagok páronkénti összehasonlítása(1)
Egytényezıs VA blokk-képzés nélkül (Excelben keresd: Adatelemzés: ”Egytényezıs variancia analízis”
• k sokaságot (csoportot, kezelést stb.) kívánunk összehasonlítani • Az egyes sokasági (ismeretlen) átlagok és szórások: változat
A1 A2 A3 … Ak
várh.érték
µ1 µ2
szórás
σ1 σ2 σ3 … σk
µ3 … µk
• A null-hipotézis: a sokasági átlagok azonosak, azaz H0: µ1 = µ2 = µ3 = … = µk
Egytényezıs VA blokk-képzés nélkül (folyt.) • A null-hipotézis ellenırzéséhez minden csoportból mintákat veszünk, A1-bıl r1-et, A2bıl r2-ıt, és í.t. (a mintanagyságok lehetnek különbözık is) • Az Ai csoport j.-edik mintáját (ismétlését) jelölje yij, e csoport mintaátlaga y i., mintabeli szórása si (séma a következı dián) • Elsı lépésben Bartlett-próbával ellenırízzük a σ szórások egyezését (az s szórások hibahatáron belüli egyezését)
Egytényezıs VA adat-sémája blokk-képzés nélkül változat (Ai)
A1
A2
adatok
y11 y12 y13
y21 y22 y23
y31 y32 y33
… yk1 … yk2 … yk3
::
::
::
:::
….
A3 …
Ak
::
.. y2(r2) .. ... .. y1(r1) .. .. … .. .. .. y3(r3) … yk(rk) ------------------------------------------------------
átlag szórás
y 1.
y2.
y3.
y k.
s1
s2
s3
sk
Fiktív számpélda (k=3, r1= r2= 4, r3=3) csoport adatok
A1 94 114 90 70
A2 86 81 88 55
A3 97 132 125
-----------------------------------------------------átlag 92,0 77,5 118,0 szórás 18,0 15,3 18,5
•
A Bartlett-próba szerint a szórások nem különböznek, a közelítıleg normális eloszlás is teljesül, a VA elvégezhetı
A fiktív példa elemzése az Excellel • Etessük meg a fenti adatokat az Excel ”Egytényezıs variancia analízis” programjával, az alapszámításokon kívül megkapjuk az alábbi VA táblázatot VARIANCIAANALÍZIS Tényezık SS df Csoportok között 2832,6 2 Csoportokon belül 2363,0 8 Összesen 5195,6 10
MS 1416,3 295,4 ---
F P-érték F krit. 4,79 0,043 4,46 -------------
• Mit jelentenek a táblázat adatai, arra azonnal kitérünk • Elızetesen megjegyezzük, hogy a legfontosabb információ a P-érték, amely itt 0,043 = 4,3% < 5%, a három csoport közt szignifikáns eltérés van (H0-t elutasítjuk)
Egytényezıs VA blokk-képzés nélkül: elméleti háttér • A mintaelemekre feltételezett additív modell a mintavétel elıtt: Yij = µi + εij , a mintavétel után: yij = mi + eij • Itt az εij komponensek 0-átlagú független normális eloszlású véletlen változók, mi pedig µi becslése. • Az eij eltérések négyzetösszegének minimális értékét keresve (ez a legkisebb négyzetek módszere) mi -re az y i. átlagot kapjuk becslésként, az eij eltérés (hiba) pedig yij – yi. • Eszerint a mintaelemek felbontása yij = y i. + (yij – yi.) • Ugyanígy bomlik komponensekre az adatok négyzetes eltérése (SSösszes) valamint ennek szabadságfoka (dfösszes)
Egytényezıs VA blokk-képzés nélkül: elméleti háttér (folyt.) Legyen n = ∑ri , az összes adatszám. A felbontások valamint az MS értékek (mean square) és az F érték: = y
adatok
yij
SS df
SSösszes = SScsop.között + SScsop.belül n–1 = k–1 + n–k
MS(variancia) F-statisztika
i.
+ (yij – y i.)
MScs.k=SScs.k/(k-1) MScs.b=SScs.b /(n-k) F = MScs.k/MScs.b
Egytényezıs VA blokk-képzés nélkül: elméleti háttér (folyt.) • Feltéve, hogy az s szórások elfogadhatóan azonosak (Bartlett-próba) és a normalitással sincs komoly gond, a H0 hipotézis igaz volta estén az F statisztika (a mintavétel elıtt) F-eloszlású v.változó, szabadságfokai k-1 és n-k • A számított F értékhez táblázatból vagy az Excellel kikereshetjük a szignifikancia fokát (P), az „egytényezıs VA” Excel program ezt automatikusan adja (ld. a korábbi fiktív példát)
A felbontások és számítások szemléltetése A korábbi fiktív számpéldában az adatokat bontsuk fel komponenseikre y i. yij = + (yij – y i.) 92 77,5 118
94
86
97
114
81
132
90
88
125
92 77,5 118
55
Nincs adat
92 77,5
70 SS df MS F P
5195,6 10
=
= =
92 77,5 118
+
Nincs adat
2832,6 + 2 + 1416,3 4,79 0,043=4,3%
2,0
8,5
-21
22,0
3,5
14
-2,0
10,5
7
-22,0 -22,5 2363 8 295,4
Nincs adat
Az átlagok páronkénti összehasonlítása • Ha az F-próba nem jelez szignifikáns eltéréseket a csoport-átlagok között, akkor további összehasonlításokra nincs szükség • Ha viszont F szignifikanciát jelez, akkor érdekelhet bennünket, mely csoportok között van eltérés, ezt így vizsgálhatjuk: - ha a mintaszámok nem azonosak, páronként t-próbát alkalmazunk, de a nevezıbe az összevont szórást tesszük, például, ha az A1 csoportot kívánjuk összehasonlítani az A2 csoporttal, akkor a tpróba y 2 − y1 t = ( y2 – y 1) / {s√(1/r1 + 1/r2)}, azaz 1 1 s
r1
+
r2
ahol s2 = MScs.b a csoportokon belüli ingadozás (hiba) varianciája, a t-statisztika szabadságfoka n-k
KÖSZÖNÖM TÜRELMÜKET
14. lecke • Az átlagok páronkénti összehasonlítása(2) SzD érték, többszörös összehasonlítás • Blokkokba foglalt ismétlések esete (1)
Az átlagok páronkénti összehasonlítása (folyt.: az SzD éték) ha az ismétlésszámok azonosak (mondjuk mindegyik r), akkor a sok páronkénti összehasonlítás egyszerősíthetı a Szignifikáns Differencia (SzD) felhasználásával (angol szakirodalomban LSD, Least Significant Difference). •
Számítása:
SzD5% = tkrit√(2s2/r)
ahol s2 = MScs.b , tkrit pedig az n-k szabadságfokhoz tartozó 5%-os hibaszintő kétoldali t érték (kiolvasható táblázatból vagy az Excel-bıl
az „inverz t” funkció alatt). •
Megjegyzés: e képlet a fenti t képletbıl adódik, ha abban r1 és r2 helyére r-et írunk és rendezzük a két átlag különbségére
•
Alkalmazása: bármely két sokasági átlagot 5%-os hibaszinten szignifikánsan eltérınek tekintünk, ha a mintaátlagaik eltérése meghaladja az SzD5% értéket
Az átlagok páronkénti összehasonlítása (folyt.: „többszörös összehasonlítások”) • Elıfordulhat, hogy az SzD-vel végzett összehasonlítás – különösen a két szélsı átlag eltérésére – szignifikanciát jelez, holott a VA F-próbája nem jelez szignifikáns eltérést az átlagok között. Ebben az SzD-koncepció hibáztatható • E hiba kiküszöbölésére többféle eljárást dolgoztak ki, összefoglaló néven ezek a „többszörös összehasonlítások” • Lényegük: az átlagokat nagyságrendi sorrendbe rakjuk és a páronkénti összehasonlításoknál más-más SzD értékkel számolunk aszerint, hogy a két összehasonlítandó átlag a sorrendezésben közvetlen szomszédok, második szomszédok és így tovább • Az eljárást nem részletezzük, szoftverekben kereshetjük pl. a Duncanpróbát, a Tukey-próbát vagy egyéb többszörörös összehasonlító próbát (az Excelben egyelıre nincs ilyen)
Fiktív illusztráció az SzD és a Duncan-próba összehasonlítására k=4 csoportot hasonlítunk össze csoportonként r=5 az ismétlésszám, n=20, a hiba MS=35,96 , szabadságfoka 20-4=16, itt tkrit=2,12, végül SzD5%=8,04 A csoport-átlagok növekvı sorrendben: Duncan-teszt
A1 12,5 a A2 18,5 a A3 20,8 a b A4 27,5 b SzD5% 8,04
Az SzD5% érték szerint A1 és A3 eltérése szignifikáns (20,8 – 12,5 = 8,3>8,04), viszont a Duncan teszt szerint nem szignifikáns (ezt jelzi a mindkét csoportnál szereplı „a” bető) (A Duncan-próbánál két átlag eltérése akkor szignifikáns, ha mellettük nincs azonos betőjel)
Megjegyzések • Ha a szórások egyenlısége nem igazolt, akkor két eset lehetséges 1. Semmiféle kapcsolat nem észlelhetı az átlagok és a szórások között – ilyenkor a Kruskal-Wallis rangpróbát alkalmazhatjuk (ld. késıbb) 2. Az átlagok és szórások között határozott s(y ) kapcsolattendenciát látunk, ekkor az adatok fentebb ismertetett transzformációja után alkalmazzuk a V.Analízist •
Kétmintás t-próba (egyenlı szórások esetén) számítható az Egytényezıs VA programmal is, az F érték a t érték négyzete lesz, de a P szignifikancia érték nem változik
Egytényezıs VA blokk-képzéssel (Excelben megoldható: Adatelemzés: ”Kéttényezıs variancia analízis ismétlések nélkül” c. menüpont)
• A csoportok mindegyikében ugyanannyi a mintaszám (ismétlés), mondjuk r • Az azonos sorszámú ismétlések valamilyen szempontból „összetartoznak”, egy blokkot alkotnak (pl. azonos helyhez vagy évhez vagy korosztályhoz stb. tartoznak) • A cél most is az Ai csoportok közötti eltérések tesztelése, de most bezavarhatnak a blokk-hatások, ezeket ki kell szőrnünk
Egytényezıs VA adat-sémája blokk-képzéssel változat (Ai) 1.blokk 2.blokk
A1 A2
A3 … Ak
y11 y21 y31 … yk1 y12 y22 y32 … yk2
átlag
y .1 y .2
----------------……………………………………………………. ………………..
r.-edik blokk y1r átlag
y1.
y2r y3r … ykr y 2.
y 3.
…
y r.
y .r y ..
Egytényezıs VA blokk-képzéssel (fiktív számpélda, k=3, r=4) csoport 1.blokk 2.blokk 3.blokk 4.blokk
A1
A2
A3
93 86 97 110 102 112 81 75 87 70 55 64
átlag 92,0 108,0 81,0 63,0
----------------------------------------------------------------------Átlag 88,5 79,5 90,0 86,0 Elemezzük a felírt adat-táblázatot a blokk-képzés figyelembe vétele nélkül és úgy is, hogy a blokkhatást kiszőrjük
A fiktív példa Variancia Analízise (vegyük észre, hogy az 1. VA nem mutatja ki a szignifikanciát a csoportok között, míg a 2. VA igen) •
1. a blokk-képzés figyelmen kívül hagyásával
Tényezık Csoportok között Csoportokon belül Összesen •
SS 258 3268 3526
df 2 9 11
MS 129 363 ---
F P-érték F krit. 0,355 0,71 4,26 -------------
2. a blokk-hatások figyelembe vételével
Tényezık SS Csoportok között 258 Blokkok(ism)között 3222 Hiba (maradék) 46 Összesen 3526
df 2 3 6 11
MS 129 --7,67 ---
F 16, 83 -------
P-érték F krit. 0,0035 4,76 -------------
Egytényezıs VA blokk-képzéssel: elméleti háttér • A mintaelemekre feltételezett additív modell yij = mi + Rj + eij , itt mi a csoport-átlag, Rj az erre rakódó blokkhatás, eij pedig az eltérés- (hiba) tag: mi = y i. , Rj = y .j–y.. és így eij = yij – yi. – y.j + y ..
• Eszerint a mintaelemek algebrai felbontása yij = y i. + (y .j – y ..) + (yij– y i. – y.j + y ..) • Ugyanígy bomlik komponensekre az adatok négyzetes eltérése (SSösszes) valamint ennek szabadságfoka (dfösszes = n – 1)
A felbontások és számítások szemléltetése Az elıbbi fiktív számpéldában az adatokat bontsuk fel komponenseikre yij
=
93
86
97
110
102
81 70
mi
+
88,5
79,5
90
112
88,5
79,5
90
75
87
88,5
79,5
55
64
88,5
79,5
SS 3526 df 11 MS F P
=
= =
Rj
+
6
6
6
22
22
90
-5
90
-23
+
258 + 2 + 129 16,8 0,0035
eij ,
-1,5
0,5
1
22
-0,5
0,5
0
-5
-5
-2,5
0,5
2
-23
-23
4,5
-1,5
-3
3222 3
+
+ +
46 6
KÖSZÖNÖM TÜRELMÜKET