Variancia-analízis (VA) 5. elıadás (9-10. lecke) VA lényege, alkalmazásának feltételei, adat-transzformációk 9. lecke • Variancia-analízis lényege • Szórások egyezésének ellenırzése
¨ A Variancia-Analízis (VA) lényege • A VA – durván szólva – sokasági átlagok összehasonlítására szolgáló módszer minták alapján. Olyan összefüggés-vizsgálatról van szó, ahol • a „ható ismérv(ek)” kvalitatívak, • az eredmény-változó(k) kvantitatívak •
Például: különbözı kezelések (eljárások) hatását vizsgáljuk, vagy csoportok (osztályok) eltérését kutatjuk valamely kvantitatív jelzı mentén
■ A VA alkalmazásának feltételei • Az összehasonlítandó csoportok (sokaságok) normális (vagy közel normális) eloszlásúak legyenek •
Az összehasonlítandó csoportok (sokaságok) azonos szórásúak legyenek A normalitás és a szórás-egyenlıség ellenırzésére statisztikai módszerek állnak rendelkezésre
Megjegyzés • Az itt ismertetett módszerek többségének alkalmazása rutinszerően kivitelezhetı már az EXCEL programmal is anélkül, hogy az elméleti hátteret ismerné az alkalmazó • A háttér ismerete nélkül azonban a program „mint borjú az anyjának”-szerő alkalmazásával súlyos hibákat követhetünk el • Tanács: hosszas megfontolás, kevés számítás!
A VA alkalmazásának feltételei (folyt.)
• Normalitás vizsgálat • A csoportok normális eloszlása nem túl lényeges a VA alkalmazásánál, a módszer eléggé érzéketlen, ellenállóképes (robusztus) az eloszlásra • Mégis, alkalmazása elıtt kívánatos ellenırízni (pl. az adatokra ránézéssel vagy hisztogrammal) azt, hogy az eloszlás nem túlságosan aszimmetrikus (ferde)-e. Kiugró adatok zavarják a VA megbízhatóságát • A normalitás grafikus gyakorlati megítélésére szolgál az u.n. Gausspapír, számításos tesztelésére alkalmas a Kolmogorov-Szmirnovpróba, a Geary-próba, és még néhány más próba, ezek szoftvereken elérhetık
A VA alkalmazásának feltételei (folyt.)
• Szórás-egyenlıség (homoszcedaszticitás) vizsgálata Az összehasonlítandó csoportok sokasági szórásainak egyezése már nem elnagyolható követelmény a VA alkalmazásánál. • Két (független) minta-átlag összehasonlításakor („t-próba”, ld. késıbb) elızetesen a két minta szórásának hibahatáron belüli megegyezését kell tesztelni • Több (független) minta-átlag összehasonlításakor elızetesen a minták szórásainak hibahatáron belüli megegyezését kell tesztelni A statisztikai eljárásokat alább vázoljuk
Szórás-egyenlıség vizsgálata (folyt) Két (független) szórás összehasonlítása (Excelben keresd: Adatelemzés: ”Kétmintás F-próba a szórásnégyzetre”)
• Legyen σ1 ill. σ2 két alapsokaság (nem ismert) szórása és az ezekbıl vett n1 ill. n2 elemő minta szórása s1 ill. s2 • Kérdés: σ1 = σ2 ? (ez a Ho hipotézis) avagy σ1 ≠ σ2 ? (ez a H1 ellenhipotézis)
Két (független) szórás összehasonlítása (folytatás) • A statisztikai próba: képezzük a nagyobbik mintabeli szórásnégyzet arányát a kisebbikhez, legyen pl. s1 a nagyobb • Az F = s12/s22 hányados F-eloszlású df1=n1-1 ill. df2=n2-1 szabadságfokokkal • Megkeressük a számított F értékhez tartozó P = P(F) valószínőséget (ld. Excel, „F-eloszlás” fx alatt), ezt megduplázzuk (hiszen P még csak a σ1 > σ2 egyoldali ellenhipotézis szignifikanciájára utal), elfogadjuk a két szórás egyezését, ha 2P>5%
Szórás-egyenlıség vizsgálata (folyt) Példa-vázlat két független szórás összehasonlítására •
Legyen az egyik minta elemszáma n1 = 170, szórása s1 = 4,3 a másik minta elemszáma n2 = 72, szórása s2 = 3,4
•
s1 a nagyobb, így
•
Az EXCEL „F-eloszlás” függvénye (fx) alatt megkeressük az F=1,60-hoz tartozó P értéket a 169 és 71 szabadságfok párnál, az eredmény: P =0,0126
•
2P = 0,0252 = 2,52% < 5%, a két szórást 5%-os hibaszinten eltérınek minısítjük Megjegyzés: P értéke EXCEL nélkül az F-táblázatból is behatárolható
•
F = 4,32/3,42 = 1,60
Szórás-egyenlıség vizsgálata (folyt)
Több (független) szórás összehasonlítása Bartlett-próbával • Legyen k az alapsokaságok száma, (nem ismert) szórásaik σ1 ,σ2 ,…,σk , és az ezekbıl vett n1,, n2 ,…, nk , elemő minták szórásai s1 ,s2 ,…, sk • Kérdés: σ1 = σ2 =….= σk ? (ez a Ho hipotézis) avagy vannak a szórások között eltérıek is ? (ez a H1 ellenhipotézis) • A statisztikai próba: jelölje a minta-variancák szabadságfokait df1, df2,…,dfk (dfi = ni – 1), továbbá legyen f a szabadságfokok összege és s2 = (1/f)∑ dfi si2, az átlagos variancia és c = 1 + {∑1/dfi - 1/f} / {3(k-1)}, korrekciós osztó
Szórás-egyenlıség vizsgálata (folyt)
Több (független) szórás összehasonlítása Bartlett-próbával • Az elıbb értelmezett mennyiségekkel elsı lépésben képezzük az alábbi khí-négyzet statisztikát (itt ln természetes alapú logaritmust jelent): χ2 = (1/c) {f *ln(s2) - ∑ dfi *ln(si2)} amely a mintavétel elıtt közelítıleg k-1 szabadságfokú khí-négyzet eloszlású v.változó • A mintákból számolt χ2 értéket összehasonlítjuk a táblázatbeli kritikus értékkel vagy az EXCEL segítségével megkeressük a P értéket (ha ez 5%-nál nagyobb, elfogadjuk a szórások egyenlıségének hipotézisét)
KÖSZÖNÖM TÜRELMÜKET
10. lecke • A Bartlett-próba (számpélda) • Szórás-kiegyenlítı adat-transzformációk
Szórás-egyenlıség vizsgálata (folyt) Példa-vázlat a Bartlett-próba alkalmazására • k = 7 csoport mintaméretei (n) és szórásnégyzetei (s2) az alábbiak: (ni): 14 16 19 12 17 21 12 (si2): 8,11 9,65 20,51 9,46 2,72 6,13 15,00 innen (dfi): 13 15 18 11 16 20 11 összegük f = 104 • A számítások a megadott formulák alapján az EXCEL-lel könnyen elvégezhetık, itt csak néhány részeredményt és a végsı x2 értéket adjuk meg:
Példa-vázlat a Bartlett-próba alkalmazására (folyt.) •
s2 = (13*8,11+15*9,65 +…+11*15,0)/104 = 10,15; f ln(s2) = 104 ln(10,15) = = 241,02 = 222,37 ∑ dfi ln(si2) = 13*ln(8,11) +…+ 11*ln(15,00) ∑ 1/dfi = 1/13 + 1/15 +…+ 1/11 = 0,4935 ; 1/f = 1/104 = 0,0096 c = 1 + (0,4935 – 0,0096)/(3*(7-1)) = 1,0269
•
Végül
χ2 = (241,02 – 222,37)/1,0296 = 18,1 , szabadságfoka k-1=6
A kapott χ2 – hez tartozó P = 0,0060 = 0,6% (pl. EXCEL pr., fx alatt); mivel P értéke 1% alá esik, a 7 szórás még 1%-os hibaszinten sem tekinthetı azonosnak (H0-t elutasítjuk)
Szórás-kiegyenlítı transzformációk • Bizonyos esetekben mód van arra, hogy az adatok alkalmas transzformációjával kiegyenlítsük az eredeti adatokban eltérı szórásokat • Ehhez elsı lépésben ábrázoljuk a csoportok (átlag; szórás) pontjait • Ha a pontdiagram semmiféle tendenciát nem mutat (mint az ábrán), akkor a szórás-kiegyenlítést ne erıltessük, ilyenkor az ide illı VA eloszlásmentes megfelelıjét alkalmazhatjuk (ld. késıbb)
y
• Az átlag ( y ) és a szórás (s) között nincs határozott tendencia
1,6 1,4 szórás (s)
1,2 1 0,8 0,6 0,4 0,2 0 0
5
10
15
csoport-átlag
20
25
Szórás-kiegyenlítı transzformációk(folyt.) Amennyiben az (átlag; szórás) pontdiagram határozott vonulatot (tendenciát) mutat, mint a következı dián, akkor a tendencia függvényszerő behatárolásával a megfelelı szórás-kiegyenlítı transzformáció megtalálható • Jelölje s( y) a tendenciát, a szórás-kiegyenlítı transzformációt s(y) reciprokának integrálja adja: y* = ∫dy/s(y), röviden: ∫1/s(y) • Alább kiemeljük a leggyakoribb eseteket
Az átlag és a szórás között határozott s( y ) tendencia látszik, ilyenkor a szórás-stabilizáló transzformáció: y*= ∫1/s(y) s= s( y ) határozott tendencia 3 szórás (s)
2,5 2 1,5 1 0,5 0 0
5
10
15 átlag ( y )
20
25
30
Szórás-kiegyenlítı transzformációk (folyt.) Speciális esetek (1) • Ha a mintabeli szórások tendenciában arányosak a mintabeli átlagokkal vagyis a csoportonkénti variációs koefficiensek hibahatáron belül azonosak (ld. ábrák a következı dián), akkor a megfelelı szórás-kiegyenlítı transzformáció a logaritmus transzformáció, azaz az adatok logaritmusaival kell dolgoznunk (a logaritmus alapja tetszıleges alapú lehet) • Indoklás: ha s ≈c y azaz CV% ≈ 100s/y ≈ állandó, akkor y* = ∫1/cy = (1/c)log y, az 1/c konstans szorzó elhagyható • Megjegyzés: az Exponenciális eloszlásra emlékezve, ott σ=µ, tehát s ≈ y
A szórás tendenciában arányos az átlaggal, azaz a relatív szórás (CV) nagyjából stabil. Ilyenkor „log-transzformációval” érjük el a varianciák kiegyenlítését
A szórás arányos az átlaggal
A CV = s/y relatív szórás elfogadhatóan stabil
6
25 20 15 10 5 0
4
CV %
szórás (s)
5
3 2 1 0
0 0
5
10
15 átlag ( y )
20
25
5
10
15
20
30
átlag ( y)
y
25
30
Szórás-kiegyenlítı transzformációk (folyt.) Speciális esetek (2) • Ha a mintabeli varianciák tendenciában arányosak a mintabeli átlagokkal (ld. a következı diát), akkor a megfelelı szóráskiegyenlítı transzformáció a négyzetgyök transzformáció, azaz az adatok négyzetgyökeivel kell dolgoznunk • Indoklás: ha s2 ≈ cy azaz s ≈ √ (c y ) akkor y* = ∫1/√(cy) = (2/√c)√y, a 2/√c konstans szorzó elhagyható • Megjegyzés: a Poisson eloszlásra emlékezve, ott σ2≈µ,azaz s≈1√ y
A szórásnégyzet tendenciában arányos az átlaggal: ekkor a „négyzetgyök transzformáció” stabilizálja a szórásokat
varian cia
A szórásnégyzet arányos az átlaggal 6 5 4 3 2 1 0 0
5
10
15 átlag ( y )
20
25
30
KÖSZÖNÖM TÜRELMÜKET