H AJTM AN BÉLA
STATISZTIKAI MÓDSZEREK
Egyetemi jegyzet
Pázmány Péter Katolikus Egyetem, Bölcsészettudományi Kar Piliscsaba, 2012.
2
Bev ezetés Az első félévben (Biostatisztika) a statisztika alapjait ismertük meg. Természetesen ez sem történhetett meg anélkül, hogy legalább néhány statisztikai módszert el ne sajátítottunk volna. Azok a statisztikai próbák azonban, amelyek az első félévi anyagban szerepeltek, mind szerves részei egyegy kiterjedt, általánosan használható módszercsaládnak; ezekről a módszercsaládokról lesz szó a jelen tantárgyban. A tantárgy célja nem az, hogy bonyolult számításokat sajátítsunk el; erre valók a számítógépek. A módszerek működésmódját – mintegy azok „lelkét” – szeretnénk megismerni, hogy tudjuk, mire valók, mikor alkalmazhatók, és mi mindent árulnak el az elemzett adatokról. (Legalább olyan lényeges azt is tudnunk persze, hogy mire nem valók az egyes módszerek, milyen körülmények között nem alkalmazhatók, és mi az, ami nem olvasható ki az eredményekből – holott gyakran úgy tűnik, hogy igen.) Mindez persze nem megy anélkül, hogy az egyes eljárásokat – egyszerű esetekben, konkrét példák kapcsán – ki ne próbálnánk. Ez pedig bizony számolással, sokszor nem is olyan egyszerű számolással jár. A számolás, amire „kénytelenek” vagyunk, csak segédeszköz tehát az anyag megértéséhez. (De nélkülözhetetlen segédeszköz!) Mi az mégis, ami a tantárgyból „megmarad”, amit a számítógépek korában tudnia kell a pszichológusnak, amit „magának” kell csinálnia – tehát amit sem a gép, sem az esetleg avval együtt „bérelt” matematikus el nem végez? Lényegében két dolog. Az egyik az adatok elemzésére használt módszer kiválasztása, a másik a kapott eredmények értelmezése. Mondhatnánk, hogy a kiválasztás a matematikus dolga. (De hol van annyi matematikus, aki azt a sok pszichológust – meg orvost, meg szociológust, meg még ki mindenkit – „kiszolgálja”?) Az, hogy milyen módszert kell választani, elsősorban az adatok „természetétől” függ. Ezt pedig ki tudhatná jobban, mint maga a pszichológus, aki azokat az adatokat gyűjtötte (mérte, megfigyelte)? Rögtön az is látszik, hogy már jóval korábban, az „adatgyűjtés” (kísérlet, megfigyelés, búvárkodás vagy akármi) megkezdése előtt megjelenik a statisztika: olyan adatokat kell gyűjteni, amelyek alkalmasak lesznek a kiértékelésre, amelyek arra adnak választ, amire a kutató (adott esetben a pszichológus) választ vár. Ezt úgy szoktuk kifejezni, hogy a kísérlettervezés is a statisztikai munka része – nem zárva ki ezzel a többi, nem kísérleti vizsgálatot. Az eredmények értelmezése pedig egyértelműen a pszichológusra marad. A számítógép ad valami összefoglaló táblázatot, meg legtöbbször egy csomó „p-értéket”, de még a munkában segítő matematikus is (ha ugyan van ilyen) legfeljebb annyit tesz hozzá mindehhez, hogy ez itt szignifikáns, amaz pedig nem.* De hogy mindez szakmailag mit jelent, mennyiben igazolja a kísérleti feltevést, azt csak az tudhatja, aki azt a kísérletet tervezte és végrehajtotta.** Már ez a Bevezetés is ízelítőt adott a könyv stílusából: sok vastag- és dőltbetű, zárójelek, gondolatjelek, sőt lábjegyzetek. Mindez egyetlen célt szolgál: az írott szövegnek az élőbeszédhez való közelítését. Csak azt tanácsolhatom az olvasónak: használja ki ezeket a könnyítéseket! Mert valóban könnyítésekről van szó: ha erőteljesen hangsúlyozzuk a dőltbetűvel kiemelt szavakat vagy mondatrészeket, ha megállunk a gondolatjeleknél, ha „beépítjük” a szövegbe, „egyidejűvé” teszszük a szöveghez tartozó lábjegyzeteket (amik csak azért kerültek „alulra”, hogy a gondolatmenet folyamatosságát meg ne szakítsák) – szóval ha élünk ezzel a sok felkínált segítséggel, akkor könynyebben megértjük mindazt, amit ez a könyv közvetíteni próbál. Mintha csak egy előadást hallgatnánk – vagy talán még annál is jobban, hiszen akkor állunk meg, amikor akarunk, ott lapozunk vissza, ahol nekünk tetszik. *
És még ez sem biztos, hogy helyes! Hiszen a szignifikancia szintjét mi magunk választjuk meg (lásd az első félévi anyagot); honnan tudhatná azt szegény matematikus, hogy mi ezúttal hány százalékot választottunk? **
Egyszerűség kedvéért gyakran mondunk kísérletet vizsgálat helyett, mert ott nyílik legtöbb alkalom a körülmények szabad megválasztására. Mindaz azonban, amit állítunk, egyszerűbb esetekben (pl. megfigyelés) is érvényes.
3
A jegyzet két hosszabb részre tagozódik; Az első rész – a végleges, két félévnyi anyagot tartalmazó könyvben ez lesz a negyedik rész – a varianciaanalízis; ennek alcíme ez lehetne: Milyen elemzést végzünk, ha normális eloszlású adataink vannak. A második – elnevezését tekintve ötödik – részbe a rangsorolásos módszerek kerültek, amit így is körülírhatunk: Milyen eljárást kell követnünk akkor, ha folytonos, de nem normális eloszlású adataink vannak. A félév anyagához tartoznak még a megállapítható (nem számszerű) adatok elemzésére szolgáló módszerek, valamint a statisztika többváltozós módszereinek rövid ismertetése. Az előbbi a félév első előadásain szerepel; szorosan kapcsolódik ugyanis a dichotóm változóknak az első félév végén elkezdett tárgyalásához, annak szerves folytatása, általánosítása. Az utóbbi a félévet záró téma. Ez inkább csak kitekintés, a gyakorlatban leginkább használatos módszerek felsorolása, általános ismertetése. Ezek egyike sem szerepel ebben a jegyzetben. A jegyzet olvasása (tanulása) feltételezi az első féléves, Biostatisztika tantárgy ismeretét: az abban szereplő fogalmakat itt már minden magyarázat („magyarázkodás”) nélkül használjuk, és nem ismételjük át azokat a módszereket sem, amelyek ott már szerepeltek. Az említett tárgy anyaga lényegében megegyezik az (általam írt) A biometria alapjai című orvosegyetemi jegyzetben megtalálható tudnivalókkal. Ez jól használható addig is, amíg az első féléves tantárgy saját jegyzete meg nem jelenik. (Ez lesz a végleges tankönyv első, második és harmadik része.) Végül néhány formai megjegyzés. A könyvben lesznek olyan bekezdések, * melyek előtt jel áll. Ezek vagy kiegészítő megjegyzések, vagy mélyebb összefüggésekre rámutató általánosítások, esetleg a tárgyhoz csak lazán kapcsolódó eszmefuttatások, leggyakrabban azonban levezetések. Ez utóbbiakat „megtanulni” nem kell, nem is arra valók. Meggyőződésem azonban, hogy nagyban segíti a módszerek megértését, összekapcsolásukat más, első látásra lényegesen különböző eljárásokkal, ha áttanulmányozzuk, végiggondoljuk ezeket a levezetéseket. Még jobb, ha magunk próbálunk meg elvégezni egy-egy levezetést, képletátalakítást. Csak a végeredménynek kell megegyeznie a könyvben találhatóval: egy átalakítást számtalan különböző úton el lehet végezni. Aki ismeri egy formula származtatásának módját, egyik képletnek a másikba való „átalakulását”, annak sokkal kevesebbet kell „megtanulnia”. A „beszélgetős” stílusnak ellentmondani látszik, hogy a képletek – éppen úgy, mint egy „komoly” matematika könyvben – meg vannak számozva. Ennek a számozásnak azonban egyetlen célja a hivatkozások könnyebbé tétele: nem kell mindig magyarázkodni, hogy miről, minek a képletéről van szó (vagy amire még gondolni is rossz: nem kell a már megismert képleteket minden alkalommal megismételni): elég egyetlen számmal utalni rájuk. Mindamellett a képleteket nem kell megtanulni. A könyvhöz kapcsolódik az a képletjegyzék, amelyet az órákon, a dolgozatok írásakor, sőt a vizsgán is használhatnak. A jegyzék az első féléves tantárgy képleteit is tartalmazza, de hiszen azok java részére úgyis szükségünk lesz ebben a félévben is, a témák szoros kapcsolódása miatt. A könyv – eltérően a hasonló könyvek többségétől – nem tartalmaz statisztikai táblázatokat. Ezeket ugyancsak külön füzetben kapja meg mindenki, aki a tárgyat hallgatja, abból vizsgázik – vagy aki csak „magánúton” szeretne ezzel a tantárggyal megismerkedni. A táblázatok és a képletjegyzék tehát mintegy a könyv mellékletét képezik; ennek megfelelően történik a rájuk való hivatkozás is.
*
Ha egy-egy ilyen elkülönített, „nehezebb” rész hosszabb lenne, a jelet időnként – ha nem is minden bekezdés előtt – megismételjük.
4
TARTALOMJEGYZÉK A könyv részeit egyszámjegyű jelölés mutatja, a kétszámjegyű címek az egyes fejezetek, a három számjegyűek a szakaszok (vagy fejezetrészek), a négy számjeggyel megkülönböztetettek az egyes pontok megjelölései. A könnyebb tájékozódás érdekében a könyvben található utalások is használják ezeket az elnevezéseket. 4 Varianciaanalízis 4.1 Normális eloszlású adatok 4.2 Az egyszempontos varianciaanalízis 4.2.1 Több független minta összehasonlítása 4.2.2 Jelölések és előkészítő számítások 4.2.3 A variancia felbontása és Cochran tétele 4.2.3.1 A lineáris függetlenség 4.2.3.2 A négyzetösszeg felbontása 4.2.3.3 A szabadságfokok meghatározása 4.2.3.4 Cochran tétele 4.2.4 A varianciaanalízis befejezése 4.2.5 A varianciaanalízis feltételei 4.2.6 Transzformációk alkalmazása 4.2.7 A varianciaanalízis és a kétmintás t-próba viszonya 4.2.8 A nemlineáris korrelációs együttható 4.3 A minták „regressziós függése” a szemponttól 4.3.1 Varianciaanalízis és lineáris regresszió 4.3.1.1 A négyzetösszeg felbontása 4.3.1.2 A szabadságfokok meghatározása 4.3.2 A varianciaanalízis befejezése 4.3.2.1 Varianciák összevonása 4.3.2.2 A linearitás ellenőrzése 4.3.4.3 Példa „regressziós varianciaanalízisre” 4.3.3 A varianciaanalízis táblázata 4.4 Randomizált blokkok 4.4.1 Blokkok kialakítása 4.4.1.1 Szociális ikerpárok 4.4.2 Randomizálás 4.4.3 A négyzetösszeg felbontása 4.4.4 A szabadságfokok meghatározása 4.4.5 A varianciaanalízis befejezése 4.4.6 Randomizált blokk és egymintás t-próba 4.5 Többszempontos varianciaanalízis 4.5.1 A varianciaanalízis additivitási feltétele 4.5.2 A varianciaanalízis különféle „modelljei” 4.5.3 A négyzetösszeg felbontása 4.5.4 Kísérleti elrendezések 4.6 A kétszempontos varianciaanalízis 4.6.1 Jelölések és képletek 4.6.2 Példa kétszempontos varianciaanalízisre 4.7 Többszörös összehasonlítás 4.7.1 A Bonferroni-módszer 4.7.2 Néhány többszörös összehasonlítási eljárás 4.7.3 Scheffé módszere 4.7.3.1 Statisztikai próba és konfidenciaintervallum 4.7.3.2 Lineáris kontrasztok 4.7.3.3 Scheffé konfidenciaintervalluma valamennyi kontrasztra 4.7.3.4 A módszer előnyei és hátrányai
7 7 8 8 10 14 14 15 17 19 20 22 23 26 27 29 30 31 33 35 35 36 37 38 41 41 42 43 45 47 48 52 54 54 57 61 63 65 65 69 75 75 76 77 77 78 78 80
5
5 Rangsorolásos eljárások 5.1 Rangsorolás és rangszámok 5.1.1 Két csoport összehasonlítása 5.1.2 Rangsorolás és kapcsolt rangok 5.1.3 Átlag és szórás 5.1.4 Az „egyformák” miatti korrekciók 5.2 Független minták összehasonlítása 5.2.1 A Mann–Whitney-próba 5.2.1.1 A próba feladata és elnevezése 5.2.1.2 A táblázat használata 5.2.1.3 Nagy minták vizsgálata 5.2.2 A Kruskal–Wallis-próba 5.2.2.1 Jelölések és képletek 5.2.2.2 Példák Kruskal–Wallis-próbára 5.2.2.3 Az egyforma adatok miatti korrekció 4.2.2.4 A Kruskal–Wallis- és a Mann–Whitney-próba viszonya 5.3 Összetartozó minták összehasonlítása 5.3.1 A Friedman-próba 5.3.1.1 Randomizált blokkok elemzése – rangszámokkal 5.3.1.2 Kis minták esete 5.3.1.3 A Friedman-próba és az előjelpróba viszonya 5.3.2 A Wilcoxon-próba 5.3.2.1 Összetartozó mintaelemek különbségeinek rangsorolása 5.3.2.2 Példa a Wilcoxon-próbára 5.3.2.3 Nagy minták vizsgálata 5.3.2.4 Kapcsolt rangok előfordulása 5.4 Rangkorrelációs módszerek 5.4.1 A Spearman-féle rangkorrelációs együttható 5.4.1.1 Az adatok rangsorolása 5.4.1.2 Az rS együttható kiszámításának módja 5.4.1.3 Példák a Spearman-féle rangkorrelációs együttható számolására 5.4.1.4 A Spearman-féle rangkorrelációs együttható szignifikanciája 5.4.2 A Kendall-féle rangkorrelációs együttható 5.4.2.1 Az együttható képlete 5.4.2.2 A számolás elvégzésének célszerű módja 5.4.2.3 Grafikus eljárás az együttható kiszámítására 5.4.2.4 A táblázatos módszer 5.4.2.5 A Kendall-féle rangkorrelációs együttható szignifikanciája 5.4.2.6 Melyiket számítsuk ki a két együttható közül? 5.5 Az egyetértési együttható 5.5.1 Az egyetértési együttható használatát igénylő feladatok 5.5.2 A W egyetértési együttható kiszámításának módja 5.5.3 Rangsorokból álló minták 5.5.3.1 A közvetlen rangsorolás előnyei 5.5.3.2 A közvetlen rangsorolás nehézségei 5.5.3.3 A páros összehasonlítások módszere 5.5.4 A W egyetértési együttható szignifikanciája 5.5.5 A kapcsolt rangok miatti módosítás 5.5.6 Az egyetértési együttható és a rangkorreláció viszonya 5.5.6.1 A mátrix fogalma 5.5.6.2 A korrelációs mátrix 5.6 A rangsorolásos próbák előnyei és hátrányai
6
83 84 84 91 94 95 98 98 98 99 101 106 106 109 111 113 116 116 116 120 121 123 123 124 125 127 132 132 133 134 136 140 142 142 143 146 146 149 155 156 156 159 161 162 163 164 167 171 175 176 177 178
Negyedik rész
Varianciaanalízis 4.1 Normális eloszlású adatok A normális eloszlás elméleti eloszlás; az adatok normális eloszlása azt jelenti, hogy azok normális eloszlású változóból valók. Nem könnyű (kevés adat esetén pedig egyszerűen lehetetlen) ellenőrizni, hogy ez így van-e, mégis gyakran alkalmazunk olyan módszert, amelynek alkalmazási feltétele az adatok normális eloszlása; ez történik a varianciaanalízis esetében is. Vannak statisztikai módszerek (próbák), amelyek alkalmasak az ún. normalitás ellenőrzésére; egy ilyet mi is megismertünk a 3. részben. Ám a normalitásban akkor sem bízhatunk igazán, ha az ellenőrzés nem cáfolja azt. Jól tudjuk, hogy a próbák főként a nullhipotézis (itt: az eloszlás normalitása) elvetése esetén megbízhatók: a nullhipotézis megtartása nem feltétlenül jelenti annak igaz voltát. (A második fajta hiba rendszerint ismeretlen, és általában nagyobb is az – általunk választott – első fajta hibánál.) A normális eloszlással már a könyv első fejezetében megismerkedtünk (l. az 1.x.x szakaszt), és később is sokat találkoztunk vele. A második részben tárgyalt statisztikai eljárások szinte mind felhasználták azt a feltételt,* hogy adataink legyenek normális eloszlásúak. Valóban olyan gyakori lenne a normális eloszlás, hogy érdemes egész módszercsaládokat erre a feltételre építeni? Mindenekelőtt szögezzük le, hogy a normális eloszlás pontosan soha nem valósulhat meg a gyakorlatban vizsgált változók közt. Sok esetben például elméletileg kizárt, hogy egy adat negatív legyen; márpedig a normális eloszlás a teljes számegyenesen – mínusz végtelen és plusz végtelen közt – értelmezett elméleti eloszlás. Mivel azonban „nagy része” a várható érték körüli, viszonylag rövid intervallumban „tömörül”,** a változók korlátozott terjedelme, pl. pozitív volta nem akadálya annak, hogy azok közelítően normális eloszlásúak legyenek; ez pedig elég arra, hogy a normális eloszlásra kidolgozott statisztikai módszereket alkalmazni lehessen. Különösen gyakori ez a folytonos eloszlások közt; ilyen eloszlásból származik minden mérési adat. Mivel a könyv első két része csupán iyenekkel foglalkozott, viszonylag könnyű volt elfogadni a „normalitás” (valójában nagyon is szigorú) feltételét. Annál is inkább, mert a normalitástól nyilvánvalóan eltérő esetekben gyakran találtunk olyan transzformációt (l. az 1.x.x.x pontot), amely „normalizálta” az adatokat, azaz olyan eloszláshoz vezetett, amely már közelítően normális volt. Ezeket a transzformációkat legtöbbször nem „találgatással” kellett megkeresni; elméleti megfontolások támasztják alá, hogy pl. a tömegmérés eredményei esetében végzett logaritmus-, vagy az időadatokon végzett reciproktranszformáció miért eredményez normális eloszlást. A könyv harmadik részében azonban bevezettük a diszkrét változókat (és a belőlük származó diszkrét adatokat); ezért van arra szükség, hogy ezt a kérdést ismét elővegyük. Elsősorban a számokkal jellemzett adatokkal kell foglalkoznunk, hiszen ezek hasonlítanak legjobban a korábban vizsgált mérési adatokhoz. Gondoljunk például a jövedelemre (mondjuk az emberek havi jövedelmére, hazai valutánkban, forintban). Ez biztosan nem folytonos,*** még akkor sem, ha „forint pontossággal” határozzuk meg, de a gyakorlatban aligha beszélnek másról, *
A feltétel (ebben az összefüggésben) azt jelenti, hogy akkor lehet a szóban forgó eljárást alkalmazni, ha az adatok megfelelnek azoknak a követelményeknek, amelyeket feltételek címen felsorolunk. Ebből is látszik, mennyire helytelen felcserélni – az idegen szavakat kerülendő – a hipotézis szót a feltétellel! **
Minderről részletesen volt szó korábban. Tudjuk hogy az eloszlás nagy része egy négy szórásnyi intervallumon belül helyezkedik el, a várható érték körüli hat szórás hosszúságú intervallum (+3 pedig gyakorlatilag az egész eloszlást tartalmazza. ***
Ami azt jelentené, hogy két jövedelem közt minden közbülső érték előfordulhat.
7
mint 100 Ft-ra „kerekített” értékekről. De még ilyenkor is nagyon hasonlít a jövedelem eloszlása egy folytonos eloszláshoz! Az értékek közti különbségek – összehasonlítva az eloszlás terjedelmével – olyan kicsik, mintha folytonos lenne az eloszlás. A gyakorlatban sok ilyen változóval találkozunk. Dohányosok esetében a naponta elszívott cigaretták száma, egy telefonközpontba adott idő alatt befutott hívások száma (stb.) mind hasonló tulajdonságúak. De nem minden számszerűen jellemzett diszkrét változó ilyen! Az „iskolai végzettség” például, amelyet az elvégzett osztályok számával szokás megadni, aligha tekinthető folytonos változónak, még kevésbé (akármilyen nagylelkűen elfogadott közelítésel) normális eloszlásúnak. A nem számokkal – hanem például szavakkal, mondatokkal jellemzett – diszkrét változóknak látszólag semmi közük nem lehet a normális eloszláshoz. Maguknak a változóknak nem is, de a belőlük vett mintákhoz tartozó gyakoriságoknak már igen! Olyannyira. hogy már használtunk is ilyen közelítést, amikor a gyakoriságokat, ha azok elég nagyok voltak,* normális eloszlásúnak tekintettük; ezen alapult a kontingenciatáblázatokból számolt valamennyi 2-próba. Most azonban nem ilyen, elméleti megfontolásokon alapuló normalitásról van szó. Ahhoz, hogy egy minta esetében t-próbát, vagy – ebben a részben – varianciaanalízist alkalmazzunk, a minta adatainak „szemre is elfogadható” normalitását követeljük meg. Ez pedig a mérési (azaz folytonos változóból származó) adatok és olyan diszkrét adatok esetében valósul meg, amilyen pl. az előbb említett „jövedelem”-példa: amikor az adatok közti különbségek olyan kicsik, hogy az eloszlás szinte folytonos.** Akárcsak maguk a mérési adatok! És ezeken a „folytonoshoz hasonló” diszkrét adatokon szükség esetén ugyanúgy elvégezhetjük azokat a transzformációkat, amelyek „előállítják” a normalitást, ha eredetileg kétség fért hozzá. A normalitás feltételét tehát eléggé „lazán” kezeljük. Ha az adatokon nem észlelhető feltűnő ferdeség (aszimmetria), akkor el szoktuk fogadni azt a feltételezést, hogy azok normális eloszlásúak. Erre „biztat” egyrészt a tapasztalat, másrészt az az elméletileg igazolt állítás, hogy a normális eloszlás valóban igen gyakori a természetben. (Tehát ez a „normális állapot”.) A varianciaanalízis különféle típusait ismerjük meg a következőkben. Az a feltétel, hogy az adatok normális eloszlásúak legyenek, valamennyinél szerepel (ha ezt esetleg nem is mondanánk külön). Az egyes eljárások további feltételeit majd a módszerek tárgyalása során említjük meg.
4.2 Az egyszempontos varianciaanalízis 4.2.1 Több független minta összehasonlítása Gyakran szerepel több minta egy vizsgálatban: többféle kezelést hasonlítunk össze (általában van egy „kezeletlen” csoport is; ezt hívják kontrollnak), különböző körülmények közt vizsgáljuk ugyanazt a jelenséget, vagy különböző (pl. eltérő életkorú) csoportokat nézünk (ezek „hovatartozás” szerint különböznek).*** Amit ilyenkor tudni szeretnénk, az az, hogy ezek a csoportok (kezelések, körülmények) különböznek-e. A kezelés hatásosságát éppen ez a különbözőség jelenti. A dolgok „hátterére” világít rá, ha a hovatartozás szerint megkülönböztetett csoportok (férfiak és nők, falusiak és városiak, fiatalok és öregek stb.) értéke eltér. A jelenségek (pl. a lelki jelenségek) természetére vonatkozó információt nyerhetünk abból, ha azok eltérően viselkednek különféle körülmények közt (pl. nappal vagy éjszaka, zajban vagy csendben, különböző színek esetén stb.). *
Emlékszünk még, milyen enyhe volt ez a követelmény?
**
Ne felejtsük, hogy a gyakorlatban minden adat diszkrét! Ha mérünk valamit, akármilyen pontossággal tesszük azt, az eredményt kerekítjük; az adatok tehát diszkrét értékek, bármennyire folytosnos is az a változó, amelynek értékeit mérjük. ***
Nem célunk ezen a helyen a különböző kísérleti felépítések tárgyalása vagy akár csak felsorolása; külön kötetek, az egyetemen külön tantárgyak foglalkoznak ezzel a témával. Az említett lehetőségek pusztán példák, és egyáltalán nem törekedtünk teljességre, de még pontosságra sem. Itt csak a kapott adatok statisztikai kiértékelését tartjuk szem előtt.
8
Valójában minket az adatok nagysága érdekel. A gyógyszer fölemeli vagy csökkenti a mért változó – pl. vérnyomás – értékét, a férfiak magasabbak a nőknél, a szorongás fokozódik az éjszakai órákban stb. Viszont az adatok nagyságát legjobban az őket képviselő átlag jellemzi; a varianciaanalízis éppen ezért az átlagok egyformaságát vagy különbözőségét vizsgálja. Ez jelenti a minták egyformaságát vagy különbözőségét. Fontos, hogy különbséget tegyünk a vizsgált változó és a mintákat megkülönböztető specifikáció közt. Ez utóbbi a fenti példák esetében a kezelés, a körülmény, a hovatartozás (mint pl. az életkor). Annak ellenére, hogy ez ritkán mérhető (az életkor esete egy ilyen ritka kivétel), célszerű ezt is változónak nevezni. (A megállapítható változó is változó!) Ezt a változót fogjuk x-szel jelölni, és a (minket tulajdonképpen érdeklő) vizsgált változót (pl. a vérnyomást, testmagasságot, valamilyen lelki jelenség mérőszámát) y-nal. Mint a címben is olvasható: ezeknek a mintáknak függetleneknek kell lenniök. Ez egész egyszerűen azt jelenti, hogy az egyikben szereplő adatok semmilyen befolyással ne legyenek a másik minta adataira. (Ha tehát az egyik minta adatait megváltoztatjuk, attól a másik minta adatai ne változzanak.) Legegyszerűbb, legtermészetesebb formája az ilyen független mintáknak, ha azokban más személyek szerepelnek: egyetlen olyan személy se legyen, aki két vagy több mintában szerepel (például úgy, hogy két kezelést is „kipróbálunk” ugyanazon a személyen – és mindkét adatot fölhasználjuk). Több mintát kell tehát összehasonlítanunk, és ezt „egyszerre” akarjuk elvégezni. De miért egyszerre? Miért nem jó, ha kiveszünk két mintát, összehasonlítjuk őket,* aztán veszünk újra kettőt, összehasonlítjuk azokat is, addig folytatva ezt, míg minden összehasonlítás meg nem történt?** Azért nem, mert minden összehasonlítás egy-egy statisztikai próbát jelent. Minden próbavégzés közben vállalunk bizonyos kockázatot: annak kockázatát, hogy elvetjük az (egyébként igaz) nullhipotézist. Ez a kockázat rendszerint 5%; korábban inkább (első fajta) hibának hívtuk. Ezek az alkalmanként vállalt kockázatok pedig összegyűlnek – úgy szokták szép tudományosan mondani, hogy kumulálódnak –, ami a végén azt eredményezi, hogy ha különbséget találunk a minták közt, ennek az állításnak a hitelessége ugyancsak kicsi: a (kumulálódott) első fajta hiba mondjuk 40% lesz. Nem csoda, ha ilyen nagy hiba – ilyen magas szignifikanciaszint! – mellett egyforma minták közt is gyakran találunk különbséget.
Az egyes próbavégzések hibái nem adódnak egyszerűen össze, de ez gyenge vigasz ebben az esetben. Ha összeadódnának, akkor már 20 összehasonlítás – 20 kétmintás t-próba – után a (tévesen kapott) különbség hibája 100% lenne! (Ne felejtsük el: azt nézzük, hogy mikor kapunk különbséget abban az esetben, ha nincs különbség – vagyis ha igaz a nullhipotézis. Első fajta hibát csakis ilyenkor lehet elkövetni.) Még független összehasonlítások esetén sincs egyszerű összeadódás, de ha valamennyi párt megnézzük, az összehasonlítások nem lesznek függetlenek. Ha (például) azt kaptuk, hogy az A minta nagyobb B-nél (ez az átlagok különbségét jelenti) és a C minta nagyobb A-nál, ebből már (szinte biztosan) következik, hogy C B-nél is nagyobb. (A szórások és elemszámok különbözősége*** miatt nem teljesen biztos ez az állítás.) Annyi mindenesetre igaz, hogy bizonyos összehasonlítások eredménye a többiekéből már következik.
Hogy könnyebb legyen megérteni, miért helytelen a páronkénti próbavégzés az egyszerre történő döntés helyett, megpróbálunk szemléletes magyarázatot adni az előbbi, nagyon is teoretikus indokolás helyett. Van több független mintánk, amelyek közt semmi különbség nincs – hiszen ugyanabból a változóból vettük őket. Hogyan lehetséges ez? Hát például úgy, hogy különböző (gyógy)szerek hatá*
Erre ismerünk is eljárást a második részből: a kétmintás t-próbát. (Normális eloszlású, független mintákról van szó!)
**
A statisztika elemeinek megismerése során már találkozott ilyen feladattal az olvasó. Így ki tudja számítani, hogy hány összehasonlítás lehetséges. Például 10 minta esetén 45; nemde? ***
A szórások egyformaságát egyébként külön feltételben fogjuk kikötni, akárcsak a t-próbánál.
9
sát kívánjuk vizsgálni valamilyen y változóra, de a csoportok egyike sem kapta meg a szert, mert az evvel megbízott személy egyszerűen nem adta be. (Persze mi ezt nem tudjuk.) Ilyenkor is lesz – a véletlen hatása következtében – némi különbség a csoportátlagok közt. Ha elég sok csoportunk van, (szinte) biztos, hogy a legkisebb és a legnagyobb átlag szignifikánsan különbözik. (Próbálják ki!) Ha nem lenne így, az arra mutatna, hogy a véletlen „nem működhetett szabadon”. Elfogadjuk tehát, hogy egyetlen próbával kell döntenünk, egyszer szabad csak „kockázatot”, első fajta hibát vállalnunk. Ezt az „egyszerre döntést” egyetlen F-próba végzi el – és ami lehetővé teszi a próbát, az a címben említett egyszempontos varianciaanalízis. Mielőtt bemutatnánk – képletben és példán – a módszert, beszéljünk röviden arról, hogy mit jelent az „egyszempontos” kifejezés. Nyilván azért hívják így, mert van két- (és több)szempontos varianciaanalízis is. De mit nevezünk szempontnak? Azt a változót (x-et), amely megkülönbözteti a mintákat: a kezelést, a körülményeket, a „hovatartozást”. (Ez utóbbi nemcsak a már említett életkor lehet, hanem a nem, a származás, a szociális státus, az iskolai végzettség és sok minden más.) Az egyszempontos pedig azt jelenti, hogy egyetlen ilyen „specifikáló” változó van. Jól megvilágítja ezt egy egyszerű példa. Van négy csoportunk, amelyek „hovatartozás” szerint különböznek: fiatal nők, fiatal férfiak, idős nők, idős férfiak. Itt két „megkülönböztető” változó van: a kor és a nem. Ha ezt figyelmen kívül hagyva egyszerűen összehasonlítanánk a négy csoportot, nehezen vagy sehogy sem tudnánk megállapítani, hogy az (esetleg) talált különbséget mi okozza: a vizsgált személyek kora? Vagy az, hogy a férfiak és nők közt különbség van? Netán mindkettő? Ennek eldöntésére kétszempontos varianciaanalízisre lenne szükség. Egyelőre azonban még az egyszempontost sem ismerjük, ezért „hagyjuk itt” ezt a példát. Csak annyit jegyzünk meg, hogy ezt a négy csoportot nem helyes „egy sorba” írni; ha négyzet alakban rendezzük el őket úgy, hogy a fölső sorba kerüljön az első és a harmadik minta, alájuk a második és a negyedik, akkor a sorok eltérése mutatja a nemek különbségét, az oszlopoké pedig az életkor okozta különbségeket. Erre később még visszatérünk. Egyelőre azonban egy sorba rendezzük mintáinkat, hiszen egyetlen szempont különbözteti meg őket: különböző gyógyszerek (akárhány lehet!) vagy egy gyógyszer különböző dózisai. Az olvasóra bízom, hogy a körülmények és a hovatartozás esetére is képzeljen magának példát, ahol egyetlen sorba lehet rakni a mintákat, hiszen egyetlen szempont (egyetlen x változó) különbözteti meg őket. Inkább ne az előbbi példával próbálkozzék, mert ott minden „szempontnak” csak két értéke van: fiatal és öreg, férfi és nő; erre az esetre pedig alkalmazható a kétmintás t-próba is. (Hibát azonban így sem követ el, hiszen a több független csoport nem jelenti azt, hogy kettőnél több; a varianciaanalízis két minta összehasonlítására is alkalmas.)
4.2.2 Jelölések és előkészítő számítások Az adatok jelölésére legtöbbször az x betűt használjuk, de semmi nehézséget nem jelent, ha ezúttal y-nal jelöljük azokat. (Később visszatérünk a megszokottabb x-hez.) Emlékeztetünk, hogy ezt a kissé rendhagyó jelölést a mintákat megkülönböztető másik változó – a szempont – miatt vezettük be: x-szel ugyanis amazt jelöltük. Az egyes mintaelemeket a változó (alsó) indexe, i különbözteti meg egymástól; ez 1 és n (a minta elemszáma) közt változik. Csakhogy itt nem egy, hanem több minta van! Ezért szükség van egy második indexre (j), amelyik azt mutatja meg, hogy hányadik mintáról van szó. Az adatok általános jelölése yij ; így például y23 a harmadik minta második elemét jelenti. Nem lesz azonban jó az n jelölés sem, hiszen az egyes mintákban eltérő lehet az elemszám. Ezért ezt is indexszel látjuk el: n1, n2, …, általában nj: innen már tudjuk, hogy hányadik minta elemszámáról van szó. Még egy jelölésre szükség van, hogy az adatokat táblázatba foglalhassuk: h fogja jelölni a minták számát. A mintákat valahogy el kell nevezni. A gyakorlatban rendszerint az alkalmazott kezelés, a körülmény, a hovatartozás adja a nevet; vagyis a „szempont” – az x változó – „értéke”. Egyelőre az ABC nagybetűivel szimbolizáljuk őket. Az áttekinthetőség érdekében foglaljuk táblázatba a mondottakat (4.1. táblázat). 10
4.1. táblázat: Az egyszempontos varianciaanalízis jelölései A
B
... . . .
y1 j
Z . . .
y1h
y11
y12
y 21
y 22
y2 j
y2h
y31
y32
y3 j
y3h
.
. . .
. . . y n1 1
.
.
.
.
.
yn j j
y n2 2
ynh h
nj N
nj
n1
n2
nj
nh
Összeg:
Tj
T1
T2
Tj
Th
Átlag :
yj
y1
y2
yj
yh
Az adatok négyzetösszege:
yij2 yi21 yi22
yij2
yih2 yij2 i
Elemszám:
i
i
i
i
T j2
T22 n2
T j2
nj
T12 n1
Négyzetösszeg: Q j
Q1
Variancia:
s 2j
Szórás:
sj
Korrekciós tag:
j
T j j
―
T j2
nj
Th2 nh
n
Q2
Qj
Qh
Q j
s12
s 22
s 2j
s h2
―
s1
s2
sj
sh
―
j
j
j
Az adatoszlopok egyenlőtlen hosszúsága a minták eltérő elemszámát szimbolizálja.
A 4.1. táblázat alsó részében az előkészítő számolások szerepelnek. Ezekben nincs semmi új (a szórások kiszámításáról van szó), egyedül az összegre vezettünk be új jelölést: (4.1)
yij T j . i
A szórásszámítások részleteire szükségünk lesz később, ezért tüntettük fel valamennyit. Az egyes lépések neve és kiszámítási képlete egyaránt szerepel a táblázatban – kivéve az utolsó három lépést. Bár ezek is jól ismertek, biztonság kedvéért megadjuk őket: (4.2)
Qj i
yij2
T j2 nj
,
vagyis a fölötte levő két szám különbsége.
11
(4.3)
s 2j
Qj n j 1
, s j s 2j .
Egyelőre higgyük el (majd később látni is fogjuk), hogy ezeknek a részeredményeknek az összege jó lesz valamire; az utolsó oszlop ezeket tartalmazza. Ezért kár lett volna külön táblázatot készíteni később. Mindössze öt sorban készítettük el az összeget. (Sor irányban összegezünk; ez j-re vonatkozó összegezést jelent. Föl is tüntetttük ezt, a szumma jel alatt. A kettős szumma azt jelenti, hogy mindkét változó valamennyi értékére el kell végezni az összegezést.) A többi összeg azért hiányzik, mert nem használjuk föl később; egyébként az átlagok vagy a szórások összegének nincs is értelme, nincs semmilyen megfogalmazható tartalma. A többi összegnek azonban van! A második, a táblázatban -es számmal jelölt összeg például a „teljes minta”, vagyis az összes adat összege. (Mintha „ömlesztenénk” őket.) Hasonlóképp értelmezhető – a képletek alapján – a másik négy összeg is. Az utolsó oszlopban látható bekarikázott számok pusztán kényelmi célokat szolgálnak: magyarázat közben, amikor a varianciaanalízis képleteit vezetjük be és értelmezzük, nehézkes lenne folyton a bonyolult képleteket vagy a szintén nem egyszerű szöveget („az összes adat négyzetösszege” – és ez még az egyszerűbbek közül való) idézni. Ezért ezekkel a számokkal utalunk rájuk. Mielőtt a varianciaanalízisbe belekezdenénk, lássunk egy példát. Természetesen a példán is csak az „előkészítő számításokat” tudjuk egyelőre elvégezni, de az olvasó, különösen a képletek világában járatlanabb olvasó jól teszi, ha saját maga is végigszámolja ezeket, és egyezteti eredményeit a könyvben találhatókkal. A megértés ellenőrzésének legbiztosabb módja a könyvben található számpéldák önálló megoldása; máskor is éljünk ezzel a lehetőséggel. A számpélda ezúttal – kivételesen – „valódi”: egyetemi hallgatók (gyógyszerészek) laboratóriumi méréseiből vettük őket. A részletekre, a példa „szövegére” itt nincs szükségünk, de a tisztesség úgy kívánja, hogy röviden ismertessük az adatok jelentését. Valamilyen szárított gyógynövény törmelékéből kellett a hallgatóknak kivonniuk a benne levő glikozidot. Az adatok (yij) azt mutatják, hogy a teljes glikozidmennyiség hány százalékát sikerült a hallgatóknak kivonniuk a növényből. Az egyes mintákat a gyógynövénytörmelék „finomsága” különbözteti meg: a minták „neve” a növénydarabok mérete (az ún. szemcseméret) centiméterben.* Ez lesz a későbbi x változó. A kérdés tehát valami olyasmi, hogy a kivonható glikozidmennyiség függ-e vajon a növény szemcseméretétől.
Az eddigiek alapján az a megfogalmazás lenne természetesebb, hogy különbözik-e a kivonható glikozidmennyiség eltérő méretű növénytörmelék esetén? A fenti szóhasználat azonban, amely a szemcseméret és a glikozidmennyiség közti összefüggést emeli ki, nemcsak a szöveget teszi egyszerűbbé, hanem rávilágít a statisztikai módszer – jelen esetben a varianciaanalízis – kapcsolatára más (itt korrelációs és regressziós) eljárásokkal. Érdemes élni ezekkel a nyelvi – fogalmazási – eszközökkel: könnyebben érthetők, sőt maguktól értetődők lesznek a statisztika olyan rejtett összefüggései, amelyeket csak bonyolult matematikai módszerekkel lehetne egyébként kimutatni.
Ezekre az adatokra tehát varianciaanalízist fogunk alkalmazni. Ez is mutatja, hogy a feltételek teljesülése vonatkozásában nem vagyunk valami kényesek. Hiszen a százalékok, ezek a nemcsak alulról**, hanem fölülről is szigorúan behatárolt adatok nem követhetnek normális eloszlást! Mivel azonban adataink valahol a skála „közepén” helyezkednek el, ez a behatárolás nem érinti őket számottevően. Másrészt a mérések eredményét rengeteg, egymástól lényegében független tényező
*
Voltaképp a szétválogatáshoz használt szita mérete az, amit ismerünk. Ez inkább csak egy „finomsági fokot” ad meg, nem igazi méretet. **
Legtöbb mérési adat pozitív, tehát alulról mindig „be van határolva”.
12
befolyásolja. Így hát abban bízunk, hogy eloszlásuk mégiscsak (közelítően) normális lesz. (Ezt „ígéri” nekünk a centrális határeloszlástétel.) Lássuk ezután a példát! (4.2. táblázat.) A számoláshoz és a jelölésekhez nincs semmi hozzáfűzni valónk; mindezt megtettük az 1. táblázattal kapcsolatban. Egyetlen sorral egészült ki a 2. táblázat (az elsőhöz viszonyítva): ebben V-t, a variációs együtthatót adtuk meg. Biztonság kedvéért ennek is megismételjük itt a – jelen esetre alkalmazott – képletét: sj (4.4) Vj 100. yj Megjegyezzük, hogy kiszámítása nem tartozik szorosan a varianciaanalízishez; általában nincs is rá szükség. De valójában az átlagra és a szórásra sincs szükség (vagyis: nem használjuk fel őket a varianciaanalízis végzésekor), mégis „illik” őket kiszámítani. (Mintáink „megismeréséhez” szükségünk van rájuk.) 4.2. táblázat: Példa egyszempontos varianciaanalízisre 0,08
0,15
0,26
0,475
0,81
64,2 73,9 44,6 70,0 36,8 58,2
63,8 42,6 32,3 60,3 54,1
39,6 56,7 27,6 48,6 59,4 54,0
43,6 28,0 37,9 21,8 46,2 39,4
31,8 26,2 16,3 32,0 21,8
nj
6
5
6
6
5
28
Tj
347,7
253,1
285,9
216,9
128,1
1231,7
yj
yij2
57,95
50,62
47,65
36,15
25,62
21213,49
13491,39
14351,13
8283,41
3462,61
― 60802,03
i
T j2 nj
20149,215 12811,922 13623,135 7840,935 3281,922 57707,129
3094,901
Qj
1064,275
679,468
727,995
442,475
180,688
s 2j
212,855
169,867
145,599
88,495
45,172
―
sj
14,590
13,033
12,066
9,407
6,721
―
Vj
25,18
25,75
25,32
26,02
26,23
―
13
4.2.3 A variancia felbontása és Cochran tétel e A variancia egy Q négyzetösszeg és egy f szabadságfok hányadosa; a szabadságfok a négyzetöszszeg lineárisan független tagjainak számával egyenlő. Ez mindig kisebb a négyzetösszeg tagjainak számánál; hogy mennyivel kisebb, azt a tagok közt fennálló lineáris összefüggések száma határozza meg. Ezekkel a fogalmakkal találkoztunk már, azt is tudjuk, hogy egyetlen minta varianciája esetén a Q éppen n tagból áll (ahol n a minta elemszáma), a szabadságfok pedig ennél eggyel kisebb, tehát (n–1). Mégis álljunk meg itt egy pillanatra, és vizsgáljuk meg a kérdést kicsit általánosabban. 4.2.3.1 A lineáris függetlenség Lineáris a matematikai kifejezésekben elsőfokút jelent. A „linea” (= egyenes) egyenlete első fokú tagokból áll; innen a név. Azért fontos az elnevezésben a lineáris jelző hangsúlyozása, mert a Q négyzetösszeg másodfokú tagokból áll; a függetlenséget (illetve az összefüggést) nem a tagok, hanem azok négyzetgyöke közt keressük. A lineáris függetlenség csak a lineáris összefüggéssel együtt, annak segítségével értelmezhető. Lássuk tehát először, mi is az a lineáris összefüggés. A z1, z2, …, zn mennyiségek közt akkor áll fönn lineáris összefüggés, ha sikerül találni olyan c1, c2, …, cn együtthatókat, amelyek nem valamennyien nullák,* és amelyekre teljesül (4.5)
ci zi 0.
Ha ilyen van, akkor az egyik z (egy olyan, amelyiknek nem nulla az együtthatója) kifejezhető a többi segítségével: a többit átvisszük a túloldalra, és az együtthatóval osztunk. Ily módon az egyik z-t a többiek lineáris kombinációjával fejeztük ki. A zi mennyiségek „tényleges száma” tehát nem n, hanem 1-gyel kevesebb. Ha még egy összefüggést találunk, az egész eljárást megismételjük – és már csak (n–2) z mennyiségünk van; amit az eredeti, n darab z-vel ki tudtunk fejezni, azt (n–2)-vel is ki tudjuk. És így tovább: ahány lineáris összefüggést találunk, annyival csökken a zi mennyiségek száma. Az elhagyottakat a megmaradtakkal – azok lineáris kombinációival – fejezzük ki. Ami végül is megmarad, azokat lineárisan függetleneknek nevezzük. Arra természetesen vigyáznunk kell, hogy az összefüggések is függetlenek legyenek: ne következzék egyik a másikból. Ezt inkább „számpéldán” mutatom meg. Találtunk egy lineáris összefüggést: 2z1 + 3z2 + z3 = 0. (Mondjuk, hogy a többi ci nulla. De az is lehet, hogy összesen három z van.) Akkor nem állhatunk elő a következővel, mint újabb összefüggéssel: 4z1 + 6z2 + 2z3 = 0. Pedig igaz ez is! De nem „független” amattól, hiszen úgy kaptuk, hogy az elsőt 2-vel végigszoroztuk. (Akármilyen számmal szorzunk, nem új összefüggést kapunk, hanem az előbbi közvetlen következményét.) Ugyanígy nem új lineáris összefüggés, ha két – már számításba vett – összefüggés összegét vagy különbségét próbáljuk meg „elsütni”, mint újabb összefüggést a zi mennyiségek közt. Ezt már nem olyan könnyű belátni, mint az előzőt, de higgyük el: így van. Nem kell túlságosan belemerülnünk a kérdésbe, elég, ha értjük, miről van szó.** Közben kétszer is használtuk – magyarázat nélkül – a lineáris kombináció kifejezést: egyes z-ket a többiek lineáris kombinációjával fejeztünk ki. Ez tehát ugyanolyan, együtthatókkal képzett elsőfokú összeg, mint (4.5), csak éppen nem kell nullával egyenlőnek lennie.
*
Ha minden ci nulla, akkor a következő sorban (képletben) megfogalmazott állítás nyilvánvalóan igaz. A matematika az ilyet triviális összefüggésnek nevezi, és természetesen nem számítja a lineáris összefüggések közé. **
Ha netán egyszer ilyen összefüggéseket kell keresnünk, ne féljünk, hogy olyanokat találunk fölírni, amelyek nem függetlenek. Hacsak nem szándékosan teszi valaki (például szorzással vagy két összefüggés kombinációjával), akkor nem fogja elkövetni ezt a hibát. Érdekes, de igaz: egymásból következő összefüggéseket véletlenül nem ír föl az ember.
14
Térjünk most rá a négyzetösszegekre. A legegyszerűbb, a legtöbbet szereplő az, amelyet egyetlen minta varianciájának számítása során kapunk: (4.6)
Q ( xi x ) 2 .
Ezúttal a szokásosabb x jelölést használtuk y helyett. Azt tudjuk, hogy ennek szabadságfoka (n–1). De mi az az egyetlen lineáris összefüggés, amely ezt a „csökkenést” okozza? És egyáltalán: mik azok a (korábban z-vel jelölt) „tagok”, amelyek közt az összefüggést keresni kell? Mivel lineáris összefüggésről van szó, nyilván nem a Q kifejezés (négyzetes) tagjai kellenek, hanem azok „négyzetgyökei” (pontosabban: a négyzetre emelés előtti kifejezések): ( xi x ). A keresett lineáris összefüggés is jól ismert: ( xi x ) 0. A korábbi gondolatmenetbe illesztve ez azt jelenti, hogy valamennyi ci együttható 1-gyel egyenlő. A varianciaanalízis első lépésben a Q négyzetösszeget bontja majd fel tagokra. Feladatunk lesz e tagok szabadságfokát meghatározni. Ehhez a köztük fennálló lineáris összefüggéseket kell észrevennünk (és fölírnunk), de ennél egyszerűbben is eljárhatunk: szemléletesen belátjuk, hogy milyen összefüggések vannak a tagok közt (anélkül, hogy fölírnánk őket), és ezért mennyivel csökken – a tagszámhoz képest – a szabadságfok.* 4.2.3.2 A négyzetösszeg felbontása A variancia komponensekre bontása mindig, így a varianciaanalízisben is úgy történik, hogy a számlálóban álló négyzetösszeget és a nevezőben álló szabadságfokot bontjuk fel összegekre (akár többtagúakra is), majd ezekből külön-külön számolunk varianciát. Az eredeti variancia a komponenseknek nem összege, hanem súlyozott átlaga lesz, a nevezőkkel (szabadságfokokkal) mint súlyokkal számolva. Mindezt egyébként tudjuk már a korábbiakból. A felbontás akkor hasznos, ha az egyes komponenseknek jelentése van, ha képviselnek valamit. A varianciaanalízis célja éppen az, hogy ilyen komponenseket állítson elő. Az egyszempontos varianciaanalízis mindössze két komponensre bontja a varianciát. Az első a minták közti különbségeket jellemzi (ezt s k2 -tel jelöljük), a második a mintákon belüli, elképzelésünk szerint pusztán a véletlentől függő eltéréseket; ennek jelölése sb2 . A felbontandó, a „teljes minta” – az ömlesztett adatok – különbözőségét jellemző variancia jele st2 . Az indexek az egyes varianciák jellegzetességének kezdőbetűjére utalnak, így könnyen megjegyezhetők. Mint mondtuk, a teljes variancia a minták közti és a mintán belüli variancia súlyozott átlaga – ezzel azonban nem sokra megyünk. Sokkal hasznosabb számunkra az az összefüggés, amely szerint a teljes mintához tartozó négyzetösszeg, Qt , a másik két négyzetösszeg összege: (4.7)
Qt Qk Qb .
Ez fog hozzásegíteni ahhoz, hogy az újabb négyzetösszegek képletét előállítsuk.
*
A minták közti eltéréseket úgy jellemezhetjük legjobban, ha „helyzetüket” az átlagukkal adjuk meg; a minták átlagai közti különbség mértéke – az ezekből számított variancia és négyzetösszeg – megfelelő mértékszám lesz a minták közti különbségek mérésére. A mintán belüli eltéréseket a saját átlaguktól mért négyzetes eltérések összege (Q) jellemzi a legjobban; ezeket kell valahogy kombinálni, hogy egyetlen mérőszámot kapjunk a h minta közös jellemzésére. A megfelelő formulákat egy levezetés szolgáltatja. Egyetlen új jelölésre van (ideiglenesen) szükségünk, a „teljes minta” átlagára:
Még egyszerűbb az, ha egyszerűen megtanuljuk, hogy melyik négyzetösszegnek mennyi a szabadságfoka.
15
(4.8)
y
yij . N
És most lássuk a levezetést!* (4.9)
Qt ( yij y ) 2 ( yij y j y j y ) 2
( yij y j ) 2 ( y j y ) 2 2( yij y )( y j y ) Qb Qk 0.
A „trükk” mindössze annyi volt, hogy minden taghoz hozzáadtuk és levontuk a mintaátlagot (ezzel semmit nem változtatva). A két tagot ugyan „fordított sorrendben” kaptuk meg, de mondanivalójuk – a minták saját átlagaitól való eltérések négyzetösszege, illetve az egyes mintaátlagok közti eltérések négyzetösszege – pontosan ugyanaz, mint amit előre elhatároztunk. De miért lesz nulla a kétszeres szorzat? Erről még szólnunk kell néhány szót.
Itt használjuk ki azt, hogy éppen az átlagokat vittük be, a tőlük való eltéréseket vizsgáltuk. Tudjuk, hogy az átlagtól való eltérések összege nulla; ezért „tűnt el” a kétszeres szorzat. De lássuk a kérdést részletesebben is! Mivel az egyik tényezőben nem szerepel i, az „konstans” – az i szerinti összegezés szempontjából. Ezért kiemeljük a szumma jel elé:
2 ( yij y j )( y j y ) 2 ( y j y ) ( yij y j ) j
i
A j szerinti összegezés minden tagjában egy nullával egyenlő összeg áll (az egyes minták saját átlagaiktól való eltérésének összege). Egy olyan (h tagú) összegünk van tehát, amelynek minden tagja nulla; az ilyen összeg mi lehetne más, mint nulla? A kapott kifejezések – egyelőre ugyan csak -os, „nem kötelező” anyagrészben kaptuk meg őket – pontosan mutatják, hogy miről van szó (a mintákon belüli, illetve a minták közti négyzetösszegről), de számolásuk igen kényelmetlen, hosszadalmas.** Ezért átalakítjuk őket úgy, ahogy egyetlen minta varianciája esetében is tettük. Ismét levezetés következik…
Qb ( yij y j ) 2 Q j . j i j Nemcsak hallatlanul egyszerű képletet kaptunk, hanem már meg is van ez az érték! A két táblázatban pontosan ezt jelöltük -tel. (4.10)
A másik formula már nem lesz ilyen egyszerű, de számolásra sokkal alkalmasabb a korábbi, definiáló képletnél. Előbb kiemeljük az i-t nem tartalmazó tényezőket – vagyis mindent! – az i szerinti szummából, azután elkészítjük az ott maradó konstans i szerinti összegét: (4.11)
Qk ( y j y ) 2 1 n j ( y j y ) 2 , j
i
j
végül elvégezzük a négyzetre emelést, és összevonjuk az egyforma tagokat:
*
A levezetések nem arra valók, hogy bárki „megtanulja” őket! Végiggondolásuk azonban segít a fogalmak megértésében, és támpontot ad a számítások célszerű elvégzéséhez is. Mindenképp érdemes legalább egyszer alaposan végiggondolni őket, de még jobb, ha megpróbáljuk magunk előállítani a végeredményt. Nem baj, sőt egyenesen jó, ha az egyes lépések eltérnek a könyvben találhatóktól. **
Nemcsak nekünk: a számítógépnek is! Az ugyan „megbirkózik” az ilyen időigényes feladatokkal is, de akkor is igaz, hogy célszerűtlen ezeket a képleteket használni. Erről a könyv első részében már sokszor volt szó.
16
Qk
(4.12)
n j y 2j
2 y n j y j y
j
2
j
T j2 nj
( T j ) 2 N
T j2
n j n j n2 j
Tj 2
j
N
Tj T j N
2
N
.
Mivel csak j szerinti összegezés szerepel és teljesen eltűnt az i index, elhagytuk az összegezési változót a szumma jel alól. (Ha félreértést nem okozhat, máskor is ezt fogjuk tenni.) Ez a formula is könnyen kifejezhető a táblázat utolsó oszlopában álló, jóelőre kiszámított összegekkel. (L. a 4.1. táblázatot!) Az első tag egyszerűen -gyel egyenlő, és a második sem igényel sok számolást: négyzetét kell osztanunk -gyel. Mi szükségünk volt akkor -ra, kérdezhetné az olvasó. Közvetlen szükségünk nincs, de egy ilyen összetett számításnál nem árt az ellenőrzés. Ezért ajánlatos kiszámítani – függetlenül az eddigi számításoktól – Qt-t is, és megnézni, hogy egyenlő-e Qk és Qb összegével.
A teljes minta Qt négyzetösszegét szintén nem a definiáló formula alapján számoljuk (ez megtalálható (4.9) elején, a 16. lapon), hanem átalakítjuk – pontosan úgy, ahogy korábban tettük. Csak a végeredményt írjuk föl: 2
T j . Itt szerepel , és persze ismét és . 2 j Qt yij N Qk, Qb és Qt (definiáló és számolásra alkalmas) képleteit megismételjük; hogy az is könnyen megtalálja őket, aki netán átugorta volna a -os részeket: (4.13)
Qk ( y j y ) 2
j
(4.14)
2 yij
T j2 nj
N
Qb ( yij y j ) 2 Q j j
(4.15)
Qt ( yij y ) 2
yij2
2 yij
N
Az első formulából lehet megérteni, hogy mit fejez ki, mit képvisel az illető négyzetösszeg, a második formula a számolásra alkalmas, arra ajánlott forma. Remélhetőleg nem okoz zavart, hogy az adatok összegét a 4.1. táblázattól – és a levezetésektől – eltérő módon jelöltük; így talán jobban hasonlítanak a képletek a leíró statisztikában megszokott formulákhoz. 4.2.3.3 A szabadságfokok meghatározása Lássuk a négyzetösszegeket egyenként. A (4.11) képletből látszik, hogy Qk különböző tagjainak száma nem N, hanem h; szabadságfoka ezért legfeljebb h lehet. A tagok közt azonban van egy összefüggés, amit arról könnyű észrevenni, hogy mindegyikben szerepel y , a teljes minta átlaga. A szabadságfok tehát: (4.16)
f k h 1.
17
Ez a gondolatmenet felszínes, pontatlan volt. Ám legtöbbször elég ennyi, hogy a szabadságfokot meghatározzuk, vagy legalábbis felidézzük, eszünkbe juttassuk, hogy mennyi is lehet a korábban már meghatározott szabadságfok. A helyes módszer az lett volna, hogy megkeressük (és felírjuk) azokat a lineáris összefüggéseket, amelyek a Qk négyzetösszeg tagjai közt fennállnak. Ha elfogadjuk, hogy az N tagú összeg h tagúra „zsugorodott”, könnyű dolgunk van. Igaz ugyanis, hogy
n j ( y j y) n j y j y n j T j
T j N 0.
(Itt nem használtunk fel mást, N mint az átlagok definiáló formuláit és a szumma jelre vonatkozó, már számtalanszor alkalmazott három „számolási szabályt”.) A fenti formula az 4.2.3.1 pont szóhasználatával azt jelenti, hogy cj=nj választással kapjuk a megfelelő lineáris összefüggést. Többet – akárhogy próbálkozunk is – nem sikerül találni. Elnagyoltunk azonban egy lépést. Bármennyire szemléletes is az N tagú összeg h tagúvá történő átalakulása, nem illik a szabadságfok lineáris összefüggések segítségével történő definíciójába. Járjunk ez egyszer ennek is a végére – de többet igazán nem tesszük meg: eléggé egyértelmű, hogy az egyforma tagok nem lehetnek lineárisan függetlenek. És most lássuk a beígért formulákat!
Az első mintához (j = 1) tartozó n1 (egyforma) tag közül az elsőhöz rendeljük az 1, a másodikhoz a –1 együtthatót (c1 = 1, c2 = –1); az összes többi c együttható nulla. Mivel ezek a tagok egyformák, különbségük nyilván nulla; ez tehát egy lineáris összefüggés. A második összefüggést úgy kapjuk, hogy az első tagot ismét 1 együtthatóval vesszük, ezúttal azonban a harmadiknak adjuk a –1 együtthatót (míg a fennmaradó N–2 együttható nulla). Ezt éppen (n1–1)-szer tudjuk megcsinálni; több ugyanekkora tag nincs. Ezután olyan lineáris összefüggéseket írunk föl, amelyek a második mintához tartozó tagok egyformaságát használják ki: az elsőhöz 1, rendre a többihez –1 együtthatót rendelve, most (n2–1) lineáris összefüggést kapunk. (Az összes többi együttható persze most is nulla.) Végül is (n1 1) (n2 1) ... (nh 1) N h egymástól független, a feltételeknek megfelelő lineáris összefüggést találunk, ha mind a h mintán, a négyzetösszeg mind az N tagján végigmentünk. A kapott összefüggések számát le kell vonnunk a tagszámból: N ( N h) h, és ebből jön le még 1, a levezetés elején felírt lineáris összefüggés miatt. A szabadságfok tehát h–1, ahogy azt korábban szemléletesen is kaptuk.
A Qb négyzetösszeg szabadságfoka, mint a képletből szinte azonnal leolvasható: (4.17)
f b N h,
hiszen N tagja közt a h összefüggést (a h mintaátlagot) első pillantásra fölfedezhetjük. Semmivel sem nehezebb azonban a h darab lineáris összefüggés fölírása. Adjunk az első mintához tartozó tagok mindegyikének 1 együtthatót, és rendeljünk a többi mintát képviselő tagokhoz nullát. Az eredmény (az átlag közismert definíciója miatt) nulla, tehát lineáris összefüggést találtunk: ( yi1 y1 ) 0. Ugyanezt megismételjük rendre valamennyi i
mintával: azok elemeinek saját átlaguktól vett eltérésösszege szintén nulla. Annyi összefüggést találtunk tehát, ahány minta van (vagyis h-t); ezt kell a tagszámból levonni, hogy a szabadságfokot megkapjuk. A Qt négyzetösszeg szabadságfoka természetesen (4.18)
18
f t N 1,
ezt talán említeni sem kell. Nemcsak a tagok közti egyetlen összefüggés mutatja ezt, hanem az a korábbi ismeret, hogy a minta átlagtól való eltérés-négyzetösszegének a szabadságfoka eggyel kisebb az elemszámnál. A teljes minta pedig egyszerűen egy minta és Qt az átlag körüli eltérések négyzetösszege. A formula nem sejtheti azt, hogy ezt a mintát kisebb mintákra tagolva írtuk fel! 4.2.3.4 Cochran tétele Ha megnézzük az előző pontban kapott eredményeket, könnyű észrevenni, hogy f k f b f t . Ugyanez az összefüggés volt érvényes a négyzetösszegekre is (Qk Qb Qt ) , ami azt jelenti, hogy valóban varianciaanalízis történt: a számlálót is, a nevezőt is – egymásnak megfelelő – összegekre bontottuk. Idézzük csak föl, mit is képviselnek a variancia komponensei! A mintán belüli variancia, sb2 csupán a véletlen hatását, az „egyformák közti eltéréseket” méri, vagyis inkább jellemzi.* Elképzelésünk – modellünk – szerint az egy mintán belüli adatok közt semmi különbség nincs; a köztük levő eltéréseket semmi más nem okozhatja, mint a változó „valószínűségi” természete, a véletlen okozta – törvényszerű! – ingadozás. Más a helyzet a minták közti variancia, az átlagokból számolt s k2 esetében. Ennek nagysága két tényezőtől is függ: egyrészt az átlagok – és ezen keresztül az egyes minták – egymás közti eltéréseit tükrözi, másrészt a (változó törvényszerűségeiből fakadó) véletlen ingadozást. Nullhipotézisünk** értelmében azonban az első nullával egyenlő. Ha tehát igaz a nullhipotézis, a két varianciakomponens ugyanakkora, hányadosuk éppen 1, pontosabban: 1 körül ingadozik a varianciák hányadosának eloszlására érvényes F-eloszlás szabályai szerint.. De vajon érvényes-e az F-eloszlás ebben az esetben is? Két független, normális eloszlású minta varianciájának hányadosára érvényes volt. (Emlékeztetőül: normális eloszlású adatok esetén Q lényegében 2-eloszlású, két ilyen eloszlás hányadosa pedig F-eloszlást követ. A szabadságfokokkal való osztásra azért volt szükség, hogy a különböző 2-eloszlásokat „egységesítsük”: osztás után a számlálóban is, a nevezőben is 1 lesz a várható érték.) Itt azonban kissé más a helyzet. Qt kétségkívül 2-eloszlású – de mi a helyzet komponenseivel, Qb-vel és Qk-val? Minderre a Cochran-tétel ad választ, amely nemcsak a komponensek 2-eloszlását, hanem függetlenségüket is kimondja (biztosítva ezzel az F-eloszlás érvényességét), sőt módot ad a „jó” és „rossz” felbontások megkülönböztetésére is. Nyugodtan mondhatjuk tehát, hogy a varianciaanalízis Cochran tételén alapszik.*** Cochran tételének érdekessége, hogy egyszerre három állítást fogalmaz meg, és bebizonyítja, hogy ezek kölcsönösen következnek egymásból. Ha tehát bármelyikről meg tudjuk állapítani, hogy igaz, akkor igaz a másik kettő is. De mik is ezek az állítások? Kiindulunk egy Q (véletlentől függő) mennyiségből, amelyikről tudjuk, hogy 2-eloszlású, f szabadságfokkal. Ezt a Q-t felbontjuk két összeadandóra: Q = Q1 + Q2. Ezek szabadságfoka – lineárisan független tagjaik száma – f1, illetve f2. A következő három állítás „egyszerre” teljesül, vagyis ha az egyik igaz, igaz a másik kettő is:
*
Az ingadozást a szórás méri; annak négyzete, a variancia alkalmas ugyan az ingadozás jellemzésére, de nem lehet mérőszám: fizikai dimenziója, nagyságrendje nem egyezik meg az adatokéval. **
Erről ugyan eddig még nem volt szó, de magától értetődő a dolog. Említettük (4.2.1 szakasz), hogy a minták közti különbségre, a minták eltérésére vagyunk kíváncsiak. A nullhipotézis mi más lehetne, mint hogy ezek a minták egyformák? ***
Igazságtalan lenne, ha nem említenénk meg Sir Ronald Fisher nevét, aki a XX. század első felében élt és működött. Ő volt a statisztika történetének talán legzseniálisabb alakja, ő „találta ki” a varianciaanalízist, és számos más, a mai napig használatos statisztikai módszert.
19
1) Q1 és Q2 2-eloszlásúak; 2) Q1 és Q2 függetlenek; 3) f = f1 + f2. Első látásra aligha érezzük e tétel jelentőségét. Az állításokét talán igen: ha a komponensek egymástól függetlenek és 2-eloszlásúak, akkor az s2-ek hányadosára érvényes az F-eloszlás, és vizsgálható a korábban említett nullhipotézis. De vajon hogyan határozhatjuk meg – a mienknél alaposabb statisztikai tudás birtokában is – a komponensek eloszlását? Vagy hogyan győződhetünk meg azok függetlenségéről? Mindez fölöslegessé válik, ha igénybe vesszük a tétel segítségét. A három fölsorolt állítás kölcsönösen következik egymásból; ha tehát egyiket igazoljuk, a másik kettő is igaz. Márpedig a szabadságfokokra vonatkozó (harmadik) állítás igazolása igazán könnyű: két egész szám összegéről kell „igazolni” azt, hogy egyenlő egy harmadik számmal. Egyetlen teendőnk tehát, hogy a komponensek szabadságfokát meghatározzuk. Ez sem mindig egyszerű; már a legegyszerűbb, egyszempontos varianciaanalízis esetén is okozott némi fejtörést (lásd az előző pontot!) – de mindenesetre jóval egyszerűbb, mint akár az eloszlás, akár a függetlenség vizsgálata.
Egyszempontos varianciaanalízis esetén nem nehéz belátni a komponensek függetlenségét sem. Változtassuk meg képzeletben az adatokat úgy, hogy vagy csak sb2 , vagy csak s k2 változzék, a másik maradjon változatlan. (Mi más jelentené a függetlenséget, mint hogy egymástól „függetlenül” reagálnak bizonyos változtatásokra?) Először járjunk el úgy, hogy minden mintában változtassuk meg az adatokat, tetszés szerint növelve vagy csökkentve az egyes minták szórását, csak arra ügyeljünk, hogy azok átlaga ne változzék. (Ez igazán egyszerű: amennyivel „eltoltunk” egy átlagnál nagyobb adatot, ugyanannyivel kell eltolnunk egy kisebbet is, csak épp ellenkező irányban.) Ezzel nyilván megváltoztattuk sb2 -et, de s k2 -et nem: utóbbiban csak az átlagok szerepelnek, az imént megváltoztatott adatok egyáltalán nem.
Most járjunk el úgy, hogy az egyes mintákat toljuk el, átlagaikkal együtt – ügyelve arra, hogy a mintákon belüli viszonyok változatlanok maradjanak. Könnyen belátható, hogy ezzel s k2 alaposan megváltozik. (Akár azt is megtehetjük, hogy minden mintát „egyformává” változtatunk: mindegyiknek az átlaga legyen ugyanakkora a módosítás után; ebben az esetben a minták közti variancia értéke nulla lesz.) Mindeközben azonban nem változik sb2 értéke, hiszen Qb az egyes mintákban számolt Qj négyzetösszegek összege; azok pedig – a minták speciális mozgatása során – változatlanok maradnak. (Emlékezzünk vissza, hogy a szórást – kényelmi okokból – úgy számoltuk, hogy valamennyi adatból levontunk egy tetszőleges számot; itt is éppen ez történt.) Ezzel a függetlenség igazolását be is fejeztük.
A Cochran-tételt úgy fogalmaztuk meg, hogy két összeadandóra bontottuk a Q mennyiséget. A tétel ismételt alkalmazása azonban alátámasztja a többtényezős, sok komponenses fölbontásokon nyugvó varianciaanalíziseket is. Egyelőre azonban még az egyszempontos varianciaanalízist sem fejeztük be!
4.2.4 A varianciaanalízis befejezése Minden készen áll az egyszempontos varianciaanalízis nullhipotézisének vizsgálatára. Egy-egy osztást kell csak végeznünk, hogy meghatározzuk az s k2 és sb2 varianciákat: 20
(4.19)
s k2
Qk h 1
(4.20)
sb2
Qb . N h
E kettő hányadosa F-eloszlást követ, ha igaz a nullhipotézis. De melyiket kell a másikkal elosztanunk?
Erre az F-eloszlás táblázata adja a magától értetődő választ (III. táblázat). Abban ugyanis valamennyi eloszlásnak csak a jobb vége, a nagy F-ekhez tartozó rész szerepel. (Emlékszünk még, ugye: egy eloszláscsaládról van szó, amelynek tagjait a két szabadságfok különbözteti meg egymástól.) Ha a nullhipotézis igaz, akkor mindegy, hogy melyik F-et számítjuk ki. De ha nem igaz, akkor nem érvényes az F-eloszlás: a fenti két variancia hányadosa „nem tartozik” az eloszláshoz. (Ami persze mindössze annyit jelent, hogy az eloszlás kis valószínűségű részében, valamelyik végén található.) Emlékezzünk a 4.2.3.4 pont elején mondottakra: s k2 két dologtól függ, melyek közül az első a nullhipotézis értelmében nulla. De ha a nullhipotézis nem igaz, akkor ez a tényező – az átlagok egymástól való eltérése – növeli s k2 értékét, az tehát nagyobb lesz a csak véletlentől függő sb2 -nél. A minták különbözőségének – a nullhipotézis elvetésének – igazolását eszerint akkor mutatja a nagy F-érték, ha s k2 -et osztjuk sb2 -tel.
(4.21)
F
s k2 sb2
.
Ez az F-próba, illetve az F-táblázatból kikeresett, hozzá tartozó valószínűség ad feleletet arra, hogy a minták egyformák-e vagy különböznek (megtartott, ill. elvetett nullhipotézis). Az előbbi esetben úgy képzeljük, hogy a mintákat ugyanabból a változóból vettük. Azok a kezelések (a körülmények különbözősége vagy a hovatartozás), amelyek a mintákat megkülönböztették, a vizsgált y változóra nincsenek kimutatható hatással. (Ami korántsem jelenti, hogy semmiféle hatásuk nincs! Ha nem befolyásolták pl. a motivációt, attól még fokozhatták a szorongást.) Mielőtt tovább mennénk, fejezzük be a példát: nézzük meg, hogy a gyógynövénytörmelék mérete befolyásolja-e a kitermelhető glikozid mennyiségét! A számítások nagy része már megvan (4.2. táblázat), csak be kell helyettesíteni a (4.13)–(4.21) képletekbe. Először s k2 -et számítjuk ki. Tudjuk, hogy Qk úgy számítható egyszerűen, ha -ből levonjuk négyzetének és -nek a hányadosát: ,7 2 s k2 35254,526 881,38 Qk 57707,129 1231 3525 , 526 881,38 28 F 134 6,550. ,56 3094,901 2 s 134 , 56 Qb 3094,901 b 23 Az F-táblázatot (III. táblázat) a (4, 23) szabadságfok-párnál kell felütnünk. Azt találjuk, hogy a kiszámított F minden, a táblázatban megtalálható értéknél nagyobb; a hozzá tartozó valószínűség tehát kisebb, mint akár a legkisebb táblabeli érték: p < 0,005. A nullhipotézist tehát elvetjük, és azt mondjuk, hogy a kivont átlagos glikozidmennyiség függ a szemcsemérettől. Nekünk persze az is elég lenne, ha ennek tízszeresénél, 0,05-nél (5%) lenne kisebb a valószínűség: megállapodás szerint ezt tekintjük szignifikanciahatárnak. Valahogy mégis nyugodtabbak vagyunk, ha az eredmény nem „éppen csak”, hanem „nagyon” szignifikáns: igen-igen ritkán fordul elő, hogy pusztán véletlenül ekkora F-et kapjunk, ha a minták egyformák (vagyis ha igaz a nullhipotézis).
21
4.2.5 A varianciaanalízis feltételei Már eddig is szó volt a varianciaanalízis alkalmazhatóságának két feltételéről: a minták legyenek függetlenek és normális eloszlásúak. Van azonban egy harmadik feltétel, amit eddig nem említettünk: az összehasonlítandó minták szórása legyen egyforma. (Ezzel még hasonlóbbá válik az eljárás a kétmintás t-próbához: ott is ugyanez a három alkalmazhatósági feltétel szerepelt.) A szórások „egyformasága” persze nem jelent számszerű megegyezést. Hiszen változókról, véletlentől függő mennyiségekről van szó; ha ugyanabból a változóból veszünk két (vagy több) mintát, nem kapunk egyforma adatokat, és a belőlük számolt statisztikai jellemzők sem lesznek ugyanakkorák – pedig mindnyájan ugyanazoknak a paramétereknek a becslései. Hogyan várhatnánk hát tökéletes egyformaságot a jelen esetben, amikor „nem is biztos”, hogy a minták ugyanabból a változóból valók? (Ezt ugyanis csak a nullhipotézis állítja.) Eszerint nem azt kell néznünk, hogy pontosan megegyeznek-e a szórások, hanem azt kell megvizsgálni, hogy az egyes szórások statisztikailag egyformák-e, azaz hogy a köztük levő különbségeket okozhatta-e csupán a véletlen. Statisztikai próbát kell tehát végezni, melynek nullhipotézise a szórások egyformasága. Több ilyen próbát ismer a statisztikai irodalom; mi ezek közül kettőt ismertetünk. Az első, az ún. Bartlett-próba a „klasszikus” eljárások közé tartozik: valószínűleg a legelső próba volt, amelyet erre a célra kidolgoztak. Talán inkább ez a „kegyeleti” szempont az, amiért ez a próba itt szerepel; egyébként nem tartozik a közkedvelt eljárások közé. Egyrészt eléggé kellemetlen számolási procedúrát követel meg (ez azonban csak olyankor zavar, ha számítógép nélkül, „kézzel” számolunk), másrészt nagyon érzékeny a „legfőbb feltétel”, az adatok normalitásának teljesülésére: ha az adatok nem normális eloszlásúak, a próba eredménye megbízhatatlan. A másik eljárás a maximális F módszere. Ez igen egyszerű (és megbízható), hátránya azonban az, hogy csak egyenlő elemszámú minták esetén alkalmazható. Szerencsére a gyakorlatban sokszor találkozunk olyan feladattal, ahol ez teljesül: a kutatók szívesen tervezik úgy a vizsgálatot, hogy a csoportok egyforma nagyok legyenek.
Ennek nemcsak valamilyen „esztétikai” oka van, hanem statisztikai szempont is szól az egyforma csoportlétszámok mellett. Bebizonyították ugyanis, hogy a varianciaanalízis ilyenkor érzékeny a legkevésbé arra, ha megsértik alkalmazhatóságának első feltételét, a normális eloszlást. A statisztikában ezt úgy fejezik ki, hogy az eljárás robusztus a feltétel nemteljesülésével szemben. A varianciaanalízis tehát robusztus a normális eloszlás feltételére vonatkozóan (és egyforma csoportlétszámok esetén a legrobusztusabb), a Bartlettpróba azonban nem.
Lássuk most a két említett eljárást egymás után. Előbb a Bartlett-próbát. Ez egy B és egy C menynyiség kiszámítását követeli meg, gyakran azonban elég ha B-t meghatározzuk: (4.22)
B f b ln s f j ln s 2 b
f j fb 1
2 j
C 1
1
3( h1)
.
A formulában ln a „természetes logaritmust” jelenti, amely nemcsak táblázatokból kereshető ki, de csaknem minden zsebszámológépen megtalálható, és egyetlen gombnyomásra számolható. A többi kifejezés tulajdonképpen ismert, bár fj „explicite” nem szerepelt; talán mégis magától értetődő, hogy ez az egyes minták szabadságfokát jelenti, azaz fj = nj – 1. A Bartlett-próba végzéséhez csak annyit kell tudni, hogy a B/C mennyiség közelítőleg 2-eloszlású, (h – 1) szabadságfokkal. Ha tehát kiszámítottuk ezeket (4.22) szerint, akkor könnyen válaszolhatunk a szórások egyformaságának kérdésére: ha a B/C hányados túlságosan nagy – azaz a próba eredménye „szignifikáns” –, akkor elvetjük a szórások egyformaságának nullhipotézisét. Ha nem éri el a hányados a 2-táblázatból (II. táblázat) kiolvasott (általában a p=0,05 valószínűségnek megfelelő) értéket, akkor a nullhipotézist megtartjuk, azaz a szórások egyformaságát elfogadjuk. Korábban említettük, hogy sokszor elég csak B-t kiszámítani. Célszerű ugyanis először B-t hasonlítani a táblázatbeli „kritikus”, a szignifikancia határát jelentő értékhez: ha nem éri el, máris 22
elfogadhatjuk a szórások egyformaságát. A C szám ugyanis mindig nagyobb 1-nél, a B/C hányados tehát kisebb, mint B. A példában (4.2. táblázat) ugyan „szemre” is elég egyformák a szórások, gyakorlásképpen mégis végezzük el a Bartlett-próbát: B = 112,746 – 109,904 = 2,842. Az 5%-os 2-érték 9,488 (II. táblázat, 4-es szabadságfok), a nullhipotézist – a szórások egyformaságát – tehát nyugodtan elfogadhatjuk. C kiszámítását még a számolás gyakorlásával is nehéz indokolni. (Értéke egyébként 1,088.) A másik eljárás számolást alig, viszont külön táblázatot igényel. A szórások (vagy inkább varianciák) közti eltérést páronkénti F-próbákkal lehetne vizsgálni. (Hogy ez miért nem jó, arról épp elég szó volt az átlagok páronkénti összehasonlítása kapcsán, a 4.2.1 szakaszban.) A legnagyobb F értéket akkor kapjuk, ha a legnagyobb varianciát osztjuk a legkisebbel. Mindössze ezt kell kiszámítanunk, és ellenőrizni az értéket a „maximális F” táblázatában (IV. táblázat), hogy nem éri-e el az 5%-os (felső táblázat) vagy az 1%-os szignifikanciahatárt (alsó táblázat). A sorokat az egyes minták (ezúttal közös) f szabadságfoka, az oszlopokat a minták száma, h különbözteti meg. Példánkban az eljárás nem alkalmazható, mert a minták elemszáma nem egyforma. Az illusztráció kedvéért azonban „tegyünk úgy”, mintha egyforma lenne: gondoljuk azt, hogy minden mintában 6 adat van. A legnagyobb variancia az első, a legkisebb az utolsó mintában található (4.2. táblázat). A „maximális F” tehát 212,855 és 45,172 hányadosa, azaz 4,712. Hogy ez mennyire az „egyformaságot” tükrözi, arról meggyőződhetünk, ha felütjük a IV. táblázatot. Ott öt minta esetén és 5-ös szabadságfoknál 16,3 áll; ekkorának (vagy ennél nagyobbnak) kellene lennie a legnagyobb F-nek, hogy a szórások az 5%-os szinten különbözzenek. 1%-os szinten pedig akkor lenne kimondható különbség, ha a legnagyobb szórásnégyzet 33-szor akkora lenne, mint a legkisebb!* Talán jól érzékelteti ez a (szabálytalan) példa, hogy mennyire egyformák a példában látható szórások. És mégis: valami gyanakvás támad bennünk, ha nézzük a táblázatot. Miért csökkennek a szórások „szép szabályosan” az egymás utáni mintákban, ha voltaképpen egyformák, és csak a véletlen ingadozás miatt térnek el egymástól? Ez valami – ha nem is erős – szabályszerűséget sejtet. Vajon így van-e, és ha igen: hogyan használhatjuk ki ezt a szabályszerűséget? Erről lesz szó a következő szakaszban.
4.2.6 Transzformációk alkalmazása Transzformációkat akkor szokás alkalmazni, ha a szórások nem „összevissza”, hanem bizonyos szabályszerűség szerint változnak. Ez annyit jelent, hogy a minta adatainak nagysága és a szórás közt van valamilyen összefüggés. Az adatok „nagyságát” az átlag képviseli a legjobban; az említett szabályszerűséget is az átlag segítségével szokás megfogalmazni.
Fontos figyelmeztetni, hogy ez a szabályszerűség egyáltalán nem jelenti azt, hogy – mint a példában – az egymás utáni minták szórásai mutatnak valamilyen szabályszerű viselkedést. Ez egy speciális eset, ez valami „többlet” a szokásos szabályszerűséggel szemben – és ezt a „többletet” ki is fogjuk használni a későbbiekben. (L. a 4.3 fejezetet.) Ez a „többlet” onnan ered, hogy az egymás utáni minták átlagai is szabályszerűen változnak (történetesen egyre kisebbek lesznek). Az általános esetben ilyenről már csak azért sem beszélhetünk, mert az egyes mintáknak nincs meghatározott sorrendje: bármilyen sorrend-
*
Nem árt eszünkbe idézni, hogy ezek a statisztikai próbák „nem jól működnek”. A próbákat a nullhipotézis elvetésére „találták ki”: ha úgy mutatunk ki egy hatást, hogy elvetjük a nullhipotézist, pontosan tudjuk, hogy megállapításunk mennyire megbízható – vagy más fogalmazással: mekkora annak hibája. (Sőt meg is választhatjuk a hiba nagyságát; ez általában 5%.) De ha vizsgálatunk „pozitív” eredménye a nulhipotézis megtartása, akkor nem ismerjük állításunk hibáját. (A második fajta hibát.) Sőt tovább mehetünk: soha nem tudunk egy ilyen állítást bizonyítani! A szórások egyformaságát nem bizonyítja az, hogy sehogy sem sikerül kimutatni különbözőségüket.
23
be írhatjuk, szabadon fölcserélhetjük őket. (A mintákat megkülönböztető „szempont” rendszerint megállapítható változó!)
Transzformáció alkalmazásának csak akkor van értelme, ha az átlagok és a szórások valamilyen értelemben „együtt változnak” – ami nem jelenti azt, hogy ugyanúgy. A transzformáció célja az, hogy a szórásokat egységessé, egyformává tegye. (Nem túl szerencsés szóhasználattal a szórások homogenizálásáról is szoktak beszélni.) Meglehetősen bonyolult matematikai formula segítségével lehet kiszámítani, hogy mikor melyik transzformáció a célravezető. Meg sem kíséreljük az általános formula megadását, csupán az eredményt közöljük arra a néhány esetre vonatkozólag, amelyek a leggyakrabban fordulnak elő. Mindössze három ilyen esetet említünk: ha a minták szórásai úgy viszonyulnak egymáshoz, mint az átlagaik, képletben: s1 : s2 : s3 : x1 : x2 : x3 : , akkor a logaritmustranszformáció a megfelelő választás; ha a minták szórásai úgy viszonyulnak egymáshoz, mint átlagaik négyzetgyöke, képletben: s1 : s2 : s3 : x1 : x2 : x3 : , akkor a négyzetgyöktranszformáció a megfelelő választás; ha a minták szórásai úgy viszonyulnak egymáshoz, mint átlagaik négyzete, képletben: s1 : s2 : s3 : x12 : x 22 : x 32 : , akkor a reciproktranszformáció a megfelelő választás. Emlékeztetünk, hogy az alapok tárgyalása során (1.x.x.x pont) is éppen ezt a három transzformációt emeltük ki, mint legfontosabbakat.* A transzformáció célja ott az volt, hogy az eloszlást normálissá tegyük. Akkor nem matematikai formula, hanem az összegyűlt tapasztalat döntött a megfelelő traszformáció kiválasztásáról. (Ritkán van szó ilyenkor saját tapasztalatról; az inkább csak arra jó, hogy megerősítsük – esetleg megcáfoljuk – a mások által ajánlott választást.) Ebben az egész ügyben némi lelkifurdalásunk támad. Vagy normális volt az eloszlás, és akkor a felsorolt transzformációk bármelyike azt eredményezi, hogy elrontja ezt a normalitást; gyenge vigasz, hogy ugyanakkor a szórásokat egyformává varázsolja. Vagy pedig nem volt normális az eloszlás – akkor meg hogyan mertünk varianciaanalízist alkalmazni? Valójában a helyzet ennél egyszerűbb. A szórások egyenlőtlensége rendszerint annak (is) a jele, hogy az adatok nem normális eloszlásúak. A felsorolt transzformációk – és itt megint legfőképp a tapasztalatra hivatkozhatunk – úgy normalizálják az adatokat, hogy egyúttal a szórások egyformaságát is biztosítják. Ha tehát azt találjuk, hogy a szórások különböznek, nyugodtan alkalmazzuk a legjobbnak ítélt transzformációt: nem fogja elrontani a normalitást. Egyébként is: ellenőriztük mi az eloszlást? Meggyőződtünk róla, hogy az valóban normális? Legtöbb esetben ez nem is történhetett meg, az adatok kis száma miatt. Most pedig lássuk a példát! Egyúttal megmutatjuk azt is, hogyan lehet egy ilyen „hosszú arányosságot” egyszerűen ellenőrizni. Úgy látjuk, hogy a szórások úgy viszonyulnak egymáshoz, mint az átlagok; tehát az elsőnek említett esettel állunk szemben. Egyszerűség kedvéért az első két mintára vonatkozóan írjuk föl az összefüggést: s s s1 : s2 y1 : y2 . Átrendezve: 1 2 – és ezt bármelyik „párra” felírhatjuk. Az utolsó formula y1 y 2 azonban azt jelenti, hogy a variációs együtthatók egyformák: V1 V2 . Ez volt az oka, hogy a 4.2. táblázatban ezeket is kiszámítottuk. Nézzük csak meg őket! Ingadozásuk alig néhány százalékos, ráadásul nem is fut párhuzamosan az átlagok és szórások változásával: igazi véletlen ingadozás. *
Ne felejtsük el, hogy csak akkor jöhetnek szóba ezek a (nemlineáris) transzformációk, ha valamennyi adat pozitív! (A mérési adatok szerencsére csaknem mindig ilyenek.)
24
Elfogadjuk tehát, hogy logaritmustranszformációt* kell alkalmaznunk a (statisztikailag ugyan nem eltérő, de mégsem egyforma) szórások egyformákká tételére, ugyanakkor az eloszlást is közelebb hozva a normálishoz. A 4.3. táblázatban a (természetes) logaritmusokkal végzett számolás részleteit mutatjuk be, majd elvégezzük – megismételjük – a varianciaanalízist is. A táblázatban nem tüntettük fel az egyes adatok transzformáltját (azaz logaritmusát). Nyilván kissé eltérő eredményeket kapunk, ha a logaritmusokat több vagy kevesebb jegyre határozzuk meg. Célszerű azonban le sem írni ezeket: végezzük a számolást úgy, ahogy előbb, csak épp bevitelkor cseréljük fel az adatokat a logaritmusukkal. (Vagyis nyomjuk meg számológépünkön a megfelelő gombot.) Így a tizedesjegyek számának a számológép kapacitása szab határt, és mi csak akkor kerekítünk, ha leírjuk valamelyik statisztikai jellemző (átlag, szórás stb.) értékét. Az y adatok transzformáltját – természetes logaritmusát – w-vel jelöljük. Inkább csak a rend kedvéért tesszük ezt, hiszen a wij adatokkal nem sok dolgunk van; a táblázatban mindössze két sorban bukkannak fel ezek a jelölések. 4.3. táblázat: Az előbbi példa logaritmustranszformációval
xj
0,08
0,15
0,26
0,475
0,81
nj
6
5
6
6
5
28
Tj
24,180
19,473
22,991
21,331
16,064
104,039
wj
4,030
3,985-
3,832
3,555+
3,213
―
wij2
97,8228
76,1541
88,5213
76,2540
51,9332
390,6854
97,4480
75,8383
88,1001
75,8343
51,6107
388,8314
Qj
0,3748
0,3158
0,4212
0,4197
0,3225+
1,8540
s 2j
0,07496
0,07895
0,08424
0,08394
0,08063
―
sj
0,27379
0,28098
0,29024
0,28972
0,28395-
―
Vj
6,79
7,05+
7,57
8,15-
8,84
―
i
T j2 nj
A szórások egyformasága imponáló: az eltérések néhány százalékosra estek vissza, és inkább véletlen jellegűek, mintsem tendenciózusak. Viszont figyeljük meg a variációs együtthatókat: azok egymástól való eltérése megnőtt. (Jól is tette, hiszen különben még egyszer logaritmálnunk kellene az adatokat!) Fejezzük be a varianciaanalízist!
*
Teljesen mindegy, hogy melyik logaritmust használjuk – bár a tizes alapú közönséges és az e alapú természetes logaritmuson kívül más alig jön szóba. A logaritmusok közt egyszerű arányosság áll fönn: egyik a másikba egyetlen szorzással vihető át. A szorzás pedig – lineáris transzformáció! – az eloszlás tulajdonságait nem változtatja meg.
25
,039 Qk 388,8314 10428 2,25592
s k2
Qb 1,854
sb2
2
2, 25592 0,56398 4 1,854 0,0806 23
F
0,56398 0,0806
6,997
p 0,005.
Lényeges különbség nincs; talán egy kissé „megerősödött” a korábbi állítás: a minták közt eltérés van. Egyelőre csak ennyit tudunk; a varianciaanalízis arra nem ad választ, hogy konkrétan mely csoportok térnek el egymástól. Egyelőre nem is próbálunk meg választ keresni erre a kérdésre. Jó esetben, mint itt is, ugyanazt az eredményt adja a transzformált adatokból számított varianciaanalízis, mint amit az „eredeti” adatokkal számolva kaptunk.* Egyszerűen csak „jobban hihetünk” ennek az utóbbi eredménynek, mert a statisztikai eljárás feltételei, amikhez korábban kétség fért, most már igazán teljesülnek. De hogy lehet az, hogy a megváltoztatott számokból is eldönthetjük az eredeti adatokra vonatkozó kérdést? Ha volt különbség a csoportok közt, annak mértéke a transzformáció után biztosan más lesz, mint előtte. Hogyan dönthetünk hát a transzformált adatok alapján? És egyáltalán: mi értelme van annak, hogy ha (mondjuk) a személyek testsúlyai közt keressük a különbséget, akkor a testsúlyok (más dimenziójú) négyzetgyökei, vagy pláne azok (dimenzió nélküli) logaritmusai közt vizsgáljuk az eltérést? A válasz nagyon egyszerű. Ha a csoportok egyformák (ez a nullhipotézis! és a próbavégzés mindig a nullhipotézisre épül), akkor transzformáció után is egyformák maradnak – hiszen ugyanúgy transzformáljuk őket. Ha ellenben különböznek, a transzformáció másképp („máshova”) transzformálja őket: másképp fognak különbözni. De különbözni fognak, és ez a lényeg; a próba pedig ezt a különbséget fogja kimutatni. Jobban – biztosabban – ki tudja mutatni, mint transzformáció nélkül, hiszen akkor nem teljesültek a próba alkalmazásának feltételei (ezért az „roszszabbul” működött), utána pedig már teljesülnek a feltételek, és a próba „jobban működik”.
4.2.7 A varianciaanalízis és a kétmintás t-próba viszonya Vizsgáljuk azt az esetet, amikor összesen két mintánk van. Az egyszempontos varianciaanalízis ugyanazt a kérdést veti föl, mint a kétmintás t-próba: a két független, normális eloszlású minta közt van-e különbség. Még a harmadik feltétel is ugyanaz: a két csoport szórásának meg kell egyeznie. Csak az a kérdés, melyik eljárás a jobb (és persze azt is meg kell fogalmazni, hogy milyen szempont alapján ítéljük az egyik módszert jobbnak, a másikat rosszabbnak). A válasz igen egyszerű (és fölöslegessé teszi a jobb-rosszabb közti különbségtételt is): a két eljárás „ekvivalens”, egyik a másikkal bármikor helyettesíthető. Mondhatjuk azt is, hogy a kétmintás t-próba az egyszempontos varianciaanalízis speciális esete (speciális, mert ilyenkor h csak 2-vel lehet egyenlő), de fogalmazhatunk úgy is, hogy az egyszempontos varianciaanalízis a kétmintás tpróba általánosítása, két minta helyett akárhányra. Az első fogalmazás egyértelműen jobb. Mert amíg a „speciális eset” egyúttal azt is elárulja, hogyan kell a kétmintás t-próba helyébe lépő varianciaanalízist elvégezni, addig az „általánosítás” csak a feladatot jelöli ki, a végrehajtásról semmit sem mond. Ez nem véletlen. A varianciaanalízis gyökeresen új módszer, azt a t-próbából kitalálni nem lehet. Viszont a t-próba összes „képletét” fölöslegessé teszi a varianciaanalízis ismerete. Ha két csoport összehasonlítására elvégezzük a varianciaanalízist, elvégeztük a t-próbát is. Az átszámítást a varianciaanalízis befejezését jelentő F-próba és a kétmintás t közti kapcsolat mutatja: (4.23)
*
F t 2.
Voltaképp nincs is ilyen összehasonlítási alapunk. Hiszen ha a szórások eltérnek, transzformálnunk kell az adatokat, és az „eredeti” adatokból nem is számolunk. Nem tehetjük, hiszen nem teljesülnek a varianciaanalízis alkalmazási feltételei.
26
Ebből egyúttal az is következik, hogy az F-táblázat első oszlopa (h=2 esetén a számláló szabadságfoka 1!) a t-táblázat megfelelő helyén álló számok négyzetét tartalmazza (legföljebb az egyik kicsit több, a másik kevesebb értéket tüntet föl). Tessék ezt a Melléklet III. és V. táblázatán ellenőrizni!
Fontosabb azonban magának az alapállításnak, a (4.23) összefüggésnek az igazolása. A két, látszólag teljesen különböző képletről fogjuk megmutatni, hogy azok azonosak. Előbb a t-próba képletét, illetve rögtön annak négyzetét írjuk föl – annyi változtatással, hogy x helyett mindenütt y-t írunk; akkor jobban észrevehető a két formula azonossága.
( y1 y 2 ) 2 . Q1 Q2 1 1 n1 n2 2 n1 n2 Mint látható, rögtön behelyettesítettük se-t is. (4.24)
t2
A varianciaanalízis megfelelő képleteit (4.13)–(4.21) alatt találjuk meg. Rögtön megállapítható, hogy (4.24) nevezőjében a zárójel előtti rész éppen sb2 -tel, F nevezőjével egyenlő. Már csak azt kell bebizonyítani, hogy (4.19) olyan alakba írható, mint (4.24) „maradéka”.
Mivel h=2, s k2 egyenlő Qk-val (a nevező 1). Ez utóbbi (4.13) alatti képletét „aktualizáljuk” erre az esetre:
T12 T22 (T1 T2 ) 2 n12 y12 n22 y 22 2T1T2 2 2 Qk n1 y1 n2 y 2 n1 n2 n1 n2 n1 n2
(n12 n1n2 ) y12 (n22 n1n2 ) y 22 n12 y12 n22 y 22 2T1T2 n1n2 ( y12 y 22 2 y1 y 2 ) n1 n2 n1 n2
( y1 y 2 ) 2
1 n1 n2 1 ( y1 y 2 ) 2 . n1n2 n1 n2
Azt hiszem, ennek a kis levezetésnek egyik lépése sem igényel külön magyarázatot. Minden, amit „tudni” kellett hozzá, az két tag négyzetének „képlete”, meg a törtekkel való műveletek szabályai. Az eredmény pontos egyezése (4.24) „maradékával” teljesen nyilvánvaló. Az F és t változók közti összefüggés, amit (4.23) fogalmaz meg, mindig igaz, ha olyan F-próbát végzünk, amelyben a számláló szabadságfoka 1. Két független minta összehasonlításakor nyilván ez a helyzet. De korábban is találkoztunk hasonló egyezéssel, amikor a lineáris regresszió „valódiságát” kétféle módon is vizsgáltuk: varianciaanalízissel és korrelációs t-próbával; ennek általánosításáról lesz szó a következő fejezetben. Végül a 4.4 fejezetben azt is megmutatjuk, hogy nincs ez másképp összetartozó minták vizsgálatakor sem: az egymintás t-próba is helyettesíthető egy vele egyenértékű varianciaanalízissel.
4.2.8 A nemlineáris korrelációs együttható A varianciaanalízis és a kétmintás t-próba közti szoros kapcsolat természetes és magától értetődő volt; annál meglepőbb lehet azonban számunkra, hogy a varianciaanalízis kapcsolatba hozható a korrelációval (és ennek folytán a regresszióval) is. Pedig nem kell ehhez semmiféle ügyeskedés vagy a fogalom kiterjesztése: egyszerűen másképpen kell megfogalmaznunk a feladatot, mint eddig tettük.
A figyelmes olvasó találkozhatott ezzel a „másféle” megfogalmazással korábban is. A példa első előfordulásakor (11. oldal) így tettük fel a kérdést: a kivonható glikozidmennyiség 27
függ-e a növény szemcseméretétől. (A hozzá fűzött magyarázat tulajdonképpen már előlegezte nemcsak ennek a szakasznak, hanem a következő fejezetnek a témáját is.) Könnyű belátni, hogy ugyanazt vizsgáljuk, ha a minták különbözőségére vagyunk kíváncsiak, vagy ha azt kutatjuk, hogy a (mintákat megkülönböztető) szempont miképpen befolyásolja a mintákat. Ha befolyásolja, ha hatással van az y változó értékeire, akkor y értékei mások lesznek, ha a hozzájuk tartozó x érték más. Az x változó értékei viszont mintánként mások (hiszen éppen x különbözteti meg egymástól a mintákat); x hatása tehát az egyes minták különbözőségében nyilvánul meg. Ha viszont x nem hat y-ra, akkor y értékei nem változnak meg attól, hogy x más-más értéket vesz föl – így tehát az egyes mintákban lényegében (vagyis a véletlen ingadozástól eltekintve) ugyanakkora y értékek találhatók: a minták nem különböznek egymástól.
A varianciaanalízis feladata tehát így is fogalmazható: eldöntendő, van-e hatása (befolyása) az x változónak (a szempontnak) a vizsgált változóra, y-ra. A szignifikáns eredmény azt erősíti meg, hogy van ilyen hatás. Próbáljuk most megmérni ezt a hatást. A mérés módjára vonatkozóan a 2.x.x pontban megismert meghatározottsági együttható adja az ötletet. (Emlékeztetünk, hogy ez az r lineáris korrelációs együttható négyzetével volt egyenlő.) Tudjuk: a meghatározottsági együttható azt mutatja meg, hogy y teljes ingadozásának mekkora hányadát „magyarázza meg” az x változó hatása. Mit is jelent ez a jelen esetben? Az adatok teljes ingadozása a Qt négyzetösszeggel jellemezhető. A szempont (x) hatását viszont a Qk négyzetösszeg méri: ez mutatja meg, hogy a minták közti eltérés mekkora. (A minták közt pedig semmi más nem okozza a különbséget, mint az x változó.) A kettő hányadosa a változások „megmagyarázott hányada”, az itteni „meghatározottsági együttható”; annak négyzetgyöke pedig az e nemlineáris korrelációs együttható: (4.25)
e
Qk . Qt
Szokás ezt korrelációs hányadosnak is hívni, ami jól kifejezi képzési módját. A nemlineáris jelző pedig arra utal, hogy – szemben az r korrelációs együtthatóval, amelyik a változók közti lineáris kapcsolat mérésére volt (csak) alkalmas – ez az együttható mindenféle (tehát nemcsak „görbe”, hanem „cikcakkos”, „összevissza”, vagyis akármilyen) kapcsolatot egyaránt jól jellemez. Mivel ez az együttható nem szimmetrikus, mint az r együttható volt, sokan szükségesnek látják az indexek kitételét. Eszerint (4.25)-öt, amelyik y x-től való „függésének” mértékét mutatja meg, eyx-szel kellene jelölni. Valóban, ha „megfordítanánk” a dolgot, és – ugyanabban a feladatban – x-nek y-tól való függését mérnénk, egészen más együtthatót kapnánk. Ez azonban akadémikus okoskodás. Nincs itt mit megfordítani: van h darab, normális eloszlású mintánk, amelyek közt az x változó – a szempont – tesz különbséget. Ez utóbbi tetszőleges, legtöbbször számértékkel nem is bíró, megállapítható változó. Hogyan lehet „fölcserélni” ezt a kettőt? Éppen ezért az e nemlineáris korrelációs együtthatónak* nem adunk indexeket. Nem is definiáljuk azt általánosságban, és nem is használjuk másra, mint a varianciaanalízis „korrelációs megfogalmazására”: annak mérésére, hogy a minták eltérése milyen mértékben tulajdonítható a szempontnak. A konstrukcióból nyilvánvaló (l. a (4.7) képletet), hogy e értéke csak 0 és 1 közt lehet; 0 akkor, ha a minták közt semmiféle eltérés nincs (ha valamennyi átlag ugyanakkora, Qk = 0), és 1, ha nincs „hiba”, nincs mintán belüli ingadozás (Qb = 0). A varianciaanalízis céljának puszta átfogalmazása vezetett a probléma „korrelációs” szemléletéhez, de vannak olyan esetek, amikor ez a szemlélet nem csupán logikai játék, hanem nagyon is természetes megközelítésmód. Erről lesz szó a következő fejezetben. *
Szívesebben használom ezt az elnevezést.
28
4.3 A minták „regressziós függése” a szemponttól Induljunk ki megint ugyanabból a szituációból, mint egyszempontos varianciaanalízis esetén: több, független, normális eloszlású mintát szeretnénk összehasonlítani. Legyenek a minták szórásai is egyformák; ha nem lennének azok, próbáljunk meg adattranszformációval segíteni. (Vagyis: teljesüljenek a varianciaanalízis alkalmazhatóságának feltételei.) Az egyetlen „többlet”, amit a korábbiakkal szemben előírunk, hogy a szempont, az x változó értékei legyenek számok. Ettől még x nem lesz olyan változó, mint y; egyáltalán nem kell, hogy valamilyen előírt (pl. normális) eloszlást kövessen. Csupán annyit követelünk meg, hogy x értékei valóban számokat jelentsenek.* Nem elég tehát, hogy számokkal „kódolunk” egy akármilyen változót. (Például ha a „szempont” földrészeket jelent, sokszor az 1, 2, 3, … számokat írjuk oda, ahol – mondjuk – 1 Európát, 2 Ázsiát, 3 Afrikát jelenti, és így tovább.) Hogy világosabb legyen: ezeknek a számoknak meg kell legyen az a tulajdonságuk, hogy a köztük levő távolságnak is legyen jelentése: 4 ugyanannyival nagyobb 2-nél, mint 116 114-nél vagy 3,8 1,8-nál.**
Igazság szerint ennél többet is meg kell követelni az x változótól, a varianciaanalízis szempontjától. Nevezetesen azt, hogy pontos legyen, ne legyen kitéve se véletlen ingadozásnak, se mérési hibának. Ezt a követelményt azonban legtöbbször nem veszik figyelembe – pedig az itt bemutatott eljárás csak akkor érvényes, ha x ilyen. Nem kell azt hinni, hogy csak a – tájékozatlan vagy kevéssé gondos – „alkalmazók” járnak el ilyen felületesen. Matematikusok, statisztikusok is ugyanezt teszik, egész kis elméletet kanyarítva köré, hogy miért szabad „mégis”, miért „nem okoz bajt” az egyik fontos feltételnek ez a megsértése. Nem hiszem, hogy az ezt a módszert rendszeresen alkalmazók közt bárki is akad, aki még soha nem sértette meg az x-re vonatkozó fenti feltételt. Mi ennek az oka? Az, hogy a gyakorlati problémákban igen sokszor dolgozunk olyan x változóval (mint a varianciaanalízis szempontjával), amelyet vagy nem tudunk pontosan mérni, vagy rengeteg különböző értéke van, és kénytelenek vagyunk azokat valahogy összevonni, csoportosítani. Jobban érthető a dolog, ha mondok egy példát. Valamilyen y változónak az életkortól való függését vizsgáljuk. Ahány vizsgálati személy, annyi életkor. Még ha néhány évre korlátozzuk is a vizsgálatot – mondjuk óvodáskorú gyerekekre –, akkor sem „egykorúak” a 3 évesek, a 4, 5 vagy 6 évesek: egyik korosztály „folytonosan” megy át a másikba. Nem oldja meg – csak elodázza – a problémát az, ha az életkort hónap pontossággal „mérjük”.
Ilyenkor korcsoportokat szokás kialakítani, és gyakran előfordul, hogy a korcsoportot egyetlen számmal, általában az átlagéletkorral jellemzik – csak azért, hogy az itt következő módszert alkalmazhassák. Nagyon durvának tűnik ez az eljárás, de lehet „finomítani”. Például egy fiatal, egy középkorú és egy öreg csoportot vizsgálunk, és mintáinkat úgy válogatjuk össze, hogy közel egykorúak kerüljenek minden mintába. Az x változó így már megfelel a statisztikai feltételnek: a mintákon belüli, legfeljebb 3–4 éves korkülönbség elenyésző a minták – korcsoportok – közti 20–30 év különbséghez képest. (Természetesen olyan eljárás is van, amelyik nem korcsoportokat vizsgál, hanem mindenkinek közvetlenül használja föl az életkorát. Egyszerűen arról van szó, hogy mi most nem olyan módszerekkel foglalkozunk.)
*
Nem gyakori ez az eset. Sőt inkább azt mondhatnánk: ritka kivétel az ilyen varianciaanalízis.
**
Szokás ezt úgy kifejezni, hogy az x változó (legalább) intervallumskálán helyezkedjék el. Különösen pszichológusok használják ezt a kifejezést előszeretettel.
29
4.3.1 Varianciaanalízis és lineáris regresszió A helyzet tehát a következő. Van valahány – legalább három, de általában több – mintánk,* és teljesülnek a varianciaanalízis feltételei. Már el is végeztük az (egyszempontos) varianciaanalízist, és a minták közt különbséget találtunk. (A varianciaanalízis F-próbájának eredménye** szignifikáns volt.) Ez pedig azt jelenti, hogy a vizsgált változó (y) függ a szemponttól (x-től). És ekkor reménykedni kezdünk: netán számszerűen is kifejezhető, „matematikai formulával” is leírható ez a függés? Ennél konkrétabban (hiszen csak ezt az esetet fogjuk vizsgálni): vajon y-nak az x-től való „függése” nem lineáris-e? (A függés azért került idézőjelbe, mert nem függvényről, a matematikában oly gyakran szereplő, jól ismert (??) összefüggésről, hanem kicsit másról van szó.) A 4.1. ábra jól mutatja, mit kell értenünk azon, hogy van-e itt lineáris összefüggés. Az egyes minták átlagai különböznek (hiszen a varianciaanalízis szignifikáns volt); de lineáris összefüggésről csak akkor beszélhetünk, ha ezek az átlagok – nagyjából – egy egyenesen helyezkednek el. Azt kell megvizsgálnunk, hogy így van-e vagy nincs így; ez pedig egy újabb varianciaanalízissel, az st2 „teljes” variancia három komponensre történő felbontásával dönthető el. 4.1. ábra
Itt lehet „tetten érni” azt a követelményt, hogy az x változó értékei legyenek számok. Ha x megállapítható változó, minden további nélkül átrendezhetjük a csoportokat úgy, hogy az átlagok egyre nagyobbak (vagy egyre kisebbek) legyenek. Ezután addig „tologatjuk” őket (a megállapítható változó értékei ugyanolyan joggal helyezkedhetnek el az „x-tengely” egyik vagy másik helyén!), míg pontosan egy egyenesbe nem esnek. Ha viszont a szempont egyes értékei számok, ezt nem tehetjük meg: a számoknak a tengelyen meghatározott helyük van.
A felbontás úgy történik, hogy a már elkészített s k2 varianciát bontjuk tovább: egyik komponense az értékeknek a (feltételezésünk szerint valóban létező) egyenes miatti változását – emelkedését vagy csökkenését – képviseli, a másik az ettől a szabályszerűségtől való eltérést. Ezt görbületi komponensnek fogjuk hívni, mert azt mutatja meg, hogy az egymás utáni átlagokon áthúzott vonal „mennyire nem egyenes”, azaz „mennyire görbe”. Az említett egyenes nem más, mint az adatokból kiszámított regressziós egyenes. Ennek tulajdonságait, számítási módját már ismerjük (l. a 2.x fejezetet). Semmi akadálya, hogy azokat a képleteket alkalmazzuk erre az esetre is.
*
A regressziós vizsgálatokban (xi, yi) adatpárokból állt a minta, és ez most sincs másképpen. A helyzet azonban annyiban egyszerűsödik (netán bonyolódik?), hogy az x adat sok, egymás utáni pár esetében azonos: az x1 adat n1-szer, az x2 adat n2-ször fordul elő, mint egyegy adatpár első eleme, és így tovább (l. a 4.1. táblázatot). Érdemes ezért N független adatpár figyelembevétele helyett megkülönböztetni az első, a második, …, a h-adik mintához tartozó adatpárokat. Vagyis érdemes összesen h x-adattal számolni (hiszen mindössze enynyi van); a képletek ugyan formailag kissé bonyolultabbá válnak ezáltal, de a számolás egyszerűbb, rövidebb lesz.
Látni fogjuk, hogy az a kérdés, amire ebben a fejezetben választ keresünk, két minta esetén teljesen értelmetlen.
**
Bizonyára pongyolán, de általában mégis azt szoktuk mondani, hogy a varianciaanalízis szignifikáns (nem szignifikáns) volt. Pedig ez a kifejezés mindig próbára vonatkozik (mint itt az F-próba); maga a varianciaanalízis csak a fölbontást jelenti. Mégis a varianciaanalízis szignifikanciájáról beszél mindenki; ez a szóhasználat – mondjuk így: megegyezés alapján – nem számít pongyolának. Ezentúl mi is így fejezzük ki magunkat.
30
Mindenek előtt végezzük el a regressziós képleteknek ezt az átalakítását. Kezdjük a Qx és Qxy alapképletek átalakításával. (Qy-ra nincs szükség – de az egyébként sem más, mint a varianciaanalízisben is szereplő Qt négyzetösszeg.) (4.26)
Q x ( x j x ) n j ( x j x ) 2
2
n j x 2j
n j x j 2 N
j
.
A második lépést nem részleteztük, hiszen az a Q négyzetösszeg „definíciós” formájának „számolásra alkalmas” formává történő átalakítása, amit már számtalanszor elvégeztünk. Az xj adatokat természetesen mindig annyiszor kell számításba vennünk, ahány elemű a megfelelő minta (tehát ahány adatpárban szerepelnek). Éppen ezért átlaguk: (4.27)
x
njx j ; N
ezt a képletet egyébként az előbbi levezetésben is felhasználtuk.
Qxy ( x j x )( yij y ) ( x j x ) ( yij y ) ( x j x )(T j n j y ) j
i
j
n j (x j x )( y j y ) n j x j y j y n j x j x n j y j x y n j x jT j yNx x Ny x yN x jT j
n x T . j
j
j
N
A szorzás elvégzése után három azonos tagot kaptunk (különböző előjelekkel); ezekből єgy maradt, amelyet a („számolásra alkalmas”) szokásos formában adtunk meg.
Az y = a + bx regressziós egyenes együtthatóit az ismert (és alig módosított) képletekből lehet kiszámítani:
a y bx
b
Q xy
. Qx Itt Qxy és Qx természetesen az előbb előállított formulákat jelenti. (4.29)
A felbontás elkészítéséhez szükségünk lesz egy újabb jelölésre. Az egyenes xj helyeken található pontjait Yj-vel fogjuk jelölni: (4.30)
Y j a bx j .
„Ideális” esetben – amikor regressziós modellünk pontosan a valóságot írja le – ezek egybeesnek az y j mintaátlagokkal. Ilyen ideális eset azonban a gyakorlatban soha nem fordul elő. Még ha az egyes mintáknak megfelelő elméleti átlagok (várható értékek) mind rajta is vannak az egyenesen, az y j mintaátlagok eltérnek attól, a mindig jelen levő véletlen ingadozás miatt. A varianciaanalízis egyik célja éppen ez: megvizsgálni, vajon a mintaátlagok nem térnek-e el túlságosan – azaz szignifikánsan – az egyenestől. 4.3.1.1 A négyzetösszeg felbontása Lássunk most neki a variancia újabb analízisének, bontsuk föl a (4.19) képlet által meghatározott s k2 varianciát két komponensre, egy regressziós és egy görbületi varianciára. Jól tudjuk, hogy ezt a számláló és a nevező összegekre bontásával kell megtennünk. Állítsuk elő először a számláló két komponensét: (4.31)
Qk Qg Qr .
31
A levezetést ismét a „nem kötelező” szövegrészben végezzük el, és csak a végeredményt ismételjük meg a „főszövegben”. Hasonlóan járunk el, mint az első felbontáskor (4.9)-ben: „becsempésszük” a szükségessé vált értékeket, az egyenes pontjait. A (4.11) képletből indulunk ki: Qk n j ( y j Y j Y j y ) 2 n j ( y j Y j ) 2 n j (Y j y ) 2 0.
Az első tag nyilván a „görbületet”, az átlagoknak az egyenestől való eltérését képviseli, a második az egyenes pontjai, vagyis az x változó miatt „kikényszerített” eltérést. A kétszeres szorzat ezúttal azért nulla, mert Yj éppen a regressziós egyenes pontjait jelenti. Ezt azonban még bizonyítanunk kell. A 2-es szorzót ki sem írjuk, csak a szorzatot:
n j ( y j Y j )(Y j y) n j ( y j [a bx j ])(a bx j y) n j ( y j y bx bx j )(y bx bx j y ) b n j ( x j x )([ y j y ] b[ x j x ]) b 2 Q x bQ xy
2 Q xy
Q x2
Qx
Q xy Qx
Q xy 0.
Csupa olyan formulát használtunk fel, amely az előző oldalon szerepel, (4.26) és (4.30) közt. (Qxy felhasznált formáját a (4.28) levezetés második sorában találjuk meg.) Most állítsuk elő a kapott négyzetösszegek számolásra alkalmas alakját: 2
2 Qxy Qxy Qx Qr n j (Y j y ) n j ( y bx bx j y ) b n j ( x x j ) . Qx Qx 2
2
2
2
Pontosan ez a formula szerepelt egyébként a második részben is (l. a (2.x) képletet), csak a benne foglalt Qx és Qxy kifejezések tartalma módosult kissé, mint fentebb megmutattuk. A másik négyzetösszeg célszerű alakját ennek segítségével állítjuk elő, csak előbb emléQxy . Felhasználjuk továbbá (4.25)-öt keztetünk a korrelációs együttható képletére: r Qx Q y is. (Ne felejtsük el, hogy Qt és Qy pontosan ugyanazt jelenti!) 2 2 Q Q xy Qk Q xy k Q g Qk Qr Q y Qy Q y Qx Q y Q y Qx
Q (e 2 r 2 ). y
Ez az utóbbi formula nagyszerűen kifejezi a képlet „tartalmát”: ennyivel nagyobb a meghatározottság, ha a lineáris korrelációs együttható négyzete helyett a nemlineáris együttható négyzetével mérjük azt meg – tehát ennyit „ad hozzá” a nemlinearitás figyelembevétele. Ha a kapcsolat lineáris, ez természetesen nulla.
Ideje, hogy összefoglaljuk eddigi eredményeinket, összegyűjtsük mindazokat a képletet, amelyekre az újabb varianciaanalízis során szükségünk lesz. (4.7) és (4.31) alapján: (4.32)
Qt Qr Qg Qb .
Qt képletét (4.15), Qb-ét (4.14) alatt találjuk meg. A másik kettőnek ugyanígy megadjuk „definíciós” és „számolásra alkalmas” formáját: (4.33)
32
Qr n j (Y j y ) 2
2 Q xy
Qx
,
(4.34)
Qg n j ( y j Y j ) 2 Qt (e 2 r 2 ).
Itt Qy helyett Qt-t írtunk; megtehettük, hiszen ugyanannak két elnevezéséről van szó. Az első formulában explicite, a másodikban rejtetten szereplő Qx és Qxy kifejezések a varianciaanalízis esetén így módosulnak (lásd a (4.26) és (4.28) levezetéseket):
n j x j 2
(4.35)
Qx ( x j x )
(4.36)
Qxy ( x j x )( yij y ) x j T j
2
n j x 2j
N
,
n j x j T j N
.
4.3.1.2 A szabadságfokok meghatározása Qr szabadságfokát igazán könnyű meghatározni. Mivel az N tagú összeg – számos átalakítás végeredményeként – egytagúvá alakult, szabadságfoka is 1.* Még jobban „látszik”, hogy Qr egytagú, ha ebben a formában írjuk fel: Qr b 2 Qx . Ennél azonban pontosabban is érvelhetünk. Qr az egyenes pontjaiból számolt négyzetösszeg (l. (4.33) első alakját); így bármelyik tagból a többi – a hasonló háromszögek tulajdonságainak fölhasználásával – közvetlenül kiszámítható. (Erre vonatkozóan l. a 4.2. ábrát). Elég tehát egyetlen tag megadása; – vagyis 1 a szabadságfok. Ami Qg-t illeti, az a mintaátlagok és az egyenes megfelelő pontjai közti eltérés négyzetöszszege. Ez h tagú (hiszen h minta van), de a tagok közt két összefüggést vélünk fölfedezni: mivel egy egyenes pontjait tartalmazzák ezek a tagok, az egyenest „rögzítő” két pont – vagy ha úgy tetszik: az egyenes két együtthatója – egy-egy összefüggést teremt köztük. A szabadságfok tehát h – 2. Ez az érvelés azonban az előzőnél is gyengébb lábon áll; legfeljebb arra jó, hogy megkönnyítse annak felidézését, hogy mennyi Qg szabadságfoka, ha azt valahonnan megtanultuk. Éppen ezért elvégezzük a szabadságfokok „szabályos” meghatározását: megkeressük a tagok közti lineáris összefüggéseket.
Az egyforma tagok nem függetlenek. (A 4.2.3.3 pontban azt is megmutattuk, hogyan lehet felírni a köztük levő lineáris összefüggéseket.) Elég tehát, ha a h tagú formulákkal foglalkozunk: Qr n j (Y j y ) 2
Qg n j ( y j Y j ) 2 .
Az első négyzetösszeg (különböző) tagjai közt (h – 1) lineáris összefüggést írhatunk föl. Ezek mind hasonlóak: az első tagnak adjuk az ( x j x ) , a j-ediknek az ( x x1 ) együtthatót, míg a többi tag együtthatója nulla (j=2, 3, …, h). Azt állítjuk, hogy az így fölírt lineáris kombinációk 0-val egyenlők (azaz lineáris összefüggések). Bizonyítás: ( x j x )(Y1 y ) ( x x1 )(Y j y ) 0
( x j x )(Y1 y ) ( x1 x )(Y j y ) Y1 y Y j y . x1 x x j x
*
Említettem, hogy van a szabadságfok-meghatározásnak teljesen korrekt (a lineárisan független tagokat megszámláló) és „pongyola” módja. Ez a fönti ugyancsak pongyola volt!
33
Mivel az ( x j , Y j ) pontok is, az ( x , y ) pont is rajta vannak a regressziós egyenesen, az utolsó egyenlőség két hasonló háromszög megfelelő oldalainak arányát (vagy ha úgy tetszik: két egyforma szög tangensének egyenlőségét) fejezi ki (4.2. ábra). A második négyzetösszeg (Qg) tagjai közt könnyű megtalálni az első összefüggést. Ez tulajdonképpen azt fejezi ki, hogy a regressziós egyenes „középen” van: a pontok eltérése az egyenestől fölfelé és lefelé öszszességében ugyanakkora. A cj = nj együtthatókat választva: 4.2. ábra
n j ( y j Y j ) T j n j ( y bx bx j ) T j y n j b n j ( x j x ) 0. A második tag az elsővel egyenlő, hiszen az nj-k összege N, az utolsó tag pedig az x-ek átlagtól való eltérésének összege (tehát nulla).
A másik lineáris összefüggést az x-ek segítségével írjuk fel: c j n j ( x j x ). Rögtön elvégezzük azt az átalakítást is, amelyből látszik, hogy a kifejezés nulla:
n j ( x j x )( y j Y j ) n j ( x j x )([ y j y] b[ x j x ]) Qxy bQx 0. Qx és Qxy felhasznált formuláit (4.26) és (4.28) alatt találjuk meg; rajtuk kívül a (4.29) és (4.30) regressziós formulákat használtuk csak föl. Azt kaptuk, hogy (4.37)
fr = 1,
fg = h – 2 .
Ebből az is látszik, hogy „jó” volt a felbontás: a két szabadságfok összege a felbontott négyzetösszeg, Qk szabadságfokával, (4.16)-tal egyenlő. Cochran tétele (l. 4.2.3.4-et) értelmében a komponensek függetlenek, -eloszlásúak, és a varianciák hányadosai F-eloszlást követnek.
Vegyük észre azt is, hogy az egész eljárásnak csak akkor van értelme, ha a csoportok száma (h) legalább 3. Ha ugyanis csak két minta van, az s k2 variancia szabadságfoka 1, és azt nem tudjuk fölbontani! Még mutatósabb az érvelés, ha a görbületi variancia szabadságfokát tekintjük: h – 2 = 0, tehát a görbületnek nincs szabadságfoka; ami ezt jelenti, hogy az átfektetett görbe nem lehet más, csak egyenes: „nem szabad görbülnie”. Jól tudom persze, hogy ez csak afféle matematikai hókuszpókusz, hiszen az 1-et is föl lehet bontani (mondjuk két félre), meg azt is nehezen fogadja el egy matematikától meg nem fertőzött elme, hogy a „nulla szabadságfok” annyit jelent, hogy ennek a komponensnek egyáltalán nem szabad semmit sem „csinálnia”. De van ennél meggyőzőbb érvelés, elfogadhatóbb magyarázat.
A regressziós egyenesnek, ugyebár, a lehető legjobban meg kell közelítenie az y j átlagokat (hiszen ez a „legjobb”, a legkisebb hibával közelítő egyenes). Ha mindössze két átlag van, semmi akadálya, hogy az egyenes mindkettőn átmenjen; a regressziós egyenes ezt meg is fogja tenni. De akkor hogyan tehetnénk fel olyan kérdést, hogy az egyenes milyen messze van a csoportátlagoktól? Ebben az esetben tehát csak az a kérdés, hogy a két átlag egyforma nagy-e (azaz különböznek-e) – és éppen erre felel az egyszempontos varianciaanalízis is. Ha viszont regressziót számolunk, azt kérdezzük, hogy az (átlagokon átmenő) regressziós egyenes vízszintes-e.
34
A két kérdés azonban ugyanaz!. Ezek után az sem meglepő, ha a két teljesen különböző képletről is kiderül, hogy egymással egyenlők; vagyis hogy h = 2 esetén Qk = Qr. (Az esetleg kételkedő olvasó akár el is végezheti az egyik képletnek a másikba történő átalakítását.)
4.3.2 A varianciaanalízis befejezése Abból indultunk ki, hogy az egyszempontos varianciaanalízis szignifikáns eredményt adott, (4.21)
F
s k2 sb2
meghaladta a választott szignifikanciaszintnek megfelelő, táblázatbeli értéket; a csoportok közt valamilyen különbség biztosan van. Most arra vagyunk kíváncsiak, hogy kimondható-e: a csoportok értékei lineárisan függnek a varianciaanalízis szempontjának nevezett x változótól. Ehhez azonban előbb azt nézzük meg, hogy nem „görbe”-e az x-től való függés. Vagyis elvégezzük az (4.38)
F
s g2
sb2 próbát. Ha ez szignifikáns, akkor előfeltevésünkben tévedtünk: nem lineáris az y változó x-től való függése. Ha viszont nem szignifikáns, akkor remélhetjük*, hogy az összefüggés lineáris, a minták átlagai (nagyjából) a regressziós egyenesen feküsznek. Ez azonban azt jelenti, hogy teljesül az általunk elképzelt „lineáris modell”, és hogy mégis van „görbeség”, hogy nincs valamennyi mintaátlag rajta az egyenesen, az pusztán a véletlen hatásának tulajdonítható. Vagyis: a görbületi komponens szintén a véletlen ingadozást jellemzi, akárcsak sb2 . Két ilyen komponensre pedig nincs szükség; egyesítsük a kettőt! Ezt meg is fogjuk tenni. Mivel azonban általános, a varianciaanalízis során több alkalommal előforduló eljárásról – és elvről – van szó, szánjunk rá némi időt és fáradságot, és foglalkozzunk külön pontban ezzel a kérdéssel. 4.3.2.1 Varianciák összevonása Az eljárás éppen a fordítottja a variancia analízisének: nem komponensekre bontjuk a már előállított varianciát, hanem több, már ismert varianciából – komponensből – készítünk egy újabbat. Akkor viszont azt is tudjuk, hiszen korábban is szerepelt ilyen feladat, hogyan kell ezt végezni: a kombinálandó varianciák számlálóit is, nevezőit is össze kell adni, és el kell osztani egymással az összegeket. Ezt az eljárást nevezik a varianciák összevonásának. Az sb2 és s g2 varianciákat akarjuk összevonni. Az eredményül kapott varianciának adjuk a v indexet, arra utalva, hogy ez a komponens képviseli eztán a véletlen hatását. Előállítása a mondottak szerint történik: (4.39)
Qv Qb Qg ,
(4.40)
f v f b f g N h h 2 N 2.
Végül
*
Akár biztosra is vehetjük! Sokan azonban nem végeznek előzetesen egyszempontos varianciaanalízist, így abban sem lehetnek biztosak, hogy a minták közt van különbség.
35
Qv , fv amivel nyilván nem mondtunk semmi újat. De mi a közvetlen célja ennek az összevonásnak? Azt már említettük, hogy azért vonjuk össze a két komponenst, mivel mindkettő a véletlen hatást „méri”, tehát egyikük fölösleges. Ettől azonban még megmaradhatna mindkettő, és az s r2 varianciát hasonlíthatnánk akár az egyikhez, akár a másikhoz. Ha azonban elvégezzük az összevonást, olyan varianciát kapunk, amelyiknek nagyobb a szabadságfoka, mint az összevont komponenseké. Ez pedig komoly előny. A nagyobb szabadságfok nagyobb biztonságot jelent. A statisztikai jellemzők annál jobban megközelítik az elméleti értéket (a paramétert), minél nagyobb elemszám alapján számoltuk ki őket. A szabadságfok pedig végső soron az elemszámtól függ, ha ez nem is olyan nyilvánvaló ebben az összetett esetben. A fenti „ködös ígéretnél” többet mond, hogy nagyobb szabadságfok esetén „hamarabb” lesz szignifikáns az eredmény. Ha megnézzük az F-eloszlás táblázatát (III. táblázat), látjuk, hogy bármelyik szabadságfok növelésével* egyre kisebb lesz az 5 (vagy akármelyik másik) százalékhoz tartozó F érték. Már csak ezért is érdemes elvégezni az összevonást. A varianciaanalízis összetettebb eseteiben, amikor a sok komponensre történő bontás miatt a szabadságfokok nagyon elaprózódnak, összevonásokkal teszik áttekinthetőbbé, ugyanakkor hatékonyabbá az analízist. Az új, s v2 variancia lehet kisebb is, lehet nagyobb is, mint a véletlen hatását korábban „képvi(4.41)
sv2
selő” sb2 . Emlékeztetünk, hogy az összevont variancia a komponens-varianciák (súlyozott) átlaga; értéke tehát a két komponens értéke közé esik. Ha s g2 nagyobb volt sb2 -nél, az összevont variancia is nagyobb lesz, mint sb2 . Ha viszont kisebb, az összevont variancia is kisebb; mennél kisebb volt a görbület, annál inkább. (Értéke azonban közelebb van sb2 -hez, mint a görbületi varianciához, hiszen az előbbi „súlya” N – h, utóbbié pedig a rendszerint jóval kisebb h – 2.) 4.3.2.2 A linearitás ellenőrzése Ideje befejeznünk a varianciaanalízist. Ott tartottunk, hogy a görbületet ellenőrző F-próba nem volt szignifikáns, ezért ezt a komponenst összevontuk a mintán belülivel. A linearitást képviselő s r2 -et ehhez az új „véletlen komponenshez” hasonlítjuk: (4.42)
F
s r2 sv2
.
A megfelelő szabadságfokokat (4.37) és (4.40) alatt találjuk.
Megjegyezzük, hogy nem mindenki ért egyet ezzel a próbasorozattal. Egyrészt azt mondják, hogy akkor is vizsgálható a regressziós komponens, ha az egyszempontos varianciaanalízis nem mutatott különbséget a csoportok közt, másrészt azt állítják, hogy „szignifikáns görbület” esetén is elvégezhető a lineáris regressziót ellenőrző F-próba. Az első esetben nem ugyanazt vizsgálják, mint mi tettük a (4.42) alatti F-próbával – jóllehet ugyanazt a képletet alkalmazzák. Nem a csoportátlagok egyenesre történő illeszkedését nézik, hanem azt, hogy az N pontból számolt regressziós egyenes vízszintes-e vagy sem. Természetesen jogos ez a vizsgálat is,* de a mi célunk most más volt: a különbözőnek talált
*
Esetünkben a nevező szabadságfokát tudjuk növelni.
*
El is végeztük a könyv második részében! (Lásd a 2.x.x szakaszt.)
36
csoportokról akartunk valami többet megtudni, a különbözőségre kerestünk egyfajta magyarázatot. Problematikusabb a második vizsgálat. Ha tudjuk – legalábbis a szignifikancia nyújtotta biztonsággal –, hogy az átlagok valamilyen görbén helyezkednek el, akkor a linearitás ellenőrzése valami olyasmit jelent, hogy megpróbáljuk a görbét „átvágni” egy egyenessel. A görbére mindenképp rá lehet fektetni egy egyenest; olyasmi ez, mint mikor a kanyargós utat átvágjuk, a réten keresztül. Számomra nem világos azonban, hogy mit jelent ilyenkor a szignifikáns, és mit a nem szignifikáns F-próba. Azt vizsgáljuk csupán, hogy ez az „átvágás” vízszintes-e? Erre alkalmasabb az előző próba. Vagy azt, hogy „elég közel” van-e a görbe az egyeneshez? Meglehetősen homályos állítás. Nem ajánlható ez az út. (Ahogy a réten átvágva is tévedhetünk mocsárba, amiben szépen elsüllyedünk.)
Mindenesetre ilyenkor nem lehet varianciákat összevonni, és ennek a (homályos) linearitásnak az ellenőrzése ezzel a próbával történik: F
s r2 sb2
.
Jobb azonban, ha nem is törődünk ezekkel a lehetőségekkel, hanem megmaradunk a korábban bemutatott próbasorozatnál. Összefoglalva: először megvizsgáljuk, hogy van-e a csoportok közt különbség. Ha (4.21) nem ad szignifikáns eredményt, készen is vagyunk. Ha ez szignifikáns, következik a „görbeség” ellenőrzése (4.38) szerint. Ha ez szignifikáns, akkor nincs tovább: lineáris modellünk nem vált be. Ha viszont nem szignifikáns, akkor a görbületi és a mintán belüli komponenst összevonjuk, és az új véletlen komponens segítségével végezzük el a regressziós próbát, ahogy (4.42) mutatja. Nincs más hátra, mint végigszámolni egy példát – ezzel erősítve meg a 4.3 fejezetben elsajátított új ismereteket. 4.3.2.3 Példa „regressziós varianciaanalízisre” Az előző fejezetben elemzett mintapélda (4.2. táblázat) alkalmas arra, hogy elvégezzük rajta ezeket az elemzéseket is. A mintákat megkülönböztető szempont, a szemcseméret értékei számok, tehát megfelelnek a fejezet elején említett követelménynek.* Először Qx és Qxy értékét számítsuk ki, a (4.35) és (4.36) képletek alapján:
9,69 2 Q x 6(0,08) 5(0,15) 5(0,81) 1,837 318 28 9,69 1231,7 Q xy 0,08 347,7 0,15 253,1 0,81 128,1 79,352 679. 28 2
2
2
Ezután számítsuk ki r2 és e2 értékét. Ne felejtsük el, hogy a korábbi Qt pontosan ugyanaz, mint az r képletében szereplő Qy:
e2
3525,526 0,532 522 6620,427
r2
(79,352679) 2 0,517 670. 1,837318 6620,427
Következik a Qr és Qg négyzetösszegek kiszámítása, (4.33)–(4.34) alapján:
*
Ugyanazt a kifogást azonban föl lehet ellenük hozni, amiről uyanott a -os részben volt szó (29. oldal). A növényi „szemcsék” nem egyformák az egyes csoportokon belül. Szitálással választották szét őket, és nem elég, hogy különféle méretek kerülnek ugyanabba a csoportba (a két szita mérete közti összes közbülső méret), de a „mérés” nem is pontos: egyes szemcsék összetapadhatnak, és kisebbek keveredhetnek a nagyobbak közé.
37
Qr
(79,352679) 2 3427,195 1,837318
Qg 98,327.
Biztonság kedvéért ellenőrizzük, hogy a kettő összege valóban egyenlő-e Qk-val! (A harmadik tizedesjegyben fogunk eltérést találni – de hát ez mindhárom esetben már egy kerekített, pontatlan jegy. Ha nagyobb egyezést akarunk, minden négyzetösszeget több jegyre kell kiszámítanunk.) Következik a görbület ellenőrzése:
98,327 32,776 , sb2 134,561 (utóbbit tudjuk az egyszempontos varianciaanalízisből), 3 32,776 végül F 0,2436. 134,561 s g2
Ezt az értéket a (3, 23) szabadságfokoknál kell ellenőrizni a III. táblázatban. Látjuk, hogy kisebb minden, a táblázatban található értéknél – tehát semmiképp nem szignifikáns. Ezt egyébként táblázat nélkül is tudjuk, hiszen az 1-nél kisebb érékek az eloszlás „másik végén” helyezkednek el. A görbület nem szignifikáns, ezért összevonjuk ezt a komponenst a mintán belülivel. Mivel a görbületi variancia nagyon kicsi, a véletlen komponens kisebb lesz a mintán belülinél; ez is a szignifikancia „érdekében” dolgozik, hiszen növeli F értékét. Az új komponens számlálója: Qv = 3094,901 + 98,327 = 3193,228, nevezője pedig N – 2 = 26 lesz. (L. a (4.39)–(4.40) képleteket!) Ezek után elvégezhetjük a linearitás ellenőrzését:
s r2
3427,195 3427,195 1
sv2
3193,228 122,816 26
F
3427,195 27,905 . 122,816
A szabadságfokok jól leolvashatók a varianciák képletéből; azt kaptuk, hogy az F érték szignifikáns, sőt nagyobb minden táblabeli értéknél (p < 0,005). Arra a következtetésre jutottunk, hogy helyes volt a „lineáris modell” feltételezése: a csoportok átlagai jól illeszkednek az x (szemcseméret) és y (kivont glikozid) közt számolt regressziós egyenesre.
4.3.3 A varianciaanalízis táblázata A sok komponens közt könnyen el lehet tévedni. Esetenként nemcsak a variancia-komponensek, hanem a négyzetösszegek és a szabadságfokok értékeire is kíváncsiak vagyunk. (Ha másért nem, hogy ellenőrizhessük őket: kiadja-e összegük a teljes négyzetösszeget és annak szabadságfokát.) Ezért a varianciaanalízis eredményeit táblázatba szokás foglalni. Legtöbbször ez a táblázat már a négyzetösszegek felbontása után elkészül, és a további számításokat – varianciák, F-próbák – itt végzik el. Készítsük el most ezt a táblázatot!* A táblázat minden sora egy-egy komponensnek felel meg. Szokás a komponensek „fontossági sorrendjét” megtartani: amelyik komponensnek a vizsgálattal kapcsolatban „mondanivalója” van (pl. a csoportok közti különbséget jellemzi), az kerül előre, a véletlen komponens (amelyik tulajdonképpen csak „zavarja” a csoportok közti különbségtételt) kerül a végére. Az „utolsó sor után” tüntetik fel a teljes mintára vonatkozó értékeket; ezek az ellenőrzést szolgálják. A táblázat oszlopai rendre a következők. Az elsőbe elnevezések kerülnek, amelyek mutatják, hogy az illető sor melyik komponens adatait tartalmazza. A második oszlopban a négyzetösszeg, a harmadikban a szabadságfok, a negyedikben a variancia (a kettő hányadosa) áll. Az utolsó oszlop*
Mindezt jóval korábban megtehettük volna; általában az egyszempontos varianciaanalízist is ilyen táblázatban végzik el. Mivel azonban ott csak két komponensre bontják a varianciát, a táblázatnak mindössze két sora van. Ezért ott táblázat nélkül is könnyű eligazodni.
38
ban az F értékek állnak és talán még a hozzájuk tartozó p valószínűségek. Némi nehézséget okozhat azonban, ha egyik-másik F számításához összevont varianciákat használtunk. Egyelőre készítsük el a 4.3 fejezetben megismert varianciaanalízis táblázatát az elmondottak szerint, elhagyva az F értékek oszlopát. Képletek helyett ezúttal a képletekre utaló számok állnak a megfelelő helyeken. (4.4. táblázat.) 4.4. táblázat: A regressziós varianciaanalízis egyszerűsített táblázata Típus
Négyzetösszeg Szabadságfok Variancia
Regressziós
Qr: (4.33)
1
s r2 Qr
Görbületi
Qg: (4.34)
h–2
s g2
Mintán belüli Qb: (4.14)
N–h
sb2
Teljes
N–1
―
Qt: (4.15)
Teljesen hasonló ehhez az egyszempontos varianciaanalízis táblázata, csak ott mindössze két sor van a táblázat „belsejében”, és szerepel még egy oszlop, amelyben az (egyetlen) F érték áll. Ha itt is szerepeltetni szeretnénk az analízis F értékeit, ki kell bővítenünk a táblázatot olyan sorokkal, amelyekben az összevont értékek állnak. Be kell vallani: az áttekinthetőség érdekében készült táblázat így már maga sem lesz könnyen áttekinthető! (4.5. táblázat.) 4.5. táblázat: A regressziós varianciaanalízis teljes táblázata Típus
Négyzetösszeg
Regressziós
Qr: (4.33)
Minták közti
Görbületi Véletlen
Szabadságfok Variancia F-próbák 1
Qk Qr Qg
Qg: (4.34)
h–1
F
s r2
s k2
F
s k2
s g2
h–2
Qv Qg Qb
s r2 Qr
N–2
F
s v2
sb2
s g2 sb2
s v2
―
Mintán belüli Qb: (4.14)
N–h
sb2
―
Teljes
N–1
―
―
Qt: (4.15)
3.
1.
2.
Az F-próbák utáni számok e próbák javasolt sorrendjét mutatják. (Az egyes próbák végezhetősége az előző próba eredményétől függ!)
A 4.6. táblázatban azt követhetjük nyomon, hogyan használjuk a varianciaanalízis táblázatát. Ennek érdekében elkészítettük a mintapélda táblázatát, a 4.5. táblázatnak megfelelően – kiegészítve még egy oszloppal, amely az F értékekhez tartozó, a III. táblázatból kikeresett valószínűségeket tartalmazza. 39
Megjegyezzük, hogy a varianciaanalízis táblázatával, annak értelmezésével már csak azért sem árt megbarátkozni, mert a számítógépes programok többsége ebben a formában „közli velünk” a végeredményt. 4.6. táblázat: A példa végeredménye Típus
Q
f
s2
Regressziós
3427,195
1
3427,195 27,905 <0,005
Minták közti Görbületi
3525,526 98,327
4
Véletlen
3 3193,228
F
p
881,381
6,550
32,776
0,2436 >0,10
26 122,816
―
Mintán belüli 3094,901
23
134,561
―
Teljes
27
―
―
6620,427
<0,005
Az összegek egy része a harmadik tizedesjegyben már nem egyezik meg. Ennek az az oka, hogy egyes négyzetösszegeket az egyszempontos varianciaanalízisből vettünk át, ahol „pontosabban” számoltunk.
40
4.4 Randomizált blokkok A cím nyilván ijesztő kissé, de rövidesen ki fog derülni: egyszerű dologról van szó. (Mindenesetre egyszerűbbről, mint az előző fejezetben…) Induljunk ki ismét az egyszempontos varianciaanalízisben felvázolt problémából: több minta (több csoport, több kezelés stb.) közt akarunk különbséget megállapítani. Most azonban ezek a minták nem teljesen függetlenek, és valamennyinek ugyanakkora az elemszáma. Ezt a közös nj elemszámot ezekben a feladatokban g-vel fogjuk jelölni.* A mintaelemek száma (N) ebben a feladatban tehát g és h szorzatával egyenlő. Mindez persze még nem sokat árul el a feladat jellegéről. Magyarázattal tartozunk arra vonatkozóan is, hogy mit értettünk a „nem teljesen” független mintákon, továbbá hogy a varianciaanalízis minták függetlenségére vonatkozó feltételét hogyan tudjuk „megkerülni”. Ehhez kell a „blokk”, majd később a „randomizált” kifejezés bevezetése, magyarázata. Kezdjük az elsővel!
4.4.1 Blokkok kialakítása A varianciaanalízis eredménye gyakran azért nem szignifikáns, mert bár látható különbség van az átlagok között, a nagy szórás elfedi ezt a különbséget. Ezen nem tudunk közvetlenül segíteni. A minták szórása nem változtatható meg anélkül, hogy magukat az adatokat meg ne változtatnánk; ez pedig semmiképpen nem engedhető meg. Ezért találták ki a kísérleti személyek (vagy más kísérleti egységek)** „blokkosítását”, blokkokba való besorolását. Blokknak nevezik a valamilyen szempontból egyforma (vagy egymáshoz igen hasonló) vizsgálati alanyok egy csoportját, illetve a tőlük származó adatok együttesét. Gondoljunk például egy olyan vizsgálatra, amelyben különböző korú személyek vesznek részt. Ha a (nagyjából) egykorúakat összeválogatjuk – belőlük „blokkokat” képezünk –, akkor lehetőségünk van az esetleges életkori hatás kiküszöbölésére. A blokkokba történő rendezés eredményeképp a blokkok közti különbségeket ki tudjuk vonni, el tudjuk távolítani a véletlen okozta ingadozásból (a mintán belüli szórásból), s így a minták közti különbség könnyebben kimutatható. Lássunk egy másik példát is! Gondoljunk egy tanulási vizsgálatra, amelyet iskolás gyerekek segítségével végzünk. A különböző körülmények közötti tanulás eredményei közti, viszonylag kis különbséget könnyen elfedheti a gyerekek tudásbeli, fegyelembeli vagy más (pl. koncentrációs képességi) alapszintje közti eltérés, amelyet esetleg az iskolák különbözősége magyaráz meg. Ha a gyerekeket iskolák szerint blokkokba soroljuk, mód nyílik ennek az „alapszinti” különbségnek a kiküszöbölésére, hatásának semlegesítésére. Az utóbbi példából különösen látszik, hogy a blokkokba sorolás ritkán oldja meg a kísérleti személyek „szintbeli” különbözősége okozta problémákat. Az egyik iskola „jó tanulója” és „rossz diákja” közt gyakran nagyobb a különbség, mint két iskola (vagy iskolai osztály) „alapszintje” között. Jó lenne az egyéni különbségeket figyelembe venni, s ezzel a kísérlet eredményét minden zavaró, járulékos hatástól megtisztítani! Blokkok alkalmazása segítségével erre is van lehetőség. Igen gyakori, különösen pszichológiai vizsgálatokban, hogy egyetlen személy szerepel úgy, mint „blokk”: a tőle származó, különböző körülmények közt mért, különböző kezelések eredményét tükröző adatok alkotják a voltaképpeni blokkot. Ilyenkor azonban az egyes kezelések eredményeit tartalmazó minták már nem lesznek függetlenek, hiszen ugyanazok a személyek szerepelnek valamennyiben. Erre a kérdésre a következő, 4.4.2 szakaszban még visszatérünk. *
A jelölést mindössze az indokolja, hogy az oszlopok számát h-val jelöltük, s így a sorok számának jelölésére célszerűnek látszott egy „szomszédos” betűt választani. **
Képezhetők blokkok más, nem kísérleti helyzetekben is. Mégis, blokkok kialakítása, a szórás csökkentése blokkok segítségével tipikusan kísérleti eszköznek tekinthető.
41
Blokkot természetesen nemcsak személyek alkothatnak. Egy laboratóriumi kísérletsorozatban gyakran az azonos napon végzett vizsgálatok képezik a blokkokat, kiszűrve ezzel a környezet – az időjárás, a helyiség hőmérséklete, a személyzet hangulata és számtalan más tényező – változékonyságának hatását. Állatkísérletekben gyakori, hogy az egy fészekaljból származó, egymáshoz rendszerint nagyon hasonló, „iker” állatok alkotnak blokkot. És lehetne még sorolni a példákat. Sokakat talán zavar, hogy nem definiáltuk pontosabban, mi is az a blokk. Ilyen „pontos definíció” azonban nem lehetséges. A blokk nem valami eleve adott, megváltozhatatlan dolog. Blokkot azok a személyek (állatok, tárgyak, adatok) alkotnak, akiket (amelyeket) a kutató egy csoportba – egy blokkba – sorol. Lényeges azonban, hogy ezt előre, a kísérlet megtervezése során, annak végrehajtása előtt tegye meg, nem pedig az adatokban talált valamilyen hasonlóság alapján. Lehet, hogy az a kritérium (mint a példákban az életkor, az iskola, a kísérlet napja), amelynek alapján a blokkokat kialakította, nem alkalmas a szórás csökkentésére, eljárása mégis korrekt (ha nem is célravezető). Ha viszont az adatok közt keresi meg a hasonlókat és az ily módon „összetartozókra” mondja, hogy azok blokkok, akkor „kísérletéből” szinte minden, előre elhatározott „eredményt” ki tud hozni. De minek ehhez a kísérlet? Csalni – mert ez bizony az! – anélkül is lehet, hogy a fáradságos laboratóriumi munkát elvégezné az illető. A blokkokba sorolás tehát a kísérlet tervezéséhez, nem pedig annak kiértékeléséhez tartozik. Ahhoz azonban, hogy a legalkalmasabb módszerrel tudjuk eredményeinket kiértékelni, ennek megfelelően kell a kísérletet – vizsgálatot – felépíteni, megtervezni. Ez mindig így van, de nem minden értékelő módszer esetén látszik ilyen egyértelműen, mint épp a randomizált blokkok esetében. 4.4.1.1 Szociális ikerpárok A kísérletek világában betöltött fontos szerepe miatt ki kell még térnünk az egyik legegyszerűbb, mindössze két személyt tartalmazó blokkra. Ezt ugyan senki nem nevezi blokknak, hanem azt mondják: megfeleltetett pár. Sajnos a magyar elnevezés nem terjedt el általánosan. Sokan a megfelelő angol szakkifejezést – matched pair – használják; ez az oka, hogy ebben a bekezdésben mindkettőt kiemeltük. A pár kialakításának, a megfeleltetésnek (matching) lényege, hogy olyan személyeket keresünk, akik minden szempontból hasonlók – kivéve azt az egyet, ami vizsgálatunk tárgyát képezi. (Például hogy az egyik kap kezelést, a másik pedig nem.) Minden szempontból egyforma személyeket persze nem lehet találni. Sok szempontot még csak figyelembe sem tudunk venni. Az egyik legfőbb, a kísérletek eredményei szempontjából legfontosabb tényező, a személyiség például legtöbbször szóba sem jön.* Vannak olyan szempontok, amelyek bár fontosak lehetnek (itt ez azt jelenti, hogy befolyásolhatják a kísérleti eredményt), eszünkbe sem jutnak, sőt esetleg nem is tudunk a létezésükről. Mégis hogyan szoktak akkor képezni egy ilyen összetartozó párt? Az egyszerűbb utat választva. Ha mondjuk egy beteghez keresnek megfelelő kontroll személyt – és így a betegcsoporthoz egy kontroll csoportot –, keresnek egy ugyanolyan nemű és korú, ugyanolyan, vagy legalább hasonló iskolázottságú, hasonló anyagi és családi körülmények között élő „ikret”, aki, úgy tűnik, mindenben ugyanolyan, mint a beteg – kivéve éppen a betegségét. De figyeljük csak meg, milyen szempontokat vettünk figyelembe! Csupa olyat, ami „iratokból” kideríthető; az illető nem is kellett hozzá, csak az anyakönyv, a lakókönyv (ha van még ilyen), az iskolai, és talán még az orvosi bizonyítvány. Erre utal a címben jelzett „szociális ikerpár” megjelölés. Mivel a „blokknak” ebben az esetben csak két eleme van, a hozzá tartozó varianciaanalízisben h = 2. A minták viszont nem függetlenek, hanem összetartozók (a megfeleltetett párok hozzák létre a kapcsolatot a két minta közt), ezért elemzésükre nem a kétmintás, hanem az egymintás t-próba
*
A személyiség, ha egyáltalán megismerhető (nesze neked, pszichológia!), olyan bonyolult módszerekkel, olyan időigényes módon vizsgálható csak, hogy messze meghaladja egy ilyen „elővizsgálat” – a blokk-képzés – lehetőségeit.
42
alkalmas. Eszerint a randomizált blokk éppen úgy általánosítása az egymintás t-próbának, mint az egyszempontos varianciaanalízis a kétmintásnak! (Vagy ha úgy tetszik: a t-próbák ezeknek a varianciaanalíziseknek a speciális esetei, h = 2 esetén.) Persze, hogy ez így is van – és nemcsak a feladat és a feltétel azonosak, hanem az eredmények is –, azt még igazolni kell. Erre később, az eljárás megismerése után még visszatérünk (4.4.6 szakasz). Emlékeztetünk, hogy az egymintás t-próba leggyakoribb alkalmazásaiban azonos személyek két, különböző körülmények közt (pl. a gyógyszer bevétele előtt és után) mért értékei alkották a mintákat. Ezek is megfeleltetett párok, de – mondhatnánk – itt a megfeleltetés tökéletes, hiszen a pár két eleme minden szempontból hasonló. (Vagy mégsem? Hátha más is történt közben, nem csak a gyógyszerbevétel. Hogy mennyire kell egy ilyen kísérletnél vigyázni!) Ebben az esetben már biztosan nem független a két minta. És ilyesmi nagyobb blokkok (h > 2) esetén is előfordul: említettük, hogy (a pszichológiában különösen) gyakori minden személyt külön blokknak kezelni, és valamennyi kezelést ugyanazokon a személyeken alkalmazni. Hogyan lehet ellensúlyozni a minták függetlenségére vonatkozó feltétel ilyen durva megsértését? Erről lesz szó a következő szakaszban.
4.4.2 Randomizálás A fogalom nem új, az eljárásra szükség volt már korábban is (a kétmintás t-próba esetében). Most mégis újra szólni kell róla, hiszen a szó a tárgyalt eljárás nevében, a fejezet címében is szerepel. Ha személyekkel vagy akár állatokkal végzünk egy kísérletet, amelyet azután egyszempontos varianciaanalízissel értékelünk, a kísérlet előtt randomizálni kell: sorra véve a személyeket (állatokat) „sorsolás” dönti el, hogy ki melyik csoportba kerül. Ennek a sorsolási eljárásnak a neve randomizálás, és bármilyen sorsolási módszerrel történhet, például random számok segítségével; l. a XIII. táblázatot.* A randomizálás célja a csoportok „kiegyenlítése”. Ha módszeresen ügyelünk arra, hogy minden csoportba egyaránt kerüljenek fiatalok és öregek, ugyanannyi legyen a férfi és a nő, arra már biztosan nem tudunk figyelni, hogy iskolai végzettség, szociális helyzet, intelligencia szempontjából is egyforma legyen a csoportok összetétele. (És hány szempont van még, amit nem is említettem!) Mindezt elvégzi helyettünk a randomizálás: ha a véletlenre (a sorsolásra!) bízzuk, hogy ki melyik csoportba kerüljön, a csoportok általában kiegyenlítettek lesznek. (Vagy ha nem: szélsőséges csoportbeosztás ritkán fordul elő – éppen úgy, ahogy ritkán fordul elő sok szélsőséges érték egy mintában, ha a véletlen törvényszerűségek szabadon érvényesülnek. Erre épül a statisztikai vizsgálatok egész rendszere!) A randomizáció hatásának kissé eltérő megfogalmazása talán még jobban mutatja alkalmazásának szükségességét. Amikor egy kísérletet megtervezünk, bizonyos változókat „beépítünk” a tervbe. Mindenekelőtt a vizsgált kezelést, de gyakran például az életkort is (ez volt a blokkokkal kapcsolatban említett első példánk), esetleg a nemet (férfi- és női csoportokkal is elvégezve a vizsgálatot), és ezenkívül esetleg más szempontokat is. De mindig akad számtalan olyan változó, amit nem tudunk, gyakran nem is lehet figyelembe venni, de amelyek – könnyen lehet – befolyásolják vizsgált változónk értékét. Ezek hatását, úgy szokták mondani, kirandomizáljuk a kísérletből: a randomizáció kiegyenlíti, közömbösíti ezeknek a kísérleti tervbe be nem épített változóknak a befolyását. Randomizált blokkok esetében ez úgy történik, hogy blokkonként külön randomizálunk: ezen a módon döntjük el, hogy a blokk melyik eleme kapja az egyik, melyik a másik kezelést. A kezelések szétosztására h! lehetőség van minden blokkban; a randomizálás egyforma valószínűséggel „választ” e közt a sok lehetőség közt. De mi történik akkor, ha a blokkban csak egyetlen személy van? Ez valamennyi kezelést megkapja; mit randomizálunk ilyenkor? A kezelések sorrendjét! Vannak táblázatok, amelyek random sorrendeket közölnek; ezek segítségével könnyű elkészíteni a kísérleti tervet. De használhatjuk a random számok már ismert táblázatát is: kisorsolva egy kezdőpontot és egy haladási irányt, az *
Gyakran nevezik az ilyeneket véletlen számoknak. De randomizálás helyett nem mondhatunk véletlenítést!
43
egymás után olvasott számok nagyság szerinti sorrendje adja a véletlen sorrendet. Azután új kezdőpontot és új irányt választva megismételjük az eljárást a következő blokkban, majd rendre valamennyiben. Példaképpen készítsünk el egy öt elemű véletlen sorrendet a XIII. táblázat alapján. Egyszerűség kedvéért* válasszuk kiindulásul a bal felső sarkot, és haladjunk sorirányban. Érdemes kétjegyű számokat kiolvasni: egyszerűbb is, meg így nem korlátozzuk az eljárást tíznél nem nagyobb blokkok randomizálására. (De persze kiolvashatunk egyjegyű vagy akár három-négyjegyű számokat is a táblázatból.) Ha olyan számot találunk, amelyik már szerepelt, azt egyszerűen átugorjuk. A táblázatból kiolvasott (kétjegyű) számok: 10 09 73 25 34. Ezek nagyság szerinti sorrendje 2, 1, 5, 3, 4; ennek alapján osztjuk ki a kezeléseket. (Az illető személy először a kettes, aztán az egyes, majd az ötös számmal jelölt kezelést kapja, és így tovább.)**
A kezelések sorrendjének ilyen „csereberéje” minden statisztikai alátámasztás nélkül, közvetlen megfontolás alapján is indokolt. A kezelések igen gyakran „hatnak” egymásra. Több, egymást követő gyógyszer adagolásakor meg szokták várni, míg az egyik szer „kiürül” a szervezetből; de még így is előfordul, hogy az befolyásolja – fokozza vagy gyengíti – a másik hatását. Ha mindig azonos sorrendben adnák a szereket, ez a torzító hatás leválaszthatatlan, sőt észrevehetetlen lenne. Még nyilvánvalóbb a sorrend hatása azokban a vizsgálatokban, ahol valamilyen feladatot kell végrehajtania a kísérleti személynek, h különböző körülmény között. (Vagy h egymáshoz hasonló feladatot, amelyek közt valami apró, a kísérletezőt érdeklő különbség van.) Az egymás után következő feladatok során a kísérleti személy egyre gyakorlottabbá válik, egyre könnyebben oldja meg azokat. Ha a sorrend azonos, ez a hatás mindig ugyanazt a feladattípust „segíti” és ugyanazt „sújtja”; a torzító hatás nyilvánvaló. De hasonló torzítás lép fel akkor is, ha az egymás utáni feladatok végzése közben a kísérleti személy elfárad, vagy egyszerűen csak unja a sok hasonló feladat – számára értelmetlen – ismételgetését. Ilyenkor az utolsók „sínylik meg”, hogy a feladatsor végére kerültek. A (blokkonkénti) randomizálás minden kezelésnek ugyanakkora „esélyt” ad, hogy első, utolsó vagy bármely más helyre kerüljön. Ráadásul az őt megelőző, rá esetleg hatással levő kezelés sem lesz ugyanaz, hanem blokkonként más és más. Így a „helyzeti” és az „egymás utánisági” előnyök és hátrányok kiegyenlítődnek: nem ugyanannak a kezelésnek a hatását erősítik (vagy gyengítik).
A statisztikusok bebizonyították, hogy a minták összetartozásából, a függetlenségi feltétel megsértéséből származó torzításokat a randomizálás kivédi. Ez egyúttal annyit jelent, hogy ugyanazokat a képleteket – és az eredmények leolvasására ugyanazokat a statisztikai táblázatokat – használhatjuk, mint független minták esetén. Megjegyzendő, hogy (azokban az egyszerű esetekben, amelyekről ebben a könyvben szó lesz) akkor is érvényesek maradnak a varianciaanalízis szokásos képletei, ha nem lehetséges – vagy inkább: értelmetlen – a randomizálás. Ilyesmi akkor fordul elő, ha az egyes – azonos személyen végzett – méréseket éppen az különbözteti meg egymástól, hogy milyen időpontban, pl. milyen események előtt vagy után történtek. (Gondoljunk arra az egyszerű esetre, amelyet az egymintás tpróba leggyakoribb alkalmazásaként említettünk az előző pontban.) Nyilvánvaló, hogy az „előtte– utána” értékek felcserélésének, sorrendjük randomizálásának az égvilágon semmi értelme.
*
Pontosabban azért, hogy könnyebb legyen követni, jól megérteni az eljárást.
**
Ha egyjegyű számokat olvasunk ki ugyaninnen, a számsor 1 0 9 7 3 (az ismétlődő nullát kihagytuk). A kisorsolt sorrend ebben az esetben: 2, 1, 5, 4, 3.
44
4.4.3 A négyzetösszeg felbontása A feladatot már ismerjük: a blokkok közti különbség felhasználásával szeretnénk a minták „túl nagy” szórásának hatását csökkenteni. Ez úgy történik, hogy a mintákon belüli ingadozást képviselő sb2 varianciát két komponensre bontjuk: a blokkok közti különbséget jellemző s s2 -re és az s e2 „maradékra”, amely ezután a véletlen hatásokat képviseli. A jelöléseket részben a kényszerűség magyarázza. A blokkokra jellemző komponensnek nem adhattuk a b indexet, mert az már foglalt. Mivel példáinkban – és az esetek többségében – az egyes személyek alkotják a blokkokat, ezért választottuk az s indexet. A véletlen komponens jelölésére „esélyes” v indexet is felhasználtuk már, az előző fejezetben. Ez a komponens azonban a modellünktől való eltérést, tehát bizonyos értelemben a hibát képviseli. Mivel a h index szintén foglalt, ezért választottuk a megfelelő idegen szó (error) kezdőbetűjét.
Szeretném, ha az olvasó észrevenné, hogyan épülnek egymásra a varianciaanalízis legegyszerűbb esetei. Kiindultunk az egyszempontos varianciaanalízisből; ez a variancia két komponensre bontását jelentette (4.2 fejezet). Ezután az első, minták közti komponens két részre bontásával igyekeztünk „megmagyarázni” a minták közt talált különbség természetét (4.3 fejezet), most pedig a mintán belüli varianciát bontjuk két komponensre (4.4 fejezet). Ezzel a varianciaanalízis legegyszerűbb eseteit ki is merítettük. Később, a 4.6 fejezetben úgy nyerünk újabb információkat a csoportokról, hogy az itt kapott s e2 varianciát bontjuk föl, ismét csak két komponensre; az így előállt új eljárás neve kétszempontos varianciaanalízis. Tovább nem is megyünk; az egymás utáni felbontások, a négyzetösszegek és a szabadságfokok „darabolódása”, a komponensek közti F-próbák már mutatják, mennyi lehetőség rejlik ebben a módszerben. Ebben a könyvben csak annyi alapismeret szerepel, amennyinek a birtokában az olvasó remélhetőleg meg fogja érteni – és ami ennél fontosabb: használni tudja – a statisztikai programcsomagok gazdag kínálatát a varianciaanalízis különféle fajtáiból.
Mielőtt a Qb négyzetösszeg felbontásához kezdenénk, módosítsuk kissé az eddigi jelöléseket. Mivel ebben és a következő fejezetekben már nem szerepel olyan „külső” változó, amelynek a számértékeit fel kellene használnunk, térjünk át a megszokottabb, „természetesebb” x jelölésre az eddig használt y helyett. Remélhetőleg nem fog nehézséget okozni a korábbi képletek értelemszerű módosítása; nem is ismételjük meg azokat. Eltekintve a jelölés említett cseréjétől, az alapszámítások alig módosulnak. A 4.7. táblázatban a minták (oszlopok) mellett fontos szerep jut a blokkoknak (sorok) is; egyébként ez a táblázat nagyon hasonló a 4.1. táblázathoz. A sorok összegére új jelölést kellett bevezetnünk, a (4.1) képlet mintájára. Nem lett volna elegendő, ha – szemben a Tj oszlopösszeggel – ezeket egyszerűen Ti sorösszegeknek hívjuk. Mert mi van akkor, ha a pl. a T3 összegről beszélünk: ez vajon a harmadik sor vagy a harmadik oszlop öszszegét jelenti? Ezért láttuk el a sorösszegeket (vagyis a sor irányú, j szerinti összegezések eredményét) a megkülönböztető vesszővel: (4.43)
Ti xij . j
Ezt a formulát egyébként a 4.7. táblázatban is megtaláljuk. Hasonlóképpen, a sorok átlagát is veszszővel különböztetjük meg az oszlopok – minták – átlagától: (4.44)
xi
Ti . h
Erre egyébként csak a felbontásban lesz szükségünk, a végső képletekben nem szerepel – és nem is igazán érdekel minket – a blokkok átlaga. 45
4.7. táblázat: A randomizált blokk elrendezés jelölései Kezelések
A
Blokkok
B
a
x11
x12
b
x21
x22
c
x31
x32
… …
xi1
. . .
Z
Sorösszeg Ti
x1h
T1
x2 j
x2h
T2
x3 j
x3 h
T3
xih
Ti xij
x1 j
. . .
…
xi 2
… z
...
xij
j
…
x g1
xg 2
x gj
x gh
Tg
Elemszám:
nj
g
g
g
g
hg = N
Összeg:
Tj
T1
T2
Tj
Th
Tj j
Átlag :
xj
Az adatok négyzetösszege:
xij2 xi21 xi22
Korrekciós tag:
Négyzetösszeg:
x1
x2
―
xj
xh
xij2
xih2 xij2 i
i
i
i
i
T j2
T22 g
T j2
nj
T12 g
Qj
Q1
T j2
g
Th2 g
Q2
Qj
Qh
Q j
j
j
Variancia:
s 2j
s12
s 22
s 2j
s h2
―
Szórás:
sj
s1
s2
sj
sh
―
g
Lássunk hozzá a Qb négyzetösszeg felbontásához! Kiindulásul (4.14)-re hivatkozunk, de ne felejtsük el az y jelölést x-re cserélni. A „trükk” ugyanaz, mint korábban: mivel a blokkok közti különbséget el akarjuk távolítani Qb-ből, a blokkátlagokat levonjuk és hozzáadjuk a formula minden tagjához, a zárójelen belül. Csak most még a „nagyátlagot” is hozzá kell adnunk és le kell vonnunk:
Qb ( xij xi xi x j ) 2 ( x ij xi x j x xi x ) 2 ( xij xi x j x ) 2 ( xi x ) 2 2 ( xij xi x j x )( xi x ). Az első tag nem más, mint Qe, a második a blokkokat képviselő Qs, a kétszeres szorzat pedig szokás szerint „eltűnik”, azaz nullával egyenlő. Először ezt mutatjuk meg. 46
Emeljük ki a második, j-től független tényezőt a j szerinti szumma elé, és végezzük el a négytagú kifejezés j szerinti összegezését! Csak ezt az utóbbit írjuk föl:
( xij xi x j x ) Ti hxi
xij h xij . g
j
gh
A második tag (4.44) miatt egyenlő az elsővel, a harmadik és negyedik tag egyenlősége pedig közvetlenül leolvasható a képletből. A négy tag összege tehát nulla; ez áll szorzóként az i szerinti összegezés minden tagjában, ezért az az összeg is, így a kétszeres szorzat is nulla. A két megmaradó négyzetösszegen végezzük el a szokásos átalakítást, hogy a számolásra alkalmas formát megkapjuk:
( xi x ) 2 h( xi 2 2 xix x 2 ) h xi 2 2hx xi ghx 2 i
T 2 xij xij i 2 h g h
xij 2 gh
Ti 2 h
xij 2 , gh
ahogyan azt a korábbiak alapján várni lehetett. (L. Qk képletét (4.13) alatt.) A másik átalakítás sajnos sokkal hosszadalmasabb, ezért annak csak a vázlatát adjuk meg. Az első tag négyzete megmarad a végleges képletben. A második tag összegzett négyzete, T j2 T 2 mint az iménti levezetésben láttuk, i , a harmadiké a formai hasonlóság miatt . h g i j Mindkettő szerepel a kétszeres szorzatok közt is, –2 előjellel; a végleges képletben tehát ezek negatív előjellel szerepelnek. A negyedik tag négyzete gh-val szorzódik (ennyi tagja van ugyanis a kettős szummával jelzett összegnek). Ugyanez még kétszer fordul elő a kétszeres szorzatban pozitív, kétszer 2 2 xij xij negatív előjellel, tehát marad +1-szer az említett tag: .
gh
N
A -os rész levezetéseiben megkapott formulákat a szokásos módon összefoglaljuk:
xij 2 ,
(4.45)
T 2 Qs ( xi x ) i i h
(4.46)
Qe ( xij xi x j x )
2
gh
2
2
xij2
Tj T 2 i i h j g
xij 2 . gh
4.4.4 A szabadságfokok meghatározása Qs pontosan ugyanolyan alakú, mint Qk volt. (Ugyanarról is van szó! Egyik a minták – oszlopok –, másik a blokkok – sorok – közti eltéréseket jellemzi.) Szabadságfokának meghatározása is ugyanúgy történik: a kettős összeg közvetlenül átírható egyetlen, g tagú összeggé, ennek tagjai közt pedig van egy lineáris összefüggés, a mindegyikben szereplő átlag miatt. A szabadságfok tehát (4.47)
f s g 1.
A lineáris összefüggések segítségével történő „pontos” levezetés a (4.16) képlet utáni -os részben található meg, a 18. oldalon – csak a megfelelő jelöléseket kell kicserélni. A másik négy47
zetösszeg, a (4.46) alatt található Qe esetében ezúttal megelégszünk a szemléletes levezetéssel. A négyzetösszeg gh tagja közt a g darab sorátlag és a h oszlopátlag teremt összefüggéseket. A „nagyátlagot” már nem kell figyelembe venni, hiszen az nem független az előbbiektől: a sorátlagok átlagával egyenlő. Sőt, mint ebből is látszik, azok sem mind függetlenek: a sorátlagok átlaga és az oszlopátlagok átlaga ugyanaz az érték (az x „nagyátlag”); ezért (g + h) helyett eggyel kevesebbet kell levonni a tagok számából.* A szabadságfok így kapott képletén mindjárt egy később hasznosnak bizonyuló átalakítást is végrehajtunk: (4.48)
f e gh g h 1 ( g 1)(h 1).
Nem más ez, mint a két másik szabadságfok szorzata. A négyzetösszegeket a megfelelő szabadságfokokkal osztva kapjuk a keresett varianciákat; a képleteket még csak fölírni sem érdemes. A varianciaanalízis táblázata ebben az esetben:
4.8. táblázat: A varianciaanalízis táblázata randomizált blokkokra Típus
Négyzetösszeg Szabadságfok Variancia F-próbák
Minták (kezelések) közti
Qk: (4.13)
h–1
s k2
F
Blokkok (személyek) közti Qs: (4.45)
g–1
s s2
2 F ss se2
Hiba (A véletlen hatása)
Qe: (4.46)
2 gh – g – h + 1 s e
Teljes
Qt: (4.15)
gh – 1
s k2 se2
―
4.4.5 A varianciaanalízis befejezése A 4.8. táblázatban tulajdonképpen már szerepel ez a befejezés: a varianciák hányadosából F értékeket számolunk ki, melyeket azután az ugyanebben a táblázatban található szabadságfokoknak megfelelően kikeresünk a III. táblázatból. De mit is jelent a 4.8-ban látható két F, és miért van az egyik zárójelben? Az első csak annyiban tér el az egyszempontos varianciaanalízist záró (4.21) alatti F-próbától, hogy nevezőjében s e2 áll a mintán belüli variancia, sb2 helyett. Ha a blokkok közt valóban van különbség (ahogyan azt sejtettük vagy reméltük), akkor az új nevező kisebb, F értéke tehát nagyobb lesz, mint korábban volt.** Az érték tehát „szignifikánsabb” lesz, azaz szignifikáns lehet akkor is, ha ugyanebben a feladatban az egyszempontos varianciaanalízis nem adott szignifikáns eredményt. (Kissé „ellene dolgozik” ennek a tendenciának, hogy a nevező szabadságfoka némiképp csökken. A III. táblázatból ellenőrizhetjük, hogy ez a csökkenés a szignifikancia „ellen” hat.)
*
Nemcsak a végeredmény: a „levezetés” is pontosan ugyanolyan, mint mikor a kontingenciatáblázat szabadságfokát határoztuk meg! Pedig a két dolgot pusztán formai rokonság köti össze. **
Emlékeztetünk, hogy
sb2 két komponensének, s s2 -nek és s e2 -nek (súlyozott) átlaga. Ha tehát az első nagy, mint
várjuk, a második kicsi lesz.
48
A második F-próba legtöbbször nem is érdekel minket.* Ha a blokkok felvételével pusztán az volt a célunk, hogy a mintán belüli szórást csökkentsük, a blokkok (például az egyes kísérleti személyek) közti különbség érdektelen. Példánkban is ez lesz a helyzet. Mielőtt egy példával „erősítenénk meg” a fejezetben elmondottakat, írjuk fel táblázaton kívül is az új F-próbákat, hogy később hivatkozhassunk rájuk. A kezelések közti eltérésre: F
(4.49)
s k2 se2
.
A blokkok közti különbségre (vagyis a „jogtalan” F-próba): F
(4.50)
s s2 se2
.
És most lássuk a példát! Pszichológusok egy teszt négy különböző változatát (A–D) dolgozták ki. Arra voltak kíváncsiak, melyiket lehet leghamarabb megoldani. (Nagy tömegben történő alkalmazás esetén az időtényező fontos lehet.) 4.9. táblázat: Példa randomizált blokkokra
Tesztek
A
B
C
D
Összegek
( Ti )
Személyek
s
35
26
35
31
127
t
23
13
26
17
79
u
29
18
32
24
103
v
21
13
20
12
66
x
27
20
30
22
99
y
43
31
44
37
155
z
37
28
40
29
134
Összegek ( T j )
215
149
227
172
763
Átlagok ( x j )
30,714
21,286
32,429
24,571
―
xij2
6983
3483
7761
4664
22 891
T j2 g
6603,57
3171,57
7361,29
4226,29
21 362,72
Qj
379,43
311,43
399,71
437,71
1528,28
Szórások ( s j )
7,952
7,204
8,162
8,541
―
i
*
Szigorúan véve a statisztika – levezetésekkel alátámasztott – szabályait, ez a második F-próba jogtalan is. Ezzel azonban nekünk nem érdemes törődnünk: máskor sem mélyedtünk el a statisztika elméleti kérdéseibe.
49
Mivel a „gyorsaság” egyénenként igen változó, a személytől függő tényező, célravezetőnek látszott valamennyi változatot ugyanazokon a személyeken felvenni. Hét személyt választottak ki (s–z), akik randomizált sorrendben kapták a teszteket. (Hasonló tesztekről lévén szó, bármelyiknek a megoldása biztosan segíti a következő teszt megoldását.) Az eredményeket – és az előkészítő számításokat – a 4.9. táblázatban találjuk. Az xij adatok a megoldási időt jelentik, percekben. A gyakran korrekciós tagnak nevezett „teljes összeg a négyzeten, per N” kifejezés három négyzetösszegben is szerepel,* ezért először azt számítjuk ki. A teljes összeget nemcsak valamennyi adat, hanem akár a sorösszegek, akár az oszlopösszegek összegezésével megkaphatjuk. Nem árt, ha ezekből az összegezésekből legalább kettőt elkészítünk: egyszerű ellenőrzési lehetőség ez olyan adatokra, amelyeket többször is fölhasználunk később. (Ugyanezt megtehetjük az adatok négyzetösszegével is; a táblázatban csak oszloponként számítottuk ki őket.) Ne felejtsük, hogy N a sorok számának (g) és az oszlopszámnak (h) a szorzatával egyenlő. A korrekciós tag: 7632 U 20 791,75 . 28 A Qt és Qk négyzetösszegek kiszámításához a 4.9. táblázat utolsó oszlopában álló három öszszeg közül az első kettőből le kell vonni a most kapott U-t. A harmadik összeg ebben az oszlopban a Qb négyzetösszeg (l. a 4.1. táblázatot, 11. oldal), amelyre a randomizált blokk varianciaanalízisében közvetlenül ugyan nincs szükség, de felhasználjuk más négyzetösszegek kiszámításához. Végezzük el a szükséges számításokat! A Qs négyzetösszeg előállításához még számolni kell egy keveset: Qt 22 891 20 791,75 2099,25
Qk 21 362,72 20 791,75 570,97
Qs 14 (127 2 79 2 1032 66 2 99 2 155 2 134 2 ) U 1487,5
A Qe négyzetösszeget kivonással állítjuk elő. Megtehetjük a (4.46) képlet alapján is, de ez egy kicsit hosszabb számolásssal jár. Kivonással viszont egyszerű:
Qe Qb Qs 1528,28 1487,5 40,78 Készítsük most el a varianciaanalízis táblázatát (4.10. táblázat) a 4.8. táblázat alapján – kiegészítve egy, a kikeresett p érték feltüntetésére alkalmas oszloppal, ahogyan a 4.6. táblázatban is tettük. A további számításokat már itt végezzük. 4.10. táblázat: A példa végeredménye Típus A tesztváltozatok közt
Négyzetösszeg Szabadságfok Variancia 570,97
3
190,32
F-próbák
p érték
F
190,32 84,004 < 0,005 2,2656
F
247,92 109,43 < 0,005 2,2656
A személyek közt
1487,5
6
247,92
Hiba
40,78
3×6 = 18
2,2656
―
―
Teljes
2099,25
27
―
―
―
*
Egyes mintákra vonatkozóan korábban is korrekciós tagnak neveztük az ilyet; semmi akadálya, hogy most az összetett, „teljes” mintára vonatkoztassuk. Jelölésének azért választottuk az U-t, mert ez a négyzetösszegek utolsó tagja.
50
Megjegyezzük, hogy ha nem használjuk ki azt az előnyt, amit a blokkok jelentenek (vagyis ha nem vonjuk le a személyek közti különbség hatását), hanem egyszempontos varianciaanalízist végzünk a tesztváltozatok összehasonlítására, nem is találunk köztük különbséget. Végezzük el ezt a számítást is! A minták közti varianciát már kiszámítottuk a 4.10. táblázatban, a mintán belüli kiszámításához megvan Qb, a szabadságfok pedig N – h = 24. Elvégezve az osztást, majd az F-próbát:
sb2
1528,28 63,678 24
F
190,32 2,989 63,678
p 0,05 , vagyis nem szignifikáns.*
Érdemes elgondolkozni azon, hogy ha a randomizálás – ami így is, úgy is megtörtént – nem tette függetlenné a mintákat (mint ahogy nem is tehette), miért volt mégis jogos a 10. táblázatban található analízis, és jogtalan az egyszempontos varianciaanalízis. Az egyszerűbb válasz valahogy úgy hangzik, hogy az elvégzett randomizálás nem a teljes vizsgálatra vonatkozott, hanem blokkokon belül történt. Ezzel pedig „elismertük” a blokkok létét – az analízist tehát ennek megfelelően kellett végezni. Ez a válasz azonban nem megnyugtató.** Ha azonban megpróbáljuk a kísérlet felépítését másképp nézni, nem pedig mint az egyszempontos varianciaanalízis egy lehetséges „javítását”, akkor talán megtaláljuk a választ. Szó sincs itt (a tesztekre vonatkozó) mintákról – tehát nem is az a kérdés, hogy azok függetlenek-e vagy sem. Minden xij érték, ha önmagában vizsgáljuk, három hatásnak van kitéve. Egyrészt az határozza meg, hogy milyen „nehéz”, milyen gyorsan oldható meg a teszt, amelyikhez tartozik. Másrészt az, hogy milyen „megoldási gyorsasággal” rendelkezik az a személy, aki a tesztet ennyi idő alatt oldotta meg. Harmadrészt pedig van egy véletlen hatás, ami miatt xij eltér az így „előírt” értéktől.
Ebben az analízisben tehát nem egy szempont van (a tesztváltozat), hanem kettő: a második az, hogy a szóban forgó érték melyik blokkhoz tartozik. Így tekintve már természetes dolog, hogy az egy sorban álló adatok nem függetlenek, hiszen ugyanahhoz a blokkhoz tartoznak – és ez részben meg is határozza értéküket. Mint ahogy egy-egy oszlop adatait is meghatározza az, hogy épp oda tartoznak, hogy éppen annak a tesztváltozatnak a megoldási idejét jelentik. Ez a „függőség” eddig sem zavart; miért zavarna a másik? Tehát nem is annyira a randomizálás, hanem maga a blokkokba sorolás – az együvé tartozók ilyenforma összegyűjtése, hatásuk elkülönítése – teremti meg a varianciaanalízis alkalmazhatóságának feltételeit. Persze az egész okoskodás csak akkor igaz, ha az adatok közvetlenül nem befolyásolják egymás értékét. Általános követelmény ez a statisztikában: a minták adatainak egymástól függetleneknek kell lenniök, hogy a változó tulajdonságait, a véletlen hatásokat megfelelően képviseljék. Blokkok esetében ezeket a „közvetlen hatásokat” szűri ki, közömbösíti a randomizálás, illetve – mint a példában is – a sorrend randomizálása.
Az előbbi megfontolás arra a megállapításra vezetett, hogy a randomizált blokkokba rendezett adatok már nem egy, hanem két szempont szerint különböztethetők meg. Elemzésük is csak kétszempontos varianciaanalízissel történhet; – és ha jól meggondoljuk, az elvégzett analízisben ez is történt: külön F-próbát végeztünk a tesztváltozatok, és külön próbát a személyek közti különbségek vizsgálatára. *
Ez az analízis azonban erősen vitatható, hiszen a minták – az egyes tesztek eredményei – nem függetlenek.
**
Annak ellenére, hogy alapgondolata jó! A statisztikai modellnek a valóságon kell alapulnia; csak ekkor adhatja annak jó leírását, csak ekkor érvényesek a modellből levont következtetések (így a szignifikancia is). Ez minben vizsgálatra igaz, nemcsak a blokkokra és a varianciaanalízis ennél is bonyolultabb eseteire, hanem a legegyszerűbbekre is.
51
Mégsem volt ez „igazi” kétszempontos varianciaanalízis. Az „ugyanarra vonatkozó” adatokból statisztikai vizsgálatokban mindig egy egész mintánk van; ennek segítségével tudjuk megállapítani a véletlen törvényszerűségeit, az ingadozás mértékét. Ebben az esetben viszont egyetlen adat állt a megfelelő helyen – mintha a minta egyetlen adatból állt volna. Nemcsak „mintha”: valóban ez is volt a helyzet. A randomizált blokk esetén végzett fölbontás és maga az elemzés egy kétszempontos varianciaanalízis, „cellánként egy elemmel”. A két szempont sorokban és oszlopokban történő felírása ugyanis cellákat alkot, mint ezt a 4.7. és 4.9. táblázatokban szemléletesen is látni. A „valódi” kétszempontos varianciaanalízisben minden cellában egy-egy minta áll; ilyenekkel foglalkozunk a hatodik fejezetben. Legelőször azonban törlesztenünk kell egy „adósságunkat”.
4.4.6 Randomizált blokk és egymintás t-próba A 4.4.1.1 pontban említettük már, hogy az egymintás t-próba ugyanúgy speciális esete a randomizált blokk varianciaanalitikus elemzésének, mint a kétmitás t-próba volt az egyszempontos varianciaanalízisnek. Feltűnő a formális hasonlóság: egymintás t-próbát megfeleltetett párokból vagy ugyanazoknak a személyeknek két-két adatából lehet számolni, ha az adatok normális eloszlásúak. Mindkettő felfogható úgy, mint egy két elemet tartalmazó blokk (h = 2). Annak idején talán nem hangsúlyoztuk eléggé, de kísérleti helyzetben itt is randomizálni kell: ki kapja az egyik, ki a másik kezelést a páron belül, illetve hogy az (egyetlen) személy különböző körülmények közti két vizsgálata milyen sorrendben történjék. Ez elmaradt akkor, mert arra a (nagyon gyakori) alkalmazásra koncentráltunk, ahol a két mérés egy „beavatkozás előtti” és egy „beavatkozás utáni” helyzetre vonatkozik. Ilyen esetekben a „randomizált” blokkokban sem kell – mert nem is lehet – randomizálni. Nemcsak formailag hasonlít a kettő: a feladat is ugyanaz. A két (összetartozó) minta közti különbséget vizsgálta az egymintás t-próba; az említett gyakori esetben az ilyen különbség a beavatkozás hatásosságát jelentette. Ugyanezt vizsgálja randomizált blokkok esetén a „kezelések” – oszlopok – közti, (4.49)-ben adott F-próba. Azt állítjuk, hogy itt is, mint korábban, F t 2 . Ezt fogjuk megmutatni a következőkben.
A két minta adatait – összhangban a varianciaanalízis jelöléseivel – xi1 és xi2 jelöli, i 1 és g közt változik. (A minták elemszáma ezúttal g.) A t-próbát a megfelelő értékek különbségéből kell számolni; jelöljük ezt di-vel: d i xi1 xi 2 . Ha valaki fordítva szeretné kivonni a két adatot, nyugodtan megteheti, a képletek attól nem változnak. Az egymintás t-próba képletének négyzete ezzel a jelöléssel:
(4.51)
t 2
d2 s d2
, ahol
s d2
d i2
( d i ) 2
g g ( g 1)
.
A különbségek átlagát – összegük g-edrészét – a tagok sorrendjének átrendezésével így is írhatjuk: (4.52)
d
T1 T2 . g
Ennek négyzete áll t2 számlálójában. (A teljes képletet nem írjuk le, hogy elkerüljük a „többemeletes” törteket.)
52
Alakítsuk most át (4.49)-et, figyelembe véve a h = 2 miatti egyszerűsödést. Lássuk előbb a számlálót! Ennek szabadságfoka most 1, így (4.13) alapján:
sk2 Qk
T12 T22 (T1 T2 ) 2 2T12 2T22 (T12 T22 2T1T2 ) (T1 T2 ) 2 . g g 2g 2g 2g
Innen (4.52) figyelembevételével: (4.53)
s k2
g 2 d . 2
A nevező képlete (4.46)-ból és (4.48)-ból, (nem felejtve, hogy (h–1) 1-gyel egyenlő):
( xi1 xi 2 ) 2 2 2 2 T T ( T T ) 1 2 ( xi21 xi22 ) i . se2 1 2 1 g 1 i 2 g g 2g
Közös nevezőre hozva az első két tagot (ez a nevező 2, amit legjobb kivinni a zárójel elé), az i szerinti összegezés egyes tagjaiban ezt látjuk:
2( xi21 xi22 ) ( xi21 xi22 2 xi1 xi 2 ) ( xi1 xi 2 ) 2 di2 . Ha az utolsó három tagot ugyancsak közös nevezőre hozzuk, a számlálóban teljesen hasonló „struktúrát” találunk, mint az előbb, csak negatív előjellel. A három tag összege eszerint:
d i (T T ) 2 1 2 . Az átalakításhoz felhasználtuk (4.52)-t. 2g 2g 2
Beírva ezeket s e2 fenti képletébe:
d i 1 d i2 2( g 1) g
2
(4.54)
se2
.
A varianciaanalízis F-je a (4.53) és (4.54) alatti varianciák hányadosa. Osztáskor kiesik a mindkettőben szereplő ½ tényező, és ha az elsőben található g szorzót levisszük a nevező nevezőjébe, közvetlenül kapjuk a (4.51) alatti t2-et. Ezzel mindhárom t-próbáról megmutattuk, hogy egy-egy varianciaanalízis speciális esetei, olyan varianciaanalíziseké, ahol az F-próba számlálójának szabadságfoka 1. Az egymintás t-próbáról éppen az imént, a kétmintásról a 4.2.7 szakaszban, míg a korrelációs t-próbáról még a könyv második részében (2.x.x pont) bizonyítottuk ezt be. A két próba eredményét az (4.23)
F t2
összefüggés kapcsolja össze, amely mindhárom esetben érvényes. A probléma csak az, hogy a t-próbákat egyoldali hipotézisek vizsgálatára is használhattuk, míg a varianciaanalízisben ilyen megkülönböztetésnek nincs értelme. Mindenesetre (4.23) a kétoldali szignifikanciaszintekre érvényes. (Tessék ezt ellenőrizni a III. és V. táblázat összehasonlításával!) Le kell akkor mondanunk az egyoldali hipotézisek ellenőrzéséről, ha t helyett varianciaanalízist végzünk? Egyáltalán nem! Ha a változás a várt irányban következett be (a korábbi próbáknál: ha a különbség, ill. kapcsolat előjele megegyezik a hipotézisben előlegezettel), akkor az F értéket kétszer akkora valószínűséghez tartozó küszöbértékkel kell összehasonlítanunk, mint a szignifikanciaszint. Ez általában 10%-os valószínűséget jelent; a 2%-os értékeket a III. táblázat sajnos nem tünteti föl. Ezzel beváltottuk korábbi ígéretünket, és most már nyugodtan folytathatjuk a varianciaanalízis tárgyalását, rátérve a bonyolultabb esetekre. 53
4.5 Többszempontos varianciaanalízis 4.5.1 A varianciaanalízis additivitási feltétele Hogyhogy: egy újabb feltétel? Honnan került ez elő? Miért nem volt róla szó eddig? Mit kell tennünk, hogy megfeleljünk neki – vagy kárba veszett egész eddigi fáradozásunk? Nem könnyű felelni erre a sok kérdésre. Az „új” feltétel nem új; eddig inkább tényként kezeltük, nem alkalmazhatósági feltételként. És azért nem beszéltünk róla, mert korábban, amíg legalább érintőlegesen nem esett szó a többszempontos varianciaanalízisről, nemigen lehetett volna értelmezni, megmagyarázni. De menjünk szépen sorjában. Az additivitás azt jelenti, hogy a varianciaanalízisben szereplő különböző hatások (a kezelés, környezet, „hovatartozás” hatása) összeadódnak, mintha különkülön kifejtett hatásuk egymásra rakódna. Úgy képzeljük, hogy a felsorolt hatásoknak – ráadásul még a véletlen ingadozásnak is! – van egy (jellemző) értéke, és a vizsgált változó számértékében ezek az értékek egyszerűen összegeződnek.
Mi mást tehetnének ezek hatások, mint hogy összeadódnak? Hát például összeszorzódnak! Ha ilyesmi történik, nem működik a varianciaanalízis. Néha van megoldás erre az esetre is. Ha a vizsgált változó értékét úgy képzeljük el, mint egy szorzatot (az egyes hatások szorzatát), a változó logaritmusa már megfelel az additivitási feltételnek: összegként állítható elő. Igaz, nem az eredeti tényezők, hanem azok logaritmusának összegeként.
Voltaképpen már az egyszempontos varianciaanalízis esetében is érvényesült ez az elképzelés: volt egy minták közti hatás (a kezelések, körülmények – egyszóval a szempont hatása), meg a véletlen hatás; az egyszempontos varianciaanalízis ezeket választotta szét úgy, hogy az összekeveredett hatást (Qt) összegre bontotta szét. Ha ezek a hatások nem adódtak volna össze, nem sikerült volna így szétszedni a kettőt. Konkrétabban, csak persze egy kicsit ködösítve, meg volt fogalmazva az additivitás (nem feltételként, hanem – mint mondtam – tényként) a 4.2.3.4 pontban, a 19. oldalon: ha igaz a nullhipotézis, az s k2 variancia minták közti különbségtől függő része nulla, tehát hiába adódik hozzá a véletlentől függő részhez, az nem változik. Ebből következik, hogy s k2 ilyenkor ugyanakkora, mint a csak véletlentől függő sb2 , s így hányadosuk körülbelül 1. Az additivitás azonban ott válik kézzelfoghatóvá, ahol már nem egy, hanem több szempont hatása szerepel az analízisben. Mint az előző fejezetben is: a kezelések hatásán kívül a blokkhatást is különválasztottuk, sőt – bár szabálytalanul – még teszteltük is, egy második F-próbával. Két (és persze ennél több) szempont esetén kritikussá válik az egész vizsgálat, ha nem teljesül az additivitási feltétel.* Akár azt is mondhatjuk, hogy ilyenkor csődöt mond a varianciaanalízis. Az F-próbák ugyan kiszámíthatók, csak épp nem értelmezhetők: hiába szignifikáns valamelyik, nem tudjuk megmondani, hogy ez mit jelent – de arra sem tudunk felelni, hogy mit jelent egy nem szignifikáns F-próba. Szinte hihetetlen, hogy mindez azért, mert nem teljesül az additivitás, mert a vizsgált hatások nem adódnak össze. Ezt úgy fogalmazzák meg, hogy a hatások közt interakció van. Hogy a fogalmat megértsük, lássunk egy példát. *
A -os részben említett lehetőségre, hogy összeszorzódhatnak a hatások, ne is gondoljunk többé. Normális eloszlású adatok esetén nem szokott ez előfordulni, márpedig ebben a részben csak ilyenekkel foglalkozunk. Megállapítható adatok vizsgálatakor, amikor gyakoriságok (és nem mérési adatok) feldolgozása a feladat, magától értetődő a szempontok összeszorzódása – és az ottani számítások éppen erre épülnek. Megjegyezzük, hogy ilyenkor is szokás a logaritmust „segítségül hívni” a szorzatok összegekké történő átalakításához; ez az ún loglineáris modell, amivel a számítógépes programcsomagokban találkozhatnak. Ebben a könyvben nem lesz ilyesmiről szó.
54
Legyen ez a példa a lehető legegyszerűbb. Ha a szempontnak csak két értéke van, sokkal könnyebben átlátható a kérdés, mint általánosságban. Ahhoz, hogy interakcióról beszélhessünk, legalább két szempont kell; példánkban mindkettőnek két értéke lesz. Van is egy ilyen példánk – igaz, hogy nem számokkal és nem konkretizálva, de magyarázat céljára nagyon jó lesz. A 10. oldalon említettük, hogy a minták „több szempontból” nem különbözhetnek – amíg egyszempontos varianciaanalízist végzünk. „Rossz példaként” a következő négy minta szerepelt: fiatal nők (M1), fiatal férfiak (M2), idős nők (M3) és idős férfiak (M4). (Mi az egyes mintákat szimbolizálja.) Nyilvánvaló, hogy két szempontról van szó: a korról és a nemről; mindkettőnek két értéke van a példában. Annak idején azt is említettük, hogyan kell őket elrendezni. A következő kis táblázat segít ennek az elrendezésnek az elképzelésében. Első szempont 1 2 (kor) (fiatal) (idős) Második szempont (nem) I (nő) M1 M3 II (férfi) M2 M4 M1–M4 mutatja, hogy hova kerülnek az egyes minták. A szempontok „értékeit”* arab, illetőleg római számok jelölik; zárójelben azt is megadtuk, hogy ebben a speciális példában mit jelentenek ezek a számok. A „vizsgált változót” nem konkretizáljuk; nevezzük egyszerűen x-nek. Ha az első szempont szerint különbség van a csoportok közt, akkor az x1 oszlopátlag különbözik az x 2 oszlopátlagtól; legyen mondjuk az első nagyobb, a második kisebb. Hogy még konkrétabban beszélhessünk róla, nevezzük k-nak (korhatás) azt az értéket, amenynyivel x1 nagyobb az x „nagyátlagnál”; x 2 ugyanennyivel kisebb nála.** Hasonlóképpen, a sorok átlaga egy n értékkel (a nem hatása) tér el a „nagyátlagtól”, mondjuk az első sor lefelé, a második fölfelé. Ez a „tiszta” eset, amikor teljesül az additivitás: nincs interakció.
Az előbbiek alapján föl lehet írni a négy mintaátlagot. Akárcsak az előző fejezetben, az első index a sorra, a második az oszlopra vonatkozik:
x11 x k n
x12 x k n
x21 x k n
x22 x k n
Továbbra is feltételeztük az egyenlő elemszámot.
A mintaátlagokon látszik, hogy összeadódik a két hatás. Az interakció ezt az egyszerű képet megzavarja, néha teljesen összezavarja. Képzeljük el, hogy az M3 minta átlaga kisebb az M1 minta átlagánál (mint a leírt egyszerű esetben is), viszont M4 átlaga nagyobb, mint M2-é. Ez azt jelenti, hogy míg nők esetében a kor előrehaladtával csökken a változó értéke, férfiak esetében épp fordítva: az érték növekszik. Az életkor (a varianciaanalízis egyik szempontja) másképp hat a férfiak és másképp a nők esetében, vagyis eltérő a hatása a másik szempont két értékénél. Pontosan ez az, amit interakciónak neveznek. (El lehet képzelni, hogy milyen bonyolult kép alakulhat ki, ha a szempontoknak nem két, hanem több értékük van!) Már ebben az egyszerű, összesen négy mintát vizsgáló esetben is teljesen megzavarhatja az eredmények értelmezését az interakció, sőt néha egyenesen lehetetlenné teszi. azt. Képzeljük most *
Ideje, hogy ettől az idézőjeltől megszabaduljunk! A „szempont” minden esetben egy változó, leggyakrabban egy megállapítható változó, amelynek értékeiről ugyanúgy beszélhetünk, mint bármely más, mondjuk a vizsgált változó értékeiről. (Korábban is megtettük már ezt, mindenféle mentegetőzés nélkül.) **
Itt hallgatólagosan föltételeztük, hogy a négy minta elemszáma egyenlő. Amennyiben nem így van, akkor is ellenkező irányba tér el a két oszlop (és két sor) az átlagtól, de az eltérés az elemszámoknak megfelelően „súlyozódik”.
55
úgy az interakciót, mint egy újabb hatást, egy újabb „szempontot”, amely „belép” ebbe a modellbe.* Megkülönböztetésül az „igazi szempontok” hatását főhatásoknak szokták nevezni; példánkban a kor és a nem hatása a két főhatás. A sok lehetséges szituáció közül egyet gondolunk csak végig. Kiindulunk abból, hogy mindkét főhatás szignifikáns. (Ez azon múlik, hogy a -os részben szereplő k és n értékek elég nagyok-e a véletlen ingadozáshoz képest.) Ekkor „belép” az interakció úgy, ahogy említettük: megnöveli az M4 minta átlagának értékét. Tehát nem egy sor vagy oszlop értékét növeli meg (mint egy főhatás), hanem egyetlen celláét. Ha ez a megnövelés elég nagy, az x1 oszlopátlag nem lesz már nagyobb x2 -nál, tehát eltűnik az első főhatás (a kor) szignifikanciája. (Ugyanakkor a második hatás, a nemé, „még szignifikánsabb” lesz.) Pedig a kornak van hatása, de az férfiak és nők esetében – tehát a másik szempont különböző értékeinél – egymással ellentétes irányú. Ha nagyon nagy az interakciós hatás, még ellentétes irányú korhatást is vélhetünk fölfedezni, mint az interakció nélküli modellben volt. Tehát úgy tűnik, a kor előrehaladtával nő az x változó értéke, pedig eredetileg – azaz interakció nélkül – csökkenést találtunk. Ez azonban nem „igazi” hatás. (Nem főhatás.)
Ennyit meg fogunk tudni az analízisből (tehát hogy nem valódi, ezért nem is megfogalmazható a korhatás), de azt már nem, hogy „eredetileg”, azaz interakció nélkül milyen volt a kor hatása. Ez az „interakció nélküli” modell ugyanis csak a mi fantáziánkban létezik!
Folytathatnánk még a lehetőségek fölsorolását (mi történik, ha a hatások nem szignifikánsak vagy csak az egyik az), de a lényeget már eddig is láttuk: az interakció eltüntetheti a szempontok hatását vagy kimutathat olyan hatást, amely valójában nem létezik. Azért nem érdemes ezt tovább boncolgatni, mert úgyis csak a két értékű szempontok esetében tudjuk áttekinteni a helyzetet. Ha egyik vagy mindkét szempont több értéket vesz föl (és a gyakorlatban legtöbbször ez a helyzet), a lehetőségek száma elképesztő mértékben megnő. De nemcsak ezért nem folytatjuk, hanem azért sem, mert – elképzelésünkben a varianciaanalízis modelljéhez tapadva – teljesen elrugaszkodtunk a valóságtól. Nem úgy épül föl egy változó, hogy először van egy „tiszta”, interakció nélküli modell, amelyben vizsgálhatók a főhatások (és megállapíthatjuk, hogy melyik szignifikáns és melyik nem), azután „belép” az interakció, és összekuszálja az egészet. Valójában az interakció (ha van), együtt fordul elő a többi hatással, és nehezen állapítható meg, hogy mely hatások valódiak, melyek nem. Ennél „szigorúbban” is fogalmazhatunk: ha van interakció, egyszerűen nincsenek főhatások! Ami nem jelenti azt, hogy az egyes szempontoknak nincs hatása!** Hiszen láttuk az előző példa elemzésében: a kor ilyenkor is hat, csak nem egyformán a két nemnél. De az biztos, hogy a kornak (és a nemnek is) van hatása a vizsgált x változóra. Nagyon egyszerű ezt belátni. Hiszen, mint mondottuk, interakció esetén valamelyik szempont (pl. a kor) másképp hat a másik szempont (a nem) egyik és másik értékénél. Márpedig ha azt állítjuk valamiről, hogy „másképp hat”, azzal azt is kimondtuk, hogy hat; az a hatás, amelyik nem létezik, nem hathat sem így, sem „másképp”.
Az interakciót időnként kereszthatásnak fordítják. (Az egyesek által javasolt kölcsönhatás sem sokkal szerencsésebb.) Véleményem szerint azonban kár lefordítani, annyira elterjedt a szó más területeken is. Pl. beszélnek gyógyszerek interakciójáról, ami majdnem ugyanezt jelenti: egyes gyógyszerek erősítik vagy gyengítik egymás hatását. A kereszthatás elnevezés egyébként bizonyos mértékig korlátozná is a fogalmat.
A kétszempontos varianciaanalízis (amit voltaképp csak azért iktattunk be a tárgyalásba, hogy az interakcióval kapcsolatban mondottakat szemléltessük, az „interakcióval szembeni bánásmódot” *
A „statisztikai modell” úgy is tünteti föl, mint egy újabb (additív) tagot: az átlag nem négy, hanem öt tagból tevődik össze. (Ne felejtsük el a véletlen komponenst, amelyet egyszerűség kedvéért elhagytunk az előbbi felírásban!) **
Gyakran találkozunk ilyen – téves – megfogalmazással. Vigyázzunk, ne essünk bele ebbe a csapdába.
56
bemutassuk) majd példát szolgáltat arra, hogy mit kell tennünk olyankor, ha van, és olyankor, ha nincs interakció. Egyébként már találkoztunk az interakcióval korábban is, csak „nem vettük észre”. Emlékezzünk az s e2 komponens bevezetésekor, jelölésének indoklásakor tett megjegyzésünkre, mely szerint ez a komponens a „modellünktől való eltérést” képviseli (45. oldal). Nézzük csak meg – és alakítsuk át kissé – a Qe négyzetösszeg (4.46) alatti képletét: (4.55)
2 Qe ( xij xi x j x ) 2 [ xij x ] [ xi x ] [ x j x ] .
Itt az adat nagyátlagtól való eltéréséből a két főhatást vonjuk le – vagyis az additív, interakció nélküli modellben elvárható értéket. Az ettől való eltérést – a modell „hibáját” – méri az e indexű komponens. Nem véletlen azonban, hogy az előző fejezet F-próbáiban ez a komponens állt a nevezőben. A modelltől való eltérés ugyanis nem csak az (esetleges) interakció következménye lehet, hanem a véletlen hatása is; vagyis az s e2 varianciakomponens az interakció és a véletlen hatásának a keverékét – jobb lenne azt mondani: az összegét – méri. Ha szét tudnánk választani a kettőt, módunk lenne magának az interakciónak a vizsgálatára. Ez lehetségessé válik a kétszempontos varianciaanalízisben, ahol nem egy-egy elem, hanem egy-egy minta áll a cellákban (l. az 55. oldalon található példát és a hozzá csatlakozó kis táblázatot): a mintán belüli variancia – amit a már ismert, megszokott módon számolunk – kizárólag a véletlen hatásokat képviseli, és ha ezt elkülönítjük, akkor megkapjuk az interakciós varianciakomponenst. Mindez azonban már a következő fejezethez, a kétszempontos varianciaanalízis részletes tárgyalásához tartozik. Az olvasó valószínűleg úgy érzi, hogy az interakciót (és általában az additivitást) „túlbeszéltük”, túl nagy teret szenteltünk neki. Olyan nehéz (és szokatlan) fogalmakról van azonban szó, hogy úgy éreztem: nem árt minél több oldalról körüljárni, példával megvilágítani, hogy legalább valamelyest érthető legyen. Hasonló a helyzet a következő szakaszban tárgyalt, szintén új fogalom esetében is.
4.5.2 A varianciaanalízis különféle „modelljei” Már megint modell – hát nem intéztük el ezt a kérdést az előző szakaszban? Sajnos nem, és megint egy nehezen felfogható, „kellemetlen” témáról kell szólnunk. A varianciaanalízis kétféle modelljét szokás megkülönböztetni, de ez voltaképpen kettőnél jóval többet jelent. A szempont alapján teszünk különbséget. A varianciaanalízis első modelljéről, vagy pedig (lényegesen kifejezőbb módon) rögzített szempontú modellről beszélünk,* ha a szempont – ami, jól tudjuk, maga is egy változó – azon értékeit, amelyek a varianciaanalízisben szóba jönnek (tehát amelyek a csoportokat megkülönböztetik), előre meghatározzuk, kijelöljük. (Ezt nevezik úgy a modellben, hogy „rögzítjük”.) A fogalom inkább csak azért érthető nehezen, mert mindig így jártunk el (az egyetlen kivételt tán észre sem vettük); nem csoda, hiszen mindeddig az „első modellhez” tartozó varianciaanalízisekről volt szó. Ám rögtön tartalmat nyer az előbbi megkülönböztetés, ha bevezetjük a második vagy véletlen szempontú modell fogalmát.** Ilyenkor csak maga a „szempont” van előre meghatározva, tehát az a változó, amelyről feltételezzük, hogy befolyásolja a vizsgált változót, de nem jelöljük ki – legtöbbször nem is lehet kijelölni – azokat az értékeket, amelyeknél meg akarjuk figyelni vizsgált változónk viselkedését. Ehelyett véletlenszerűen választunk a szempont értékeiből; innen kapta nevét ez a „második” modell. *
Helyesebb lenne „rögzített szempont” helyett rögzített értékű szempontról beszélni. Ezt a megfogalmazást azonban hosszadalmassága, körülményessége miatt ritkán használják. **
Ugyanígy, sokkal pontosabb lenne a véletlen értékű szempont kifejezés.
57
Ezzel ezt a kérdést el is intézhettük volna, ha pusztán a fogalmak megtanulása lenne a cél, és nem törődnénk azok megértésével. Tisztában vagyok azonban vele, hogy ezt a merőben új, szokatlan fogalmat csak példák segítségével lehet megvilágítani; az elvi „magyarázkodás” csak egyre zavarosabbá tenné az olvasóban mostanra kialakult – bizonyára nem megnyugtató – képet. Sajnos semmi sem növeli úgy a terjedelmet, mint a magyarázó célzattal bemutatott, röviden nem elmondható példák. Mentségemre szóljon, hogy megpróbáltam egyetlen bekezdésben elintézni a kérdést – és csak akkor toldottam meg további három oldallal (!), mikor láttam, hogy magam sem értem meg, amit írtam. Lássuk tehát azokat a bizonyos példákat, amelyektől a „megvilágosodást” várjuk. Beszéljünk először röviden az első modellről. Rögzített szempontú modell esetén előre megmondjuk, hogy a szempont milyen „értékei” szerepeljenek a vizsgálatban. Ezek az „értékek” például különböző tesztek, amelyeket össze akarunk hasonlítani. Vagy pontosan leírt kísérleti körülmények, amiket mindig ugyanúgy biztosítunk, hogy hatásukat vizsgálhassuk. Betűsorok, számsorok tanulásakor ezek hosszúsága lehet a kísérleti tényező: ez egyik csoport mindig három, a másik öt, a harmadik nyolc jelből álló sorozatokat tanul; ez is rögzített – előre megadható, máskor is megismételhető – szempont. De lehet ugyanolyan betűsorokat tanulni különböző módszerekkel; ezeket is előre le lehet írni, pontosan meg lehet adni. Gyógyszerek összehasonlítása esetén ugyanazt a néhány gyógyszert (vagy egyetlen gyógyszert, de különböző, előre meghatározott dózisokban) adjuk az egyes csoportoknak; ezek mind rögzített értékű szempontok. És most lássuk az újdonságnak számító véletlen szempont néhány jellemző esetét. Elsőként forduljunk ismét glikozidos „alappéldánkhoz”, amelyet már eddig is háromféleképpen elemeztünk a 2. és 3. fejezetben. Ha a növénytörmelék nincs méret szerint szétválogatva, ha nem „szitáltuk szét” az egyes törmelékméreteket, akkor csak olyasmit kérdezhetünk, hogy mindegy-e, honnan vesszük a gyógynövénymintát? Ugyanazt az eredményt kapjuk-e, ha itt vagy ott találomra nyúlunk bele a törmelékbe? Az egyes mintákat tehát csak az különbözteti meg, hogy más-más helyen „markoltunk bele” a növénycsomóba, valószínűleg hol a tetején levő nagyobb darabokat, hol az aljára került apró zúzalékot véve ki – de hogy mikor mekkora volt a törmelék átlagos mérete, azt így utólag már lehetetlen megállapítani. Így a korábbi „első modell” szerinti példát a „második modell” szerint elemeztük. A példa persze nem valami jó, hiszen egy eleve rögzített szempontú vizsgálatot alakítottunk át, „kényszerítettünk bele” a második modellbe. De az is lehet, hogy kérdésünkre éppen ez ad megfelelő választ! Mielőtt azonban ezt megmutatnánk, lássunk példákat „igazi” véletlen szempontú modellre is. Gondoljunk először egy olyan vizsgálatra, amelyben különböző napokon végzett kísérletek eredményét hasonlítjuk össze. Ilyenkor rendszerint az érdekel, hogy mennyire befolyásolják kísérleti eredményeinket az olyan (ellenőrizhetetlen és szabályozhatatlan) körülmények, mint az időjárás (a hőmérséklet, a páratartalom, az időjárási frontok, a nap sugárzásának intenzitása stb.), a kísérletben részt vevők (vizsgálók és vizsgálati személyek) hangulata, egészsége, hozzáállása, a „nemzetközi helyzet” (pl. a reggeli híreken keresztül) – és számtalan olyan tényező, amit nem említettem, és ami talán eszembe sem jutott. De hiszen nem is az az érdekes, hogy ezek milyen „értéket” vesznek fel, mert nem a konkrét értéktől (mondjuk az UV-sugárzás erősségétől) való függése érdekel a kísérleti eredménynek, hanem az, hogy mindez együtt befolyásolja-e annyira, hogy a különböző napokon végzett kísérletek nem vehetők egy kalap alá. Az egyes napok hatását nem tudtuk, nem is lehetett pontosítani. Más napokon más befolyások érvényesülnek (és legközelebbi vizsgálataink ilyen „más napokra” esnek!), de a minket érdeklő dolog – hogy van-e ilyen befolyás – ettől függetlenül megállapítható. Másik példánk, amelyben családokat hasonlítunk össze, szintén általános. Most sem adjuk meg a vizsgált változót, hiszen ezzel nagyon leszűkítenénk a példa érvényességi körét. (Gondolhatunk akármire: egy anatómiai jellegzetességre, az életműködés egy jellemzőjére, egy viselkedési formára vagy speciális szokásra vagy akár egy lelki tulajdonságra is.) Arra vagyunk kíváncsiak, hogy a vizsgált változóban mekkora eltérés van az egyes családok között. 58
A vizsgálatot minden családban több személyen végezzük. Az azonos család tagjain végzett mérések egy-egy mintát alkotnak; a köztük levő különbségekből határozható meg a mintán belüli variancia. A különböző családokon végzett mérések adják a különböző mintákat; átlagaikból számolható a minták közti variancia. Ha ez szignifikánsan nagyobb, mint a másik – ezt pedig elárulja nekünk a kettő hányadosából számolt F-próba –, akkor megállapíthatjuk, hogy a családok közt a véletlen ingadozás alapján várhatónál nagyobb különbség van. (Ebből például arra következtethetünk, hogy amit vizsgáltunk, az öröklődő tulajdonság.*) Vegyük azonban észre, hogy azt a „genetikus kódot”, ami ebből a szempontból megkülönbözteti az egyes családokat, nemcsak előre nem tudtuk megadni, de utólag sem tudunk róla többet. Pedig ez lenne a „szempontnak” az az értéke, amit rögzítenünk kellene, hogy az első modellnek megfelelő varianciaanalízist végezhessünk. Nem „lustaságból” végezzük tehát a második modell szerinti analízist, hanem azért, mert csak arra van lehetőség.
Nem szabad, hogy az a képzet alakuljon ki bennünk, miszerint a második modell rosszabb, amibe a körülmények „belekényszerítenek”. Egyszerűen, ahogy a név is mutatja, két megközelítésről van szó, amelyek mindketten mást vizsgálnak. Aszerint választjuk tehát ki a modellt, hogy mit akarunk tudni, és nem aszerint, hogy mit lehet. A rögzített szempontú modell esetében világos a helyzet. A szempont konkrét értékei – a kezelések, a körülmények – közt keresünk különbséget: egyformán vagy különbözőképpen hatnak-e a vizsgált gyógyszerek; változik-e ugyanannak a gyógyszernek a hatása, ha emeljük a dózist; eltérő-e a tanulás eredménye, ha különböző, előre rögzített instrukciókat adunk; ugyanakkora-e a vizsgált érték, ha különböző napszakokban (vagy eltérő évszakokban) mérjük; egyforma eredményeket érnek-e el valamilyen vizsgálatban férfiak és nők, fiatalok és öregek, gyerekek és felnőttek, iskolázottak és tanulatlanok (stb.); ugyanolyan jók-e (ez sok mindent jelenthet! pl. azt, hogy gyorsan meg lehet oldani) egy pszichológiai teszt korábban elkészített variánsai; csupa olyan kérdés, amelyre rögzített szempontú varianciaanalízis adja vagy adhatja meg a választ. Ilyenkor világos (és lényegében mindig ugyanaz) a kérdés: van-e különbség az így kialakított csoportok – következésképpen az egyes csoportokban alkalmazott kezelések – között. (A „kezelés” szót itt a lehető legáltalánosabban értelmezzük.)
De mit vizsgál a véletlen szempontú modell? Részben erre is feleletet kaptunk a példák említése során, de fogalmazzuk most meg általánosságban. A kiválasztott, nem rögzített (tehát „esetleges”) értékeket felvevő szempont hatása vajon szignifikánsan nagyobb-e, mint az adatok közt meglevő, semmilyen megfogalmazható okra vissza nem vezethető ingadozás? Nem az egyes „csoportok” közti különbséget keressük tehát; annak itt nincs semmi értelme.** Hanem azt kérdezzük, hogy ezek a csoportok – most, és majd más vizsgálatokban – mennyire térnek el egymástól. Ha számszerűen is érdekel, mekkora ez az ingadozás, a csoportátlagok szórását kell meghatároznunk (hiszen a csoportokat ezek az átlagok képviselik a legjobban). Nem a birtokunkban levő h darab átlag szórása érdekel persze, hanem annak elméleti értéke: milyen ingadozást várhatunk az átlagok közt, ha egy változó – a varianciaanalízis véletlen szempontja – határozza meg a csoportok jellemző értékét. A csoportok „elméleti átlagai”, azaz várható értékük közti szórásról van szó, ezért adtuk neki a indexet: . A jelölés is mutatja, hogy ez egy paraméter; erre kell adataink segítségével becslést készíteni. Szokás szerint nem magát a szórást, hanem annak négyzetét, a varianciát próbáljuk meg becsülni.
*
Ez csak egy példa! Lehet, hogy éppen a családon belüli tanulás folyamatában kialakuló tulajdonságokat keressük.
**
Más alkalmakkor más csoportokat kapunk, a szempont értékeinek véletlen – random – „választása” következtében.
59
A megfelelő becslésre alkalmatlan a (már kiszámított) minták közti variancia, az ugyanis tartalmazza a véletlen hatást is. Ezért a minták közti varianciából levonjuk a pusztán a véletlen hatását tükröző mintán belüli varianciát. A különbséget el kell osztani a minták – sajnos legtöbbször nem ugyanakkora – elemszámával is, hiszen nem az adatok, hanem az átlagok szórásáról van szó: (4.56)
sk2 sb2 s , n0 2 μ
ahol n0 az egyes minták elemszámából készült – meglehetősen bonyolult – átlagos elemszámot jelenti: (4.57)
n0
N 2 n 2j N (h 1)
.
Egyenlő mintaelemszámok esetén – mint az könnyen levezethető a (4.57) képletből – n0 helyébe egyszerűen a minták közös elemszáma kerül. Előfordulhat, hogy a (4.56) képlet alapján számított varianciabecslés negatív. Az „igazi” variancia, a paraméter persze pozitív, de a becslés – a véletlen ingadozás, sőt esetleg a modell hibája miatt – negatív eredményt ad. A varianciaanalízis összetettebb eseteiben sajnos máskor is előfordul, hogy negatív értéket kapunk ezekre az elvileg mindig pozitív mennyiségekre. Az elmélet dolga, hogy megbirkózzék ezzel a problémával, megmutassa az ilyenkor követendő eljárást. Általában a számítógépes programcsomagok is kínálnak ilyenkor valamit. A könyvben nem foglalkozunk ezzel a kérdéssel.
A „második modell” szerinti varianciaanalízis célja azonban legtöbbször nem az említett becslés, hanem a tájékozódás egy olyan változó (szempont) viselkedéséről, amelynek a hatását még nem ismerjük, vagy amelyről megoszlanak a vélemények. Ilyenkor a varianciaanalízis eredményét a hasonló vizsgálatok értékelésében, vagy a későbbi vizsgálatok megtervezésében hasznosítjuk. Az első esetre jó példa a glikozidos vizsgálat. Ha szignifikáns az (58. lapon említett) véletlen szempontú varianciaanalízis eredménye, abból azt látjuk, hogy nem mindegy, honnan „markoljuk ki” a gyógynövénytörmeléket. Ennek megfelelően kevésbé bízunk a kapott glikozid-eredményekben (és más, hasonló eljárással végzett kémiai meghatározásokban), nagyobb hibahatárokat adunk meg mellettük. Az is lehet, hogy ezentúl a törmelék gondos összekeverését, vagy az eredeti feladatnak megfelelő szétválogatását írjuk elő.
Nemcsak formai: statisztikai jellegű változtatásokat is bevezethetünk. Ezt a különböző napokon végzett laboratóriumi vizsgálatok példáján (l. ugyancsak az 58. oldalon) mutatom meg. Ha a varianciaanalízis eredménye alapján a különböző napokon végzett meghatározások eredményei közt szignifikáns különbség van, akkor az az első tanulság, hogy az egyes napokon kapott vizsgálati eredmények nem keverhetők össze. De tovább is mehetünk: úgy építjük fel a vizsgálatot, hogy a napok hatását levonhassuk az eredményekből – elősegítve ezzel a kísérleti tényezők közti különbség kimutathatóságát. De hiszen erre is ismerünk módszert! Ha a napokat blokkoknak tekintjük, a blokkhatást – úgy, ahogy azt az előző fejezetben tanultuk – levonhatjuk az eredményből. Pontosan ezt tettük, amikor a 4.4.5 szakasz példájában a négy tesztváltozatot randomizált blokkelrendezés felhasználásával hasonlítottuk össze.
Az eddig elmondottakból következik, hogy a 49–50. oldalon elemzett példában az egyes emberek „véletlen szempontot” alkottak: nem „megadott értéket” képviseltek ők (mint a tesztek), hanem az emberek igen nagy sokaságából „véletlenszerűen” választottuk ki őket. Azt jelentené ez, hogy az a vizsgálat – és a -os rész végén említett, részletesen ki nem dolgozott laboratóriumi vizsgálat – a második modell szerinti varianciaanalízis alapján történt? Hát – nem. Az első (sőt azt is mondhat60
nánk: elsődleges) szempont négy pszichológiai teszt összehasonlítása volt. Ennek „értékei” – a négy, valamennyi személlyel elvégeztetett teszt – előre elhatározottak, rögzítettek voltak. Milyen is volt hát az a modell? Keverék – és így is hívják. Kevert modellről beszélünk akkor, ha a szempontok egy része rögzített, más részük véletlen. Két szempont esetén ez csak egyféleképpen fordulhat elő (az egyik szempont rögzített, a másik véletlen), az elnevezés tehát egyértelmű. Háromvagy többszempontos varianciaanalízis esetén azonban többféleképpen „keveredhetnek” a véletlen és rögzített szempontok. Szerencsére ebben a könyvben nem találkozunk ilyenekkel. A módszerek felhasználói szempontjából talán legfontosabb kérdésről, a „kétféle” varianciaanalízis számításmódjáról még nem is szóltunk. Itt (végre!) kellemes meglepetés ér minket: egyszempontos varianciaanalízis esetén a számolásban semmiféle különbség nincs, akár az első, akár a második modellnek felel meg az.* Sőt az eddig említett kétszempontos esetekben sem kell új képleteket megtanulni a Q-kra és a varianciákra, de az F-ek képletei már módosulhatnak. Kettőnél több szempont esetén már lesznek eltérések, de ilyenekkel nem foglalkozunk ebben a könyvben.
Ha igazságosak akarunk lenni, egy apró különbség már eddig is volt – a kevert modell esetében. Itt sem módosult egyetlen képlet sem, csak bizonyos korlátozást kellett bevezetni. Emlékezzünk: a 4.8. táblázat egyik F-próbáját zárójelbe tettük, és később azt mondtuk, hogy ez legtöbbször nem is érdekel minket, és igazság szerint nem is szabad kiszámítani. (Később mégis kiszámítottuk!) Most már pontosabban fogalmazhatunk. A blokkok – személyek – egy véletlen szempont „értékei” voltak. Az egyes blokkok eltérései valóban „nem érdekelnek”, hiszen érdektelen, hogy ezek az emberek – akik történetesen részt vettek ebben a vizsgálatban – mennyire térnek el egymástól. Persze előfordulhat, hogy éppen az emberek közti (ilyen természetű) különbségre vagyunk kíváncsiak. Ekkor azonban más kísérleti elrendezést kell alkalmaznunk, hiszen látjuk, hogy a (4.56) képlet nem alkalmazható közvetlenül. (Hét személy vizsgálata különben is kevés lenne ilyen jellegű megállapításokhoz.) A blokkok egyébként sem erre valók, hanem hogy a köztük levő különbséget levonjuk a teljes ingadozásból; ezáltal a tesztek közti, viszonylag kis eltérések is szignifikánsak, s így kimutathatók lesznek.
A második F-próbát pedig azért nem lett volna „jogunk” elvégezni, mert ebben az analízisben cellánként egy elem szerepelt (l. az 52. lapon mondottakat); ilyenkor csak a véletlen modellben végezhető el mindkét F-próba. „Rendes” kétszempontos varianciaanalízisben (4.6 fejezet), ahol minden cellában egy-egy minta áll, nincs ilyen korlátozás, de az F-ek nevezője esetenként módosul.
Mindez azonban meglehetősen lényegtelen. Csak az a fontos, amit az előbb mondtunk, hogy az eddigi képletek nem módosulnak, a második, harmadik és negyedik fejezetben megismert analízisek változatlanul érvényesek, akármilyen modellről van is szó.
4.5.3 A négyzetösszeg felbontása Vizsgáljuk meg először, többszempontos esetben mik lesznek a variancia komponensei, illetve – ami ugyanaz – milyen tagokra bontjuk Qt-t. Vezessük be a szempontokra az A, B, C jelölést. (Háromnál több szempont szerinti elemzést aligha fogunk még csak említeni is.) Egyszerűbb, ha rögzített szempontokra gondolunk. Véletlen és kevert modellek esetén csaknem ugyanúgy történik minden, ahogy itt elmondjuk, csak megfogalmazni bonyolultabb.
*
Csak éppen a csoportok páronkénti (vagy egyéb) összehasonlításának, valamilyen többszörös összehasonlítási eljárás alkalmazásának nincs értelme.
61
Vegyük először a kétszempontos esetet. A „minták közti”, több szempont esetén tarthatatlan elnevezést felváltja az, hogy „az A szempont értékei közötti”. Ez a komponens tehát csak az A értékei (mondhatjuk így: az oszlopok) közti különbséget méri. Ugyanígy, a B szempont értékei közti komponens (négyzetösszeg és variancia) a sorok eltérését vizsgálja. (L. a következő szakaszban látható kis táblázatot, vagy akár a randomizált blokkok elemzését bemutató 4.7. és 4.8. táblázatokat a 46., ill. 48. lapon.) A megfelelő komponenseket ugyancsak az A, ill. B indexszel jelöljük. Az interakciós tagot (már tudjuk, hogy itt ilyen is lesz!) jelölhetjük az I indexszel, de talán jobb, ha azt is feltüntetjük, hogy miknek az interakciójáról van szó; ezért választottuk az AB jelölést. Végül a kétszempontos analízisben a négyzetösszeg így bomlik fel: (4.58)
Qt QA QB QAB Qb .
A „hibatag” pontosan ugyanaz, mint az egyszempontos varianciaanalízisben: a mintán belüli négyzetösszeg. A dolog könnyebb elképzeléséhez vegyük elő a 4.7. táblázatot. Ott, a randomizált blokkos elrendezés miatt minden cellában egyetlen elem van. A kétszempontos elrendezés ugyanilyen, csak a cellákban egy-egy minta áll. Ezeknek a mintáknak a Q-ja „hordozza” a véletlen hatását, hiszen a mintákon belül semmi más különbség nincs.* A sok (gh számú) Q összegezésével kapjuk a véletlen hatást jellemző Qb-t (és ugyanilyen összegezéssel adódik annak szabadságfoka). Ez annyira ugyanúgy megy, mint az egyszempontos esetben, hogy kár is több szót vesztegetni rá. Majdnem ugyanilyen könnyű következtetni a többi komponens előállításmódjára; nincs is hozzá szükség új ismeretekre. A QA és QB négyzetösszegeket ugyanúgy az oszlop- és sorösszegek felhasználásával számítjuk ki, mint Qk-t és Qs-et – csak a képletek bonyolódnak amiatt, hogy a cellákban egy-egy elem helyett egész minta áll. A QAB interakciós tagot kivonással álltjuk elő. A képletek felírása helyett – ezek a 4.6. fejezetben szerepelnek majd – inkább ismerkedjünk meg a háromszempontos varianciaanalízis fogalmával. Annyi azonnal világos, hogy szerepel egy harmadik (C) szempont is, és lesznek újabb interakciós tagok. Az új szempont hatásának (a harmadik főhatásnak) vizsgálatára alkalmas komponensen kívül számításba kell vennünk interakcióját az eddigi szempontokkal, de még ez sem elég: a három szempont együttesen is kölcsönhatásba léphet egymással; ezért még egy interakciós tag szerepel a felbontásban. A véletlen komponens ismét a mintán belüli, valamennyi minta Q-ját összesítő Qb lesz. A háromszempontos felbontás tehát így néz ki: (4.59)
Qt QA QB QC QAB QAC QBC QABC Qb .
A sok tag számontartását, áttekintését jól segíti a varianciaanalízis korábban megismert táblázata (4.4., ill. 4.8. táblázat). A háromszempontos varianciaanalízist, a szempontok, csoportok egymáshoz való viszonyát a következő módon képzelhetjük el legkönnyebben. Vegyük elő ismét a randomizált blokkokat ábrázoló 4.7. táblázatot. A két szempont olyan, mint egy síkbeli koordinátarendszer, egymásra merőleges „tengelyekkel”. A harmadik szempontot ezek után „fölfelé” mérjük, egy térbeli koordinátarendszer harmadik tengelye mentén. A cellák nem kis négyszögek, hanem a térben elhelyezkedő téglák lesznek, melyek mindegyikében egy-egy – minden kezelés, körülmény szempontjából egyforma elemeket tartalmazó – minta áll. Semmi akadálya a modell további „terjeszkedésének”, négy- és ötszempontos felbontások felírásának és kiszámolásának; elképzelni azonban nehezen tudjuk őket. Háromdimenziós világban élünk, a magasabb dimenziókat elméletben tudhatjuk kezelni, de „látni” akkor sem tudjuk. (Legtöbbünknek még három dimenzióban – térben – is nehéz elképzelni valamit.)
*
A véletlen egy gyűjtőfogalom: azokat a változókat, amelyeket nem tudunk vagy nem akarunk figyelembe venni, véletlen elnevezéssel egy kalap alá vesszük. Együttes – összevont! – hatásukat nevezzük véletlen hatásnak. De erről többször is volt már szó.
62
4.5.4 Kísérleti elrendezések Nem is az a bajunk egy ilyen, három- vagy többszempontos elrendezéssel, hogy növekednek a számítási nehézségek (ezeket úgyis a gépre bízzuk!), hanem az, hogy rohamosan nő az elemszám (tehát az elvégzendő kísérletek száma), amint egyre több szempontot akarunk figyelembe venni. Lássunk egyetlen, viszonylag egyszerű esetet. Össze akarunk hasonlítani hat kezelést (A szempont). Mivel attól tartunk, hogy a kezelések férfiakra és nőkre másképp hatnak, külön férfi és női csoportokat képzünk (a második szempont, B tehát a nem). Azt is valószínűnek tartjuk, hogy a kezelés másképp hat a különböző korú egyénekre; harmadik szempontnak (C) tehát bevezetjük a kort. Szerények vagyunk, mindössze négy korosztályt alakítunk ki, és ezekből válogatunk megfelelő személyeket vizsgálatunkhoz. A szükséges csoportok száma 6×2×4 = 48. Azt, hogy a fenti számok összeszorzódnak, már a kétszempontos esetben látni (4.7. táblázat) – és épp az előbb mondtuk el, hogyan „épül” a síkban elhelyezkedő kétszempontos elrendezésre a harmadik szempont.* Ha nem több, mint 5 személy van egy-egy mintában – gondoljuk csak el, milyen hallatlanul kicsi ez a szám, hiszen ezeknek a mintáknak végtelen nagy populációkat kell reprezentálniuk! –, már ez is 240 vizsgálati személyt jelent. Honnan vegyünk ennyit? És ha sikerül is: mikor van elegendő pénz és idő egy ekkora kísérlet végrehajtására? Különösen, ha abból indulunk ki, hogy a hat kezelés összehasonlítását – ugyanígy ötelemű minták segítségével – mindössze 30 kísérleti személy bevonásával elintézhetnénk.
Igazság szerint a csoportok számának növelésével párhuzamosan csökkenteni szokták a csoportok létszámát; ezért a kísérleti személyek száma a gyakorlatban nem növekszik enynyire. De hova csökkentsünk egy amúgy is kicsi, 5 elemű mintát? Milyen bizonytalan lesz (és milyen kis szabadságfokú) az ezekből a kis mintákból számolt mintán belüli variancia – márpedig az összes többit ahhoz hasonlítjuk. Talán feltűnt, hogy minden cellában ugyanakkora mintával számoltunk. Ez nem csak a példa egyszerűsége érdekében történt: különféle nehézségeket okoz az egyenlőtlen elemszám. Az egyik, talán a legszembetűnőbb az, hogy a (4.58), (4.59) felbontásokban szereplő komponensek egy részére ilyenkor nem írható fel képlet! Különféle kerülő utakon, esetenként másképp kell a négyzetösszeg komponenseit meghatározni. Mondhatjuk ugyan, hogy ezt is elvégzi a számítógép – de ezzel nincs a dolog elintézve. Megsérül ugyanis a komponensek függetlensége, és ez kétségessé teheti az egész analízist.
Meg lehet érteni, ha a kutatók mindent elkövetnek, hogy egyenlő elemszámú mintákat kapjanak. Ezek a törekvések azonban gyakran fulladnak kudarcba. Szépen kiválogatott, egyforma nagy mintáikból egyszercsak „lemorzsolódik” valaki: megbetegszik, elköltözik, vagy egész egyszerűen „visszalép”: nem vállalja a részvételt. De nem jobb a helyzet az állatkísérletekben, sőt az élettelen tárgyakkal végzett vizsgálatok esetén sem: egy üvegcső eltörik, az anyag kiömlik, a kísérleti anyag „fényt kap” vagy váratlan hőhatásnak lesz kitéve; számtalan elképzelhető és elképzelhetetlen probléma léphet föl, ami mind egy-egy adat hiányához vezet. Ilyenkor aztán megint a statisztika segítségét kérik. Néhány esetben valóban lehetséges a hiány pótlása olyan adatokkal, amelyek nem hordoznak információt (hiszen nincs ilyen információ!), nem változtatják meg a minta lényeges jellemzőit – csak épp „betömik a lyukat”. Ha ez sikerül, úgy dolgozhatunk az adatokkal, mintha egyenlőek lennének az elemszámok. Ebben a könyvben nem szerepelnek ilyen módszerek; ehelyett inkább olyan eljárásokat igyekeztünk összegyűjteni, amelyek nem követelik meg az egyenlő elemszámokat. Az lenne a jó, ha minél kevesebb korlátozás akadályozná módszereink használatát.
*
Éppen ezért szokták faktoriális kísérleti tervnek nevezni az ilyeneket: a szempontok különböző értékeinek számát, mint „faktorokat” össze kell szorozni, hogy megtudjuk, hány cella (és így hány minta) van.
63
Az egyenlő elemszámok megkövetelése egyáltalán nem oldja meg az eredeti problémát, amiből kiindultunk: a szempontok számának növelésével tűrhetetlenül megnő az eljárás végrehajtásához szükséges elemszám. Hogyan tud ezen segíteni a statisztika? Igen sokféle módon, de ennek ismét csak az elvét beszéljük meg; nemhogy képletek, még nevek is csak elvétve szerepelnek. Olyan kísérleti elrendezéseket dolgoztak ki, amelyek majdnem ugyanolyan jól vizsgálhatóvá teszik a főhatásokat (sőt gyakran az interakciókat is), de az előbb kalkulált elemszámoknak csak a töredékét igénylik. Tulajdonképpen a randomizált blokk is ilyen kísérleti elrendezés volt: két szempont hatását lehetett vizsgálni úgy, hogy az egyes mintáknak csak egyetlen eleme volt! Ezek a kísérleti elrendezések ügyesen keverik a randomizálást, azaz a véletlenszerű beosztást bizonyos szisztematikus, előre meghatározott rendszerrel. Például egy blokkban nem mindenki kapja meg az összes kezelést, hanem – meghatározott rendben – kihagyásokkal építik föl a blokkot. (De hogy melyik blokkban milyen rendszer szerint, és hogy kik lesznek éppen a kimaradók: azt már randomizálják!) Vagy úgy alakítják a tervet, hogy bizonyos kezeléskombinációk az egyik szempontnak csak az egyik, mások csak a másik értékénél szerepelnek. Vagy egy-egy minta egyedei több mintát pótolnak azáltal, hogy egyik elemük az egyik, másik egy másik kombinációban szerepel, közben vigyázva arra, hogy minden kezelés, minden kombináció ugyanannyiszor forduljon elő; esetenként randomizálva a sorrendet, a tényleges kiosztást (és mindent, amit lehet).
A kezeléskombinációknak – és ezzel a csoportok számának – csökkenését az egyik legegyszerűbb, legnépszerűbb kísérleti terv vázlatos leírásával illusztráljuk. A statisztikában ezt a kísérleti elrendezést latin négyzetnek hívják. Induljunk ki abból, hogy van egy kétszempontos vizsgálati tervünk. Mindkét szempontnak három értéke van: A1, A2, A3, illetve B1, B2, B3. (Egyszerűség kedvéért nevezzük mindkettőt kezelésnek.) A kétszempontos elrendezés a szokásos módon ábrázolható a síkban, egy 3×3as négyzet formájában: A1
A2
A3
B1 B2 B3
És most „belép” egy harmadik szempont, ugyancsak három értékkel: C1, C2, C3. A teljes, „faktoriális” kísérleti terv szerint erre a négyzetre építenénk „emeleteket”: a fenti négyzet csoportjai kapnák a C1 kezelést, a fölötte levőé a C2-t, a legfölsőé a C3-at. (Ez 9 helyett 27 csoportot jelentene.) Mi azonban nem akarunk többet vizsgálni, mint 9 csoportot. Ezt úgy érjük el, hogy mind a három kezelést ezen az egy „szinten” alkalmazzuk, olyan „igazságos” elosztásban, hogy bár az A–B kezeléskombinációk egy része csak a C1, más részük csak a C2, a többi csak a C3 kezelést kapja, a kezelések mégis kiegyenlítődjenek. Ennek érdekében úgy kell a kezeléseket szétosztani, hogy mind a hat (A1, A2, A3, B1, B2, B3) kezeléshez egy-szer társuljon a C1, egyszer a C2, egyszer a C3 kezelés. Javasolom az olvasónak, hogy készítsen ilyen tervet! Töltse ki a fenti négyzetet a C1, C2, C3 kezelésekkel (vagy az őket helyettesítő, szabadon választott egyszerű jelekkel) úgy, hogy mindegyik pontosan egyszer forduljon elő valamennyi sorban, és pontosan egyszer minden oszlopban. Rögtön látni, hogy ezzel olyan kezeléskombinációk álltak elő, amilyeneket az előző bekezdésben leírtunk.
64
Az ilyeneket nevezik – függetlenül a statisztikai alkalmazástól – latin négyzetnek. A negyedik szempont belépésével a rendszer ún. görög-latin négyzetté bővül. Az elnevezés eredete egyszerű. A szokásos latin négyzetbe az a, b, c, … latin betűket írják a fenti szabály szerint (a mi esetünkben ezt helyettesítette C1, C2, C3); ha újabb „változót” kell elhelyezni hasonló
módon ugyanott, azt az , , , …görög betűkkel teszik, hogy meg lehessen őket különböztetni. Más általánosításban a négyzet téglalappá módosul; – tehát még az sem kell, hogy valamennyi szempontnak ugyanannyi értéke legyen. Térjünk azonban vissza a közönséges latin négyzet szabály szerinti kitöltéséhez. (Minden betű soronként is, oszloponként is pontosan egyszer szerepel.) Aki megpróbálja, látni fogja, hogy sokféleképp* ki lehet tölteni a négyzetet úgy, hogy megfeleljen ennek az előírásnak. És itt kapcsolódik be a véletlen: randomizálással választunk a lehetséges kitöltések közt. A kísérleti tervek tehát részben „szisztematikusak”, részben randomizáltak. Teljesen randomizált terv alig fordul elő másutt, mint az egyszempontos esetben.
A tankönyvek általában kiragadnak egy vagy két, a szerző által fontosnak tartott (vagy valamiért kedvelt) kísérleti elrendezést, és azt ismertetik. Erre itt nincs módunk; nevük magyarázat nélküli felsorolásának pedig nem sok értelme lenne. A pszichológiában egyébként is ritkán van lehetőség sok tényező figyelembevételével kísérletezni. Nem mintha nem lenne elég tényező, amire figyelni kell; inkább túl sok is van. De nehéz őket „megrendszabályozni”, egy ügyesen megszerkesztett kísérleti terv keretébe illeszteni. Hasonló problémákkal küszködik az orvostudomány is. Legtágabb tere nyílik az ilyen soktényezős kísérletnek a mezőgazdaságban; nem véletlen, hogy a módszerek nagy részét éppen ilyen alkalmazások kapcsán dolgozták ki.
4.6 A kétszempontos varianciaanalízis A kétszempontos varianciaanalízis szabályos – képletekkel ellátott, példával illusztrált – tárgyalásának két célja van. Egyrészt szeretnénk felírni legalább egy olyan modellt, ahol interakció számolható, másrészt meg akarjuk mutatni, hogy a varianciaanalízis bonyolultabb esetei valóban az eddig tárgyalt legegyszerűbb modellek közvetlen általánosításai. Mindamellett ez a tárgyalás nem lesz annyira „szabályos”, mint az előző fejezetekben tárgyalt varianciaanalíziseké. A lehető legkevesebb képletet írjuk fel, levezetésüket pedig nem a matematikai formalizmusra, hanem az olvasó képzelőerejére alapozzuk. Hiszen nem kell bevezetni szinte semmit, hanem csak kiterjeszteni az eddigieket erre az esetre.
4.6.1 Jelölések és képletek Korábban már láttuk (51–52. lap), hogy a 4. fejezetben tárgyalt randomizált blokkos elrendezés a kétszempontos varianciaanalízis olyan speciális esete, ahol a „minták” egyetlen elemből állnak. Ebből – és a 4.7. táblázatban található formális felírásból – kell tehát kiindulnunk, ha a kétszempontos varianciaanalízist a lehető legegyszerűbben akarjuk tárgyalni. Az eddigi xij adatok helyébe most egy-egy n elemű minta lép; ezt kell kifejezésre juttatnunk a jelölésben is. Az adatokat tehát xijk hármas indexszel kell ellátnunk, ahol i és j a cellát határozza meg, k pedig az egyes mintákon belül fut végig, 1-től n-ig.
Talán csalódást okoz, hogy a modell „nem eléggé általános”, nem engedi meg a különböző elemszámú mintákat. Valóban, eddig mindig törekedtünk arra, hogy ne korlátozzuk az összehasonlítandó minták elemszámát, ne követeljük meg egyformaságukat. Itt azonban kénytelenek vagyunk megalkudni. Egyenlőtlen elemszámok esetén, mint ezt az előző fejezetben is említetük, a varianciakomponensek nem írhatók fel közvetlenül. Egyszerűbben
*
Ilyen kis, 3×3-as négyzeteknél ez a „sok” még csak 12, de a 4×4-es négyzetek esetében már 576, az 5×5-ös esetben százezer fölött van, a 6×6-osban csaknem egymilliárd!
65
kifejezve ez annyit jelent, hogy hiányoznak azok a képletek, a Qt felbontásával kapott négyzetösszegek képletei, amelyek a komponensek kiszámításához kellenek. Ez természetesen nem jelenti azt, hogy nem számíthatók ki a varianciakomponensek egyenlőtlen elemszámok esetén. Csupán annyit, hogy egyszerű számítási utasítás (képlet) helyett egy (rendszerint magasabb fokú) egyenletet kell megoldanunk, és annak gyökei adják az új képletek egyes részeit. Máskor közelítő számításokat írnak elő, amelyek fokozatos közelítéssel (iterációval) állítják elő a négyzetösszegeket. Némelyiket – közvetlen kiszámítás helyett – a többiek különbségeként kapjuk csak meg. Így aztán az is előfordul, hogy ezek az utolsó négyzetösszegek negatívok lesznek, a pontatlanul meghatározozott többi komponens miatt! Ne bánjuk tehát, ha ebbe a „kalandba” nem megyünk itt bele.
Még egy ponton korlátozzuk a kétszempontos varianciaanalízis ismertetését. Ezt nem a számítási nehézségek, hanem a szóhasználat egyszerűsítése, a magyarázat könnyebbé tétele indokolja. Nevezetesen, az egész fejezetben a varianciaanalízis első modelljére (rögzített szempontú modell) szorítkozunk. Természetesen itt is vannak véletlen szempontú és kevert modellek (a 4. fejezetben tárgyalt speciális eset is ilyen volt!), alkalmazásuk, kiszámításuk nem is nehezebb, mint a rögzített szempontú modellé* – a fogalmazást azonban nagyban megnehezítené a többféle modell szem előtt tartása. (És, nem utolsó sorban, az eredmények értékelése, elemzése is ilyenkor a legegyszerűbb.)
Az n elemű kis minták egyes elemeire csak addig van szükség,** míg meghatározzuk az összegüket és a négyzetösszegüket: (4.60)
x
Tij
ijk
és
k
x
2 ijk
Sij
k
Ezt a két jelölést csak ideiglenesen, kényszerűségből vezettük be, hogy megkönnyítsük a képletek felírását és a róluk való beszédet. Ennyi elég is lenne, az összes Q négyzetösszeg felírható ezek segítségével. De ha el akarunk végezni egy ilyen kétszempontos varianciaanalízist, célszerű még két adatot meghatározni minden cellában: a minta átlagtól való eltéréseinek négyzetösszegét és varianciáját: (4.61)
Qij Sij
(Tij ) 2 n
sij2
Qij n 1
Előbbire a mintán belüli négyzetösszeg, Qb egyszerűbb felírásához, utóbbira a varianciaanalízis szórások egyformaságára vonatkozó feltételének ellenőrzéséhez lesz szükségünk.*** A többi jelölést egyszerűen átvesszük a 4.7. táblázatból. A Ti sorösszegek ugyanazt jelentik, mint eddig (a megfelelő sorban álló összes adat összegét), csak most nem h, hanem nh adat áll a sorban. Az összegezést persze nem kell „előlről” kezdeni: elég, ha az egyes minták Tij összegeit adjuk össze: (4.62)
Ti Tij . j
És hasonlóképpen az oszlopösszegekre: (4.63)
T j Tij . i
A régi képletek csak annyiban módosultak, hogy xij helyett Tij szerepel. *
Csak abban van különbség, hogy mi kerül (az egyébként is kiszámított varianciák közül) az F-próbák nevezőjébe.
**
Így volt ez már az egyszempontos varianciaanalízis esetében is!
***
A varianciára voltaképp nincs is szükség, hiszen a varianciák hányadosa – az egyenlő mintaelemszámok miatt – mindig helyettesíthető a Qij négyzetösszegek hányadosával.
66
A 4. fejezet képleteit a továbiakban is fölhasználhatjuk, csak a jelöléseket kell kissé módosítani. A 4.4.5 szakaszban U-val jelölt korrekciós tag három négyzetösszegben is szerepel; érdemes először azt meghatározni:
T U
2
(4.64)
ij
N
,
ahol, tudjuk, N a cellák számának és a minták elemszámának szorzata: (4.65)
N = ghn.
A véletlen hatását képviselő, mintán belüli Qb négyzetösszeget ugyanúgy az egyes minták Q-inak összegéből, a hozzá tartozó szabadságfokot pedig a minták szbadságfokainak összegéből kapjuk, mint az egyszempontos varianciaanalízisben: (4.66)
Qb Qij
f b gh(n 1)
A főhatásokra vonatkozó komponensek képletei pontosan ugyanazok, mint a 4. fejezetben, csak az indexek és az elnevezések mások. Az oszlopokra (A szempont) vonatkozó négyzetösszeg és szabadságfok: (4.67)
QA j
T j2 gn
U
f A h 1,
a sorokra vonatkozó Q és f pedig: (4.68)
QB i
Ti2 U hn
fB g 1.
Az interakciós komponenst rendszerint kivonással határozzák meg. Ehhez persze szükség van a teljes négyzetösszegre, ami ugyanazt jelenti, mint mindig: az összes adat négyzetösszegéből le kell vonni az összes adat összegének négyzete N-edrészét, vagyis U-t: (4.69)
Qt Sij U .
Ennek szabadságfoka természetesen N–1, amit (4.65) figyelembevételével így is írhatunk: ghn–1. Így hát az interakciós komponens: (4.70)
QAB Qt QA QB Qb
f AB ( g 1)(h 1) .
A szabadságfok fenti, (4.48)-cal megegyező képletét hasonló megfontolással kapjuk, mint fe formuláját a 4.4.4 szakaszban; ezt sem ismételjük meg, akárcsak a többi szabadságfok-indokolást. Az interakciós komponens nemcsak kivonással, hanem közvetlenül is előállítható. A képletet Qe (4.46) alatti képletéből kaphatjuk meg, ugyanolyan módosításokkal, ahogyan a randomizált blokkok többi képletét általánosítottuk a kétszempontos varianciaanalízis esetére; éppen ezért ezt nem is részletezzük. A „definíciós” és a „számolásra alkalmas” formát egyaránt megadjuk:
QAB n( xij xi x j x ) 2 (4.71)
T j2 Tij Ti2 . n ghn i hn j gn
Tij2
2
67
Tudjuk, hogy a felbontás akkor jó (Cochran-tétel!), ha a Q-k összege Qt-vel, a szabadságfokok összege ennek szabadságfokával, N–1-gyel egyenlő. Az előbbi teljesülése könnyen ellenőrizhető az (4.66)–(4.71) kéletek alapján:
T 2 T2 T2 Qb QA QB QAB Sij ij j U i U n j gn i hn Tij2 T j2 Ti 2 U Sij U Qt . n i hn j gn A levezetésben Qij-t helyetteítettük (4.61) alatti képletével és felhasználtuk (4.64)-et is. Ha az interakciós komponens (4.70) alatti formuláját használjuk, a levezetést nem is érdemes elvégezni.
A szabadságfokokra vonatkozó összefüggés még könnyebben kiadódik:
f b f A f B f AB gh(n 1) (h 1) ( g 1) ( g 1)(h 1) ghn gh h g 2 gh g h 1 ghn 1 N 1 f t . A varianciaanalízis táblázatát (4.11. táblázat) ugyanúgy – képletek helyett képletszámokat megadva – készítjük el, mint a 3. és 4. fejezetben. 4.11. táblázat: A kétszempontos varianciaanalízis táblázata Típus
Négyzetösszeg
Szabadságfok Variancia
Az A szempont hatása (oszlophatás) QA: (4.67)
h–1
s A2
A B szempont hatása (sorhatás)
QB: (4.68)
g–1
s B2
Interakció
QAB: (4.70) vagy (4.71) (g – 1)(h – 1)
Mintán belüli
Qb: (4.66)
gh(n – 1)
sb2
Teljes
Qt: (4.69)
ghn – 1
―
2 s AB
Hátra van még az F-próbák sorrendjének és jelentésének megbeszélése. Tulajdonképpen mindhárom – a sorhatásra, az oszlophatásra és az interakcióra vonatkozó – F-próbát úgy számítjuk ki, hogy a megfelelő varianciát osztjuk a mintán belüli varianciával: (4.72)
F
s A2 sb2
F
sB2 sb2
F
2 s AB . sb2
Lényegesen különbözik azonban az értelmezés módja aszerint, hogy a harmadik, az interakcióra vonatkozó F-próba szignifikáns volt-e vagy sem. Amennyiben szignifikáns, szinte közömbös, hogy a másik két F-próba milyen eredményt adott. Még akkor is biztosak lehetünk benne, hogy mindkét szempontnak van hatása, ha a rájuk vonatkozó F-próbák egyike (vagy akár mindkettő) nem szignifikáns. Nem létező hatások ugyanis nem hathatnak egymásra, nem lehetnek köztük interakciók (kereszthatások, kölcsönhatások). Ezek a hatások azonban nem egykönnyen fogalmazhatók meg, és semmiképpen nem lehet őket „főhatásoknak” nevezni. Nem mondhatjuk, hogy a (szignifikáns) A szempont így hat (pl. meghatározott mértékben emeli a vizsgált változó értékét), mert ez a hatás a B szempont különböző értékeinél más és más; esetleg még iránya is változik: egyszer növelő, máskor csökkentő hatást tapasztalunk. 68
(Már ebből is látszik, hogy a B szempont hatása is létezik, függetlenül attól, hogy szignifikáns volt-e a rá vonatkozó F-próba. Ha nem létezne – nem lenne „valójában szignifikáns” –, nem tudná befolyásolni A hatását.) Mit lehet ilyenkor tenni? Elemezni kell az egyes mintaátlagokat, külön vizsgálva az A szempont és külön a B szempont értékeit, esetleg a gh darab interakciós tagot, hogy kiderítsük: mi is történik akkor, ha vizsgált változónkra az A és B változók (mert a szempontok is változók!) együttesen hatnak. Ez bizony legtöbbször nem könnyű feladat. Emiatt szokott mindenki azért „drukkolni”, hogy az interakció ne legyen szignifikáns. (Háromszempontos varianciaanalízisben pedig azért, hogy legalább az ABC indexű hármas interakció ne legyen az. Sok használatos eljárás ezt eleve feltételezi, és beolvasztja a megfelelő komponenst a véletlen tagba.) Egyszerűbb esetekben a szignifikáns interakció jól értelmezhető, sőt lehet, hogy éppen ez ad választ előzetesen feltett kérdésünkre. Egy ilyen esetet talál az olvasó a következő szakaszban, amely egyúttal a kétszempontos varianciaanalízist bemutató egyetlen számpélda is lesz. (Jól tudjuk, hogy a számpéldák végiggondolása, utánaszámolása a legjobb módja annak, hogy meggyőződjünk róla: valóban jól értettük-e az „elméleti” részben leírtakat – vagy ha nem, itt az alkalom, hogy végre megértsük azokat.) Előbb azonban nézzük a „másik esetet”, amikor az interakcióra vonatkozó F-próba nem szignifikáns. Ilyenkor a főhatások létezését közvetlenül megállapíthatjuk a rájuk vonatkozó, (4.72) alatti F-próbákból, és minden további nélkül meg is tudjuk fogalmazni ezeket a főhatásokat. A két hatás lehet ugyanolyan vagy ellentétes irányú is. Ha az interakció „nagyon nem szignifikáns”, gyakran nem így járunk el, hanem a következőképpen okoskodunk. Mivel nincs interakció, az interakciót mérő komponens is csupán a véletlen ingadozást tükrözi. Ezért ezt a komponenst összevonjuk a mintán belüli varianciával, ahogy a 3. fejezetben a „görbületi” varianciát vontuk össze vele.* Még a jelölést is megtartottuk: (4.73)
Qv Qb QAB
sv2
Qv . fv
Az fv szabadságfokot természetesen ugyanúgy a másik két szabadságfok összegeként kapjuk, mint a számlálókat. Az összevonás révén egy nagyobb szabadságfokú – ráadásul gyakran sb2 -nél kisebb – varianciát kapunk, az így számolt F-próbák tehát „könnyebben” lesznek szignifikánsak: s2 s2 F A2 F B2 . (4.74) sv sv Ezt a módszert sokan vitatják, és különböző – főként elméleti – érveket hoznak föl a varianciák összevonása ellen. Ellenérveiket ugyanúgy nem kötelező elfogadni, mint az „összevonás-pártiak” érvelését. Végső soron a módszer alkalmazójára van bízva, hogy él-e az összevonás lehetőségével vagy nem.
4.6.2 Példa kétszempontos varianciaanalízisre Ez a számpélda több szempontból is kivételes a könyv példái közt. Egyrészt „valódi” példa, egy régi állatkísérlet (MTA Kísérleti Orvostudományi Kutatóintézet) tényleges adataira támaszkodva. Másrészt a példát egyszerűen átvettem a kb. 40 éve írt Bevezetés a matematikai statisztikába című
*
A két esetben ugyanarról van szó! A görbület a (feltételezett) lineáris kapcsolattól való eltérést, a modell nemteljesülését jelentette. Ugyanígy: a főhatások elkülöníthetősége érdekében feltételeztük az additivitást, ám a szignifikáns interakció ennek nemteljesülését, a modell alkalmatlanságát mutatja. Ha ezek nem szignifikánsak, egyszerűbb, kevesebb komponenst tartalmazó modellt használhatunk. (A harmadik F-próba ebben a felfogásban a modell ellenőrzésére szolgál.)
69
könyvemből. A jelen könyv eredeti célja ugyanis ennek a régi könyvnek az átdolgozása, új kiadása volt. (Harminc éve készülök erre a munkára!) Írás közben azonban annyira eltávolodtam a régitől, nemcsak felépítésében, hanem talán szellemében is, hogy nem lehet többé átdolgozásnak tekinteni. A szándék azért megmaradt, és úgy gondoltam: legalább ezt az egy példát „átmentem”, ezzel adózva ama régi könyv emlékének. (Remélem, az olvasó megbocsátja nekem ezt a szubjektív, a tárgyhoz igazán nem tartozó kitérőt.) A szóban forgó állatkísérletben azt vizsgálták a kutatók, hogy a stresszhatást ki lehet-e védeni bizonyos nyugtatók segítségével. Az ilyen kísérleteknek természetesen az a célja, hogy keressék a lehetőséget: hogyan lehet az embereket mentesíteni az őket érő stresszek káros hatásától. A példában fölhasznált adatok egy meghatározott szubkortikális nyugtató alkalmazására vonatkoztak. Az említett régi könyvben a nyugtató (illetve altató*) neve és a stressz kísérletes kiváltásának módja is szerepel. Ezeket itt nem említem, mert nem a konkrét kísérlet és annak eredménye érdekel minket, hanem a kísérletes szituáció, a feltett kérdés, és az adatokból erre adható válasz. A két kísérleti változó – a két szempont – az állatokat érő stresszhatás és a (megelőzésként alkalmazott) nyugtató volt. A kísérleti elrendezés a lehető legegyszerűbb volt, mivel mindkét szempontnak csak két értékét vizsgálták: volt stressz (S) vagy nem volt (N), illetve altatták-e az állatokat (A), vagy pedig nem (É – utalva a kísérleti állatok éber állapotára). Ebben az esetben tehát a „lehető legkisebb” kétszempontos varianciaanalízist lehetett az adatokra alkalmazni, hiszen mind a sorok, mind az oszlopok száma kettő volt (g = h = 2). A 2×2-es elrendezés a következő négy csoportból állt: ÉN, ÉS, AN, AS, vagyis (ugyanebben a sorrendben) éber, nem stresszelt; éber, stresszelt; alvó, nem stresszelt; alvó, stresszelt csoportból. A csoportok létszáma egységesen 8 volt; a 32 hasonló korú és súlyú patkányt randomizálással osztották szét a fenti csoportok közt. A stressz-állapotot a vér kortikoszteron-szintjével mérték. A patkányok, akárcsak az emberek, a mellékvese-kéreg megnövelt hormontermelésével védekeznek a stressz ellen; a kortikoszteron a legnagyobb mennyiségben előforduló ilyen hormon a patkányban. (Nagyjából úgy, ahogy emberben a hidrokortizon.) Az adatokat és az előkészítő számításokat a 4.12. táblázat tartalmazza. A számadatok a kortikoszteron koncentrációt jelentik, g/100 ml vérplazma egységben. ** A négy minta adatai mellett, ugyanabban a cellában, feltüntettük a varianciaanalízis kiszámításához szükséges, (4.60)–(4.61) szerinti mennyiségeket is, továbbá az átlagot, ami megkönnyíti majd, hogy az értékelés során egy-egy celláról beszéljünk. Mindenekelőtt győződjünk meg róla, hogy elvégezhető-e a varianciaanalízis. Mivel a minták elemszáma egyforma, használhatjuk a „maximális F” eljárást. A legnagyobb varianciát az AS, a legkisebbet az AN mintában látjuk; a kettő hányadosa – vagyis a maximális F – 6,48. A Melléklet IV. táblázatában az f = 7 sorban kell keresnünk az ehhez az értékhez tartozó valószínűséget. A h = 4 oszlopot kell figyelembe venni, mert bár itt h = 2, mégiscsak 4 varianciát hasonlítunk össze. (A táblázat az egyszempontos varianciaanalízis számára készült, ezért szerepel a fejlécen h, ami értelemszerűen a csoportok számát jelenti.) A IV. táblázat felső részének megfelelő helyén 8,44 áll. Ha ekkora vagy ennél nagyobb a maximális F, akkor térnek el – 5%-os szignifikanciaszinten – a varianciák. A mi értékünk ennél kisebb, az eredmény tehát nem szignifikáns (p > 0,05); így megtartjuk a nullhipotézist, azaz elfogadjuk a varianciák egyformaságát. A varianciaanalízis elvégezhető.
*
Az alkalmazott nyugtató hatására a patkányok elaludtak; így érte őket a kutatók által létrehozott stresszhatás. Az eredmények emberi felhasználásában nyilván nem ez a helyzet: nem az alvó embert érő stressz az, ami érdekel, hanem az, hogy ugyanez a nyugtató eredményes védekezést nyújt-e az életben minket érő stresszek támadásai ellen. Nem árt megjegyezni, hogy a g (mikrogramm) tömegegységet a tudományos szleng gyakran nevezi -nak, a 100 ml-enkénti mennyiséget pedig vegyes százaléknak. Ez valójában nem százalék, hanem egy dimenzióval – koncentráció dimenzióval – rendelkező mennyiség. Az itt szereplő egységeket tehát – legalábbis egymás közt – mint %-ot (gammaszázalék) szokták emlegetni. **
70
4.12. táblázat: A példa adatai és az előkészítő számítások A szempont (stressz) B szempont (altató)
N
S
Sorösszegek
É
9,6 T11=110,7 27,5 S =2283,85 5,8 11 12,8 Q11=752,03875 6,3 2 32,7 s11 107,4341 7,3 8,7 x11 13,8375
58,0 T12=444,4 53,0 S =25594,52 65,5 12 58,3 Q12=908,1 60,3 2 49,8 s12 129,7286 31,5 68,0 x12 55,55
555,1
A
12,7 T21=115,7 27,7 S =1993,65 19,0 21 8,7 Q21=320,33875 16,0 2 13,1 s21 45,7627 5,4 13,1 x21 14,4625
30,4 T22=296,6 20,9 S =13072,22 39,0 22 27,0 Q22=2075,775 67,5 2 38,2 s22 296,5393 17,6 56,0 x22 37,075
412,3
Oszlopösszegek
226,4
741,0
967,4
Már nincs hátra sok számolnivaló. Legegyszerűbben a mintán belüli négyzetösszeget kapjuk meg:
Qb Qij 4056,2525. A több négyzetösszegben is megtalálható korrekciós tag kiszámításával folytatjuk: U
( Tij ) 2 N
967,4 2 29 245,71125. 32
Az átlagok és a négyzetösszegek számítása során egyáltalán nem kerekítünk (megtehetjük, hiszen mindenütt véges tizedestört áll, mivel az osztó 8, 16 vagy 32), ezért „pontosan” teljesül az összegekre vonatkozó összes állítás. Hasznos ez egy illusztráló célzatú példában, de a gyakorlatban nincs rá szükség. Ám el ne felejtsük, hogy mindig két-három tizedesjeggyel többre kell számolnunk, mint amennyire az eredményben szükség van, hogy a korai kerekítések ne veszélyeztessék a végeredmény pontosságát. A teljes négyzetösszeg a (4.69) képlet alapján: Qt = 42 944,24 – 29 245,71125 = 13 698,52875. A QA és QB négyzetösszegek előállításához szükséges oszlopösszegeket és sorösszegeket szintén megtaláljuk a 4.12. táblázatban. Felhasználva a (4.67) és (4.68) képleteket:
226,4 2 7412 U 8275,41125 16 16 555,12 412,32 QB U 637,245 16 16 QA
Az interakciós négyzetösszeget kivonással állítjuk elő (l. a (4.70) képletet): QAB = 13 698,52875 – 8275,41125 – 637,245 – 4056,2525 = 729,62. A hátra levő számításokat legkényelmesebb a varianciaanalízis táblázatában végezni: 71
4.13. táblázat: A kétszempontos varianciaanalízis táblázata a példa adataira Típus
Négyzetösszeg Szabadságfok
Variancia
F érték Valószínűség
8275,41125 57,12 p < 0,005
Az A szempont (stressz) hatása 8275,41125
1
A B szempont (altató) hatása
637,245
1
637,245
4,399 p < 0,05
Interakció
729,62
1
729,62
5,037 p < 0,05
4056,2525
28
144,86616
13698,52875
31
Mintán belüli Teljes
―
—
—
—
—
A stressz és az altatás hatása egyaránt szignifikáns, de ezzel nem megyünk sokra, hiszen az interakció is az; ezek a hatások – bár léteznek – nem fogalmazhatók meg „főhatásként”. (L. az előző szakaszban mondottakat.) Mielőtt még elkeserednénk a „sikertelen” kísérlet miatt, vegyük észre, hogy a kísérlet igenis sikeres volt! Nem azt kérdeztük ugyanis, hogy a stressznek van-e hatása a mellékvese kortikoszteron termelésére (ezt már régen tudjuk, hogy így van), sem azt, hogy az alkalmazott nyugtató hogyan hat ugyanennek a hormonnak a koncentrációjára (ez aligha olvasható ki az adatokból). Hanem azt kérdeztük, hogy kivédi-e a nyugtató a stressz által kiváltott hatást, azaz mérsékli-e a stressz hatására bekövetkező hormonszint-emelést, ha a két tényező (stressz és altató) együtt hatnak. Ez pedig – másképp fogalmazva – azt jelenti, van-e a két hatás közt interakció? Mivel a szignifikáns eredmény éppen azt mutatja, hogy van, a kísérlet eredményesen zárult, mégpedig pozitív eredménnyel: a feltett kísérleti kérdésre igennel válaszolhatunk. De nézzük meg az eredményt kicsit közelebbről. Az interakció szignifikanciája önmagában még nem sokat jelent, csupán annyit, hogy a két szempont hatása nem adódik össze. Ahhoz, hogy ezt a szignifikanciát a kísérlet sikere gyanánt könyvelhessük el, meg kell néznünk, hogy valóban az történik-e, amit előbb említettünk: a stressz által kiváltott hatás csökken az altató hatására. Erre pedig választ kapunk a 12. táblázatból, ha szemügyre vesszük a négy csoport átlagát. A stressz többszörösére emeli a hormonszintet. De míg éber állapotban ez az emelkedés jó 41 g% (13,8-ról 55,6-ra), az altatott állatoknál alig több, mint ennek a fele: 22,6 g% (14,5-ről 37,1-re). A stressz hormonszint-növelő hatásához kétség sem fér; ezt mutatja egyébként a minden elképzelhető szinten szignifikáns eredmény. Az altatás hatása azonban korántsem egyértelmű. A szignifikanciát valószínűleg az a nagy különbség okzza, ami a stresszelt állatokban, az ÉS és az AS csoportok átlaga közt figyelhető meg. De ha „normál” (vagy mondjuk inkább így: kontroll) állatokon nézzük az altatás hatását, nem látunk semmiféle különbséget. (A gyenge „emelkedés” 13,8-ról 14,5-re bőven írható a véletlen ingadozás számlájára.) Az altatás hatása tehát semmiképpen nem „főhatás”, annak ellenére, hogy az erre a főhatásra vonatkozó F-próba szignifikáns. (Igaz, korántsem annyira, mint a másik.)
Szignifikáns interakció esetén érdemes megpróbálkozni azzal, hogy magát az interakciót elemezzük. A QAB négyzetösszegnek g.h tagja van (a harmadik, k-vel jelölt indexre el lehet végezni az összegezést; l. a (4.71) képlet első sorát), de ezek a tagok nem függetlenek. Az interakció szabadságfoka ugyanis (g–1)(h–1), tehát ennyi a független tagok száma, ennyit tudunk „megmagyarázni”, értelmezni. És itt bosszulja meg magát a túlságosan egyszerű példa. Az interakció „elemzése” ilyenkor kimerül egyetlen tagban; ennyi ugyanis a szabadságfok. Egyelőre aligha látjuk, miért nem vizsgálható emiatt a többi tag, de ha elkészítjük az interakció egyes tagjainak elemzésére szolgáló táblázatot (4.14. táblázat), a tagok összefüggése világossá válik. Rögtön megjegyezzük, hogy itt kár elkésztíteni ezt a táblázatot, hiszen az interakciós négyzetösszegnek mind a négy tagja ugyanakkora (az 1-es szabadságfok miatt); elég lenne tehát
72
egyetlen tagot kiszámítani. Ez a munka mégis tanulságos lesz, mert megmutatja, hogyan lehet általában, több csoportot tartalmazó kétszempontos varianciaanalízis esetén elkészíteni és elemezni az interakció g.h mezős táblázatát. A randomizált blokk Qe négyzetösszegének képlete szinte teljesen ugyanaz, mint a QAB négyzetösszegé, csak az utóbbiban xij áll xij helyett, hiszen itt egy minta kerül a korábbi egyetlen elem helyébe – amelyet az átlaga képvisel. Azt is megmutattuk már (l. a (4.55) képletet az 57. lapon), hogy ez a négyzetösszeg a modellben feltételezett additivitástól való eltérést méri. Most egy kicsit egyszerűbben írjuk fel ugyanezt a különbséget – az additivitástól való eltérést –, csak előbb bevezetünk két új (de egy másik, látszólag távoli módszerből ugyancsak ismerős) fogalmat.
Az interakciós négyzetösszeg tagjai (4.71) szerint ilyen alakúak: n( xij [ xi x j x ]) 2 . A szögletes zárójelben a megfelelő cella várt átlaga áll: ha teljesülne az addtivitás, ha a főhatások egyszerűen összeadódnának, akkor pontosan ezt kellene kapnunk.* Ezzel szemben a cellában az xij kapott átlag áll. A kettő különbsége a modelltől való eltérést, az interakciót méri. (Az n szorzó akkor került oda, mikor a harmadik index, k szerint el tudtuk végezni az összegezést, mivel a zárójeles rész nem tartalmazta k-t.) Azért kell az átlaggal számolni az egyes adatok helyett, hogy a véletlen hiba – az egyes kis mintákon belüli ingadozás – ne „keveredjen bele” az interakciós komponensbe. Vegyük észre hogy a várt átlag kiszámítása nagyon hasonlóan történik ahhoz, ahogy a nn kontingenciatáblázatban a várt gyakoriságot számoltuk: ν ij i j , azaz a megfelelő N sorösszeg és oszlopösszeg szorzata, osztva a teljes összeggel. Szorzás helyett összeadást, osztás helyett kivonást végezve kapjuk a várt átlagot – mintha csak a várt gyakoriság logaritmusát számolnánk ki! 4.14. táblázat: A kapott (első sor) és várt cellaátlagok (második sor) táblázata A szempont (stressz) B szempont (altató)
S
Sorátlagok
É
13,8375 18,6125
55,55 50,775
34,69375
A
14,4625 9,6875
37,075 41,85
25,76875
14,15
46,3125
30,23125
Oszlopátlagok
N
A sor- és oszlopátlagokat könnyű kiszámítani: az összegeket kell elosztani 16-tal. (Ennyi adat áll ugyanis minden sorban, ill. oszlopban.) A „nagyátlag” a teljes összeg 32-edrésze. Ezeket is megtaláljuk az 4.14. táblázatban. Az egyes cellákban, a 4.12. táblázatból már ismerős átlagok alatt találjuk a várt átlagokat; a kettő különbsége a cellához tartozó interakciós tag zárójelben álló része, négyzetre emelés előtt.
*
A „nagyátlag” levonására formálisan azért van szükség, mert az összeg a szükségesnek kb. a kétszerese lenne. Valójában, ahogy (4.55) mutatta, a főhatások a nagyátlagtól való, „specifikus” eltérést határozzák meg, és ezek összege a cellában álló minta „specifikumát”, nagyátlagtól való eltérését adja meg – a nullhipotézis teljesülésekor.
73
Ha kiszámítjuk a kapott és várt átlag különbségét, minden cellában 4,775-öt kapunk, csak éppen kétszer (ÉN és AS) negatív, kétszer (AN, ÉS) pozitív előjellel. Mint mondtuk, csak egy független interakciós tag van, tehát csak egyet használhatunk föl az elemzéshez. Statisztikai szempontból mindegy, hogy melyiket, de a feladat szempontjából korántsem az. Itt a föltett kérdés az volt (l. a 70. lap második bekezdését), hogy mérsékli-e az altató a stressz hatását. Azt kell tehát megnéznünk, hogy az AS (altatott, stresszelt) csoportban kisebb-e a kapott átlag, mint a nullhipotézis – az additivitás – alapján várnánk. A táblázatban látjuk, hogy kisebb, így tehát előzetes hipotézisünknek megfelelő irányban „alakult ki” interakció a két kezelés közt. (Mondtuk, hogy a kezelés szót nagyon általános értelemben szokás használni a varianciaanalízisben.) Persze elemezhetnénk akármelyik másik tagot is, de akkor a mondanivaló nem lenne ilyen világos. Az, hogy az ÉS csoportban nagyobb átlagot kaptunk a vártnál, azt jelenti, hogy az éber állapot fokozta a stressz hatását az altatott állapothoz képest. Meglehetősen nyakatekert fogalmazás, és semmi köze a kísérlet szelleméhez, céljához. (Mintha az altatott állapot lenne a természetes, amihez képest a „fölébresztett” állatok nagyobb érzékenységet mutatnak a stressz „befogadására”.) Még keservesebb az interakciós hatás megfogalmazása a két „kontroll” (nem stresszelt) csoport esetében.
De nincs ezekre szükség! Egyetlen független interakciós tag, tehát egyetlen „interakciós hatás” van, és azt az AS csoport esetében jól (és számunkra hasznos módon) lehetett értelmezni. Más a helyzet, ha 2, 3 vagy még több az interakció szabadságfoka. Gondoljunk most ugyanerre a kísérletre, de szerepeljen két, különböző módon kiváltott stressz. Ekkor g = 2 továbbra is, de h = 3, és a 6 interakciós tag közül kettő független. Bármelyik kettőt értelmezhetjük tehát, de legjobb ismét az altatott stresszelt csoportokat vizsgálni. Például kimondhatjuk, hogy a korábbi – egyébként erős vibrációval kiváltott – stressz hatását kivédi az altató, de a fájdalomingerre fellépő stressz hatását már nem vagy csak kis mértékben. Ha kétféle altatót alkalmazunk, akkor már 9 interakciós tag lesz (g = h = 3), és ezek közül 4 független. Jól meg kell válogatnunk, hogy melyiket értelmezzük, melyikből olvashatjuk ki a kísérleti adatok válaszát feltett kérdéseinkre. Ha a szabadságfok 1-nél nagyobb, fölmerülhet az a kérdés is, hogy az interakciós tagok közül melyik szignifikáns, melyik nem. Vagy mondjuk inkább így: melyikek okozzák az interakció szignifikanciáját. Erre a kérdésre a következő fejezetben tanult módszerek adhatják meg a választ. (Csak adhatják, mi nem fogjuk ezt elvégezni. Példánkban ugyanis egyetlen független interakciós tag van; nem kérdés, hogy melyik okozza az interakció szignifikanciáját: az az egy.)
74
A 4.14. táblázatból közvetlenül is kiszámíthatjuk az interakciós négyzetösszeget; legalább ellenőrizzük, hogy kivonással kapott számértékünk jó volt-e. Mint már említettük, a kapott és várt átlag különbsége minden cellában 4,775; mivel négyzetre kell emelni, teljesen mindegy, hogy pozitív-e vagy negatív. A QAB négyzetösszeg egyes tagjainak értéke tehát 8×4,7752 = 182,405. (L. a (4.71) képletet!) A négy tag összege ennek négyszerese, azaz 729,62. És ezt kaptuk kivonással, ez áll a 4.13. táblázatban is.
4.7 Többszörös összehasonlítás A varianciaanalízis végeredménye, a (szignifikáns) F-próba csak annyit állapít meg (helyesebb lenne így mondani: annyit állít), hogy az összehasonlított dolgok – kezelések, körülmények, csoportok stb. – különböznek, legalábbis a „vizsgált változó” szempontjából. Ha minket az is érdekel, hogy konkrétan melyek különböznek egymástól és melyek nem,* további vizsgálatokra van szükség. Ezeket a „további vizsgálatokat” nevezik többszörös összehasonlításnak. Az elnevezés kicsit furcsa, talán még félrevezető is, de nem valószínű, hogy valaha is sikerül fölcserélni egy megfelelőbbel. Az általánosan használt angol szakkifejezés (multiple comparison) szó szerinti fordítása ez, és lehet, hogy az angol anyanyelvűek ugyanolyan elégedetlenek vele, mint mi. Emlékeztetünk, hogy mi volt a varianciaanalízis bevezetésének oka: el akartuk kerülni az első fajta hiba megnövekedését. (L. a 9. oldalon található okfejtést.) A varianciaanalízis azonban csak akkor oldja meg a csoportok összehasonlításának problémáját, ha az eredmény nem szignifikáns. Ha szignifikáns eredményt kaptunk, legtöbbször az is érdekel, hogy mely csoportok közt van különbség, és melyek között nincs. A minden további nélkül végzett páronkénti összehasonlítások, tudjuk, „halmozzák” az első fajta hibát, és ez ellen nem sok védelmet nyújt az előzetesen végrehajtott, szignifikáns varianciaanalízis. (Úgy szokták ezt kifejezni, hogy a tényleges hiba nagyobb, mint az – általában 5%-nak választott – névleges.) Ezen a problémán segít (szívesebben mondanám így: próbál segíteni) a többszörös összehasonlítás. Azért ez az óvatos fogalmazás, mert a kérdés máig sincs kielégítően megoldva. Számtalan eljárás létezik (minek kellene több, ha lenne egy igazán jó?), és részben a feladaton, de főképp a fölhasználó egyéni szimpátiáján múlik, hogy melyiket „szereti”. A módszerek alkalmasak a főhatások, sőt az interakció részletesebb elemzésére is (mint épp az imént említettük!), egyszerűség kedvéért azonban csak az egyszempontos varianciaanalízishez kapcsolódva fogalmazzuk meg őket.
4.7.1 A Bonferroni-módszer A legkézenfekvőbb eljárás az, hogy ha összességében nem akarunk nagyobb hibát elkövetni, mint 5%-ot, akkor ezt az 5%-ot földaraboljuk annyi részre, ahány összehasonlítást végzünk, és így a teljes hiba nem lehet több, mint amennyit „vállaltunk”. Tudjuk azonban (erről is szó volt a 4.2.1 szakaszban), hogy a hibák még független összehasonlítások esetén sem adódnak össze (ezért használtuk a halmozódnak kifejezést), hát még az olyan, egymásból részben következő összehasonlítások végzésekor, mint a sorozatos páros összehasonlítás. Ezért azután különféle, „enyhébb” darabolási módszereket dolgoztak ki; ezt valahogy úgy kell elképzelni, hogy az 5%-ot 1%-os részekre szabdalják ugyan, de ezzel nem öt, hanem mondjuk kilenc összehasonlítást is jogunk van elvégezni. (Ez a „jogunk van” annyit jelent, hogy ha valamennyit elvégezzük ezen a csökkentett szignifikanciaszinten, összességében akkor sem követünk el nagyobb hibát, mint 5%. Vagyis a tényleges szint nem haladja meg a névlegeset.) A szignifikanciaszint darabolásának különféle, egyszerű és hallatlanul rafinált eljárásait nevezik összefoglaló néven Bonferroni-módszernek. Miért kell itt ügyeskedni, miért nem vágjuk kiinduló 5%-unkat egyszerűen annyi részre, ahány összehasonlítást végezni akarunk? Azért, mert akkor eljárásunk nagyon „gyenge” lesz: a kis első fajta hiba nagy második fajta hibával jár együtt – ez pedig az erő csökkenését jelenti. (Mindezt már a könyv második részéből tudjuk.) Esetenként még a különféle, rafinált „bonferronizálások” is túlságosan nagy második fajta hibát jelentenek. Részben ez az oka a különböző többszörös össze-
*
Magától értetődő, hogy mindez csak az első modell (vagy kevert modell alkalmazásakor a rögzített értékű főhatások) esetén jön szóba. Véletlen értékű szempontoknál ilyen természetű kérdés föl sem merül.
75
hasonlítási eljárások kidolgozásának, egymással versengő „piaci kínálatának”. A problémát azonban ezek sem oldották meg. Minden módszer engedményt tesz valamelyik irányban. Vagy beletörődik a túl nagy második fajta hibába (a próba kis erejébe), vagy eltűri az első fajta hiba növekedését, a névleges szint túllépését. (Néha mind a kettő sújtja ezeket az eljárásokat.) További nehézség, hogy a legtöbb módszer csak egyenlő elemszámok – egyforma nagy csoportok – esetén érvényes. Rendre elkészültek ugyan a módszerek általánosításai tetszőleges, egymástól különböző elemszámokra is, ezek érvényességét azonban sokan kétségbe vonják. Talán az is gátolta a Bonferroni-eljárás egyeduralmát, hogy a statisztikai eloszlások csak táblázatokban voltak hozzáférhetők. Az alkalmazók onnan állapították meg, hogy számított értékeik a választott szint alá vagy fölé estek. A táblázatok azonban csak kevés szintet tartalmaztak; szóba sem jöhetett pl. 1¼ % (0,0125), 0,8% (0,008) vagy más „nem kerek” szint ellenőrzése – amit pedig a Bonferroni-eljárás megkövetelt volna. Manapság azonban, amikor a próbastatisztika kiszámított értékéhez tartozó valószínűséget – a hírhedt „p értéket”* – a számítógép adja meg, sok tizedes pontossággal, tulajdonképpen nem lenne akadálya a „bonferronizálásnak”; mindenesetre egyszerűbb lenne a kidolgozott többszörös összehasonlítási eljárások többségénél. Mielőtt bemutatnánk néhány többszörös összehasonlítási eljárást, feltétlenül meg kell említenünk egy olyan problémát, amelyről a legtöbben megfeledkeznek. A varianciaanalízis összetettebb eseteiben – már a 4.3–4.4 fejezetekben tárgyaltakban is, de a többszempontos analízisben mindenképpen – nem egy, hanem több F-próbát kellett végezni. Ilyenkor éppúgy fennáll a hibanövekedés veszélye, mint a páros összehasonlításoknál. Ha azt akarjuk, hogy az egész eljárást ne terhelje a választott szintnél, mondjuk 5%-nál nagyobb első fajta hiba, itt is csökkentett szinten, „bonferronizálva” kell meghatározni az egyes próbák szignifikanciáját.
4.7.2 Néhány többszörös összehasonlítási eljárás Inkább csak fölsorolás ez, mint a módszerek konkrét bemutatása. Ebben a szakaszban képleteket nem írunk föl, legföljebb „elmeséljük” őket. Még a varianciaanalízis „feltalálójától”, R.A. Fishertől származik a páronkénti t-próbáknak az a módosítása, hogy a két minta közös szórása helyett a varianciaanalízis mintán belüli szórását – a mintán belüli variancia négyzetgyökét – kell írni a nevezőbe. Ez nyilván jobb, megbízhatóbb becslése a véletlen hibának, mint a két mintából számolt közös szórás. A módszer igen egyszerű, és minden további nélkül alkalmazható egyenlőtlen elemszámok esetén is. Viszont kevés védelmet nyújt az első fajta hiba megnövekedése ellen. Ezt az eljárást máig sokan alkalmazzák, nem törődve a hiba növekedésével. Sokan tettek módosító javaslatokat; a legismertebb talán O.J. Dunn nevéhez fűződik. Szerinte előre el kell dönteni: hány összehasonlítást akarunk elvégezni (vagyis mi az, ami szakmailag érdekes), és ennek megfelelően „bonferronizálni”. Még a t-táblázatokat is kidolgozta hozzá: a valószínűségek darabolását el se kell végezni, rögtön leolvashatók az eredmények. De mi van akkor, ha meggondoljuk magunkat, és el akarunk végezni még egy (vagy tán kettő) összehasonlítást? Sajnos arra már nincs jogunk: az előre elhatározott számot nem léphetjük túl; ez ennek a módszernek a legnagyobb hátránya. A következő szakaszban részletesen tárgyaljuk a legáltalánosabb, legjobbnak tartott módszert, a most említett eljárás egyetlen igazi vetélytársát; ott nincs ilyen (és semmilyen más) korlátozás. Ám ha csak kevés összehasonlítást akarunk elvégezni, érdemes Dunn táblázatait használni, mert olyankor ez a módszer a legerősebb, ennek legkisebb a második fajta hibája – és garantáltan nem lépi túl a névleges (5%-os) szintet. *
Sokan ugyancsak kifogásolták ezt az általam előszerettel használt „hirhedt” jelzőt. De aki már látott lektori véleményeket, szerkesztőségi válaszokat, amelyek (pl.) orvosi folyóiratoktól érkeztek, az nem csodálkozik ezen a minősítésen. Gyakran ebben áll az elutasító válasz lényege: „hiányoznak a p értékek”. Vajon a vélemények megfogalmazói közül hányan ismerik ennek a „p értéknek” a pontos tartalmát?
76
Röviden megemlítünk még két, igen gyakran alkalmazott eljárást. Mindkettőt egyenlő mintanagyságokra dolgozták ki, és tetszőleges mintákra készült általánosításuk csak közelítő jellegű. Valószínűleg szemléletességének köszönheti népszerűségét Duncan módszere. Számolásáról nem ejtünk itt szót, csak a végeredményről. Duncan nagyság szerint sorbaállítja az átlagokat, azután aláhúzással jelöli azokat a „tömböket”, amelyek szignifikánsan nem eltérő csoportokat alkotnak. Ezek átfedhetik egymást, de az „aláhúzásos ábrából” azonnal eldönthető, hogy mely csoportok közt van szignifikáns különbség és melyek közt nincs. A jobb érthetőség kedvéért mutatok egy példát. A legkisebb mintaátlagot x1* -sal jelöljük, a következő legkisebbet x2* -sal, és így tovább. ( x1 , x2 stb. az eredeti sorrendben felírt átlagokra utalna.) Elképzelt példánkban így alakulnak az eltérő és nem eltérő csoportok:
x1*
x2*
x3*
x4*
x5*
x6*
x7*
x8*
x9*
. .
Az ábra értelmezése egyszerű: két csoport szignifikánsan különbözik, ha nincs olyan aláhúzás, amelyik összekötné őket. Például a harmadik átlag csak a hatodik és annál nagyobb átlagoktól különbözik, hiszen mind az első kettő, mind az utána következő két csoporttal közös „tömbben” szerepel. Egy másik, általánosan használt eljárás Dunnett-től származik és az ő nevét viseli.* Ez arra az esetre készült, amikor az egyik csoport a kontroll, a többiek különféle kezelések. Gyakran nincs szükségünk másra, mint a kontrollcsoport összehasonlítására az összes többivel; ez végezhető el a Dunnett-módszer segítségével. Akárcsak az előzőhöz, ehhez is külön táblázatok kellenek – illetve más eljárással kell a gépnek a valószínűségeket kiszámolnia, mintha t- vagy F-eloszlást számolna. Egyik eljárással részletesebben foglalkozunk, részint az eddigiektől gyökeresen eltérő jellege, részint általános alkalmazhatósága miatt.
4.7.3 Scheffé módszere Ahhoz, hogy ezt az eljárást elmondhassuk, meg kell ismerkednünk a statisztikai próbáknak egy, az eddigiektől eltérő tárgyalásmódjával. 4.7.3.1 Statisztikai próba és konfidenciaintervallum Beszéljünk csak azokról a próbákról, amelyek a mintaátlagok különbségét vizsgálják. A nullhipotézis az átlagok egyformasága, ami ugyanaz, mintha azt mondanánk: az átlagok különbsége nulla. Szignifikáns eltérés esetén legfeljebb 5% a valószínűsége, hogy a várható értékek egyformasága mellett akkora eltérés legyen az átlagok közt, mint a vizsgált esetben. Nézzük most a különbségre vonatkozó 95%-os megbízhatósági intervallumot. (Egyelőre csak képzeletben.) Ha ez az intervallum nem tartalmazza a nullát (tehát alsó és fölső határa ugyanolyan előjelű), akkor 95%-ig biztos, hogy a várható értékek nem egyformák (hiszen különbségük nem lehet nulla) – amivel ugyanazt állítottuk, mint előbb: ezek az átlagok az 5%-os szinten szignifikánsan különböznek.** A statisztikai próbát egy tetszőleges p szinten úgy is elvégezhetjük, hogy elkészítjük az átlagok különbségének (1–p) valószínűségű megbízhatósági intervallumát, és megnézzük, hogy ez az intervallum tartalmazza-e a nullát. Ha igen, a különbség nem szignifikáns, ellenkező esetben pedig szignifikáns. Scheffé módszere ilyen intervallumokra vonatkozó állítást fogalmaz meg, de nem csak különbségekre, hanem annál jóval általánosabb formulákra.
*
Mintha ez a „Dun-” predesztinálná a kutatókat, hogy többszörös öszehasonlításokkal foglalkozzanak!
**
Ha 95%-ig biztos, hogy nem egyformák, legfeljebb 5% az esélye annak, hogy mégis egyformák.
77
4.7.4.2 Lineáris kontrasztok A lineáris kombináció fogalmával már találkoztunk akkor, amikor a lineáris függetlenséget beszéltük meg (4.2.3.1 pont). A lineáris kontraszt olyan lineáris kombináció, amelyben az együtthatók összege nulla. Mivel nekünk csak a mintaátlagok kombinációira van szükségünk,* a képleteket is csak erre vonatkozóan írjuk föl. Egy L lineáris kombináció (4.75)
L c j x j
akkor és csak akkor kontraszt, ha (4.76)
c j 0.
A j index (és az összegezés) mindig 1-től h-ig megy. A legegyszerűbb kontraszt a különbség: xe xm (az e és m indexek az egyik és másik csoportra utalnak). Ilyenkor kettő kivételével minden cj együttható nulla, a két megmaradó együttható pedig 1 és –1. Egy másik, az előzőnél összetettebb kontraszt három kezelést együttesen hasonlít össze egy negyedikkel, mondjuk a kontrollal. A kezelésekhez tartozó három csoport átlagai x1 , x2 és x3 , a kontrollcsoporté xk . A megfelelő kontraszt: L x1 x2 x3 3xk . A kontrollt háromszor kellett levonni, hogy az együtthatók összege 0 legyen. (A többi átlag, ha van ilyen, nulla együtthatóval szerepel.) Ha valamennyi átlag egyforma (márpedig ez a nullhipotézis), akkor ez az „azonos” tényező kiemelhető a (4.75) kontrasztból, és a kifejezés (4.76) miatt nullával egyenlő. Mivel azonban az egyenlőség csak a várható értékekre igaz, amiktől az átlagok – a véletlen törvényszerűségeknek megfelelően – eltérnek, a kontraszt nem lesz nulla, csak lehetséges értékei közt szerepel a nulla. A lehetséges értékeket – az általunk tetszőlegesen választott valószínűségi szinten – a megbízhatósági intervallum tartalmazza; ezt az intervallumot konstruálta meg Scheffé. 4.7.4.3 Scheffé konfidenciaintervalluma valamennyi kontrasztra Scheffé konfidenciaintervallumának sok előnye van. Az egyik az intervallum egyszerűsége. A képlet ugyanaz, bármelyik kontrasztról van is szó, sőt a benne szereplő mennyiségek némelyike is azonos valamennyi kontrasztra. Másik nagy előnye a varianciaanalízissel való közeli rokonsága. Igaz ugyanis a következő állítás: ha az egyszempontos varianciaanalízis szignifikáns, biztosan van olyan kontraszt, amelyiknek a megbízhatósági intervalluma nem tartalmazza a nullát, míg ha a varianciaanalízis nem szignifikáns, akkor egyetlen ilyen kontraszt sincs.** Mielőtt az eljárás hátrányairól szólnánk, írjuk föl a szükséges képleteket! Egy (4.75) alatt megadott L lineáris kontraszt tetszőleges (1–p) valószínűségű megbízhatósági intervalluma (p-t hagyományosan 0,05-nek szoktuk választani): (4.77)
L Ks L L Ks L ,
ahol a kontraszt „elméleti értékét”, vagyis – átlagok helyett – várható értékekkel felírt változatát jelenti, s L a kontraszt (magától értetődően kapható) szórását, K pedig a statisztikai eloszlást tartal-
*
Főhatások vizsgálatakor oszlopátlagok, sorátlagok (és lapátlagok!) hasonló kombinációi szerepelnek.
**
Ez tehát egyike azon híres „akkor és csak akkor” állításoknak, sok diák mumusának, amelyek két állítás egyenértékűségét (ekvivalenciáját) fejezik ki. Szokás ezt úgy is megfogalmazni, hogy a két dolog kölcsönösen következik egymásból. A fentiek szerint tehát Scheffé kontrasztokra vonatkozó megbízhatósági intervallumai egyenértékűek az egyszempontos varianciaanalízissel.
78
mazó együtthatót jelenti. (Ez utóbbi az egyetlen várható értékre vonatkozó intervallumban tp volt.) Mindkettőt a négyzetével adjuk meg, hogy a hatalmas gyökjeleket elhagyhassuk: (4.78)
sL2 sb2
c 2j
K 2 (h 1)Fp .
és
nj
A szereplő mennyiségek többsége szerepelt magában a varianciaanalízisben. Sőt az egyetlen „újdonsággal”, Fp-vel is találkoztunk már: ehhez az F értékhez hasonlítottuk a varianciaanalízis eredményét; ez tehát az F-táblázatból kiolvasott, a szignifikanciaszintnek (általában 5%-nak) megfelelő F küszöbszám. (Figyelemre méltó, hogy ez az F független a kontraszttól: két szabadságfoka minden esetben ( h–1) és (N–h).) Mielőtt számpéldákkal erősítenénk meg a „tanultakat”, alakítsuk át a képletet a leggyakrabban szereplő kontraszt: két átlag különbsége esetére. A két átlag legyen, mint korábban, az „egyik” és a „másik”. A levezetést a félénkebbek átugorhatják; velük csak a végképletnél találkozunk újra.
Írjuk be az ( xe xm ) különbséget az intervallum (4.77) képletébe. (Egyelőre legyen ez a különbség pozitív.) Azt keressük, hogy mikor szignifikáns egy különbség. Szignifikancia esetén a kisebb érték (a bal oldal) sem lesz negatív:
xe xm (h 1) F p s L 0 xe xm (h 1) F p s L
Amennyiben az átlagok különbsége negatív, akkor a jobb oldalon álló kifejezésnek is negatívnak kell lennie. Átrendezve és –1-gyel szorozva ugyanezt kapjuk (csak a két átlag cserél helyet). Ezt a lépést az olvasóra bízzuk. Hogy ne kelljen szétválasztanunk az eseteket aszerint, hogy melyik átlag a nagyobb, emeljük négyzetre az utolsó formulát: ( xe xm ) 2 (h 1) Fp s L2 .
Átrendezve kapjuk, hogy szignifikancia esetén (hiszen ebből indultunk ki!) ( xe x m ) 2 (h 1) s L2
Fp .
Ebben az egyszerű esetben a kontraszt varianciája is egyszerű: s L2 sb2 ( n1 n1 ). e
(4.79)
m
Érdemes ezt is beírni a képletbe – de ez már „mindenkinek szól”:
( xe x m ) 2 (h 1) sb2
1 ne
n1
m
F
p
esetén a különbség szignifikáns a p (általában 5%-os) szinten. A formulában h a minták számát, sb2 a varianciaanalízis mintán belüli varianciáját jelenti, ne és nm pedig az összehasonlított két minta elemszámát. (Az átlagokról már szóltunk.) Fp a varianciaanalízisben is felhasznált, táblázatbeli F érték, (h–1) és (N–h) szabadságfokokkal. Ha összesen két csoport van, (4.79) pontosan megegyezik a kétmintás t-próba képletének négyzetével. (Néhány jelölésbeli különbséget nem számítva ugyanezt találjuk (4.24)-ben a 27. lapon.) Csak itt ahelyett, hogy t2 (azaz F) értékének kiszámítási módját adnánk meg, arra utalunk, hogy mettől kezdve lesz ez az érték szignifikáns.
79
És most jöhet a példa! Vegyük elő újra a 2. fejezet példáját (4.2. táblázat), és hasonlítsuk össze a most tanult módszerrel a harmadik és az utolsó átlagot. (Remélhetőleg senkit sem zavar, hogy annak idején y-nal jelöltük az adatokat!) Az átlagok különbségének négyzete: (47,65 – 25,62)2 = 485,3209. Ne takarékoskodjunk a számjegyekkel, hogy el ne rontsuk a végső eredményt! A belső variancia 134,56 volt. A többi – egyszerű egész szám – könnyen helyettesíthető. A nevező végül is: 4×134,56×11/30 = 197,3547, és a hányados: 2,459. Az F-táblázatból látjuk, hogy az 5%-hoz tartozó táblázati érték 2,80. (Szabadságfokok 4 és 24.) Ez a különbség tehát nem szignifikáns. Viszonylag könnyű ellenőrizni a többi minta-párt is. Mindössze két szignifikáns eltérést találunk: az első és az utolsó, illetve a második és az utolsó csoport között. Ezeket az összehasonlításokat azonban csak az új módszer gyakorlása kedvéért végeztük el; valójában fölöslegesek. A 4. fejezetben ugyanis megmutattuk, hogy az öt mintaátlag (közelítően) egy egyenes, a regressziós egyenes mentén fekszik; ez sokkal többet mond az átlagok egymáshoz való viszonyáról, mint az, hogy hánnyal „odébb” kell lépni, hogy a csoportok közt szignifikáns különbséget találjunk. Éppen mivel csupán gyakorlásról van szó, végezzünk el még egy „fölösleges” összehasonlítást, hogy kicsit jobban megbarátkozzunk a kontrasztok fogalmával. (Magyarul talán szembeállításnak lehetne őket hívni.) Mint mondottuk, a negyedik csoport nem tér el szignifikánsan sem az elsőtől, sem a másodiktól. Vajon kettőjüktől együtt eltér-e? Vizsgáljuk a következő kontrasztot: L x1 x2 2 x4 . Könnyen meggyőződhetünk, hogy valóban kontrasztról van szó. Az öt (!) együttható ebben az esetben: 1, 1, 0, –2, 0; ezek összege pedig tényleg nulla. (Más kérdés, hogy szakmai szempontból van-e értelme ennek a kombinációnak. Aligha. De mint mondottuk: most csak gyakorolunk.) Számítsuk ki előbb a kontraszt, majd szórásának értékét. K értéke változatlan, akármelyik kontrasztról van szó: K2 = 4×2,80, így K = 3,34664. A kontraszt számolása egyszerű: L = 57,95 + 50,62 – 2×36,15 = 36,27. A kontraszt szórását a mintán belüli variancia és az 1/6 +1/5 + 4/6 törtek összegének szorzatából vont négyzetgyök adja. A végeredmény: 11,79175. Ennek szorzata K-val 39,46. (Most már nyugodtan kerekíthetünk!) Az intervallum ezek alapján: 36,27 – 39,46 < L < 36,27 + 39,46 – 3,19 < L < 75,73 Mivel az intervallum tartalmazza nullát, a kontraszt nem szignifikáns: a két első átlag együttesen sem tér el a negyediktől. Persze „súlyozhatjuk” is a csoportokat; ha például az elsőt kétszer vesszük, a negyedik háromszorosát kell levonnunk. (Egyébként ez sem szignifikáns.) Az olvasó gyakorlásként különböző kontrasztokat próbálhat ki, akár ehhez hasonlókat, akár olyanokat, amelyekben 4–5 átlag szerepel. A példa célja nem a 2. fejezetbeli feladat elemzése, hanem a módszer illusztrálása volt. Talán sikerült megmutatni, hogy nem nehéz a Scheffé-módszer gyakorlati alkalmazása. 4.7.4.4 A módszer előnyei és hátrányai Az előnyöket már láttuk. Nincs kötve egyenlő mintanagyságokhoz, nemcsak párok, hanem más kombinációk vizsgálatát is lehetővé teszi – és a legfőbb előny: egyenértékű a varianciaanalízissel. Ez utóbbi azt garantálja, hogy akárhány összehasonlítást végzünk is, a névleges első fajta hibát nem lépjük túl. Ezzel szemben nem lehet letagadni, hogy az eljárás második fajta hibája nagyobb, mint pl. a kétmintás t-próbáké. A (4.79)-es képlet azt is megmutatja, mi növeli meg a hibát. Ez a formula majdnem ugyanaz, mint a Fisher által javasolt t-próba (l. a 4.7.2 szakaszt) képletének négyzete, 80
csak a nevezőben áll még egy (h – 1)-es tényező. Ennek gyökével osztjuk t értékét, ezzel erősen kisebbítve azt – amit csak kis mértékben ellensúlyoz az a körülmény, hogy a döntéshez használt F számlálójának szabadságfoka nem 1, hanem (h – 1). (A III. táblázatból látjuk, hogy a számláló szabadságfokának növekedésével F értéke csökken, tehát az érték „könnyebben” lesz szignifikáns, mint amúgy lett volna.) A második fajta hiba növekedésének elkerülésére, az eljárás erejének növelésére maga Scheffé javasolja azt, hogy módszerét ne a szokásos 5, hanem inkább a 10%-os szinten használják. Ez lesz az a „névleges szint”, ami alatt marad az első fajta hiba – de az igaz, hogy így kétszer akkora kockázatot vállalunk, mint általában szokás. Az is elképzelhető, hogy egyes helyeken – például bizonyos folyóiratok szerkesztőségében – nem fogadják el ezt az „enyhe” szintet. Annyira általánossá vált az évek során az 5%, hogy szinte feledésbe merült: a szignifikanciaszint szabadon választható meg. De ezzel sem lehet visszaélni! Pl. 80% választása esetén állításaink semmitmondók lesznek.
81