Ötödik rész
Rangsorolásos eljárások A most következő fejezet szokásos címe a statisztikai könyvekben az, hogy Nemparaméteres módszerek. Ez az elnevezés azonban bővebb magyarázatot igényel, továbbá – bármennyire általános is – pontatlan. Az általunk használt elnevezés tartalma azonban rögtön világos lesz, amint megismerkedünk a rangsorolással, ezzel az igen egyszerű, egy kissé a transzformációhoz hasonló eljárással. Eszerint rangsorolásos eljárások azok, amelyeknek végzéséhez az adatokat rangsoroljuk, vagy ennél pontosabban: rangszámokkal cseréljük fel őket. Mielőtt azonban ennek ismertetésébe kezdenénk, arra kell válaszolnunk, hogy mikor és miért van szükség az említett módszerekre. A válasz nagyon egyszerű. A varianciaanalízis mindvégig érvényes feltétele az volt, hogy az adatok normális eloszlásúak legyenek. Bármennyire gyakori is azonban a normális eloszlás, nem kizárólagos: sokszor találkozunk olyan eloszlással, amelyik nem normális, sőt még transzformáció alkalmazásával sem sikerül normálissá tenni. Hát ilyen eloszlások esetén szoktuk alkalmazni a rangsorolásos eljárásokat. Nem akármilyen eloszlás esetén, persze. Az eloszlás alakjára nem teszünk ugyan semmiféle kikötést, sőt még azt sem kívánjuk meg, hogy tudjuk, vagy akár csak sejtsük, milyen eloszlásról van szó.* Csupán annyi a követelmény, hogy az eloszlás folytonos legyen. Megesik persze, hogy nem folytonos – vagyis diszkrét értékeket fölvevő – eloszlás mellett is alkalmazunk rangsorolásos eljárást. Megtörtént ez olyankor is, amikor a feltétel szigorúan normális eloszlást írt elő; csak arra vigyáztunk, hogy eloszlásunk „elég közel” legyen a normálishoz. Itt is valami ilyenről van szó. Jó példa erre a jövedelem, ami nem folytonos, hiszen lehetséges értékei forint (sőt legtöbbször 100 forint) nagyságú „ugrásokkal” vannak meghatározva; sok különböző értéke miatt mégis úgy viselkedik, mintha folytonos adat lenne. (Erre vonatkozóan l. a 4.1 fejezetet is.) A folytonosságból azonban még valami következik. Mivel folytonos eloszlás esetén minden konkrét adat mintába kerülésének valószínűsége nulla** (hiszen egyetlen adat a folytonos eloszlásgörbéből nulla nagyságú területet vág ki), gyakorlatilag ki van zárva, hogy egy mintában több egyforma érték forduljon elő. (A mérések pontatlansága, a kerekítések miatt persze vannak egyforma adatok, de szinte biztos, hogy ezek „valódi értéke” különböző.) Azok a nem folytonos eloszlások, amelyeket folytonosként kezelünk (és ezért pl. rangsorolásos módszereket alkalmazunk rájuk), szintén olyan sok különböző éréket tartalmaznak, hogy egyforma adatok előfordulása szinte kizárt dolog. A rangsorolás ismertetésekor (5.1.2 szakasz) látni fogjuk, hogy miért rossz az, ha netán mégsincs így. A rangsorolásos módszerek tehát megoldást kínálnak az olyan esetekre, amikor az eddig tanult eljárások nem alkalmazhatók (a normális eloszlás nemteljesülése miatt). De miért nevezik őket nemparamétereseknek? Könnyebb megérteni az új elnevezést, ha tudjuk, hogy a normális eloszlásra épülő módszereket paraméteres eljárásoknak szokás nevezni; a név tehát mintegy szembeállítja a két nagy módszercsaládot. A két jelző egyszerűbben magyarázható együtt. Eddig a statisztikai próbák úgy épültek fel – és ebben a tanultak közül csak a 2-próbák voltak kivételek, amelyek szintén a nemparaméteresek közé tartoznak –, hogy az eloszlás egy paraméterére (-re, -ra, -ra stb.) fogalmaztak meg egy hipotézist, amit azután ellenőriztek. Ez magyaráz*
Ez az oka, hogy eloszlásmentes – vagy ennél szerencsésebb szóval: eloszlásfüggetlen – eljárásoknak is szokták nevezni az ebben a fejezetben tárgyalt módszereket. Ezek az elnevezések ugyan találóbbak, mint a „nemparaméteres” megjelölés, mi mégsem használjuk őket. De jó, ha az olvasó ismeri ezeket a neveket is, és tisztában van vele, hogy lényegében szinonímákként használják valamennyit. **
De azért mégiscsak bekerülnek azok az adatok a mintába! Ebből is látszik, hogy nulla valószínűségű nem azt jelenti, hogy lehetetlen.
83
za a „paraméteres eljárás” elnevezést. Az ebben a részben tárgyalt módszerek nem támaszkodnak az (ismeretlen) paraméterekre, gyakran még azt sem tételezik föl, hogy azok léteznek. Ezért lehet őket „nemparamétereseknek” hívni.* Azok a feladatok, amelyeket az ebben a részben tárgyalt módszerekkel akarunk megoldani, nem lesznek vadonat újak. Most is ugyanazokra a kérdésekre (megváltozás, különbség, kapcsolat) keressük a választ, ugyanúgy független vagy összetartozó mintákat vizsgálunk (kettőt vagy többet), mint eddig. Éppen ezért majdnem mindegyik új módszernek megvan a „paraméteres párja”, az a (korábban megismert) eljárás, amelyet akkor alkalmazunk (egyébként ugyanarra a feladatra), ha adataink normális eloszlásúak. Az ötödik rész felépítése a következő. A rangsorolás elvének és gyakorlati végrehajtásának tárgyalása (1. fejezet) után először a kétmintás t-próba, majd az egyszempontos varianciaanalízis rangsorolásos megfelelőjét – vagyis a független minták összehasonlításának módszereit – ismerjük meg (2. fejezet). Ezt követik az összetartozó minták esetében alkalmazható próbák: a randomizált blokkokon végzett kétszempontos varianciaanalízis rangsorolásos megfelelője, majd egy ettől meglehetősen különböző eljárás két összetartozó minta összahasonlítására, vagyis az egymintás tpróba rangsorolásos párja (3. fejezet). A 4. fejezetben rangkorrelációs eljárásokkal foglalkozunk, amelyek az r lienáris korrelációs együtthatót „mentik át” a nem normális (de folytonos) eloszlások esetére, az 5.-ben ennek (paraméteres esetben nem értelmezett) kiterjesztésével, az ún. egyetértési együtthatóval. Az utolsó fejezetben a két nagy módszercsaládot hasonlítjuk össze Mindenekelőtt azonban meg kell ismerkednünk a rangsorolás és a rangszámok fogalmával.
5.1 Rangsorolás és rangszámok A rangsorolás nem más, mint a minta adatainak nagyság szerinti sorbaállítása. A rangsorolásos eljárások nem használják fel az adatok számértékét, csak azt, hogy egyik adat kisebb-e vagy nagyobb a másiknál – azaz hogy a rangsorban előrébb vagy hátrább szerepel-e. Első látásra ijesztőnek tűnik ez az elhanyagolás, az adatok által fölkínált „információnak” ekkora pazarlása, semmibe vevése. Meglepő módon az így okozott veszteség elhanyagolhatóan kicsi. (Hogy mekkora és hogy mit is jelent ez a veszteség, arról később, a módszerek megismerése után lesz szó.) A rangszámok azok a „sorrendi számok”, amelyek megmutatják, hogy egy adat hányadik helyen áll az előbb elkészített rangsorban.** Mielőtt azonban részletesen szólnánk ezekről, vizsgáljuk meg egy példán, hogy miből indul ki, mire alapozza következtetéseit egy ilyen rangsorolásos eljárás. Ez a gondolatmenet egyúttal a rangszámok bevezetésének szükségességét is megmutatja.
5.1.1 Két csoport összehasonlítása Induljunk ki a következő, egyszerű feladatból. Két csoportot (fiúkat és lányokat, gyerekeket és felnőtteket, betegeket és egészségeseket, kezelteket és „kontrollokat”) kell összehasonlítanunk, egyetlen változó (például egy lelki tulajdonság) szempontjából. A vizsgált változó mérése meglehetősen bizonytalanul, elég nagy hibával történik (pl. egy pszichológiai teszt segítségével). Az adatoknak még a pontos értékében sem bízhatunk, abban meg pláne nem reménykedhetünk, hogy azok valamilyen elméletileg jól leírható törvényt (pl. normális eloszlást) követnek.
*
Mint említettük azonban, a szakirodalom korlátozza az elnevezés érvényét, és rendszerint csak a rangsorolásos módszereket hívja nemparamétereseknek. **
A rangsorolás fogalmába általában beleszámítjuk a rangszámok kiosztását is, nemcsak azok sorbaállítását.
84
Egy valamiben azért megbízhatunk. Számadatainkból mindig eldönthető, hogy melyik adat nagyobb, melyik kisebb* – tehát hogy melyik személynél kifejezettebb, melyiknél halványabb a vizsgált tulajdonság. Ennek alapján sorba tudjuk rakni – vagy ahogy gyakran nevezik: rendezni tudjuk – adatainkat, a legkisebbtől a legnagyobbig.** E sorrend alapján akarjuk eldönteni, hogy a két csoportba nagyjából egyforma értékek tartoznak-e (nullhipotézis), vagy pedig az egyik csoport adatai nagyobbak, a másikéi kisebbek. Az áttekinthetőség érdekében vegyünk először egy nagyon egyszerű példát – olyan egyszerűt, amilyent aligha fogunk vizsgálni a gyakorlatban: az első csoport álljon két elemből (n1=2), a második négyből (n2=4). (A vizsgálat „teljes elemszámát”, akárcsak a varianciaanalízisben, N-nel szoktuk jelölni: N = n1+n2.) Világos, hogy azt mondjuk: az első csoport elemei kisebbek, mint a másik csoportéi, ha megelőzik azokat a sorrendben, és nagyobbak, ha amazok után következnek: , illetve , ahol az üres szimbólumok jelentik az „első”, a teliek a „második” csoport adatainak helyét a rendezett adatsorban. De vajon hogyan minősítsük a nem egészen „tiszta” eseteket? Mi van, ha az egyik csoport elemei „belekeverednek” a másik csoport elemei közé? A gyakorlatban, ahol az elemszámok ennél jóval nagyobbak, ritkán látunk olyan mérvű elkülönülést, mint amilyent az előző bekezdésben szimbolizáltunk. Ez rendben is van, de meddig „keveredhetnek”, hogy még azt mondhassuk, az első csoport adatai kisebbek a második csoportbelieknél? (A következőkben csak ezt az esetet elemezzük, a másik szélsőséget nem.) Mi számít inkább: ha egy elem keveredik a másik csoport elemei közé, akár „nagyon” is, vagy mind a kettő, de csak „kicsit”? Néhány példa: Mint látjuk, már ebben a hallatlanul egyszerű esetben is sok lehetőség van. Mondhatjuk-e a fenti öt esetben (és esetleg még továbbiakban) azt, hogy az első csoport adatai kisebbek? Nyilvánvaló, hogy kell egy elv, amelynek az alapján el tudjuk ezt dönteni, és minősíteni tudjuk az egyes eseteket „belekeveredés” szempontjából. (Az itt látható első három példa esetében világos, hogy a minták „egyre jobban” keverednek. De pl. a harmadik és a negyedik sorrend közti különbségtétel már korántsem ilyen egyértelmű.) Ez azonban kevés. Találnunk kell egy módszert, amelynek az alapján elvetjük vagy megtartjuk a nullhipotézist (hiszen a két csoport statisztikai összehasonlítása a célunk), vagyis ki kell tudnunk jelölni a legjobban elkülönülő eseteket: az eseteknek azt az 5 (esetleg más választott) százalékát, amelyik a két csoport különbözőségére utal. Ez is kétféleképp történhet: kiválasztjuk a sorrendek közül azt az 5%-ot, amelyben az első minta elemei szélsőségesen kicsik, vagy azt a 2,5–2,5%-ot, ahol az első minta elemei lényegesen kisebbek, illetve jelentősen nagyobbak a második minta elemeinél. (Talán nem is kell mondani, hogy az egyoldali, illetve a kétoldali próbavégzést fogalmaztuk meg éppen.) Mindenekelőtt a nullhipotézist „fordítsuk le” a sorrendek nyelvére! A két csoport (és később majd több csoport) elemei közt a nullhipotézis értelmében semmi különbség nincs, ilyenkor tehát csak a véletlenen múlik, hogy az N adat milyen sorrendben fog elhelyezkedni. Ugyanez a statisztika nyelvén megfogalmazva: a nullhipotézis fennállása esetén valamennyi sorrend egyformán valószínű, azaz bármelyik konkrét sorrend előfordulásának valószínűsége 1/N!.*** A fenti példában *
Az adatok nyújtotta információból – a bizonytalanság miatt – nem használjuk fel, hogy mennyivel nagyobb egyik adat a másiknál, csupán azt a tényt, hogy nagyobb. **
Tulajdonképpen mindegy, hogy a legkisebbtől vagy a legnagyobbtól indulunk-e. Sok könyv ezt hangsúlyozza is, és állandóan megemlíti a két alternatívát (bonyolítva ezzel a szöveget). Szerintem azonban természetesebb, ha a rendezés az adatok növekedése irányában történik, a legkisebbtől a legnagyobb felé haladva. Mindig így fogunk eljárni, és ezt nem is említjük meg alkalmanként. A módszerek azonban pontosan ugyanúgy működnek (és ugyanazt az eredményt adják) a fordított esetben is, a csökkenő adatok irányába történő rendezés esetén. ***
A lehetséges sorrendeknek, az ún permutációknak a száma, mint azt tanultuk, a megfelelő faktoriálissal egyenlő.
85
ez 1/720; viszonylag még kezelhető szám. De már következő példánkban, ahol egy 3 és egy 6 elemű mintát fogunk vizsgálni, ez a sorrendenkénti valószínűség 9!-nak, azaz 362 880-nak a reciproka. Mivel a gyakorlatban általában ennél is nagyobb minták fordulnak elő, a szóba jövő sorrendek száma ennél sokkal nagyobb lesz – amiért a faktoriálisok gyors növekedése a „felelős”. Szerencsére ennél jobb a helyzet. Az egy mintán belüli elemek „megkülönböztethetetlenek”, mint ez a fenti ábrázolásokból is látható. Ha az „első mintából”, amelyiknek két eleme van, az egyik „belekeveredik” a másik minta elemei közé, akkor tökéletesen mindegy, hogy melyik elemmel történik ez. Ugyanígy, a második minta elemei (a tömör négyzetek) is tetszőlegesen helyet cserélhetnek egymás közt, ezzel a két minta keveredése (vagy elkülönülése) nem változik. Ezért csak a „megkülönböztethető” sorrendekkel foglalkozunk. Ahhoz, hogy a két minta egymáshoz viszonyított elhelyezkedését egyértelműen meghatározzuk, elég azt megmondani, hogy az egyik minta mely pozíciókat foglalja el az N hosszúságú sorrendben. A másik mintával nem is kell törődnünk: az kapja a „maradék” helyeket. A minket érdeklő összes sorrend számát úgy kapjuk meg, ha meghatározzuk, hányféleképpen tudunk az első – kisebb – minta számára n1 helyet kiválasztani az N lehetséges hely közül. Jól tudjuk, hogy ez a szám az
N N! n1 n1!n2 ! binomiális együtthatóval egyenlő. A képletből látszik – de egyébként is nyilvánvaló –, hogy teljesen mindegy, az első vagy a második minta számára választjuk ki a „helyeket”. (Kényelmi okokból általában a kisebbik mintát választjuk „elsőnek”: úgy jobban áttekinthető a helyzet, és valamelyest rövidebb a számolás.) Ezzel lényegesen csökkentettük a figyelembe venni kívánt sorrendek számát. A fenti, négyze6 tes szimbólumokkal ábrázolt példa esetében eszerint mindössze 15 lehetséges sorrend van. 2 (Felét már föl is rajzoltuk!) Ezek közül azonban sehogysem válogathatjuk ki a „legszélsőségesebb 5%-ot”, hiszen minden egyes sorrend valószínűsége nagyobb 5%-nál! (1/15 = 0,067.) Ezért van szükség egy másik, de még mindig nagyon egyszerű példára, amely már elég nagy ahhoz, hogy az egyformaság–különbözőség kérdését vizsgálni lehessen rajta. Ebben a második példában, amelyre egyébként a lap tetején már utaltunk, n1=3 és n2=6, a teljes elemszám tehát 9. A vizsgált sorrendek száma a korábban említett csaknem négyszázezer helyett csupán 84, hiszen 9 9 8 7 84. 3 1 2 3 Ezeket akár föl is sorolhatnánk, kezdve azzal, amelyben az első minta elemei szélsőségesen kicsik, és befejezve azzal az esettel, amikor azok a legnagyobbak. A korábbi szimbólumokkal az első sorrend, és az utolsó. Csakhogy ezzel még nem döntöttük el a korábban említett második kérdést, hogy milyen alapon mondjuk azt, hogy egy sorrend „szélsőséges”, vagy hogy egy példát is mondjunk rá: melyik esetben inkább „kicsik” az első minta elemei a következő kettő közül: és ? Ránézésre ezt bizony nemcsak nem könnyű: nem is lehet eldönteni. Ismét kell egy új elv (vagy legalábbis egy új ötlet), amelynek alapján a választ megadhatjuk. Ezt az új ötletet fogjuk most „kitalálni”. A „belekeveredés” mértéke rögtön meghatározható lesz, ha az egyes helyeknek van valamilyen „helyértékük”. Számozzuk be a helyeket 1-től N-ig – a példában 1-től 9-ig –, a legkisebb adat helyétől a legnagyobbig (tehát balról jobbra) haladva! A „helyeknek” (pozícióknak) ez a számértéke nem más, mint a korábban már emlegetett rangszám. Ennek meghatározásával, tulajdonságaival nemsokára részletesen foglalkozunk, de ahhoz eleget tudunk, hogy a kifejezést használjuk. 86
Egy minta „értékét” az elemei által elfoglalt helyek számértékének (vagyis a rangszámoknak) az összege adja. Az egyik minta értéke* meghatározza a másik minta értékét is, hiszen az összes „helyérték” összege N(N+1)/2.
Ez az utóbbi összefüggés ugyan „középiskolás anyag”, de gyakran föl fogjuk használni, ezért nem árt, ha bebizonyítjuk. Mit is adtunk meg az előbb? Az első N egész szám összegét, (1+2+3+…+N)-et. Bőven válogathatunk a fent megadott képlet egyszerű levezetései között. Talán legegyszerűbb lenne a kombinatorikai levezetés, hiszen többször emlegettük a lehetséges kiválasztások – kombinációk – számát. Csak azt kell észrevenni, hogy az első N szám összegére adott képlet binomiális együtthatóval is fölírható: N
(5.1)
i i 1
N ( N 1) N 1 , 2 2
mint ez a binomiális együttható szokásos kiszámítási módjából rögtön következik. Most mégsem ezt az utat követjük, hanem egy híres, már a régi görög matematikában is fontos szerepet játszó bizonyítási módot, a teljes indukciót választjuk. Ez a bizonyítási módszer a pozitív egész számokra (más, ennél rövidebb megfogalmazásban: a természetes számokra) érvényes tételek bizonyítására szolgál. (Egyébként ez is középiskolai anyag.) A bizonyítás lényege, hogy csak a számsor elejére (0-ra vagy 1-re) kell belátni a tétel érvényességét, és bizonyítani kell a „következést”, vagyis azt a tényt, hogy ha egy természetes számra igaz az állítás, akkor a rákövetkezőre is igaz. Ily módon 1-ből 2-re, 2-ből 3-ra (stb.) következik a tétel igazsága – vagyis „végigszalad” az összes természetes számon, egészen végtelenig. (Ha ugyan el lehet odáig szaladni…)
Az (5.1) alatti állítás 1-re feltétlenül igaz: 1 tényleg egyenlő 1·2/2-vel. Ha pedig igaz valamilyen N számra, akkor (N +1)-re is igaz, az alábbi kis levezetés értelmében:
N ( N 1) N ( N 1) 2( N 1) ( N 1)( N 2) N 1 , ahonnan 2 2 2 már közvetlenül látszik, hogy az első (N +1) szám összegére is ugyanaz a szabály érvényes, mint az első N száméra. Vagyis a tétel N-re való érvényességéből következik az (N +1)-re vonatkozó érvényesség. Ezzel a bizonyítást befejeztük. (1 N ) ( N 1)
Példánkban a két minta együttes értéke egyenlő a számok összegével 9-ig, ami az (5.1) képlet értelmében 45. Ha tehát pl. az egyik minta rangszámösszege 12, a másik mintáé szükségképpen 33. A korábban (l. az előző oldalt!) ábrázolt két sorrend esetében az első – kisebb – minta helyértékeinek (rangszámainak) összege 1+2+7=10 és 2+3+5=10, vagyis a két sorrend „egyformán szélsőséges”, mindkét esetben ugyanolyan mértékben kisebbek az első minta elemei a másodikénál. Az ilyen „egyformán eltérő” sorrendeket együtt fogjuk kezelni, hiszen nem tudunk köztük különbséget tenni. Ezzel tovább csökkentettük a két minta egymáshoz viszonyított lehetséges helyzeteinek számát. A két legszélsőségesebb esetben ugyanis 6 (1+2+3), illetve 24 (7+8+9) az első mintára vonatkozó rangszámösszeg, a két minta egyezésének (illetőleg eltérésének) mértéke tehát mindössze 19 féle lehet. (Ennyi szám van 6 és 24 között, beleértve a végpontokat.) Ezek után nincs akadálya, hogy felírjuk a két minta egymáshoz viszonyított helyzetének eloszlását(!): azt a 19 lehetőséget, ahogyan a minták egymástól eltérhetnek, a hozzájuk tartozó valószínűségekkel együtt. Mert igaz ugyan, hogy mind a 84 elhelyezkedés egyformán valószínű, de míg az első – az, amikor az első minta elemei a legkisebbek – csak egyféleképpen fordulhat elő (a minta elemei az első három pozíciót foglalják el), a kevésbé szélsőségesen eltérő esetek többféleképp *
Ezt a kifejezést csak most, a módszer „kitalálása” során használjuk; később nem lesz rá semmi szükség. (Bizonyos fokig megtévesztő is: hát vannak értékes és értéktelen minták?)
87
is megvalósulhatnak. (Erre láttunk már példát: épp az előbb állapítottuk meg, hogy a két – korábban ábrával megadott – sorrend „egyformán szélsőséges”, hiszen mindkettőhöz ugyanaz a rangszámösszeg tartozik, nevezetesen 10. Az alábbi táblázatból azt is leolvashatjuk, hogy még két sorrend van, amelyekhez ugyanez, vagyis a 10-es rangszámösszeg tartozik; tehát mind a négy esetben ugyanaz a két minta egymáshoz viszonyított nagyságrendi viszonya ) A két minta egymáshoz viszonyított helyzetére érvényes eloszlást arra az esetre, amikor az egyik minta 3, a másik 6 elemű, az 5.1. táblázatban adjuk meg. Ne felejtsük: ez a nullhipotézisnek megfelelő eloszlás! A statisztikai próbavégzéshez azonban éppen erre van szükségünk. Az első oszlopban a rangszámösszeg áll, az első mintára vonatkozóan. A következő szám azt mutatja, hogy a szóban forgó rangszámösszeg hányféleképpen „valósulhat meg”. (Ezt a számot a táblázat „magyarázó részéből” kaphatjuk meg.) Ezek tehát az egyes értékekhez tartozó gyakoriságok. Összegük 84 – éppen ahány (megkülönböztethető) sorrend van. A harmadik oszlop az illető sor valószínűségét (relatív gyakoriságát!) adja meg – kiindulva abból a feltételezésből, hogy mind a 84 sorrend egyformán valószínű. (Hiszen éppen ez a nullhipotézis.) A negyedik oszlopban a „kumulált valószínűségek” állnak: az illető sor valószínűségéhez hozzá van adva az összes fölötte álló sor valószínűsége. 5.1. táblázat: Két minta egymáshoz viszonyított helyzetének eloszlása (n1=3, n2=6) 6 1 1/84=0,0119
1/84=0,0119
123
7 1 1/84=0,0119
2/84=0,0238
124
8 2 2/84=0,0238
4/84=0,0476
125 134
9 3 3/84=0,0357
7/84=0,0833
126 135
234
10 4 4/84=0,0476
11/84=0,1310
127 136 145
235
11 5 5/84=0,0595
16/84=0,1905
128 137 146
236 245
12 7 7/84=0,0833
23/84=0,2738
129 138 147 156
237 246
345
13 7 7/84=0,0833
30/84=0,3571
139 148 157
238 247 256
346
14 8 8/84=0,0952
38/84=0,4524
149 158 167
239 248 257
347 356
15 8 8/84=0,0952
46/84=0,5476
159 168
16 8 8/84=0,0952
54/84=0,6429
17 7 7/84=0,0833
61/84=0,7262
18 7 7/84=0,0833
68/84=0,8095
19 5 5/84=0,0595
73/84=0,8690
20 4 4/84=0,0476
77/84=0,9167
21 3 3/84=0,0357
80/84=0,9524
22 2 2/84=0,0238
82/84=0,9762
23 1 1/84=0,0119
83/84=0,9881
24 1 1/84=0,0119
84/84=1,0000
88
249 258 267 348 357
169 178
179
269 278 189
259 268 349 358 367 457
359 368
279
458 467
369 378 289
456
459 468
379
469 478 568 389
489
567
479 569 578
579
678 589 679 689 789
A táblázat nagyobbik része, az eddig említetteket követő 14 oszlop, voltaképpen csak magyarázat. Fölsorolja a „megvalósulási lehetőségeket”, vagyis azokat a sorrendeket, amelyekhez az első oszlopban álló rangszámösszeg tartozik. A felírt három szám az „első minta” pozícióit adja meg – ez azonban elég a teljes, kilenc elemű sorrend egyértelmű meghatározására.
Azért van ilyen sok oszlop, hogy a 84 sorrend előállítása könnyebb legyen: mindig csak egy elemet helyezünk odébb és csak egyetlen pozícióval, így a rangszámösszeg is csak 1gyel változik. Akkor kezdünk új oszlopot, amikor másik elemet kezdünk mozgatni, mint az előző oszlopban. Szép, szabályos rendben haladva így könnyen megtaláljuk valamennyi sorrendet. A 14 oszlop azonban kevés arra, hogy ezt az eljárást következetesen lefolytassuk. Az oszlopokat két ízben is „tömöríteni” kellett: a már üres oszlopokat a táblázat elejéről elhagytuk, hogy újabbakat nyithassunk. Az átrendezést a táblázat megszakításával jelezzük, esetenként nyíllal kötve össze a másutt folytatódó oszlopokat.
Érdemes észrevenni, hogy az eloszlás szimmetrikus; ez nemcsak a vizsgált esetben van így, hanem bármely n1, n2 elemszámok esetén. Könnyű megérteni, hogy miért. Az egyik – mondjuk a kisebb elemszámú – minta pontosan ugyanúgy tud „belelógni”, belekeveredni a másik minta elemei közé „fölülről” is, mint „alulról”, elemei ugyanolyan módon lehetnek nagyobbak, mint kisebbek a másik minta elemeinél. Meggyőződésem, hogy a 5.1. táblázatot magyarázat nélkül is megérti mindenki, ha nem sajnál egy kis időt annak tanulmányozására. Természetesen ez a táblázat nem „tanulnivaló”. Célja annak megmutatása, hogy hogyan működnek a rangsorolásos módszerek, mit jelent a minták különbözőségének (és egyúttal a rangszámösszegeknek) az eloszlása, és hogyan lehet egy ilyen eloszlásból statisztikai következtetéseket levonni, például két minta szignifikáns különbségét megállapítani. Befejezésül erről a legutóbbiról lesz szó, hiszen egész vizsgálatunknak, az eloszlás előállításának éppen ez volt a célja. Előbb azonban készítsük el az eloszlás ábráját (5.1. ábra); jól kiegészíti ez az 5.1. táblázatot, és segít a táblázatból levont következtetések megértésében. Látjuk a táblázatból, hogy egy-egy sorrend előfordulásának valószínűsége alig nagyobb, mint 1%. (Akkor, ha igaz a nullhipotézis; de hát minden próba így épül föl: előállítjuk a nullhipotézis teljesülése esetén érvényes eloszlást, a szignifikanciaszintnek megfelelően csonkítjuk annak végeit, és megnézzük, hogy a konkrét esetben az eloszláson belül vagy kívül vagyunk-e; az utóbbit nevezzük szignifikáns eredménynek.) Valamely konkrét példában (a fönt megadott elemszámú példára gondoljunk!) kiadódik egy sorrend; annak valószínűsége* mindig ugyanannyi: 0,0119, hiszen minden sorrendé ennyi. Nem ez dönti el azonban a szignifikanciát! Hanem az, hogy az ilyen és ennél szélsőségesebb sorrendek együttes valószínűsége meghaladja-e a választott szignifikanciaszintet. Ha nem: a minták eltérése szignifikáns (az előzetesen rögzített szinten). Lássunk egy példát! Esetünkben az első kettő és az ötödik helyet foglalja el a kisebbik minta; a már többször alkalmazott szimbolikus ábrával: . Válasszuk a (szokásos) 5%os szignifikanciaszintet, és végezzünk egyoldali próbát: azt a hipotézist vizsgáljuk, hogy a háromelemű minta elemei kisebbek a hatelemű minta elemeinél. Vizsgáljuk meg a 5.1. táblázatot. A „megvalósult” eloszlást a harmadik sorban találjuk. Azt is látjuk, hogy egy másik sorrend (134) ugyanilyen valószínű. De figyelembe kell vennünk az ennél szélsőségesebb – a fölötte levő sorokban álló – sorrendeket is. Legjobb, ha a negyedik oszlopot nézzük. Itt ennek a sornak és az összes korábbinak az együttes valószínűsége – vagyis az éppen itt csonkított eloszlás levágott részének területe – áll; látjuk, hogy ez kisebb 5%-nál, az eredmény tehát szignifikáns: a háromelemű minta adatai kisebbek a másik minta adatainál. *
Ezen, mint máskor is mindig, előfordulásának valószínűségét értjük.
89
Ha kétoldali próbát végzünk, ugyanez az eredmény nem szignifikáns. Akkor ugyanis az eloszlás mindkét végéből kell levágnunk 2,5–2,5 százalékot. A táblázatból látjuk, hogy a két minta eltérése kétoldali próbával csak akkor szignifikáns, ha a rangszámösszeg 6, 7, 23 vagy 24; a korábbi eredmény, 8-as rangszámöszegével, az eloszlás „megtartott” részébe esik, a nullhipotézist tehát nem vetjük el. Vegyük észre, hogy egyik esetben sem vágtuk le a pontos valószínűséget: 5% helyett 4,76%-ot, 2,5% helyett 2,38%-ot sikerült csak eltávolítanunk. Az eloszlás „lépcsős”, pontosabban nem járhattunk el; ha a következő „lépcsőnél” vágjuk le az eloszlást, 5% fölé kerülünk, és nagyobb első fajta hibát követünk el, mint amekkorában előzetesen „megegyeztünk” (saját magunkkal, természetesen). Még inkább látszik ez az 5.1. ábrán: ha az eloszlásból a három legszélsőségesebb esetet levágjuk, pontosan kétszer annyit vágunk le, mint ha csak kettőt hagynánk el. Így nem is várhatjuk, hogy „finoman” beállíthassuk a szignifikanciaszintet.* Mindenesetre az ábrából sokkal nehezebb az oszlopok „magasságösszegét” meghatározni (ez felel meg ugyanis a levágott rész valószínűségének), mint az 5.1. táblázat negyedik oszlopából egyszerűen leolvasni a kumulált valószínűséget. 5.1. ábra
Az eloszlás „ugrásai” miatt a próbákat „konzervatív” módon végezzük: kevesebbszer vetjük el – tehát inkább megtartjuk, „konzerváljuk” – az (igaz) nullhipotézist, mint akkor tennénk, ha pontos küszöbszám állna rendelkezésünkre. Más szavakkal: az eseteknek nem 5, hanem ennél kisebb százalékában követjük el az első fajta hibát. Ez minden rangsorolásos próba esetén így van.** Az elemszám növelésével azonban a „lépcsők” kisebbednek, és a ténylegesen „levágott” terület egyre kevésbé tér el a kívánt értéktől (általában 5%-tól). Nagyobb minták esetén azonban már nem gondolhatunk arra, hogy az eloszlás táblázatát előállítsuk, hiszen az még nagy teljesítményű számítógépekkel sem mindig egyszerű feladat. Éppen ezért még a táblázatok készítői is csak a kisebb elemszámokra számították ki az eloszlást (annak is rendszerint csak a próbavégzéshez szükséges végeit), a többi esetben közelítésekkel dolgoztak. Máskor még erre sem számíthatunk: nekünk kell olyan képleteket alkalmaznunk, amelyek a rangszámösszegeket nem azok eloszlásához, hanem valamilyen folytonos eloszláshoz (pl. a 2-hez) hasonlítják. Az egyes próbák tárgyalása során látni fogjuk ezeket a „megalkuvásokat”. Számítógéppel végezve a rangsorolásos eljárásokat, a gép nemcsak a rangszámösszegeket határozza meg, hanem a hozzájuk tartozó valószínűséget is. (A sokat emlegetett p értéket.) Legtöbb esetben ez sem a pontos eloszlás, hanem egy – igaz: meglehetősen jó – közelítés alapján készül.
*
Egyes statisztikusok ebbe nem nyugszanak bele. Ezért a „lépcsőn” kijelölik a szignifikanciaszintnek megfelelő „pontos” helyet, majd egy véletlen szám választásával – vagyis randomizálással – döntik el, hogy az adott esetben az így kijelölt „pontos” szint melyik oldalára esik a kísérlet eredménye. Ezt az eljárást nem használjuk ebben a könyvben. **
Sőt nemcsak a rangsorolásos, hanem más diszkrét eloszláson alapuló próbák esetében is. Találkoztunk is ezzel a jelenséggel a dichotóm (vagy dichotomizált) adatokkal végzett „egzakt” próbák, az előjelpróba és a Fisher-próba tárgyalásakor.
90
5.1.2 Rangsorolás és kapcsolt rangok Rangsoroláson tulajdonképpen két, egymást követő műveletet értünk. Először az adatokat nagyság szerint sorbaállítjuk (a legkisebbtől a legnagyobbig), majd rendre beszámozzuk őket pozitív egész számokkal, kezdve 1-gyel és végezve N-nel.
Ez a nagy N jelölés kicsit megtévesztő. Ha egyetlen minta elemeit rangsoroljuk, akkor n az utolsó rangszám, hiszen a minta elemszámát kis n-nel szoktuk jelölni. De ha két (vagy több) minta elemeit együttesen kell rangsorolni, akkor a rangsorolás N-ig, a minták összlétszámáig megy – mint ezt az előző szakasz példájában is láttuk. Ezen kár most törni a fejünket. Az egyes próbák ismertetése tartalmazza azt az utasítást is, hogy együttesen, mintánként vagy esetleg még cifrább módon kell a rangsorolást végezni. A következő fejezetekben találunk példát erre is, arra is, és újra fölbukkan a kis n jelölés is. Ebben a fejezetben azonban, egyszerűség kedvéért, mindig N-ről fogunk beszélni.
A rangsorolás két műveletét egyszerre is végezhetjük. Nem kell külön sorbaállítani az adatokat, hanem egyszerűen megkeressük a legkisebbet, és az 1-es rangszámot adjuk neki (amit az adat mellé vagy alá írunk), azután megkeressük következő legkisebbet, és odaírjuk a 2-es rangszámot – és így tovább, míg a minta (és a feladat) végére nem érünk. Nem biztos azonban, hogy ezzel az egyszerűsítéssel időt takarítunk meg. Sorbaállításkor könnyebb korrigálni: egyszerűen „beszúrunk” a sorba egy adatot, ha netán kimaradt. Ha viszont rögtön a rangszámok kiosztásával kezdjük, akkor lépten-nyomon előfordul, hogy egyszercsak észrevesszük: itt egy szám, amelyik kisebb, mint a rangszámmal imént ellátott adat, és még nem kapott rangszámot. Ekkor meg kell keresni a „helyét”, és minden utána következő rangszámot át kell javítani. Mondhatnánk, hogy igen egyszerű feladat sorban megkeresni mindig a legkisebb adatot; de ha megpróbáljuk, kiderül, hogy már 10-15 adat esetén is könnyű tévedni.A gyakorlópéldák során látni fogják, hogy 20-30 adat esetén – ez pedig egy átlagos, viszonylag kis létszámú kísérlet szokásos elemszáma – négy-öt javítgatást is el kell végezni, mire a rangsorolást befejezzük. (Különösen így van ez, ha több minta közös rangsorát kell elkészíteni.) Ennek ellenére, szinte senki sem választja a biztonságosabb, de kétségkívül hosszadalmasabb eljárást: újra leírni, most már nagyság szerint az adatokat, a sorbaállított mintában kiosztani a rangszámokat (ez igazán egyszerű), majd „visszamásolni” a rangszámokat az eredeti adatok helyére. Gyorsan megjegyzem, mielőtt az olvasó reklamálná a „példát”, hogy nem érdemes itt példát csinálni, mert amiről eddig szó volt, az a legegyszerűbb, a gyakorlatban sajnos elég ritka eset, és ezt igazán meg lehet érteni számpéldával történő alátámasztás nélkül is. De lássuk a kellemetlenebb, bonyolultabb eseteket! Mindeddig olyan adatokról beszéltünk, amelyek mind különbözők, így nem okoz gondot nagyság szerinti sorbaállításuk. Márpedig az adatok közt legtöbbször egyformák is vannak! A következőkben arról lesz szó, hogy ilyenkor hogyan kell eljárni – és csinálunk végre számpéldákat is.
A bevezetőben említettük, hogy a rangsorolásos módszereket folytonos eloszlások esetén alkalmazzuk – éppen azért, hogy ne forduljanak elő egyforma adatok. (Mivel folytonos eloszlásban minden konkrét érték előfordulásának – mintába történő kiválasztásának – a valószínűsége 0, két vagy több egyforma adat előfordulása ugyanabban a mintában egyszerűen „kizárt dolog”.) De mégis megtörténik! Ennek általában a mérés pontatlansága az oka. Bármilyen pontos, műszeres mérést végzünk is, valahány tizedesjegy után meg kell állnunk: a végtelen sok tizedesjeggyel leírható ún. valós számot – pedig ez lenne a vizsgált tulajdonság valódi értéke – soha nem kapjuk meg. (Folytonos eloszlás csak valós számokból állhat, mert bármilyen folytonos szakaszt csak valós számok tudnak kitölteni – tanulták valaha matematikából. De ha nem tanulták, akkor is higgyék el: ez így van.)
91
Ha ilyen a helyzet valamilyen „különlegesen pontos” műszeres mérés esetén, mennyivel inkább ilyen egy pszichológiai teszt, netán egy megfigyelésen vagy szubjektív megítélésen alapuló pontozás esetében! A mérés ilyenkor viszonylag kevés különböző adatot enged meg. Egy teszt pontértékei például 0 és 25 közt vannak, ráadásul a szélsőségek gyakorlatilag soha nem fordulnak elő; hogyan állhatna egy 30 elemű mintában csupa különböző érték? Vagy nézzük az előbb említett „pontozást”; ez ennél is sokkal kevesebb különböző értéket használ föl. Akár személyeket kell pontozni valamilyen szempontból (például hogy menynyire kreatívak), akár állításokat (aszerint, hogy mennyire értünk velük egyet): az adható pontok száma igen kevés. Már az is merészségnek számít, ha valaki „9 fokú skálán” kéri a pontokat (ennél több talán elő sem fordul), vagyis legfeljebb 9 különböző érték jön szóba.* Mindebből az következik, hogy 10 vagy ennél több személy vizsgálata esetén biztos, hogy lesznek egyforma értékek. De éppen mert – viszonylag nagy ingadozást mutató és meglehetősen pontatlanul mért – pszichológiai változókról van szó, jóval nagyobb mintákat kell választani: két vagy több csoport összehasonlításakor rendszerint 20–25 fős csoportokat vizsgálunk. Kimondhatjuk tehát, hogy az esetek többségében elkerülhetetlen az, hogy egyforma adataink (is) legyenek.
Hogyan rangsoroljuk az egyforma adatokat? Merhetjük azt mondani, hogy az egyik „előbb jön”, mint a másik, és ezért kisebb rangszámot kap? Erre semmilyen alapunk nincs és nem is lehet ilyet kitalálni. Egyforma adatok esetén ugyanazt a rangszámot adjuk mindegyiküknek, ez pedig nem más, mint a „rájuk jutó” rangszámok átlaga. Az ilyen „egyforma rangszámokat” nevezzük kapcsolt rangszámoknak vagy röviden kapcsolt rangoknak. Vegyünk egy példát, hogy világosan értsük – és el is tudjuk végezni – az ilyen rangsorolást. Legyen mondjuk a második és a harmadik adat egyforma. (A nagyság szerint sorbaállított mintában, természetesen.) A „rájuk jutó” rangszámok 2 és 3, de mivel egyformák, mindkettő e két szám átlagát, a 2,5-öt kapja, mint rangszámot. Ezután haladunk tovább, de természetesen 4-gyel, hiszen nemcsak 2, hanem 3 is „ki van osztva”. Ha három egyforma adat van, akkor azok átlaga a „rájuk jutó” három rangszám közül a középső – tehát ezúttal egész szám, nem tört, mint az előbb.** Lássunk gyorsan egy számpéldát. A minta tíz elemből áll; ennél kisebb mintákkal ritkán van dolgunk. A jobb helykihasználás érdekében egymás mellé (és nem egymás alá) írtuk az adatokat. A rangszámokat (vastagított jelekkel) alájuk írtuk: 22 1
26 2,5
26 2,5
27 4
32 6
32 6
32 6
33 8,5
33 8,5
37 10
Szerencsére a gyakorlatban ritkán fordul elő, hogy ilyen sok az egyforma adat. A továbbiakat talán már mondani sem kell. Ha 4, 6, … vagyis páros számú egyforma adat van, a kapcsolt rang, amit valamennyien kapnak, nem egész szám, hanem ,5-re végződik; a „két középső közti felet” kell kijelölni, hogy a megfelelő rangszámot megkapjuk. Egyszerűbb az eset 5, 7, … azaz páratlan számú egyforma adat esetén: a sorba-számozáskor rájuk eső rangszámok közül a középsőt keressük meg, és azt kapja valamennyi. Csak arra vigyázzunk, hogy „jól folytassuk”: pl. az öt darab 4-es azt jelenti, hogy a második, harmadik, negyedik, ötödik és hatodik adat egyforma, tehát az utánuk következő adat a 7-es rangszámot fogja kapni. *
Mindez nem érinti a változó folytonosságát – tehát a rangsorolásos eljárások alkalmazásának feltételét. A pszichológiában vizsgált változók csaknem mind folytonosak, és ilyenek az említett példák is (kreativitás, attitűd). **
A kapcsolt rang kiszámítása könnyebb, ha átlag helyett az egyforma adatokra jutó rangszámok mediánját határozzuk meg. (A kettő természetesen ugyanakkora, hiszen az egymás utáni egész számokból álló sorozatok „szimmetrikus eloszlásúak”.) A rangsor elején ez nem sokat számít, de ha nagyobb számokról van szó (pl. ha 37, 38 és 39 jutna az egyforma adatokra), az összeadás és osztás már bonyolultabb, mint kijelölni a középsőt (vagy a két középső közti felezőpontot), ahogyan azt a medián meghatározásakor tanultuk.
92
Könnyű az ilyet eltéveszteni. Az elkövetett hibáról azonban gyakran árulkodik az, hogy – a minta végére érve – nem N az utoljára kiosztott rangszám.* Ennek oka, hogy átugortunk egy vagy több rangszámot, vagy pedig ugyanazt a rangszámot többször is kiadtuk. Amíg ezt rendbe nem szedtük, semmiképp ne folytassuk a munkát: az akár csak kevéssé is hibás rangszámok alapján levont bármilyen következtetés teljesen értéktelen. Van azonban egy másik, ennél sokkal megbízhatóbb lehetőség is az elkészült rangszámok helyességének ellenőrzésére. A rangszámok összegének ugyanis az első N pozitív egész szám összegével, az (5.1) képlet által meghatározott értékkel kell egyenlőnek lennie. A rangsor „vége” lehet jó úgy is, hogy kihagytunk egy számot, máskor pedig tévedésből megismételtünk egyet; összegük ellenőrzése azonban ezeket a „kiegyenlített hibákat” is felderíti. Mivel a kapcsolt rangok az egyébként kiosztandó rangszámok átlagával egyenlők, kapcsolt rangok előfordulása esetén sem változik az összeg; így ez az ellenőrzési mód ilyenkor is alkalmazható. (Különben is ilyenkor van rá a legnagyobb szükség: a rangsorolást legtöbbször a kapcsolt rangok kiosztásakor tévesztjük el.) A rangszámösszeg ellenőrzése sokszor az összeadás ellenőrzésére is jó. Gyakori eset, hogy a mintánkénti rangszámösszegek összege azért nem egyezik meg az (5.1) alapján számított értékkel, mert összeadási hibát követtünk el. Befejezésül egy példát oldunk meg: két mintát, amelyekben nagyon sok az egyforma adat, együttesen rangsorolunk, majd az egyes minták rangszámösszegeit külön-külön kiszámítva elvégezzük az imént említett ellenőrzést. (A példa később „szöveget kap” majd, és az egyik módszer illusztrálására szolgál.) A rangsorolás jó gyakorlását jelentheti, ha az olvasó letakarja a rangszámokat, és megpróbálja önállóan kiosztani azokat. A példában az egyik minta 14, a másik 18 elemű. (Tehát N = 32.) Az adatokat nem rendeztük nagyság szerint, hogy az olvasó jól érzékelje a rangszámok kiosztásának nehézségét ebben az esetben – és ha úgy gondolja, a rangsorolás megkönnyítésére rendezze előbb a mintákat. A csoport B csoport 4,8 4,8 4,0
25,5 25,5 14
4,5 4,3 3,3
19,5 16 3
4,5 4,8 3,3
19,5 25,5 3
3,3 5,2 4,0
3 30,5 14
4,4 4,5 4,8
17 19,5 25,5
4,7 5,5 3,7
22 32 6,5
3,7 5,2 5,0
6,5 30,5 29
3,2 3,8 4,8
1 10 25,5
4,8 3,8
25,5 10
3,8 3,8 3,5
10 10 5
4,0 3,8 4,5
14 10 19,5
*
Ez persze módosul akkor, ha a legnagyobb adatból több is van. Az ilyenkor kiosztott kapcsolt rangok féllel, eggyel (stb.) kisebbek N-nél, de mikor az „adatokra jutó” rangszámokból kiszámoljuk őket, látszik, hogy a legutolsó adat N-et kapná, ha nem lennének az utolsó adatok egyformák.
93
A két minta rangszámösszegét R1-gyel és R2-vel jelöljük. Elvégezve az összeadást: R1 = 276,5
R2 = 251,5
A kettő összege 528, és ennyinek is kell lennie: a pozitív egész számok összege 1 és 32 közt, az (5.1) képlet alapján: 32·33/2 = 16·33 = 528.
5.1.3 Átlag és szórás A teljes rangsoroknak nemcsak az összege, hanem – természetesen – az átlaga is mindig ugyanaz a szám: csupán N-től függ, a szóban forgó feladattól nem. Kiszámításához csak az összeget kell elosztani az elemszámmal. (5.1) felhasználásával:
rN
(5.2)
N 1 . 2
Amennyire lehet, igyekszünk követni azt a jelölési szokást, hogy r a rangszámokat, R a rangszámösszegeket jelenti. Ennél sokkal érdekesebbek (és hasznosabbak) azok a képletek, amelyek a rangszámok szórását (és a szóródásra vonatkozó egyéb statisztikai jellemzőket) adják meg. Most ezekєt fogjuk előállítani, „levezetni”.
Mindenekelőtt a szórás számlálójában álló, már eddig is rengeteget szereplő mennyiséget, Q-t számítjuk ki. A rangszámokra alkalmazva: (5.3)
QN (ri rN ) i 1
r . r N 2
N
2
2
i
i
(Természetesen a másik két szumma is 1-től N-ig értendő.)
Jól tudjuk, hogy a formula második alakjával célszerű dolgozni; azt próbáljuk meg most előállítani. Az utolsó tag (5.1) segítségével számolható ki, és ha valaki emlékszik a középiskolából „az első N szám négyzetösszegének” képletére, annak már alig van számolnivalója. Mivel azonban legtöbben elfelejtették ezt a képletet (minek is ilyesmit megjegyezni?), nemcsak megadom azt, hanem be is fogom bizonyítani. A formula: N
(5.4)
i2 i 1
N ( N 1)(2 N 1) . 6
A bizonyítást ismét teljes indukcióval végezzük. (L. (5.1) bizonyítását a 87. oldalon!) A formula ellenőrzése N = 1 esetére: 1 = 1·2·3/6, ami szemmel láthatóan igaz. Csak azt kell megmutatnunk, hogy a szabály igazsága következik minden (már bebizonyított) esetről a rákövetkező egész számra:
N ( N 1)(2 N 1) N ( N 1)(2 N 1) 6( N 1) 2 ( N 1) 2 6 6 ( N 1)[ N (2 N 1) 6( N 1)] ( N 1)[ N 2 N N 2 2 N 2 N 6] 6 6 ( N 1)[2 N ( N 2) 3( N 2)] ( N 1)( N 2)(2 N 3) , 6 6
12 2 2 N 2 ( N 1) 2
94
ez pedig nem más, mint az N helyett (N +1)-re alkalmazott (5.4) képlet. Ezzel a bizonyítást befejeztük.
Most pedig helyettesítsük be (5.3)-ba (5.1)-et és (5.4)-et:
N ( N 1)(2 N 1) N 2 ( N 1) 2 2 N ( N 1)(2 N 1) 3N ( N 1) 2 6 4N 12 N ( N 1)(4 N 2 3N 3) N ( N 1)( N 1) . 12 12
QN
Ezzel voltaképpen készen is vagyunk. Gyakran azonban rövidebb (de számolásra kevésbé alkalmas) alakba írják a fenti számlálót. Ezt is megadjuk, mert az irodalomban legtöbbször ezzel a formával talákozunk. Jól ismert összefüggés a következő: (N + 1)(N – 1) = N 2 – 1. Ezt behelyettesítve és N-nel beszorozva adódik az általánosan használt (N 3 – N) alak. Mindkettőt érdemes megjegyezni: (5.5)
QN
N 3 N ( N 1) N ( N 1) . 12 12
Az ismert szabály értelmében ezt (N – 1)-gyel kell osztani, hogy a varianciát megkapjuk: (5.6)
s N2
N ( N 1) . 12
Az átlag szórásának négyzete (ha netán erre is szükség van): (N + 1)/12. Csupa hallatlanul egyszerű formula. A szórásokat nem írom föl: csak gyököt kell vonni a föntiekből.
5.1.4 Az „egyformák” miatti korrekciók A kapcsolt rangokat úgy definiáltuk, hogy a rangszámok összege és átlaga változatlan, akár van kapcsolt rang, akár nincs. A szórás azonban változik, és az is világos, hogy kisebb lesz: az adatok közti (átlagos) különbség* csökken, ha egyformák is vannak köztük. De hogyan tudnánk megmondani, hogy mennyivel kisebb?
Talán meglepő, de ezt nem is olyan nehéz kiszámítani. Ez a „levezetés” azonban a szokásosnál valamivel több számolást igényel. Az világos, hogy csak QN képlete fog változni; a tobábbi lépéseket – (N–1)-gyel való osztás, gyökvonás – a rangszámok egyformasága vagy különbözősége nem érinti. Induljunk ki ugyanabból az (5.3) képletből, amelyből QN könnyen kezelhető képletét is levezettük. Ennek második alakján látjuk, hogy csak a rangszámok négyzetösszegével kell foglalkoznunk, mert azok összege – mint ezt éppen az előbb említettük – a kapcsolt rangok kiosztásának (jól megválasztott) módja miatt változatlan marad. Jelöljük d-vel azt a rangszámot, amelyik még különbözik az utána következőktől. (Ez a d akár 0 is lehet: ilyenkor már a legkisebb adatok is egyformák, már az első rangszámok is „kapcsoltak”.) Ez után a d után e darab egyforma adat** következik, tehát e darab egyforma – kapcsolt – rang, melyeket a
(d 1) (d e) d e 1 2 2
*
Annak idején így definiáltuk a szórást! Persze ez nem közönséges átlag, de a lényeg ugyanaz.
**
A választott jelölés ennek kezdőbetűjére utal.
95
kiszámítási szabály alapján határozhatunk meg.* Ahelyett tehát, hogy a e
e
i 1
i 1
(d 1) 2 (d 2) 2 (d e) 2 ed 2 2d i i 2 ed 2 2d
e(e 1) e(e 1)(2e 1) e(e 1)(2e 1) ed 2 de(e 1) 2 6 6
négyzetek összege következne, az előbb kiszámított kapcsolt rang négyzete áll ott, e-szer egymás után:
e(d e 1) 2 ed 2 ed (e 1) 2
e(e 1) 2 . 4
(A négyzetre emelés jól ismert szabályán kívül felhasználtuk az (5.1) és (5.4) képleteket is az első képletsor átalakításánál.)
Ha a fenti képleteket egymásból kivonjuk, rögtön megkapjuk mennyivel lesz kisebb az új, kapcsolt rangokat is tartalmazó négyzetösszeg. Mivel a két képletsorban az első tagok egyformák, kivonáskor kiesnek, és csak a két tört szerepel: e(e 1)(2e 1) e(e 1) 2 e(e 1)[2(2e 1) 3(e 1)] e(e 1)(4e 2 3e 3) 6 4 12 12 e(e 1)(e 1) e3 e E . 12 12 12
Az előző szakaszban, QN levezetése során találkoztunk az (N3–N) kifejezéssel és annak másik, egyenértékű alakjával is (l. az (5.5) képletet). Ennek mintáJára vezettük be az e3 – e = E jelölést. Megállapíthatjuk tehát, hogy e darab egyforma adat előfordulása esetén a QN négyzetöszszeg E/12-vel csökken. Vegyük észre azonban, hogy d sehol sem szerepel; teljesen mindegy tehát, hogy a rangsorban „hol” fordul elő ez az egyformákból álló sorozat. A levezetés során „nem nyúltunk” a többi adathoz! Ha tehát nem egy, hanem több olyan sorozat van, amelyben egyforma adatok és – a hozzájuk tartozó, szintén egyforma – kapcsolt rangok állnak, azok midegyike ugyanígy csökkenti QN értékét. Ezeket az egyforma sorozatokat azonban valahogy meg kell különböztatnünk; nevezzük őket (illetve hosszúságukat) e1, e2, …, általában ei-nek, és vezessük be ennek megfelelően az Ei ei3 ei (5.7) jelölést. Végigmenve a mintán, a kapcsolt rangok valamennyi sorozata csökkenti a fent meghatátozott mértékben a QN négyzetösszeg értékét. A kapcsolt rangok előfordulása esetén érvényes, „korrigált” négyzetösszeg (erre utal a k index a jelölésben) eszerint N 3 N Ei QNk . (5.8) 12 A fenti képletekben az i index végigfut a minta különböző adatain.
*
Látszólag baj van a képlettel, hiszen ha az összes különböző adatot végigvesszük, azokat is beleszámítjuk, amelyekből csak egy van. (Tehát nem „egyforma” adatok, nem kapnak kapcsolt rangot.)
Az átlag azért számítható ki ilyen egyszerűen, mert egymás után következő egész számokról van szó. (Egyébként ez a számításmód nem korlátozódik az egész számokra: mindig alkalmazható, ha az adatok egyenletes távolságban követik egymást.) Ha sok az egyforma adat, ez a számolás a legegyszerűbb; gyorsabb és könnyebb a medián meghatározásánál is, amit korábban javasoltunk a kapcsolt rangok kiszámítására.
96
A képlet ilyen, szó szerinti értelmezése sem okoz azonban problémát. Ha egy adat csak egyszer fordul elő, „ismétlődéseinek” száma ei =1, a hozzá tartozó Ei pedig nulla, mint erről meggyőzhet egy (5.7)-re vetett pillantás. Ezeknek a tagoknak a „hozzáadása” tehát mitsem változtat az (5.8) képlet számlálójában álló szumma értékén. Persze nem kell a dolgot ilyen nyakatekerten csinálni. Elég azokat az adatokat végigvenni, amelyek valóban ismétlődnek, csak az 1-nél nagyobb ei-ket véve így figyelembe. Számolás közben így is járunk el mindig. A megfogalmazás azonban elég furcsa lett volna így: a szumma a minta összes adat-ismétlődésein fut végig.
Az (5.8) képletben látható korrekció általában jelentéktelen. Az Ei mennyiségek meglehetősen kis számok, mint ezt az első néhány E felsorolásából látjuk: e = 2 esetén E = 6 e=3 " E = 24 e=4 " E = 60 e=5 " E = 120 e=6 " E = 210, ezek pedig mind kicsik az általában igen nagy (N 3 – N)-hez képest. A korrekció csak akkor módosítja számottevően QN értékét, ha sokkal több egyforma adat van, vagy sok „közepesen hosszú” – 6–7 adatból álló – sorozat fordul elő a mintában. Ennek illusztrálására határozzuk meg a 5.1.2 szakasz végén bemutatott példa, a 32 adat rangsorolása esetén érvényes Q32 értékét korrekció nélkül, valamint a példában érvényes korrekcióval! Q32 viszonylag könnyen számolható. Használjuk az (5.5) képlet második alakját: 31·32·33/12 = = 31·8·11 = 2728. Ezután határozzuk meg a teljes mintában az Ei értékeket (elhagyva a fölösleges e=1-eket): e1 3 E1 24
e2 2
E2 6
e3 5
E3 120
e4 3
E4 24
e5 4
E5 60
e6 6
E6 210
e7 2 E7 6 Ezek összege 450, ami nem csökkenti lényegesen QN értékét. (Pedig a mintában igazán sok volt a kapcsolt rang!) A korrekció után kapott Q = 2690,5. * * * A következő fejezetekben az egyes rangsorolásos módszerek – általában statisztikai próbák – tárgyalását találja az olvasó. Ellentétben a tankönyvekben szokásos eljárással, nemcsak közlöm az egyes módszerek képletét és alkalmazási módját, hanem igyekszem őket „levezetni”: olybá tűnik majd az egész, mintha ezek a módszerek itt, a szemünk előtt születnének meg. Azt szeretném ezzel bebizonyítani, hogy közülünk bárki (az olvasók bármelyike) „kitalálhatta” volna ezeket az eljárásokat: nincs itt semmiféle elmélet, semmilyen különleges okoskodás. (Legföljebb az a kis „elméleti alap”, amit az első két részben magunkra szedtünk.) Sajnos azonban ezeket a módszereket már vagy fél évszázada kitalálták, így a felfedezés dicsősége nem lehet a miénk. Véleményem szerint azonban jó érzés azt látni, hogy minderre magunk is képesek lettünk – volna. Persze akinek az ilyesmi nem okoz semmiféle örömöt, az nyugodtan hagyja ki a próbák „származtatását”, és tanulja meg az eljárást a „módszeres” leírástól, a képletek megadásától, a tennivalók felsorolásától kezdve. Úgy, ahogyan bármely más statisztikakönyvből tanulna. Ezekre a levezetésekre, ahogy eddig, a jelek figyelmeztetnek majd, hogy a „nemkötelező”, nemkívánatos gondolkodástól megkíméljék az olvasóknak azt a részét, amelyik csak a „vizsgaanyagot” kívánja elsajátítani. 97
5.2 Független minták összehasonlítása A minták függetlensége, csakúgy, mint az eddig tárgyalt esetekben (t-próba, 2-próba, varianciaanalízis), azt jelenti, hogy a vizsgált változó vonatkozásában az egyik csoport eredményei semmilyen befolyást ne gyakorolhassanak a másik (vagy többi) csoport eredményeire. Ezt általában úgy biztosítják, hogy más személyek alkotják az egyes csoportokat: senki nem szerepelhet két vagy több vizsgálati csoportban. Ettől még sérülhet a függetlenség. A különböző módon tanított személyek otthon talán közösen tanulnak, „súghatnak” egymásnak a vizsgán stb.; mindez azonban a kísérlet (vizsgálat) vezetőjének problémája. Neki kell az ügyet megoldania, a függetlenséget biztosítania. A statisztika e téren már nem sokat tehet. Vannak független, és vannak összetartozó mintákra alkalmazható módszerek; a módszerek alkalmazójának csak annyi a dolga, hogy mindig a megfelelő, a feltételeknek eleget tevő módszert válassza. Összetartozó mintákban az adatok páronként (több minta esetében blokkonként) együvé tartoznak, értékeik nem függetlenek egymástól. Ennek leggyakoribb formája, hogy a „kezelt” és „kontroll” eredmények ugyanattól a személytől származnak (ún. önkontrollos vizsgálat), vagy ugyanazt a személyt vizsgálják különböző kísérleti körülmények között, és úgy hasonlítják össze a kapott eredményeket. Sok más esete is előfordul az összetartozó mintáknak (ikrek vagy esetleg csak testvérek, bizonyos tulajdonságok alapján összeválogatott és blokkokba sorolt személyek stb.); mi a próbák tárgyalása során nem fogjuk emlegetni a különféle változatokat. Ugyanígy, a független mintákra vonatkozó módszerek leírását sem terheljük azzal, hogy a lehetséges kísérleti hibákra, a függetlenség megsértésének egyes eseteire figyelmeztessünk. (A gyakorló példák megoldása remélhetőleg ezeknek a problémáknak egy részére is rávilágít.) A következőkben a független minták mindig azt fogják jelenteni, hogy különböző személyektől, az összetartozó minták pedig azt, hogy ugyanazoktól a személyektől származó adatokról van szó. Minden további magyarázkodás csak bonyolítaná a próbák tárgyalását – és egyébként sem először találkozunk ezekkel a fogalmakkal.
5.2.1 A Mann―Whitney-próba 5.2.1.1 A próba feladata és elnevezése A próba feladatát – két független minta összehasonlítása – könnyű meghatározni; elnevezése körül azonban van némi bonyodalom. A paraméteres próbák elnevezése, egymástól való megkülönböztetése a kiszámított változó (a „próbastatisztika”) alapján történt: t-próba, F-próba, 2-próba. Általános szokás – amit lehet ígyúgy magyarázni, de legjobb egyszerűen elfogadni –, hogy a rangsorolásos próbákat névvel, a próba „feltalálójának”, első leírójának nevével különböztetik meg. Ez rendben is lenne, de például Frank Wilcoxon, a rangsorolásos módszerek egyik úttörője, olyan sok (jó és kevésbé jó) eljárást dolgozott ki rangszámokkal végzett próbákra, hogy mindenféle körülírás kellett a „Wilcoxon-próbák” közti különbségtételhez, ezzel pedig veszélybe került az elnevezés egyszerűsége és egyértelműsége. Végül aztán az egyik legfurcsább, a legtöbb rejtett feltételt* tartalmazó eljárást, a két összetartozó minta összehasonlítására, a megváltozás vizsgálatára alkalmas próbát „kapta meg”, és ezt nevezik Wilcoxon-próbának. (L. az 5.3.2 szakaszt.) A most tárgyalt, két független minta összehasonlítására szolgáló eljárást Mann és Whitney írták le részletesen, ezért kötik össze a próbát az ő nevükkel. (Sok könyv még ma is kétmintás Wilcoxon-próba néven emlegeti ugyanezt!) *
Ezekkel a „rejtett feltételekkel” nem kell törődnünk. A próbák alkalmazói – ha egyáltalán tudnak a létezésükről – egyszerűen úgy veszik, hogy azok teljesülnek. Csak azok szokták vizsgálni – sőt egyáltalán megfogalmazni – a „rejtett feltételeket”, akik a próbák elméletével foglalkoznak.
98
A dolog szépséghibája csak az, hogy mi ebben a könyvben nem a Mann és Whitney által leírt, az itteninél bonyolultabb számítást követjük, hanem az „eredeti”, Wilcoxontól származó változatot, és a valószínűség kikereséséhez is az ő táblázatait használjuk (persze Mann–Whitney név alatt). Ezzel elfogadjuk – vagy inkább követjük – az általános szokást, de egy kicsivel mi is hozzájárulunk a világ igazságtalanságához.
Magáról a próbáról alig kell valamit mondanunk. Hiszen ismerjük már! Ez volt az az eljárás, amit az 5.1.1 szakaszban lépésről lépésre „kitaláltunk”. Emlékezzünk csak, mi volt a feladat: két független mintát akartunk összahasonlítani, hogy egyformák-e (nullhipotézis) vagy nem. Először két egészen kis mintával próbálkoztunk (n1=2, n2=4), de hamar kiderült, hogy rangszámösszegük eloszlásából nem vágható le a különbség kimondásához szükséges 5%-nyi rész: az eloszlás első „lépcsője” is nagyobb ennél. Ezután két nagyobb mintát vizsgáltunk meg (n1=3, n2=6). Elkészítettük a rangszámösszegek eloszlását (5.1. táblázat), és annak segítségével bármely két (ugyanekkora) mintát össze tudtunk hasonlítani, hogy egyformák-e vagy különböznek. (Sőt az összehasonlítást egyoldali és kétoldali próbával egyaránt el tudtuk végezni; l. a 89–90. oldalt.) Az általános esetben pontosan ugyanez történik. El kell készítenünk a két minta közös rangsorát, és ki kell számítanunk a mintákhoz tartozó R1 és R2 rangszámösszegeket.* A megfelelő valószínűségeket a rangszámösszegek eloszlásának táblázatában (a Melléklet VI. táblázata) találjuk meg. Ennek használata igen egyszerű; ezt fogjuk most „begyakorolni”. 5.2.1.2 A táblázat használata Első példánk csak a táblázat használatára vonatkozik; magát a próbát – rangsorolás, a rangszámösszegek elkészítése – nem is végezzük el. Legyen n1=11, n2=18, R1=205. (Ugye rábízható az olvasóra, hogy kiszámítsa R2-t? Az eredmény – ha jól számolt – 230.) Most nyissuk föl a VI. táblázatot. Az első (kettős) oldalon azt látjuk, hogy p = 0,10. Ez tehát a 10%-os táblázat, ami azt jelenti, hogy azokat a rangszámösszegeket – küszöbszámokat – adja meg, amelyeknél csonkítva az eloszlást, abból éppen 10%-ot vágtunk le. Mivel a táblázat kétoldali, ez mindkét végén 5–5% eltávolítását jelenti. Elképzelt példánkban kétoldali hipotézissel akarjuk a két mintát összehasonlítani (egyformák-e vagy különböznek), ezért az 5%-os táblázatot használjuk (a következő kettős lapon). Mi az R1 rangszámösszeget keressük (a másikat csak ellenőrzésképpen számítottuk ki), ezt pedig az n1 elemszámnak megfelelő oszlop és az n2-nek megfelelő sor kereszteződésében találjuk meg. Itt a következő olvasható: 121–209. Ez az a két rangszámösszeg, ahol az eloszlást el kell vágni, hogy belőle 5%-nyit (azaz mindkét végéből 2,5–2,5%-ot) eltávolítsunk. A következtetés nyilvánvaló: ha példánk rangszámösszege e két szám közé, vagyis az eloszlás „megtartott” részébe esik, az eredmény nem szignifikáns az 5%-os szinten, ha viszont a megadott szakaszon kívül van, az eredmény szignifikáns. (A táblázat úgy készült, hogy már a határ is a levágott részbe számít bele: akár 121 vagy 209 is elég lenne a szignifikancia kimondásához.) Esetünkben az eredmény nem szignifikáns: a nullhipotézist nem vethetjük el (p > 0,05). De ha egyoldali hipotézist állítottunk volna fel (természetesen már a kísérlet elvégzése előtt!), akkor elég lenne azt néznünk, hogy a kapott rangszámösszeg beleesik-e az eloszlás egyik, a hipotézisnek megfelelő végén levágott 5%-ba. Ezt pedig az előző táblázatoldal mutatja meg, hiszen, mint említettük, a 10%-os táblázat az eloszlás mindkét végén az 5% eltávolításának megfelelelő levágási pontokat adja meg. Ha ugyanebben a példában „az első minta elemei nagyobbak” (egyoldali) hipotézist állítottuk volna szembe annak tagadásával, a „nem nagyobbak” nullhipotézissel, akkor rangszámösszegünket a 0,10-es oldalon álló értékekhez kellene hasonlítanunk. (Egyoldali próba esetén, mint erről már sokszor volt szó, felezni kell a kétoldali táblázatból kiolvasott valószínűséget.) Visszalapozva *
A próba végrehajtásához elég az egyik rangszámösszeg kiszámítása. Feltétlenül számítsuk ki azonban mind a kettőt, az elvégzett számítások ellenőrzése kedvéért.
99
erre az oldalra, az elemszámoknak megfelelő helyen a 127–203 szakaszt találjuk. Az R1 rangszámösszeg nagyobb, mint ennek a csonkított eloszlásnak bármely eleme, az eredmény tehát szignifikáns az 5%-os szinten: az első minta elemei nagyobbak a második mintában állóknál.
Nem árt, ha újból – ímmár sokadszor – figyelmeztetünk az egyoldali próbák végzésével kapcsolatos veszélyekre. Az egyikről már szó volt: ha a hipotézist nem előre, hanem az eredmények birtokában fogalmazzuk meg így (mikor már látjuk, hogy az „majdnem szignifikáns” volt), eljárásunk a legenyhébb kifejezéssel is csalásnak minősül. A másik veszély egy esetleges eredmény elvesztése. Ha ugyanis – előzetes elvárásunkkal ellentétben – az első csoportba tartozók értékei kisebbek a második csoportbeliekénél, ezt nem mondhatjuk ki, akámilyen nyilvánvanó is az adatok alapján. Így ha például az első mintához tartozó rangszámösszeg R1=100 lenne, ami még az 1%-os szinten is szignifikáns (a táblázat utolsó lapja szerint), akkor is csak annyit mondhatunk, hogy megtartjuk a nullhipotézist (vagyis hogy a minta elemei nem nagyobbak).
Jól meg kell tehát gondolnunk, ha – esetleg pusztán azért, hogy kevesebb kísérletet kelljen elvégeznünk – egyoldali hipotézist fogalmazunk meg. Teljesen új kezelések (ismeretlen gyógyszerek, eddig ki nem próbált vizsgálati körülmények, vadonat új tanulási eljárások stb.) esetén nem tanácsos egyoldali hipotézist felállítani. Ritkán azért előfordulhat, hogy ez a helyes módszer; pl. ha kizárólag azok a kezelések érdekelnek, amelyek növelni tudnak valamilyen vizsgált értéket.
A próba eredménye természetesen nem függhet attól, hogy melyiket nevezzük első, és melyiket második csoportnak. Ismételjük meg a valószínűség kikeresését az előző példában úgy, hogy a 18as elemszámú csoportot nevezzük „elsőnek”! Ekkor nem az előbbi, hanem a 230-as rangszámösszeget kell a táblázatbeli értékekhez hasonlítani. Viszont mások lesznek a határok: most a 18-as oszlop és a 11-es sor kereszteződésében kell keresnünk azokat. Az olvasóra bízzuk az eljárás megismétlését; természetesen ugyanazt az eredményt fogja kapni, mint amit az előbb együtt kaptunk: kétoldali próbával nem különbözik a két csoport, de egyoldali próbavégzéssel megerősíthető az a hipotézis, hogy a 18 elemű csoport értékei kisebbek (!) a 11 elemű csoport elemeinél. (Mindezt persze ugyanúgy az 5%-os szignifikanciaszinten állapítjuk meg.) Most pedig végezzünk el egy „igazi” példát! Két, egészséges – legalábbis biztosan nem cukorbeteg – személyekből álló csoportot vizsgáltak. Az A (kontroll) csoportba tartozókat hagyták, hogy szokásaiknak megfelelően étkezzenek, a B csoportbeliek (a „kezeltek”) viszont két hétig alacsony szénhidrát tartalmú diétán éltek. Az ennek elteltével meghatározott vércukor-értékeket a 93. oldalon találjuk. Ezt a példát annak idején a rangsorolás gyakorlására szántuk, de már akkor említettük, hogy később az egyik eljárást is ezekkel az adatokkal fogjuk illusztrálni. Mindegy, hogy melyik csoportot választjuk „elsőnek”, melyiket „másodiknak”, de gyakran célszerű a kisebb elemszámú mintát hívni elsőnek. Most is így járunk el: a 14-es elemszámú A csoport az első, a B csoport (a maga 18 elemével) a második. Nem csak a rangsorolás történt meg, a rangszámösszegek is megvannak már: 276,5 és 251,5. Csökkentette-e a diéta a vércukorszintet? Ezzel egyoldali hipotézist fogalmaztunk meg, ezért a VI. táblázat első, p = 0,10-es jelzésű oldalán kell kikeresnünk az eredményt. Nevezetesen: azt kell eldöntenünk, hogy a 18-as sor 14-es oszlopában található két érték közül a nagyobbat eléri vagy meghaladja-e az R1 rangszámösszeg, 276,5. (Ha a diéta csökkenti a szintet, a második, B csoport értékei alacsonyabbak; ez ugyanaz, mintha azt kérdeznénk: magasabbak-e az értékek az A csoportban.) A táblázat megfelelő helyén 186–276 áll. R1 nagyobb, mint a felső érték (a táblázat jelölése szerint Rf), az eredmény tehát szignifikáns. Ha még mindig kételkednénk a csoportok „számozásának” tetszőlegességében, keressük meg a 14-es sor 18-as oszlopában álló értékeket: 252–342. Lát100
juk, hogy R2 (251,5) kisebb a táblázati Ra számnál, az eredmény tehát ugyanaz, mint az előbbi leolvasáskor.
Példánkban kapcsolt rangok is szerepeltek. (L. az adatokat a 93. oldalon!) Mennyiben érinti ez a próba eredményét? A rangszámösszegek ugyan nem érzékenyek a kapcsolt rangok jelenlétére (ez abból az eljárásból következik, ahogyan a kapcsolt rangokat kiosztottuk), de a táblázat, amihez ezeket az összegeket hasonlítjuk, a csupa különböző rangszámból álló minták eloszlása alapján készült. Kapcsolt rangok esetén kissé módosulnak a táblázatban található valószínűségek, de az úgynevezett „konzervatív” irányba: a megadott 0,05 a valóságban nem 5%-ot, hanem valamivel kevesebbet jelent. Ha tehát szignifikánsnak találjuk az eredményt, az egész biztosan szignifikáns lesz, hiszen nem 5, hanem az említett kisebb érték lesz annak a valószínűsége, hogy ekkora összeg pusztán véletlenül forduljon elő, ha a nullhipotézis – a minták egyformasága – igaz. És persze az is lehet, hogy valójában szignifikáns lenne az eredmény, de mégis megtartjuk a nullhipotézist,* mert nem ismerjük az 5%-os küszöbszámot, csak a táblázatbeli, ennél „szigorúbb” értéket.
Ezt az (enyhe) eltérést azonban nem szokták figyelembe venni (a legtöbb könyv meg sem említi), annál is inkább, mivel nem növeli, hanem – éppen ellenkezőleg – valamelyest csökkenti az első fajta hibát. (A könyv előző, varianciaanalízist tárgyaló részében éppen elégszer láttuk, hogy az első fajta hiba növekedése az a „mumus”, amit mindenképp igyekszünk elkerülni.) Csak a nagy minták esetén alkalmazott eljárásban térnek ki a kapcsolt rangok miatti korrekcióra, mint ezt a következő pontban is látni fogjuk. Ott sem azért, mintha különösebb szükség lenne rá, hanem inkább azért, mert ott könnyű ezt a hatást korrigálni.
5.2.1.3 Nagy minták vizsgálata A korábban Wilcoxon, majd később a Geigy gyógyszergyár kutatói által kidolgozott részletes táblázat (erre az utóbbira hivatkozik a VI. táblázat lábjegyzete) csak addig használható, míg a kisebbik minta elemszáma, n1 nem haladja meg 25-öt, és/vagy a nagyobbik mintában nincs 50-nél több adat. Mi az eljárás akkor, ha egyik vagy mindkét minta „túl nagy” a táblázat használatához? Mann és Whitney megmutatták, hogy „elég nagy elemszámok” esetén a rangszámösszegek normális eloszlást követnek. Megadták a megfelelő paramétereket is: (5.9)
μ Rj
(5.10)
σ 2R
n j ( N 1) 2 n1n2 ( N 1) 12
A (5.9) képletben az index azt mutatja, hogy némiképp különböző módon kell kiszámítani R1 és R2 várható értékét; a szórás azonban mindkét rangszámösszeg esetében ugyanaz.
A várható értékre vonatkozó képlet közvetlenül is belátható. Az átlagos rangszám (5.2) szerint (N+1)/2, egyformaság – vagyis a nullhipotézis – esetén ez érvényes mindkét mintában. Maga az öszeg tehát ennek az átlagnak az elemszámmal vett szorzata (ha igaz a nullhipotézis). A szórás levezetése bonyolultabb annál, mintsem itt vállalkozhatnánk rá. Ez kicsit ellentmond annak a korábbi állításnak, hogy az itt tárgyalt módszereket „magunk is kitalálhattuk volna”. (Később azért – közvetve – mégiscsak igazoljuk majd az (5.10) formula érvényességét; l. az 5.2.2.4. pontot.)
*
Ezért nevezik az ilyen módosulást konzervatívnak: megőrzi, „konzerválja” a nullhipotézist.
101
Azon azonban nem szabad meglepődnünk, hogy R1 és R2 szórása ugyanakkora. Hiszen a kettő összege, mint erről már sokszor volt szó, (5.1)-gyel egyenlő, ezért R2 egyszerű lineáris transzformációval számolható R1-ből:
R2
(5.11)
N ( N 1) R1 . 2
Ez annyi, mintha kivonnánk egy konstanst* R1 értékéből. Számtalanszor megtettük már ezt szórások számításakor – anélkül, hogy azok értékét ezzel megváltoztattuk volna. Könnyű belátni, hogy teljesen mindegy, melyik rangszámösszeget hasonlítjuk a normális eloszláshoz: a standardizálás ugyanazt a z értéket eredményezi, csak ellenkező előjellel. Ennek bizonyítását az olvasóra hagyjuk – de biztonság kedvéért a példában megmutatjuk majd, hogy állításunk igaz. Az iménti példán végezzük el a próbát ezen a módon is. (Az adatok a 93. lapon találhatók, maga a próba a 100. oldalon.) Igaz ugyan, hogy az elemszám nagysága nem indokolja, hogy normális közelítéshez folyamodjunk, de így legalább össze tudjuk hasonlítani a kétféle próbavégzés eredményét. Számoljuk ki előbb a paramétereket:
μ R1
14 33 14 18 33 231 és σ R 26,325 , 2 12
majd standardizáljuk a rangszámösszeget a régről ismert formula alapján, amit most – a biztonság kedvéért – megismétlünk: (5.12)
z
xμ . σ
Most az R1 rangszámösszeget standardizáljuk, tehát az kerül x helyébe:
z
276,5 231 1,728 . 26,325
Megkeresve ezt az értéket a Melléklet I. táblázatában, azt kapjuk, hogy p = 0,042, tehát kisebb 5%nál. Mivel a táblázat egyoldali, ez megfelel az egyoldali próbavégzésnek. A próba eredménye tehát ugyanaz, mint előbb: a diéta csökkenti a vércukorszintet, az A csoport adatai szignifikánsan magasabbak a B csoport adatainál. Ha nincs kéznél a VI. táblázat, így is elvégezhetjük a próbát. Nem változtat az eredményen, ha ugyanazt a kérdést másképp fogalmazzuk meg. Talán természetesebb is lenne, ha – a hipotézis megfogalmazásának megfelelően – azt ellenőriznénk, hogy a B csoport adatai alacsonyabbak-e. Ennek semmi akadálya, csak a várható értéket kell újra kiszámítanunk: 18∙33/2=297, a szórás ugyanaz. Az „új” z érték:
z
251,5 297 1,728, 26,325
ahogyan azt el is vártuk tőle. Ez a z ugyanannyit „vág le” a normális eloszlásból, mint az előbbi (azaz 4,2%-ot), csak ezúttal az eloszlás másik, bal oldali végéből. A bemutatott eljárás azonban a statisztikai irodalom szerint nem volt teljesen korrekt. A standardizáláshoz felhasznált paraméterek (5.9)–(5.10) képletei arra az esetre vonatkoztak, amikor a rangszámok valamennyien különbözőek, azaz amikor nincsen kapcsolt rang. A kapcsolt rangok miatti módosítás a várható értéket nem érinti, a szórást azonban igen! Említettük ugyan, hogy ez a módosítás jelentéktelen, de ha ilyen sok a kapcsolt rang, illik azt elvégezni. Lássuk, mi is kerül ilyenkor az (5.10) képlet helyébe!
*
És mellékesen ellenkező előjellel vennénk az egészet; ez azonban szintén nem befolyásolja a szórás értékét.
102
Mielőtt az új, kapcsolt rangok esetén érvényes képletet megadnánk, álljunk meg egy pillanatra. Valami egészen furcsa történik itt, amit lehet helyeselni vagy ellenezni, de nem illik – pedig általában ez a szokás – elsiklani fölötte. A (5.9)–(5.10) képletek által adott várható érték és variancia – ahogyan ezt a görög betűs jelölés is mutatja – paraméterek, amelyek nem függhetnek az aktuális mintától. Ha a rangszámösszeg várható értéke és varianciája ennyi, akkor ezt nem érintheti az a tény, hogy épp most, az előttünk álló mintában nem csupa különböző rangszám áll, hanem – az adatok egyformasága miatt – kapcsolt (tehát ugyancsak egyforma) rangszámok is előfordulnak. „Ez a minta baja, nem a miénk” – mondhatnánk –, nekünk ettől nem kell megváltoztatnunk számításainkat. Másrészt azonban szinte az egész statisztika arról szól, hogy a paramétereket nem ismerjük. Néha feltételezzük (mint pl. a hipotézisvizsgálatban), máskor pedig a mintából becsüljük őket. Így működnek a paraméteres módszerek is mind. Az tiszta szerencse, hogy itt, a speciális, 1 és N közti egész számokból álló minta esetében, ki lehet számítani, pontosan meg lehet adni a paramétereket.
Mikor is? Ha a minta az első N pozitív egész számból áll. De éppen az a probléma, hogy most nem azokból áll! Ha feltesszük, hogy a minta hátterében egy olyan sokaság – vagy ahogy eddig legtöbbször hívtuk: változó – áll, amelyikben éppen ilyen arányban fordulnak elő egyformaságok, akkor a kapcsolt rangokat is figyelembe vevő képletek a paramétereknek olyan becslései, amelyek az előbbi feltétel mellett igazak. (Jobb feltételt nem tudunk tenni, hiszen mi csak ezt a mintát ismerjük, és nem tehetünk mást: ilyennek képzeljük el a változót is.) Ha így nézzük, akkor már jogos a paraméterek (nevezetesen a szórás, illetve variancia) képletének megváltoztatása, a kapcsolt rangokat is számításba levő képletek használata. Vezessük le tehát az (5.10) formula kapcsolt rangok előfordulása esetén érvényes, módosított formáját. (A várható értékre vonatkozó (5.9) képletet nem érinti a korrekció.)
Az (5.10) képletben az átlag szórásnégyzetének képlete van elrejtve (ez van megszorozva a két minta elemszámával). Vagyis
QN N 1 , 12 N ( N 1) mint ez világosan leolvasható az (5.5) képletből. Kapcsolt rangok előfordulása azonban módosítja QN -t, mint ezt az 5.1.4 szakaszban láttuk. Ezért QN helyébe az (5.8) alatt megadott QN k -t kell beírnunk, és máris megvan σ 2R kapcsolt rangok esetére érvényes képlete: (5.13)
σ
2 Rk
n1n2
N 3 N Ei 12 N ( N 1)
.
A k index a kapcsolt rangokra utal, akárcsak az (5.8) képletben. Végezzük el a korábbi példa kiszámítását a kapcsolt rangokat figyelembe vevő képlettel! Alig kell számolnunk, hiszen az 5.1.4 szakasz végén már kiszámítottuk ugyanebből a mintából QN k -t (97. oldal). Behelyettesítve ezt (5.13)-ba: σ 2Rk
14 18 2690,5 683,4738. Ennek négyzetgyöke 32 31
26,143; alig különbözik a korábbi szórásértéktől.
276,5 231 1,740 , p (a táblázatból) 26,143 0,0409. Valamivel kisebb ugyan, mint az előbbi, de az eltérés lényegtelen. Általában is így van ez: kapcsolt rangok előfordulása csak olyan kis mértékben módosítja az eredményt, hogy nagyon ritkán érdemes a korrekcióval bajlódni. Végül határozzuk meg z és a hozzá tartozó p értékét: z
103
Bizonyára mindenkit jobban meggyőz a kapcsolt rangok miatti korrekció fölöslegességéről a következő, teljesen extrém példa. Egy nehéz tantárgyban (a matematikában?) elért eredményt akarták összehasonlítani két csoportban. A nagyobbikban (B csoport) a hagyományos módon oktatták a tárgyat, a kisebbik csoportban (A) egy új, modern módszerrel. (Mi volt ez a módszer? Ez a pedagógiára tartozik, minket most nem érdekel. De ha már a matematikát említettük, fölidézhetjük a 60as, 70-es évek világszerte, így hazánkban is burjánzó oktatási kísérleteit. Csodálatos eredmények – és az egész „mozgalom” lassú elhalása. Az okok keresése, magyarázata már végképp nem tartozik ide…) Van tehát két csoportunk: az A csoport egy sokat ígérő, új módszerrel tanult, a B csoport a szokásos módon. Néhány év után alaposan megvizsgálták a diákok tudásszintjét,* és – az iskolában szokásos módon – 1 és 5 között leosztályozták. (Ez természetesen nem a tanulók iskolai osztályzata volt. Mert ki is bukik meg manapság, bármiféle iskolában? Légyen bár tudása oly csekély, hogy talán még ő maga is szégyelli.) Az eredményeket táblázatos formában adjuk meg. A számok azt mutatják, hogy hányan kapták a megfelelő osztályzatot: Csoport Eredmény
A
B
Összesen
1-es
3 18
21
2-es
4 19
23
3-as
6 18
24
4-es
8 15
23
5-ös
10 16
26
Létszám: 31 86 117
Olyan mintánk van (N = 117), amelyben mindössze öt különböző érték fordul elő. Ha ezt rangsorolni akarjuk, csupa kapcsolt rangot kell kiosztanunk – ráadásul hatalmas sorozatokat. (Az egyenlők számát, ei-t a táblázat jobb oldali, „összesen” oszlopa mutatja.) Először végezzük el a rangsorolást. Az első „egyforma sorozat” 21 elemből áll; ezek mind ugyanazt a rangot, a középsőt** kapják: 1 21 11. 2 Ugyanígy hatátozhatjuk meg a következő sorozat (közös) rangszámát: az első elem a 22., az utolsó a 23-as sorozat vége, a 44. lesz: 22 44 33. 2 Az 1-es osztályzatokhoz tehát a 11, a 2-esekhez a 33 rangszám tartozik; próbavégzéskor valamennyi diák ezt a számot – rangszámot – kapja. És ugyanígy folytatjuk tovább:
45 68 56,5, 2
69 91 80, 2
92 117 104,5 2
*
Ilyen oktatás, ilyen vizsgálat valóban volt; néhányban magam is részt vettem. Az itt feldolgozott adatok azonban nem onnan valók: csak az előbb mondottak alátámasztására „találtam ki” őket. **
Az átlag ilyen – leegyszerűsített – kiszámításának jogosultságáról már volt szó; erre vonatkozóan l. a 96. oldal lábjegyzetét.
104
a három hiányzó rangszám. Ezek után könnyű előállítani a két rangszámösszeget: RA 3 11 4 33 6 56,5 8 80 10 104,5 2189, és hasonló számolással RB = 4714. A kettő összege RA + RB = 6903. A rangszámok – egészen szokatlan – kiosztását ellenőrizhetjük az összeg segítségével, hiszen az 1 és 117 közti számok összege, vagyis a teljes minta rangszámösszege: 117 118 13806 6903. 2 2 A próba elvégzéséhez nem használhatjuk a Mann–Whitney-próba táblázatát, hiszen mindkét csoport elemszáma nagyobb a táblázatban megtalálhatóknál. Standardizálnunk kell; előbb az egyformák miatti korrekció nélkül:
μA
31 118 1829 2
σ 2R
31 86 118 26215,6 12
σ R 161,9125.
2189 1829 2,2234, a hozzá tartozó (egyoldali) 161,9125 valószínűség a Melléklet I. táblázatából 0,0131. (2,22 és 2,23 közt mintegy egyharmadnál helyezkedik el a z szám, ezért a különbségnek is kb. egyharmadát vonjuk le a 2,22-höz tartozó valószínűségből.) Mivel azonban nem állítottunk föl egyoldali hipotézist, ezt az értéket duplázni kell. A Mann–Whitney-próba végeredménye: p = 0,0262, az eredmény tehát szignifikáns. A standardizált rangszámösszeg: z
A korrekciót el sem kellene végeznünk, hiszen tudjuk, hogy a szórás kisebb, ezért z értéke nagyobb lesz korrekció után, tehát a próba végeredményét adó valószínűség még kisebb, „még szignifikánsabb”, mint előbb. De nem is az eredmény, a légből kapott tanulócsoportok közti különbség megállapítása miatt végeztük el a próbát, hanem hogy megvizsgáljuk a kapcsolt rangok miatt bevezetett korrekció hatását ebben az extrém példában. A szórást kell kiszámítanunk, ezúttal az (5.13) képlet alapján. Részletezve:
E
i
(213 21) (233 23) (243 24) (233 23) (263 26) 64 878
N 3 N 117 3 117 1 601 496 31 86 (1601496 64878) R2k 25153,647 12 117 116
R 158,599 k
360 2,2699. A táblázatból az 158,599 egyoldali valószínűség 0,0116, tehát a végeredmény p = 0,0232. És a korrigált z, a hozzá tartozó valószínűséggel: z
Alig változott: korrekció nélkül valamivel nagyobb volt, mint 2,5%, korrekcióval valamivel kisebb – a különbség mindössze három ezrelék! És gondoljuk csak el, milyen sok kapcsolt rang volt! Megállapíthatjuk, hogy kidolgozták ugyan a kapcsolt rangok esetére érvényes korrekciót, benne is van az valamennyi tankönyvben, de a gyakorlatban aligha lesz rá szükségünk. Olyan ez, mint a biztosítás: megkötik az emberek, de abban a reményben, hogy soha nem veszik hasznát. Hiszen a betörés, a baleset, a tűz, az árvíz csupa olyan dolog, aminek a bekövetkezésétől rettegünk. (Azt hiszem, mégis gyakoribbak, mint az olyan feladatok, ahol a fenti példákban látottnál is több egyforma adat van.) Mikor is kellhet a korrekció? Először is csak olyankor, ha korrekció nélkül nem szignifikáns az eredmény. De nem is lehet nagyon messze a szignifikanciától, mert a korrekció általában alig változtat a végeredményen. Mikor változtat mégis? 105
Ha nagyon sok, az előbbi példában látottnál több kapcsolt rang van. Ha tehát olyan mintánk van, amilyet nagyon nem szeretnénk, amitől szinte ugyanúgy rettegünk, mint egy balesettől. Van, aki ennek számszerű megfogalmazására is vállalkozott: ha olyan a minta, hogy az összes adat fele, vagy még több szerepel egyetlen, egyforma számokból álló sorozatban, föltétlenül számoljuk ki a korrekciót. Tehát például olyankor, ha csak kétféle adatunk van. Akár elfogadjuk ezeket a tanácsokat, akár kiszámoljuk a korrekciót, ha úgy látjuk, „túl sok” az egyforma adat, annyit mindenesetre megállapíthatunk, hogy nagyon messze vagyunk már attól, amit a rangsorolásos eljárások bevezetőjében megállapítottunk, miszerint egyforma adatok előfordulása „gyakorlatilag ki van zárva”. Később (91. oldal) azt mondtuk, hogy ha mégis van ilyen, annak a mérés pontatlansága az oka. A legutóbbi példában is elmondhatjuk ugyanezt: a tudás lemérése nagyon durván, egy mindössze ötfokú skálán történt. (Akárcsak az iskolában!) Nagyon kis elemszámoknál nem várhatjuk, hogy a normális közelítés jó legyen. (Ezért dolgozták ki a Mann–Whitney-próba táblázatait!) Néha azonban meglepően jól egyezik a kétféle módon kapott eredmény. Vizsgáljuk meg normális közelítéssel a 89. lap végén elemzett példát. (A négyzetes szimbólumokkal megadott példáról van szó.) Látjuk, hogy n1=3, n2=6 és R1=8. Végezzük el a standardizálást! Egyszerűsített jelölésekkel: 3 10 3 6 10 8 15 μ 15, σ 15 3,873, z 1,807. 2 12 3,873 Az I. táblázatból azt olvassuk le, hogy p = 0,035. Vagyis egyoldali hipotézis vizsgálata esetén szignifikáns az eredmény, kétoldali esetben nem – és ugyanezt kaptuk az 5.1. táblázatból is. (Emlékeztetünk, hogy az ott kapott pontos valószínűség 0,0476 volt. Ekkora eltérés már jelentős lehet a próba eredménye szempontjából.) Eredményünket ezúttal nem vethetjük egybe a Mann–Whitney-próba táblázata alapján kapott eredménnyel, hiszen a Melléklet VI. táblázata a 3-as elemszámot nem tartalmazza. Részletesebb táblázatból ellenőrizve az értékeket (mint pl. az említett Geigytáblázatok újabb kiadásai) az eredmény természetesen megegyezik az előbbiekkel. A következő szakaszban több, egymástól független minta összehasonlítására alkalmas módszert fogunk megismerni.
5.2.2 A Kruskal—Wallis-próba A Kruskal–Wallis-próbát gyakran úgy emlegetik, mint „rangsorolásos varianciaanalízist”. Ez csak részben helyes. A feladat ugyanaz, mint az egyszempontos varianciaanalízis esetén volt (több független minta összehasonlítása), sőt a módszerek is mutatnak némi hasonlóságot. Itt azonban nincs szó a variancia analíziséről (felbontásáról), de annyi igaz, hogy a csoportok eltérését a minták közti variancia viselkedéséből igyekszünk megállapítani. Mivel nemparaméteres módszerről van szó, megszabadultunk a korábbi szigorú feltételektől: sem a normális eloszlást, sem a szórások egyformaságát nem követeli meg az eljárás. 5.2.2.1 Jelölések és képletek Hasonlóan az egyszempontos varianciaanalízishez, a minták számát h-val, az egyes minták elemszámát nj-vel, a teljes elemszámot N-nel fogjuk jelölni. Mivel magukra a mintaelemekre nincs szükség (őket rögtön az elején rangszámokkal cseréljük föl), ezért nem használjuk az xij jelölést. Sőt, mivel az egyes rangszámok sem szerepelnek a végképletben, csak azok mintánkénti összegei, a rangszámok jelölésével sem bíbelődünk. A minták rangszámösszegét, ahogy az eddigiekben is, Rj-vel jelöljük; a j index tehát itt is a „vízszintes” összegezésre utal majd (j = 1, 2, …, h). Mivel a mintákat aszerint akarjuk megkülönböztetni, hogy melyikben vannak kisebb, melyikben nagyobb adatok, nyilvánvaló, hogy valamennyi adatból közös rangsort kell készítenünk: a 106
minták egyformaságát vagy különbözőségét az mutatja, hogy adataik hol helyezkednek el ebben a közös rangsorban. Már két minta együttes rangsorolása sem volt könnyű (kifelejtettünk egyes adatokat, nem vettük észre a következő legkisebbet, stb.); ezek a nehézségek több minta esetén csak fokozódnak. Nagyon sokat segít, ha nagyság szerint sorbaállítjuk az adatokat az egyes mintákban. Az adatok újbóli leírásának fáradsága busásan megtérül a gyors és egyszerű rangsorolással. Emlékezzünk csak, mit kellett tennünk, hogy egyszempontos varianciaanalízissel hasonlíthassuk össze a mintákat (4.2 fejezet). Ki kellett számítanunk a minták közti és a mintán belüli varianciát, majd ezek hányadosát kellett F-próbával ellenőriznünk. Itt ennél sokkal egyszerűbb a helyzet. A minták közti eltérést a minták közti – csak most a rangszámokból készített – variancia mutatja, ennek eloszlását pedig közvetlenül is meg tudjuk határozni anélkül, hogy a másik, számunkra amúgy érdektelen varianciához hasonlítanánk. Ez az egyszerűsödés abból adódik, hogy a „teljes”, N elemű minta varianciája, rangszámokról lévén szó, mindig ugyanakkora. (L. az (5.6) képletet!) Nincs más hátra, mint meghatározni a minták közti variancia tényleges értékét (mint látni fogjuk, elég annak számlálóját kiszámítani), és ellenőrizni, hogy a megfelelő eloszlás melyik részén helyezkedik el. (A megszokott fogalmazással: azt nézzük meg, hogy szignifikáns-e vagy nem.) Ezeket a megfontolásokat és a képlet levezetését szokás szerint a „kötelező” anyagtól elkülönítve, -os részben közöljük. Aki nem akarja (velem együtt) végiggondolni a próba elvét és működésmódját, az folytathatja az olvasást az (5.17) „végképlettel”.
A nullhipotézis teljesülése esetén a minták közti variancia – és persze a minket itt nem érdeklő mintán belüli is – a teljes variancia, 2 egy becslése. A 2.x fejezetben láttuk, hogy a variancia a 2-eloszlás szabályai szerint ingadozik várható értéke, 2 körül.* Annak idején Q ezt úgy írtuk föl, hogy a 2 hányados követ 2-eloszlást: σ Q 2 (5.14) 2 χ . σ Ezt az általánosan érvényes összefüggést kell most alkalmaznunk a jelen esetre. (A képletben szereplő 2 szabadságfoka megegyezik a számlálóban álló Q szabadságfokával.)
Rangsorokból számolunk, a teljes, N elemű minta varianciáját tehát ismerjük: (5.15)
(lásd az (5.6) képletet!). Ez kerül majd 2 helyére, hiszen paraméter: nem függ sem a minták számától, sem azok elemeitől, csak N-től. A minták közti variancia számlálóját a (4.13) formula második alakja adja meg, csak ezt is alkalmaznunk kell a rangsorok esetére: Tj helyébe az Rj rangszámösszegek kerülnek, az összes adat összege pedig N(N+1)/2, a már sokszor felhasznált (5.1) képlet alapján. (Azt is tudjuk, hogy ennek a négyzetösszegnek a szabadságfoka (h–1).) Behelyettesítve ezeket (4.13)-ba, a rangszámokból álló minták közti négyzetösszeg: (5.16)
*
N ( N 1) 12
QR
R 2j nj
N 2 ( N 1) 2 . 4N
A szöveges megfogalmazás szerint tulajdonképpen s 2
χ2 2 2 σ . várható értékével osztani kell, hogy s2 valóban 2 n 1
körül ingadozzék. Ebből a formulából azonban egyszerű átrendezéssel adódik (5.14). Nagyobb baj ennél, hogy ezek a 2-es megfontolások csak normális eloszlás esetén érvényesek. Eszerint a rangszámok (vagy legalábbis a rangszámösszegek) viselkedését is a normális eloszlással közelítve írjuk le.
107
Az (5.14) képlet szerint az (5.16) formulát kell elosztanunk (5.15)-tel, hogy megkapjuk azt a 2-eloszlású próbastatisztikát, amely az egyszempontos varianciaanalízis rangsorolásos megfelelője. Rögtön elvégezve néhány magától értetődő egyszerűsítést a második tagban: 2
(5.17)
Rj 12 H 3( N 1). N ( N 1) nj
Az (5.17) próbastatisztikát Kruskal és Wallis H-nak nevezték el, ezért használjuk ezt a jelölést. Érdemes figyelni arra, hogy ezt a formulát, csupán az eddig tanultak felhasználásával, mi is megkaptuk; nem kellett hozzá semmi újat kitalálnunk.
Kruskal és Wallis persze sok minden mást is kiszámoltak. Többek közt elkészítették a rangszámösszegek pontos eloszlását is. Ám ez annyira bonyodalmas, hogy csak egészen kis elemszámokra sikerült megcsinálni.* Éppen ezért a gyakorlatban mindig a 2-táblázatot használjuk, (h–1) szabadságfoknál. Mielőtt egy példát csinálnánk (hogy megmutassuk: milyen egyszerű a számolás ezzel az első látásra ijesztőnek tűnő formulával), nézzük meg, hogyan módosul (5.17) kapcsolt rangok esetén. A kapcsolt rangokat éppen azért osztjuk ki, hogy így a rangszámok – és az Rj rangszámösszegek is – „érvényesek” legyenek, pontosan tükrözzék az adatok sorrendi viszonyait. Ezért (5.16) nem változik, csak az összes adatok szórása (és persze szórásnégyzete), amit 2 helyébe írtunk be.
De lényegében ezt is ismerjük már! Az (5.8) képlet megadja a QN négyzetösszeg kapcsolt rangok esetére érvényes formuláját. Ha 2 helyett σ 2k -tel osztunk ( a k index mindenütt a kapcsolt rangok miatt bevezetett korrekcióra utal), akkor H korrigált változatát, Hk-t kapjuk meg: σ2 (5.18) Hk H 2 , σk mint ez (5.14)-ből következik. A második tényező (5.6) és (5.8) felhasználásával így alakítható át: QN QN σ2 N 1 1 1 . (5.19) 2 QNk Ei Ei 12 Ei σk QN 1 1 3 N 1 12 12 N 3 N N N
Az utolsó formula nevezőjében láthatjuk azt a korrekciós tényezőt, amellyel H-t osztani kell, hogy annak kapcsolt rangokat figyelembe vevő korrekciós formuláját megkapjuk. Érdemes ezt a tényezőt megjegyezni, mert sokszor hivatkozunk majd rá. Éppen ezért vezetünk be külön jelölést is: (5.20)
K 1
E
i
N N 3
,
ahol K (akárcsak k) a kapcsolt rangok miatti korrekcióra utal, Ei pedig az „egyformák számából” képzett, (5.7) alatt található kifejezés. (5.18) és (5.19) felhasználásával felírhatjuk Hk formuláját: (5.21)
*
Hk
H , K
Nem elég a teljes elemszámot (N) és a minták számát (h) figyelembe venni: az elemszámok oly sokféleképpen oszthatók el a csoportok közt, hogy általános táblázatok kidolgozása nagy h-ra szinte lehetetlennek látszik.
108
ahol H-t az (5.17)-es, K-t az (5.20)-as képlet adja meg.* Az mindenesetre rögtön látszik, hogy Hk nagyobb H-nál, hiszen egy 1-nél kisebb pozitív számmal osztjuk az eredeti eredményt. Előfordulhat tehát, hogy H nem volt szignifikáns, de a korrekció után már az lesz. (Ebből az is következik, hogy ha H eredetileg is szignifikáns volt, teljesen fölösleges a korrekció kiszámításával bajlódni.) Szerencsére a korrekciós formulákra csak nagyon ritkán van szükség. Korábban láttuk, hogy néhány kapcsolt rang szinte egyáltalán nem befolyásolja a QN kifejezés (és ezért a variancia) értékét, és a korrekció még viszonylag sok kapcsolt rang esetén sem számottevő. (Emlékezzünk csak, mennyi kapcsolt rangot „kibírt” a Mann–Whitney-próba!) Erre a kérdésre a példák után, az 5.2.2.3 pontban még visszatérünk. 5.2.2.2 Példák Kruskal–Wallis-próbára Elsőnek egy „gyógyszerkipróbálási” példát oldunk meg – természetesen ismét kitalált (légből kapott) adatokkal. De még ha valódiak lennének is: ilyen kis elemszámokkal a gyakorlatban nem találkozunk. Az 5.2. táblázatban nemcsak az adatok, hanem – az adatok után, más betűtípussal – a rangszámok is szerepelnek. Az egyes mintákat nagyság szerint rendeztük, hogy a rangsorolást megkönnyítsük. Ez ránk is fér, hiszen a sok egyforma adat miatt ugyancsak nehéz lenne különben rangsorolnunk, még ilyen kis elemszám esetén is. (Ne sajnálja az olvasó a fáradságot ellenőrizni, hogy hibátlanul rangsoroltunk-e!) Kiszámítottuk a csoportonkénti rangszámösszegeket is; ezek állnak a táblázat utolsó sorában. 5.2. táblázat: Egy lázcsillapító különböző dózisainak hatása A bevett lázcsillapító tabletták száma ¼ –0,1
½
1
2
4
0
2,5
0,8
7,5
1,0
9,5
1,3
14
2,5
0,5
5,5
1,0
9,5
1,7
17
1,5
16
0,4
4
0,8
7,5
1,3
14
1,8
18,5
1,8
18,5
0,5
5,5
1,1
11
1,3
14
2,1
20
1,2
12
2,2
21
0
1
R1 = 13
R2 = 38,5
R3 = 45
R4 = 45
R5 = 89,5
A táblázatban álló számok testhőmérséklet-csökkenéseket jelentenek, oC-ban.
A táblázatból könnyen megállapítható, hogy N = 21 és h = 5. Ne mulasszuk el a rangszámösszegek ellenőrzését: R j 231 , és ugyanennyi az egész számok összege is 1-től 21-ig: 21×22/2 = 231. Minden készen áll a Kruskal–Wallis-próba elvégzéséhez. A (5.17) képlet számolásának legbonyolultabb része a rangszámösszegek négyzeteit tartalmazó összeg kiszámítása. Először ezt készítjük el: R 2j 132 38,52 452 452 89,52 n 4 5 4 3 5 3122. j *
A világ valamennyi tankönyve úgy írja föl Hk képletét, hogy a nevezőbe behelyettesíti K – önmagában is ijesztő – formuláját. Nem hiszem, hogy az olvasó megneheztel, ha megkímélik az ilyen képlet-monstrumoktól.
109
Ezek után alig van tennivaló:
12 3122 3 22 81,0909 66 15,0909. 21 22 Kikeresve a hozzá tartozó valószínűséget a 2-táblázat 4. sorában (mert h–1=4), azt találjuk, hogy p<0,01, az eredmény tehát még az 1%-os szinten is szignifikáns. Ilyenkor nincs értelme elvégezni a kapcsolt rangok miatti korrekciót, a számolás gyakorlására azonban mégis tegyük meg ezt. Sok kapcsolt rang volt: e1=2, e2=2, e3=2, e4=2, e5=3, e6=2. Eszerint Ei 6 6 6 6 24 6 54. Behelyettesítve ezt az (5.20)-as képletbe, kiszámítjuk, hogy H
54 2 39 9 0,005844. Ezt kell kivonnunk 1-ből 21 21 20 21 22 10 7 22 (az eredmény 0,994156), és elvégezni az osztást: 15,0909 Hk 15,1796. 0,994156 Az eredmény alig változott, pedig elég sok volt a kapcsolt rang. (Igaz, általában csak két, egyszer három egyforma adat fordult elő; szerencsére nem voltak hosszú sorozatok.) mivel kell osztanunk H-t:
3
Második példánk nem a kapcsolt rangok miatt érdemel figyelmet. Azt szeretnénk megmutatni, hogy az egyszempontos varianciaanalízis eredményét rangsorolásos módszerrel is megkaphatjuk, annak hosszadalmas számolása nélkül. Ezért elvégezzük a Kruskal–Wallis-próbát a 4.2 fejezet példájának adataival (4.2. táblázat) is. A rangsorolást ugyanúgy az adatok mellett találjuk, mint előbb. Itt azonban nem voltak „rendezve” (nagyság szerint sorbaállítva) az egyes minták adatai, ezért elég nehéz a rangsorolás, pedig nincs sokkal több adat, mint előbb. Azt tanácsoljuk az olvasónak, hogy letakarva a (más betűtípussal nyomtatott) rangszámokat, próbálja meg a rangsorolást önállóan elvégezni! (Például helyezzen papírcsíkokat a rangszámokat tartalmazó oszlopokra, és ezekre írja „saját” rangszámait.) 5.3. táblázat: A 4.2. táblázat adatainak rangsorolásos elemzése A gyógynövénytörmelék szemcsemérete 0,08
0,15
0,26
0,475
0,81
64,2
26
63,8
25
39,6
13
43,6
15
31,8
7
73,9
28
42,6
14
56,7
21
28,0
6
26,2
4
44,6
16
32,3
9
27,6
5
37,9
11
16,3
1
70,0
27
60,3
24
48,6
18
21,8
32,0
8
36,8
10
54,1
20
59,4
23
46,2
17
21,8
2,5
58,2
22
54,0
19
39,4
12
R1 = 129
R2 = 92
R3 = 99
2,5
R4 = 63,5
R5 = 22,5
A táblázat belsejében a kivonható glikozidmennyiségek állnak, a teljes mennyiség százalékában.
A csoportok száma most is h = 5, a teljes elemszám pedig N = 28. Első dolgunk a rangszámok ellenőrzése: összegük 406 kell legyen, hiszen 28×29/2 = 406. A táblázat utolsó sorában álló Rj számokat összeadva valóban ennyit kapunk. Most is, mint előbb, a „kényelmetlen” összeget számoljuk ki először: R 2j 1292 922 992 63,52 22,52 n 6 5 6 6 5 6873,091667. j 110
Következik H kiszámítása: 12 H 6873,091667 3 29 101,5728 87 14,5728. 28 29 A valószínűséget ugyanúgy a 2-táblázat negyedik sorában kell kikeresni, mint előbb: p<0,01. Az egyszempontos varianciaanalízis eredményeként lényegében ugyanezt kaptuk (21. oldal) – csak sokkal több számolás után. Kapcsolt rangos korrekciónak most aztán igazán semmi értelme. Az az egyetlen kapcsolt rang értékelhető változást úgysem okoz. Mindkét példa olyan volt, hogy paraméteres esetben föl lehetett tenni a kérdést: vajon az adatok lineárisan függenek-e a csoportokat megkülönböztető – hagyományos jelöléssel x –változótól. (Azaz a bevett tabletták számától, illetve a gyógynövény szemcseméretétől.) Az utóbbi példa esetében el is végeztük ezeket a számításokat (4.3 fejezet). Ezzel az általánosítással („nemparaméteres regresszió” meghatározásával) ugyanúgy nem foglalkozunk, mint a többszörös összehasonlítás rangsorolás esetén érvényes módszereivel. 5.2.2.3 Az egyforma adatok miatti korrekció Folyton mondogatjuk, hogy erre a korrekcióra ritkán van szükség, meg hogy nem számottevő a korrekció hatása a végeredményre. Láttuk is az előző pont első példáján, milyen kis mértékben különbözik a korrekcióval és az anélkül számolt H. Mindez azonban csak afféle beszéd, amit vagy elhisz valaki, vagy nem. Jó lenne számszerűleg is alátámasztani, megmutatni, hogy mekkora lehet az egyforma adatok – és a nekik kiosztott kapcsolt rangok – miatti korrekció hatása a szélsőséges esetekben. Így azután könnyebben eldönthetjük, mikor érdemes elvégeznünk ezt a számolást, mikor nem. Az 5.4. táblázat ezt a tájékozódást próbálja segíteni. A táblázat használatához azonban némi magyarázatra van szükség. A táblázat sorai aszerint különböztetik meg a mintákat, hogy mekkora bennük az egyforma adatokból álló leghosszabb sorozat. Az első sorban ez N/2, vagyis az összes adat fele ugyanakkora, a második sorban N/3, vagyis az összes adatok harmada, és így tovább. Az utolsó sorban az az eset áll, mikor az összes adatok egytizede egyforma. Tovább nemigen érdemes menni, hiszen ilyenkor a korrekció már igazán elenyésző. Minden sorban két elképzelt – szélsőséges – esethez tartozó korrekciót adunk meg. Legkisebb a korrekció olyankor, ha az említett hosszú sorozat (az adatok fele, egyharmada stb.) az egyetlen, amihez kapcsolt rang tartozik: valamennyi többi adat különböző. Másrészt a legnagyobb korrekció akkor fordul elő, ha az egész minta ilyen hosszú sorozatokra tagozódik. Vagyis ha (az első sorban) a minta másik fele is egyforma adatokból áll, tehát ha mindössze két különböző értékből áll a teljes minta. A második sorban olyan mintát képzelünk el, amely három különböző adatból áll, és mindhárom (nagyjából) ugyanakkora gyakorisággal fordul elő. Ugyanígy a többi sorban: a minták egyforma hosszú, ugyanakkora adatokból álló sorozatokból tevődnek össze.* A korrekciót két számmal jellemezzük. Az egyik az (5.20) alatti korrekciós tényezőt adja meg, a másik a H próbastatisztika százalékos növekedését. Figyelemre méltó, hogy a korrekció nagysága egyáltalán nem függ h-tól, az összehasonlítandó minták számától. N-től is csak annyiban, hogy az egyforma adatokból álló sorozatoknak nem az abszolút hossza, hanem N-hez viszonyított hosszúsága az, ami számít.
El kell árulni, hogy N-től kis mértékben mégis függnek ezek a korrekciók. Az 5.4. táblázatban álló számok ugyanis közelítő értékek; a közelítéssel éppen az N-től való függést küszö-
*
A táblázatban szereplő értékek valóban ilyen – egyforma hosszú – sorozatokra vonatkoznak. A gyakorlatban ez persze szinte soha nem teljesül, hiszen már az alapfeltétel is az, hogy N osztható legyen hárommal, néggyel, …, mikor mi az eset. És még ha osztható is: ritkán szoktak előfordulni pontosan egyforma hosszú sorozatok.
111
böltük ki. Minél nagyobb N, a tényleges korrekció annál jobban megközelíti a táblázatban álló értékeket.
De nincs is szükség pontosabb számokra! Hiszen ha minket a pontos érték érdekel, egyszerűen kiszámítjuk a korrekciós tényezőt és Hk-t az (5.21) képlet alapján. A táblázat csak arra való, hogy a korrekció „viselkedését” megismerjük, meggyőződjünk annak kicsi, általában elhanyagolható mértékéről – egyes konkrét esetekben pedig még számolás előtt tájékozódhassunk, mit is várhatunk. Hiszen nagyon ritkán fordul elő, hogy mintánk pontosan olyan, mint a táblázatban álló két szélsőség valamelyike. A leghosszabb „egyforma sorozat” mellett általában még több, kisebb-nagyobb sorozat található. A tényleges korrekció ilyenkor a táblázatban adott minimális és maximális érték közé esik.
Lássuk ezek után a táblázatot! 5.4. táblázat: Az egyforma adatok miatti korrekciós tényező és annak hatása H értékére Az egyforma adatokból álló leghosszabb sorozat
A K korrekciós tényező ha legkisebb a korrekció ha legnagyobb a korrekció
N/2
0,875
0,75
N/3
0,96296
N/4
H %-os növekedése minimum maximum
14,3
33,3
0,88889
3,8
12,5
0,98438
0,9375
1,6
6,7
N/5
0,992
0,96
0,8
4,2
N/6
0,99537
0,97222
0,5
2,9
N/7
0,99708
0,97959
0,29
2,08
N/8
0,99805
0,98438
0,20
1,59
N/9
0,99863
0,98765
0,14
1,25
N/10
0,999
0,99
0,10
1,01
Nézzük meg, mit mutat a táblázat az előző pont első példája esetében! A leghosszabb sorozat (e5=3) a teljes elemszám (N=21) hetedrészének felelt meg. Ebben a sorban kell tehát keresnünk a korrekciót. A K korrekciós tényező, (5.21) nevezője 0,994156 volt; ez valóban a két megadott szélsőséges érték közé esik. H 15,0909-ről 15,1796-ra változott, ez 0,588%-os növekedésnek felel meg. A táblázatban található két érték 0,29 és 2,08. Valóban köztük helyezkedik el, de a „minimum”-hoz van közelebb, hiszen a rövidebb sorozatok – öt darab 2-es sorozat – csak az elemszám kisebb részét teszik ki, és az adatok több, mint egyharmada egymástól különböző; ezek „önálló” (nem kapcsolt) rangszámot kaptak.
Föl lehet talán vetni, hogy táblázatunk hiányos: nem tartalmazza az N/2-nél hosszabb „egyforma sorozatokra” vonatkozó értékeket. Igen kétséges azonban, hogy ilyenkor – korrekció ide vagy oda – szabad-e még rangsorolásos próbát (és a leolvasáshoz 2-es közelítést!) alkalmazni. Anélkül, hogy ebben a kérdésben állást foglalnánk, néhány példán megmutatjuk, hogy N/2-nél hosszabb sorozatok esetén milyen rohamosan nő a korrekció nagysága. Ha a minta úgy oszlik meg két lehetséges érték közt, hogy az egyik teszi ki az N adat kétharmadát, a másik pedig egyharmadát, H növekedése a korrekció következtében kb. 50%, míg ha a megoszlás ¾–¼, a növekedés 78%! Még ha az egyetlen hosszú (2N/3, ill. 3N/4) sorozat mellett a többi adat mind különböző, akkor is nagy a korrekciós változás: 42%, ill. 73%.
112
5.2.2.4 A Kruskal–Wallis- és a Mann–Whitney-próba viszonya Mivel a Kruskal–Wallis-próbában, akárcsak az egyszempontos varianciaanalízisben, sehol nem volt olyan kikötés, hogy h nem lehet egyenlő 2-vel, két minta esetén bármelyik alkalmazható. De vajon melyik jobb a kettő közül? A paraméteres esetben az volt a válasz (l. a 4.2.7 szakaszt), hogy az egyszempontos varianciaanalízis és a kétmintás t-próba ekvivalens, tehát teljesen mindegy, melyiket alkalmazzuk. Itt is valami hasonló választ várunk, de kicsit óvatosabban kell azt megfogalmaznunk. A Mann–Whitney-próba eredményét rendszerint saját táblázatából (a Melléklet VI. táblázata) olvassuk le; ez nehezen hasonlítható össze a Kruskal–Wallis-próba eredményével, amelyet normális közelítés alapján, a 2-táblázatból határozunk meg. Így tehát az lehetne a válasz, hogy a Kruskal–Wallis-próba táblázatát (amit csak említettünk, de ebben a könyvben nem közlünk) két minta esetén nem kell elkészíteni, mert a Mann–Whitney-próbához tartozó táblázat pontosan ezt az eloszlást tartalmazza. Láttuk azonban, hogy nagy minták esetén Mann–Whitney-próbát is normális közelítéssel végezzük; kérdés, hogy ez megegyezik-e azzal, amit a Kruskal–Wallis próbából kapunk, ha annak (5.17) alatti formuláját két mintára alkalmazzuk. Formális számolással be lehet bizonyítani, hogy így van, a két próba tehát ekvivalens, akárcsak paraméteres megfelelőik.
A számolás azért hosszadalmas kissé, mert H képletét rögtön a „számolásra alkalmas” két tagú formában írtuk föl (nemcsak mi: minden könyv ezt az alakot adja meg), a standardizálás (5.12) alatti formulájának négyzete pedig három tagú. (Azért emeljük négyzetre, mert az 1 szabadságfokú 2-eloszlás egyenlő a standard normális eloszlás négyzetével.) Ezeknek a többtagú kifejezéseknek tagonkénti összehasonlítása nem nehéz, de meglehetősen unalmas feladat; a képletek átalakításában jártasságot szerezni kívánó olvasó számára azonban remek gyakorlási lehetőség! Mi inkább úgy járunk el, hogy H képletéből is egytagú kifejezést készítünk, és ezt hasonlítjuk a rangszámösszegek standardizálásakor kapott z2-hez. Lássuk előbb ezt az utóbbit! Annak idején nem írtuk föl ezt a képletet, mert a példákat egyszerűbb volt úgy megoldani, hogy j-t és R-et alkalmanként kiszámítva magukon a számokon végeztük a standardizálást. Írjuk föl most magát a képletet (azaz helyettesítsük be (5.9)-et és (5.10)-et (5.12)-be), az R1 rangszámösszegre vonatkozóan:
(5.22)
z
N 1 2 . n1n2 ( N 1) 12
R1 n1
Ahhoz, hogy H képletét egytagúvá vonhassuk össze, célszerű QR-et másképp fölírni, mint (5.16)-ban tettük. Ehhez a minták közti variancia (4.11) alatti „definíciós” formájából (16. lap) indulunk ki, azt alkalmazzuk a rangszámok esetére: 2
(5.23)
Rj N 1 . QR n j n 2 j
(Itt felhasználtuk (5.2)-t is.) Jó lenne az nj szorzót bevinni a zárójelbe; ehhez azonban nj négyzetének kell ott állnia, hiszen a zárójelbe tett kifejezést négyzetre kell emelni: 2
n 2j R j N 1 1 QR nj nj 2 nj
N 1 Rj nj . 2 2
És most írjuk föl ezt h = 2 esetén, amikor ez az összeg kéttagú. Felhasználva (5.11)-et: 113
2
1 N 1 1 N ( N 1) N 1 QR R1 n1 R1 n2 . n1 2 n2 2 2 2
A második zárójelet érdemes egyszerűbb alakra hozni:
N 1 N 1 ( N n2 ) R1 n1 R1. 2 2 (Itt kihasználtuk azt, hogy N n1 n2 .) Visszaírva ezt az előbbi képletbe, a két tagot összeadhatjuk, ha észrevesszük, hogy (a b) 2 (b a) 2 , akármi is a és b:
1 N 1 1 N 1 N 1 R1 R1 n1 R1 n1 n1 n1 2 n2 2 2 2
QR
2
2
1 1 n1 n2
N 1 N R1 n1 . 2 n1n2 2
Mint a 109. oldalon láttuk, QR-et (5.15)-tel kell osztani, hogy H-t megkapjuk:
12QR 12 N 1 H R1 n1 . N ( N 1) n1n2 ( N 1) 2 2
(5.24)
Első ránézésre is nyilvánvaló, hogy ez nem más, mint a (5.22) alatt fölírt z négyzete. Azaz (5.25)
H z2,
ami a korábbiakban többször szereplő F = t2 formula rangsorolásos megfelelője. Ezzel egyúttal utólag igazoltuk a korábban be nem bizonyított (5.10) képlet helyessségét is. Hiszen ez áll z (5.22)-es képletének nevezőjében, amelyről most mutattuk meg, hogy négyzete H-val egyenlő. H (5.17)-es formuláját viszont lépésről lépésre levezettük.
És mi a helyzet kapcsolt rangok esetén? A korrekció, mint ezt az előző pontban ki is emeltük, nem függ a minták számától, tehát érvényesnek kell lennie a h=2 esetben is! Csakhogy itt a variancia (5.13) alatti korrekciós képletével számolunk, és nem a Kruskal–Wallis-próba korrekciós tényezőjével. Ez a különbség azonban csak látszólagos. Szorozzuk meg a (5.10) alatti varianciát a K korrekciós tényezővel:
n1n2 ( N 1) E n n ( N 1) N 3 N Ei n1n2 ( N 3 N Ei , (1 3 i ) 1 2 12 N N 12 ( N 1) N ( N 1) 12 N ( N 1) ez pedig pontosan ugyanaz, mint σ 2Rk (5.13) alatti kifejezése. Mivel azonban standardizáláskor nem a varianciával, hanem a szórással osztunk (mint az (5.12) alatti képletből leolvasható), z korábbi értékét a korrekciós tényező gyökével kell osztanunk, hogy z korrigált értékét megkapjuk. Tekintve, hogy 1-nél kisebb számokról van szó, a gyök nagyobb az eredeti számnál; így azután z még kevesebbet változik az egyenlő adatok miatti korrekció következtében, mint H. A z normális eltérés változásának körülbelüli becslésére egyszerűen használhatjuk a 5.4. táblázatot: az utolsó két oszlopban megadott százalékokat felezni kell; ez elég pontosan mutatja a z érték százalékos változását. Lássuk az előző szakasz két példáját! A 102. oldalon kiszámítottuk a korábban elemzett példához tartozó z értékeket, korrekció nélkül (1,728), majd két lappal később korrekcióval is (1,740). A 114
növekedés 0,69%. Amikor a mintához tartozó QN k -t kiszámítottuk (97. oldal), láttuk, hogy az egyforma adatok leghosszabb sorozata 6 elemű, ez pedig nagyjából az elemszám (32) ötödrésze. Az ennek megfelelő sorban 0,8% minimális és 4,2% maximális változást találunk a 5.4. táblázatban. * Mint mondottuk, ennek a felével kell számolnunk, a táblázat alapján tehát 0,4 és 2,1% közé esik z növekedése, ami teljesül is. Többet ígér a második példa (105–106. oldal) ellenőrzése. Az a minta lényegében olyan, mint a 5.4. táblázat ismertetésekor említett, maximális korrekciót adó szélsőség: öt különböző adat van, és mindegyik körülbelül egyforma gyakorisággal fordul elő. (A „pontos” érték 117/5=23,4; az egyes adatok – osztályzatok – gyakoriságai alig térnek el ettől.) Várható, hogy z korrekciós növekedése 2,1% körül lesz, ami a 5.5. táblázatból kiolvasható maximális növekedés fele. És valóban: a két kiszámított érték z = 2,2234 és z = 2,2699, a második éppen 2,09%-kal nagyobb az elsőnél. * * * Igyekszünk a varianciaanalízis tárgyalásával „párhuzamosan” haladni. Ezért, ha ki is hagytuk a „regressziós varianciaanalízis” rangsorolásos megfelelőjét, el fogjuk végezni a varianciaanalízis másik „kiterjesztését”, a 4.4 fejezetben tárgyalt randomizált blokkok alkalmazását rangsorolásos feladatokra. Erről lesz szó a következő fejezetben. (Az eddigiektől eltérő módon most előbb a több minta összehasonlítására alkalmas eljárást tárgyaljuk, és csak azután térünk rá a kétmintás – némiképp rendhagyó – rangsorolásos módszer ismertetésére.)
*
Valószínűleg zavaró, hogy a lehetséges változásra kapott sáv ilyen széles. Vegyük azonban figyelembe, hogy ez mennyire csökken; a következő sorban már 0,5 és 2,9 a két határérték. A példában a leghosszabb sorozat nem is érte el az elemszám ötödrészét (32/5=6,4), hanem ötöd és hatod közt volt. Az értéket nézhetnénk „majdnem” a hatodik sorban is.
115
5.3 Összetartozó minták összehasonlítása Az összetartozó jelző első közelítésben csupán annyit jelent, hogy a szóban forgó minták nem függetlenek. Ennél azonban valamivel többről van szó, és hogyha egy vizsgálatban – véletlenül vagy szándékosan – megsértettük a minták függetlenségére vonatkozó feltételt, ettől még mintáink nem lesznek összetartozók. A mintáknak bizonyos rend, valamilyen szabályszerűség szerint kell összetartozniok, hogy az ebben a fejezetben tárgyalt módszereket alkalmazhassuk rájuk. Két minta esetén ezt úgy szoktuk kifejezni, hogy a mintaelemek páronként összetartoznak (ikrek adatai, ugyanazon személy kezelés előtti és utáni adatai stb.). Több minta vizsgálatakor az adatok blokkokba sorolása határozza meg az összetartozás módját. Minderről részletesen volt szó a 4.4 fejezet bevezetőjében (41–44. oldalak); nem is ismételjük itt meg.
5.3.1 A Friedman-próba 5.3.1.1 Randomizált blokkok elemzése – rangszámokkal Van h darab mintánk (h kezelés vagy körülmény összehasonlítására), folytonos, de valószínűleg nem normális eloszlású adatokkal. A minták elemei h elemű blokkokba vannak rendezve, és valamennyi kezelést pontosan egyszer alkalmazzuk minden egyes blokkban. A kezelések blokkon belüli „kiosztása” (majdnem mindig) randomizálással törtnik. Összesen g ilyen blokk van, ami azt jelenti, hogy van h darab, g elemű, összetartozó mintánk. Ez az „elrendezés” pontosan ugyanaz, mint amit a Randomizált blokkok című fejezetben elemeztünk – csak éppen az adatok most nem normális eloszlásúak. (Kicsit pontosabban: nem követeljük meg, hogy az adatok normális eloszlásúak legyenek.) A kezelések hatása közti kis különbséget a 4.4 fejezetben úgy próbáltuk kimutatni – szignifikánssá tenni –, hogy a „blokkok hatását”, az egyes blokkok közti különbséget igyekeztünk levonni a mintákon belüli – véletlen okozta – eltérésekből. Rangsorolásos próba esetén ez tökéletesen sikerül; itt ugyanis nem csak igyekszünk közömbösíteni a blokkok különbségéből eredő eltéréseket, hanem teljesen eltüntetjük azokat: valamennyi blokkot egyformává tesszük. Ezt a hatást tehát nem kiküszöböljük, hanem megszüntetjük. Az olvasó nyilván máris kitalálta, hogy ez hogyan lehetséges: blokkonként rangsoroljuk az elemeket, azaz kicseréljük őket az 1, …, h egész számokkal; így azután minden blokkban ugyanazok az adatok szerepelnek. A kezelések közti különbséget az mutatja, hogy melyikük hányadik helyet foglalja el a blokkon belül, az egész mintában pedig az, hogy átlagosan – a g blokk átlagában – hányadik helyen szerepelnek. Az elrendezés annyira egyszerű, hogy táblázatot sem érdemes rá csinálni. Lapozza föl az olvasó a 4.7. táblázatot a 46. oldalon, és (képzeletben) rangsorolja az xij adatokat soronként. Figyelemre méltó, hogy az eljárás végrehajtásához a g×h rangszámon kívül semmi másra nincs szükség, mint az Rj rangszámösszegekre. (A 4.7. táblázatban a Tj oszlopösszegek felelnek meg ezeknek.) Az a sok előzetes számolás tehát, ami még abban a táblázatban szerepel, és ami a 4.4 fejezetben tárgyalt eljárást olyan hosszadalmassá és kényelmetlenné tette, itt fölöslegessé válik. Még a „jobb oldali”, az összegeket tartalmazó, máskor oly fontos oszlopra sincs szükség. Hiszen tudjuk, hogy az egy-egy sorban – blokkban – álló rangszámok összege h(h+1)/2 (l. az (5.1) képletet), a (Tj helyébe léplő) Rj rangszámösszegek összege ezért h 1 (5.26) R j gh 2 lesz, akármik is az eredeti atatok. Mielőtt azonban az eljárás bemutatását folytatnánk, lássunk egy példát, hogy könnyebben érthetők legyenek az elmondottak (5.5. táblázat).
116
5.5. táblázat: Példa a Friedman-próba alkalmazására Körülmények
A
B
C
D
E
F
U
3:40
3:20
4:30
4:15
4:25
2:50
V
3:00
2:35
3:40
2:55
4:20
3:50
X
2:35
2:10
3:00
2:30
3:05
2:25
Y
3:20
3:15
3:50
2:40
4:20
4:40
Z
3:55
4:05
4:10
3:40
5:00
4:50
Személyek
A kísérleti személyeknek valamilyen feladatot kellett végrehajtaniuk (az eljárás szempontjából mindegy, hogy milyet), és azt vizsgáltuk, hogy milyen gyorsan – mennyi idő alatt – képesek azt elvégezni, különböző körülmények között. Ha például futva meg kellett tenniök egy távolságot, akkor a „körülmények” lehettek a talaj különbségei, az öltözék eltérő volta, az időjárási viszonyok, és sok minden más.* Ha egy űrlapot („tesztet”) kellett kitölteniök, akkor a – kísérletvezető által változtatott – körülmények lehettek: a terem világítása, zajszintje, az instrukció világos vagy szándékosan homályos volta, a munkához biztosított külső feltételek (pl. a kényelmes vagy kényelmetlen ülőhely) variálása. Más feladatokhoz más körülmények („kezelések”) képzelhetők; mindezt az olvasó fantáziájára bízzuk. Illusztráló példánkban hat körülmény szerepelt (h=6), és 5 kísérleti személy (g=5) vett részt a vizsgálatban. A blokkokat tehát az egyes személyek alkották; a körülmények sorrendjét személyenként randomizáltuk. A 5.5. táblázatban természetesen nem a végrehajtás sorrendjében, hanem az A—F körülmények szerint összegyűjtve szerepelnek az adatok, amelyek a teljesítéshez szükséges időt adják meg, percekben és másodpercekben. (3:40 3 perc 40 másodpercet jelent, és így tovább.) Sokszor említettük már, hogy az időadatok tipikusan nem normális eloszlásúak (arról is szó volt, hogy reciproktranszformációval próbálhatjuk meg őket normálissá tenni); rangsorolásos eljárás alkalmazása tehát mindenképpen indokolt. Rögtön látjuk (5.5. táblázat), hogy a személyek közt lényeges „gyorsasági” különbség van. Az X személy például 2 percnél alig valamivel több idő alatt oldja meg a feladatot, akárhogy változnak is a körülmények, Z-nek ugyanehhez általában 4 percnél is több időre van szüksége. Indokolt tehát a „blokkhatás”, a személyek alapszintje közti különbség eltávolítása. Gondoljuk csak el, mennyi számolásra lenne azükség, hogy az A—F körülményeket varianciaanalízissel összehasonlítsuk! Előbb a perceket és másodperceket kellene azonos egységre (például másodpercre) átszámítani, azután reciproktranszformációt végezni, hgy a normális eloszlás feltétele (remélhetőleg) teljesüljön, és csak ezután jöhetne a „kétszempontos varianciaanalízis, cellánként egy elemmel” számolása, ahogyan a 4.4 fejezetben tanultuk. Ezzel szemben itt az egész eljárás, rangsorolással együtt, legfeljebb annyi időt vesz igénybe, mint a másik esetben az előkészítő számolások (az átszámítás vagy a transzformáció) külön-külön. Az 5.6. táblázatban tüntettük föl a rangszámokat. Még az ilyen „összetett időadatokon” sem okoz nehézséget annak megállapítása, hogy melyik idő hosszabb, melyik rövidebb, ezért teljesen fölösleges az adatokat átszámítani rangsorolás előtt. Az utolsó sorban a rangszámösszegek szerepelnek; említettük már, hogy a próba végrehajtásához csupán ezekre lesz szükség. (Hogy milyen formában, azt még nem tudjuk, hiszen nem ismertük még meg a próba végrehajtásának módját.)
*
A „körülmények” kiválasztása alapján itt is megkülönböztethetjük az első és második modellhez tartozó eseteket. A felsorolt példák szinte mind az első – rögzített szempontú – modellhez tartoznak, kivéve az időjárást, amelyik jó példa a második – véletlen szempontú – modellre. A blokkok természetesen itt is legtöbbször a második modell szerint térnek el egymástól, ezért a Friedman-próba rendszerint kevert modellt elemez. De előfordulhatnak tisztán véletlen modellek is.
117
5.6. táblázat: Az 5.5. táblázat adatainak rangsorolása Körülmények
A
B
C
D
E
F
U
3
2
6
4
5
1
V
3
1
4
2
6
5
X
4
1
5
3
6
2
Y
3
2
4
1
5
6
Z
2
3
4
1
6
5
15
9
23
11
28
19
Személyek
Rangszámösszegek (Rj)
Ne mulasszuk el a rangszámösszegek összegének ellenőrzését. (Öt szám összeadásakor is lehet hibázni!) Az (5.26) képlet szerint 5.6.7/2=105-öt kell kapnunk; ez teljesül is az 5.6. táblázatban.
Próbáljuk meg a Friedman-próba képletét ugyanúgy „kitalálni”, ahogy ezt a Kruskal–Wallis-próba esetében tettük. A kezelések különbözőségét a nekik megfelelő oszlopban álló rangszámok átlaga mutatja. Ezek elméleti varianciáját könnyű kiszámítani. Az egy-egy sorban – blokkban – álló rangszámok varianciája az (5.6) képlet szerint h(h+1)/12, a belőlük számolt átlag varianciája* tehát h(h 1) (5.27) . σ 2r 12 g A tényleges varianciát magukból az aktuális rangszámösszegekből számoljuk. Tudjuk**, hogy ennek számlálója az elméleti értékkel osztva 2-eloszlást követ, ha igaz a nullhipotézis. Amennyiben ez a hányados túlságosan nagy – vagyis a 2-eloszlás szélsőséges, kis valószínűségű részére esik –, akkor arra következtetünk, hogy a nullhipotézis nem igaz: a rangszámátlagok nem csak a véletlen miatt térnek el egymástól. (Más szóval: az oszlopok – kezelések, körülmények – közt szignifikáns különbség van.) Pontosan ugyanúgy történik tehát minden, mint a Kruskal–Wallis-próba esetében; a képletek persze mások lesznek, hiszen itt a rangsorolást soronként végeztük, nem pedig egyszerre az összes adaton. A rangszámátlagok tényleges varianciájának kiszámításához felhasználjuk összegük képletét. Mivel a rangszámátlagok a rangszámösszegek g-edrészével egyenlők, összegük is g-edrésze az Rj rangszámöszegek összegének. Fölhasználva (5.26)-ot: (5.28)
r
j
h(h 1) . 2
A varianciát nem is kell kiszámítanunk, csak annak számlálóját, Qr -t:
h(h 1) 2 Rj 2 1 Qr 2 h g g 2
*
R 2j
h(h 1) 2 . 4
Az átlag szórásának – és varianciájának – képletét már a bevezető tanulmányokból ismerjük: a szórást az elemszám gyökével, a varianciát az elemszámmal kell osztanunk ilyenkor. Márpedig itt g darab rangszámot átlagoltunk, ennyi elem van ugyanis egy-egy oszlopban. **
Lásd az (5.14) képletet!
118
Ezt kell elosztanunk az (5.27) alatti varianciával, hogy egy 2-eloszlású próbastatisztikát kapjunk, úgy, ahogy a Kruskal-Wallis próba esetében:
Qr 12 g 1 2 σ r h(h 1) g 2
R 2j
12 g h(h 1) 2 . h(h 1) 4
Az egyszerűsítést már nem a -os részben végezzük, hiszen az már a végképlet, és „mindenkinek szól”. (5.29)
G
12 R 2j 3g (h 1). gh(h 1)
Az eredményt azért jelöltük G-vel,* mert a Kruskal–Wallis-próba H-val jelölt próbastatisztikájának „továbbfejlesztése” egyforma, g-vel egyenlő elemszámú – és persze összetartozó – mintákra. Ez is, akárcsak H, (h–1) szabadságfokú 2-eloszlást követ, ha h (és g) nem túlságosan kicsi. Ez nem valami pontos meghatározás, de 4-nél nagyobb h és g esetén már nyugodtan használhatjuk a 2táblázatot. Most már befejezhetjük az előbb elkezdett példát. Az (5.29) képlet egyes részeit külön számítjuk ki: 12 12 2 , 3g (h 1) 3 5 7 105. R 2j 2101 gh(h 1) 5 6 7 35 A rangszámösszegeket az 5.6. táblázatban lehet megtalálni, négyzetösszegük kiszámításához tanácsos számológépet használni. Szintén nem árt a számológép az utolsó műveletekhez:
2 2101 105 120,057 105 15,057. 35 Ezt az értéket a 2-táblázat 5. sorában kell kikeresni; ennyi ugyanis a szabadságfok. Látjuk, hogy az eredmény szignifikáns: p < 0,05. (Ami azt illeti, kis híján eléri az 1%-os szintet! A táblázatbeli érték 15,086.) A (meg nem nevezett) körülmények tehát lényegesen módosítják a feladat megoldásához szükséges időt. A példában szerencsére nem voltak kapcsolt rangok. Ha valamelyik sorban két vagy több egyforma érték van, azokhoz a szokásos módon rendelünk kapcsolt rangokat. Friedman ugyan azt állította, hogy még viszonylag sok kapcsolt rang esetén sem torzul lényegesen G értéke, de ebben nem volt teljesen igaza. Igaz, hogy a korrekció általában tényleg kicsi, de ha az összehasonlítandó oszlopok száma (azaz h) nagy, a korrekció majdnem akkora, mint a Kruskal–Wallis- próbában volt. Vezessük be (5.20) mintájára a KF korrekciós tényezőt (az index a Friedman-próbára utal): G
(5.30)
KF 1
E
ji
g ( h h) 3
,
ahol E, akárcsak korábban, az (5.7) alatt definiált kifejezést jelenti. Kettős index és kettős szumma szerepel, mert előbb minden rangsorban (tehát soronként) el kell végezni az összegezést, majd ezt meg kell ismételni valamennyi sorban; vagyis a teljes mintában előforduló valamennyi kapcsolt rangra. Ezek után a Friedman-próba kapcsolt rangok esetén érvényes, módosított képlete: Gk G . (5.31) KF Persze megtehetjük azt is, hogy az (5.27) alatti varianciát módosítjuk a kapcsolt rangoknak megfelelően, és ezzel a módosított értékkel megismételjük a 119–120. oldalon levő egész levezetést. Aki így jár el, ugyanezt az eredményt fogja kapni, csak a fentinél bonyolultabb formában. *
Friedman eredeti jelölése χ 2r volt. Az irodalomban – és alkalmasint a számítógépes programcsomagokban is – így fogják megtalálni az általunk G-vel jelölt statisztikát.
119
Készítsünk a korrekció hatásáról egy ahhoz hasonló táblázatot, mint amilyet a Kruskal–Wallispróba esetében már mutattunk (5.4. táblázat). 5.7. táblázat: Az egyforma adatok miatti korrekciós tényező és annak hatása G értékére Az egyforma adatokból álló leghosszabb sorozat
2, 3 és 5 hosszúságú sorozatok
h/2
h/3
h/4
h/5
A KF korrekciós tényező ha legkisebb a korrekció ha legnagyobb a korrekció (zárójelben a megfelelő K érték az 5.4. táblázatból)
G %-os növekedése minimum maximum (zárójelben H növekedése, 5.4. tábl.)
h=4
0,9
0,8
11,1
25
h=6
0,8857
0,7714
12,9
29,6
h = 10
0,8788
h=6
0,9714
0,9143
2,94
9,38
h=9
0,9667
0,9
3,45
11,11
h = 15
0,9643 (0,9630)
0,8929 (0,8889)
3,70
h=8
0,9881
0,9524
1,20
5
h = 12
0,9860
0,9441
1,42
5,93
h = 20
0,9850 (0,9844)
0,9398 (0,9375)
1,53
h = 10
0,9939
0,9697
0,61
3,12
h = 15
0,9929
0,9643
0,72
3,70
h = 25
0,9923
(0,875)
(0,992)
0,7576
0,9615
(0,75)
(0,96)
13,8 (14,3) 32
0,78
(3,8) 12
(1,6) 6,4
(0,8) 4
(33,3)
(12,5)
(6,7)
(4,2)
A korrekció hatásáról készült összefoglaló táblázat ezúttal bonyolultabb, mint a Kruskal–Wallis-próba esetében volt, mivel a korrekció nagysága nemcsak a kapcsolt rangok számától, hanem htól is függ. (De g-től, a blokkok számától nem!) Ahogy h növekszik, a korrekciós faktor csökken és G százalékos változása nő. A 5.7. táblázatból látjuk, hogy egyre jobban megközelíti a 5.4. táblázatban található értékeket, amelyeket itt is feltüntettünk, hogy az összehasonlítás könnyebb legyen. A kapcsolt rangok miatti korrekció szóba sem jön, ha nem alkalmazzuk a 2-es közelítést, hanem közvetlenül G eloszlásában keressük ki a valószínűséget. Erről lesz szó a következő pontban. 5.3.1.2 Kis minták esete Már Friedman elkészítette a G próbastatisztika pontos eloszlását 3 és 4 összetartozó minta esetére, egyrészt hogy ellenőrizze: mennyire jó a 2-es közelítés, másrészt hogy lehetővé tegye kis g és h értékek esetén is a próba használatát. Táblázatait azóta nagyobb g értékekre is kiterjesztették; a Melléklet IX. táblázata egy ilyen eloszlástáblázat alapján készült.
Nem a teljes eloszlást adtuk meg, csak a szokásos valószínűségi szintekhez tartozó G értékeket. Bizonyára könnyebb így a Friedman-próba táblázatának használata, hiszen a Melléklet szinte valamennyi táblázata így készült. (Kivétel csak az első és a legutolsó táblázat.) Friedman eredeti táblázatai, mint azt említettük, a próbastatisztika teljes eloszlását tartalmazzák kis g és h értékekre. Olyanok tehát, mint a könyv 5.1. táblázata (88. oldal).
Lássunk egy másik példát, hogy alkalmunk legyen ennek a táblázatnak a használatára is. Alvászavarokkal küszködő kórházi betegeken háromféle altatóval (A, B, C) próbáltak segíteni. A betegeket három főből álló blokkokba osztották be (az életkor, a nem, a betegség fajtája és súlyossága voltak a blokkokba sorolás szempontjai), majd blokkonkénti randomizálással döntötték el, hogy melyik beteg melyik gyógyszert kapja a három közül. A zavartalan, megszakítatlan éjsza120
kai alvás hosszúságát mérték (öt éjszaka átlagát véve alapul); a késői, nehéz elalvást egy korrekciós faktorral vették figyelembe. Az adatok aligha tekinthetők normális eloszlásúaknak. A 5.8. táblázat órákban mutatja az alvásidőt (és mellette – más betűtípussal – a rangszámokat). Mint látjuk, 8 blokkot képeztek, tehát összesen 24 beteget vontak be a vizsgálatba. 5.8. táblázat: Három altató hatásának összehasonlítása kórházi betegeken Altatók
A
Blokkok
B
C
1
8,0
3
7,1
1,5
7,1
1,5
2
5,4
1
6,2
2
6,7
3
3
5,1
2
4,2
1
6,3
3
4
7,2
2
6,1
1
7,4
3
5
5,3
2
5,2
1
5,4
3
6
4,7
3
3,5
1,5
3,5
1,5
7
5,0
2
4,7
1
5,1
3
8
7,2
3
6,0
2
5,8
1
Rangszámösszegek
18
11
19
A táblázat utolsó sorában a rangszámösszegeket is megtalálja az olvasó. Más nem is kell G kiszámításához. Először a rangszámösszegek négyzetösszegét számítjuk ki:
R
182 112 192 806 . Az (5.29) képlet elején álló faktor ebben az esetben: 12 1 , 83 4 8 az utolsó tag pedig 3.8.4 = 96. Akár fejben is végezhetjük az egész számolást! A végeredmény: 806 G 96 100,75 96 4,75. 8 Kikeresve ezt a Melléklet IX. táblázatából, látjuk, hogy az eredmény nem szignifikáns: p>0,10. A 2-táblázatból kicsit eltérő eredményt kapnánk: 4,75 valamivel nagyobb, mint a 10%-hoz tartozó táblázatbeli érték (4,605), tehát a valószínűség kisebb 10%-nál (p>0,05). De mint tudjuk, kis g és h értékek esetén a 2-es közelítés még nem eléggé pontos. Ennél is kisebb h (vagyis h=2) esetén nem használhatjuk Friedman táblázatát, és a 2-es közelítés is csak akkor elfogadható, ha a blokkok száma nagyon nagy. Nincs is azonban szükségünk új táblázatra, mivel ebben a szélsőséges esetben a Friedman-próba az előjelpróbával ekvivalens. Ezt mutatjuk meg a következő pontban. 2 j
5.3.1.3 A Friedman-próba és az előjelpróba viszonya Hogyan is alakulhatnak a rangszámok egy két elemű blokkban? Ha az értékek nem egyformák, akkor két eset lehetséges: 1–2 vagy 2–1 a két kiosztott rangszám. (A kapcsolt rangok esetére később térünk ki.) 1–2 azt jelenti, hgy a blokk második eleme nagyobb az elsőnél; ha a gyakori „kezelés előtt – kezelés után” esetre gondolunk, ezt úgy fogalmazhatjuk: az érték növekedett. A 2–1 eset ennek fordítottja: az érték csökkent. De akár „önkontrollos” vizsgálatról van szó, akár két külön121
böző személytől származnak az egy blokkba tartozó adatok, az 1–2 blokkot egyértelműen jellemzi a +, a 2–1 blokkot a – előjel. A Friedman-próba tehát semmivel sem használ fel több információt, mint az előjelpróba: van egy g elemű mintánk, amely + és – előjelekből áll. Nincs más dolgunk, mint meghatározni az 1–2 párok (+ előjelek) és a 2–1 párok (– előjelek) számát, és a kisebbiket összehasonlítani az előjelpróba táblázatának (VIII. táblázat) g-edik sorában álló számokkal. Az itt leolvasható valószínűség lesz a próba végeredménye. A kétoldali valószínűséget kell figyelembe venni, hiszen a Friedman-próba nem vizsgál egyoldali hipotéziseket, mivel ilyennek kettőnél több csoport esetén nincs értelme. Két minta esetében azonban, mint a jelen esetben is, végezhetünk összehasonlítást egyoldali hipotézissel is – csakhogy akkor már nem Friedman-próbát végeztünk (az előjelpróba táblázatának felhasználásával), hanem előjelpróbát. Persze sokan nem látnak semmi különbséget a két eset közt – és teljesen igazuk van. Ha a két összetartozó mintában azonos számok állnak valamelyik sorban, akkor – a szabály szerint – ők kapcsolt rangot kapnak (mindegyik 1,5-öt), és a fenti eljárást módosítani kell. Előjelpróba végzésekor ezeket a sorokat kihagytuk, és az elemszámot a kihagyott sorok számával csökkentettük. De vajon mi adódik itt, ha szigorúan követjük a Friedman-próba számításmódját?
Van tehát két összetartozó mintánk, és rangsorolásos módszerrel akarjuk őket összehasonlítani. Nézzük, mit ad a Friedman-próba ebben az esetben! Az (5.29) képletben h helyébe 2 kerül, és a rangszámok négyzetösszege is csak két tagot tartalmaz; könnyű lesz a képletet egyszerűbb alakra hozni. A g számú sor háromféle adatpárból tevődik össze: az 1,5–1,5 alakú, „kapcsolt rangos” párokból (ezek számát jelöljük a-val), az 1–2 alakú, „növekedést” mutató párokból (legyen ezek száma b), és a 2–1 alakú „csökkenő” párokból (ilyenekből c darab van). Eszerint igaz: (5.32)
g = a + b + c.
Az első oszlopban a darab 1,5, b darab 1-es és c darab 2-es áll; az R1 rangszámösszeg a fentiek szerint R1 = b +2c + 1,5a. Hasonó megfontolással R2 = 2b + c +1,5a. Betéve ezeket az (5.29) képletbe: 12 R 2j 3g (h 1) 12 [(b 2c 1,5a) 2 (2b c 1,5a) 2 ] 3g 3 gh(h 1) g 23 2 (b 2 4c 2 2,25a 2 4bc 3a(b 2c) 4b 2 c 2 2,25a 2 4bc 3a(2b c)) 9 g. g
G
Szorozzuk be az első tagot a számlálóban álló 2-vel, és emeljünk ki a másodikból 1/g-t. Az így már összevonható két tagban helyettesítsük be g-t (5.32) szerint. Kicsit átrendezve: 1 (10b 2 10c 2 16bc 9a 2 6ab 12ac 12ab 6ac 9(a b c) 2 ) g 1 (10b 2 10c 2 16bc 9a 2 18ab 18ac 9a 2 9b 2 9c 2 18ab 18ac 18bc) g 1 (b 2 c 2 2bc). g Az utolsó zárójelben (b – c)2 áll. A végeredmény tehát: G
(5.33)
G
(b c) 2 . abc
Amennyiben nincs kapcsolt rang (a = 0), (5.33) pontosan megegyezik a McNemar-próba képletével, ahogyan az a harmadik részben szerepelt (xx. oldal), kapcsolt rangok esetén
122
azonban annak „módosított változata”.* Igen ám, csakhogy kapcsolt rangok előfordulásakor, nem G, hanem Gk az érvényes próbastatisztika!
Ahhoz, hogy Gk-t ebben a speciális esetben kiszámíthassuk, előbb meg kell határoznunk KF erre az esetre érvényes formuláját. (5.30)-ból:
KF
g (h 3 h) Ei g ( h h) 3
g 6 a6 g a bc . g 6 g abc
(Az utolsó lépésben fölhasználtuk (5.32)-t.) Eszerint
Gk
G (b c) 2 bc (b c) 2 , KF a b c a b c bc
tehát ilyenkor is a McNemar-próba eredeti képlete érvényes. Azt is láttuk azonban (xx. oldal), hogy ez egyenlő az előjelpróba normális közelítésekor kapott z négyzetével; tehát ismét csak azt kaptuk, hogy az előjelpróba és a két mintából számolt Friedman-próba ekvivalens egymással.
Az előjelpróba és a két összetartozó minta esetén elvégzett Friedman-próba ekvivalenciája tehát a nagy minták esetén alkalmazott normális – vagy inkább 2-es – közelítés esetén is igazolást nyert. És ha más nem is, annyi hasznunk mindenesetre volt ebből az összehasonlításból, hogy megtudtuk: az „egyforma párok” kihagyása, az elemszám csökkentése, ami talán önkényesnek és nehezen elfogadhatónak tűnt az előjelpróba esetében, valamilyen rejtett módon szervesen hozzátartozik e próbák lényegéhez. Figyelemre méltó az is, hogy míg a Kruskal–Wallis-próba két minta esetén a kétmintás rangsorolásos eljárással (Mann–Whitney-próba) volt ekvivalens, a Friedman-próba ugyanilyen esetben nem a megfelelő rangsorolásos módszerrel (l. a következő szakaszt), hanem egy ennél egyszerűbb, „primitívebb” eljárással, az előjelpróbával mutat közeli rokonságot. Azt jelentené ez, hogy a Kruskal–Wallis-próba „magasabb rendű” eljárás a Friedman-próbánál? Erre a kérdésre nehéz válaszolni (mert milyen más szempont szól egyik vagy másik módszer mellett az említetten kívül?), de valószínűleg nincs így. Hiszen a két módszer „levezetése” csaknem teljesen egyforma volt (l. a 108– 109. és a 119–120. oldalakat). A „hiba” inkább a két összetartozó minta vizsgálatára alkalmas rangsorolásos eljárás, a Wilcoxon-próba rendhagyó, az eddigiektől eltérő voltában van. Lássuk hát végre ezt a próbát is!
5.3.2 A Wilcoxon-próba Két összetartozó minta vizsgálatára természetesen nem a Friedman-próba (éppen az előbb megbeszélt) „határesetét”, hanem a kifejezetten erre a célra készült Wilcoxon-próbát szokás használni. Annak azonban, hogy ez a próba ennyire a fejezet végére szorult, nemcsak az az oka, hogy a varianciaanalízis tárgyalásával párhuzamosan akartunk haladni, nem szakítva azt meg egy kétmintás próbával. (Ezt említettük az 5.2 fejezet végén, a 116. oldalon.) Hanem az is, hogy ez a próba az eddigiektől eltérő, „rendhagyó” rangsorolást követel meg. Lássuk tehát, miért van ez így, és hogyan kell ezt a rangsorolást végezni. 5.3.2.1 Összetartozó mintaelemek különbségeinek rangsorolása A Wilcoxon-próba a megváltozás vizsgálatára alkalmas egymintás t-próba rangsorolásos megfelelője. Ugyanúgy, ahogy a t-próba esetében, először is az összetartozó mintaelemekből különbsége*
Meg kell jegyezni, hogy a négymezős táblázat jelöléseit használva a nevező nem ez, hanem (a + b + c + d) lenne. A kétféle „változatlan” közt azonban a Friedman-próba nem tud különbséget tenni.
123
ket számolunk. Az eljárás szempontjából mindegy, hogy az első minta elemeiből vonjuk ki a második minta elemeit vagy fordítva; csak az a fontos, hogy következetesek legyünk.
Kényelmi okoból általában arra törekszünk, hogy mennél kevesebb legyen a negatív előjel. Ha az első minta elemei szemmel láthatólag nagyobbak, akkor ebből vonjuk ki a második minta elemeit, ha a másodikban állnak a nagyobb számok, akkor az első mintát vonjuk ki amabból. De lehet a példa „szövegéhez” – vagyis az aktuális problémához – igazítani a kivonást: ha azt vizsgáljuk, hogy egy bizonyos kezelés megnövelte-e a kiindulási értéket, akkor a másodikból vonjuk ki az elsőt, hogy megkapjuk a növekedéseket – még akkor is, ha valójában csökkenés következett be, ami „negatív növekedésként” fog megjelenni.
Mivel rangsorolásos eljárásról van szó, ezekkel a különbségekkel tovább nem számolunk, hanem rangszámokkal cseréljük fel őket. Mégpedig úgy, hogy a különbségek nagysága* szerint rangsorolunk: a legkisebb különbség kapja az 1-es, a rákövekező legkisebb a 2-es rangszámot, és így tovább – függetlenül attól, hogy ezek a különbségek pozitívak-e vagy negatívak. Egyformaság esetén kapcsolt rangokat rendelünk a különbségekhez, a szokásos módon. A nulla egyszerűen nem különbség (hiszen ilyenkor nincs különbség), ezért a nullákat kihagyjuk. Az elemszám tehát nem a minták eredeti n elemszáma lesz, hanem annyi, ahány esetben eltér az első és a második összetartozó mintaelem.** Egyszerűség kedvéért erre nem vezetünk be új betűt, hanem a Wilcoxon-próba során ezt tekintjük elemszámnak. (Nem túl logikus eljárás, de pontosan ez történt az előjelpróba esetén is, és ott sem okozott zavart.) A rangsorolás végeztével „szétválogatjuk” a rangszámokat két csoportba: egyik csoportba azok kerülnek, amelyeket negatív, a másikba azok, amelyeket pozitív különbségekhez rendeltünk hozzá. (Lám, nem tudnánk mit kezdeni a nullákhoz tartozókkal, ha azokhoz is – mint „legkisebb különbségekhez” – rendelnénk rangszámokat.) Ezután mindkét csoportban kiszámítjuk a rangszámok összegét. Az első csoporthoz az R–, a másodikhoz az R+ rangszámösszeg tartozik. Bár elég lenne az egyik rangszámösszeget meghatározni, soha ne mulasszuk el kiszámítani mind a kettőt. Így tudjuk ellenőrizni, hogy nem követtünk-e el rangsorolási vagy az összeadási hibát,*** a két rangszámösszeg összege ugyanis n(n+1)/2, a már nagyon sokszor felhasznált (5.1) összefüggés értelmében. (Itt persze n már a módosított, a nullák kihagyása után megmaradt elemszámot jelenti.) Ezzel készen is vagyunk: nem kell mást tennünk, csak az R– vagy az R+ rangszámösszeget a Wilcoxon-próba táblázatához hasonlítani (Melléklet VII. táblázat), és leolvasni a megfelelő valószínűséget. Ezt azonban nehéz így a „levegőben” megbeszélni, ezért lássunk előbb egy példát. 5.3.2.2 Példa a Wilcoxon-próbára Oldjuk meg ugyanazt a példát, amelyet egymintás t-próbával már megoldottunk; így legalább módunk lesz a két eredmény egybevetésére. Iskolás lányok erősítő gyakorlatainak értékeléséről volt szó; a két mérés a tréning előtti, illetve utáni eredményeket mutatja, amelyeket egy erőmérő műszeren regisztráltak. Az 5.9. táblázat tartalmazza a kivonásokat, a rangsorolást és a rangszámösszegek előállítását is. A negatív különbségeket és a hozzájuk tartozó rangszámokat megvastagítottuk, hogy könnyebb legyen a két csoport kialakítása. Ezt kézi számolásnál is egyszerűen megtehetjük; aláhúzzuk ezeket a számokat vagy színes tintával jelöljük meg őket. Ha nincs semmiféle jelölés, könnyen lehet, hogy valamelyiket nem vesszük figyelembe vagy pedig mindkét csoportba besoroljuk.
*
Egy matematikus ezt úgy mondaná: a különbségek abszolút értéke.
**
Ugyanígy jártunk el az előjelpróba esetén is!
***
Ezekhez itt még egy újabb hiba is járulhat: egy-egy rangszámot egyik csoportba sem soroljuk be, vagy – tévedésből – mindkettőbe beleszámítjuk.
124
5.9. táblázat: Iskolás lányok erősítő tréningjének hatása Kezelés Különbség Rangszámok Kezelés A rangszámösszegek kiszámítása és ellenőrzése előtt után 5,4
0,3
3,5
5,7
A rangszámösszegek kiszámítása:
5,5
0,6
8,5
6,1
R– = 1 + 3,5 = 4,5
5,5
0,2
2
5,7
R+ = 3,5+8,5+2+10+6,5+5+8,5+6,5 = 50,5
5,1
–0,1
1
5,0
5,3
0,7
10
6,0
A rangszámösszegek ellenőrzése (n = 10):
5,8
0,5
6,5
6,3
R–+R+ = 55
5,5
0,4
5
5,9
5,7
–0,3
3,5
5,4
5,2
0
—
5,2
5,6
0,6
8,5
6,2
5,5
0,5
6,5
6,0
5,5
0
—
5,5
10.11/2 = 5.11 = 55
Most pedig hasonlítsuk a kapott értékeket a VII. táblázathoz. Az n elemszám itt 10 (a két változatlan eset miatt); a táblázatnak ezt a sorát kell használnunk. A táblázat lényegében ugyanolyan szerkezetű, mint a Mann–Whitney-próba VI. táblázata: az egyes valószínűségi szinteknél két-két szám áll. Ha az általunk kiszámított rangszámösszeg a kettő közé esik, akkor (azon a szinten) nem szignifikáns a megváltozás, míg ha a határra vagy azon kívül esik, akkor szignifikáns. Mindegy, hogy R+-t vagy R–-t nézzük: mindkettő ugyanakkor van a táblázatbeli intervallum belsejében, a határán vagy azon kívül. Vizsgálva a 10-es sorban található négy intervallumot, látjuk, hogy közülük három nem tartalmazza az 5.9. táblázatban kapott rangszámösszegeket, az utolsó viszont igen. A „legerősebb” állítást megfogalmazva: a tréning hatása az iskolás lányok kézerejére (itt mérték ugyanis az erőt) szignifikáns a 2 százalékos szinten: p<0,02. Pontosan ezt kaptuk annak idején az egymintás t-próbával is. A rangsorolásos eljárás tehát ismét ugyanolyan „jónak” (érzékenynek) mutatkozott, mint az ugyanabban az esetben alkalmazott paraméteres próba. Ha egyoldali hipotézist állítottunk volna fel (ami tökéletesen érthető lenne ebben az esetben, hiszen a tréning az erősítést célozta és a kapott eredmény is a növekedést találta szignifikánsnak), akkor a táblázatbeli valószínűségeket feleznünk kell, és az eredményt így írhatjuk: p<0,01. Erre persze a hipotézis megfogalmazásakor kellett volna ügyelni.* Mit tegyünk azonban akkor, ha a táblázat nem használható? Vagyis ha a (változatlanokkal csökkentett) elemszám meghaladja 25-öt? A következő pontban ezt beszéljük meg. 5.3.2.3 Nagy minták vizsgálata Gondolom, az olvasó már kitalálta, mi ilyenkor a teendő. Ha az elemszám elég nagy (és a 25 fölötti már ilyennek számít), a rangszámösszegek normális eloszlást követnek. Csak a megfelelő paramétereket kell megadni, hogy a standardizálást elvégezhessük. *
Azért nem fogalmaztunk pontosabban, mert ugyanígy végeztük annak idején a t-próbát is. Az egyoldali–kétoldali megkülönböztetést csak később, az első próbák kiszámítása után vezettük be.
125
Mivel két rangszámösszeg van, két-két paraméter megadását várjuk. Ezzel szemben összesen kettőt kell megadnunk: R– és R+ (közelítő) normális eloszlásának ugyanazok a paraméterei. A két paramétert a karakteresebb + és + szimbólumokkal fogjuk jelölni (az indexbe tett mínusz előjel néha mintegy „elsikkad” a görög betű és a formula közt). A két szükséges paraméter eszerint: (5.34)
μ
n(n 1) 4
és (5.35)
σ
n(n 1)(2n 1) 24
.
A formulák meglehetősen egyszerűek.
A nullhipotézis teljesülése esetén (és mi más érdekelne minket, mikor statisztikai próbát készítünk?) a pozitív és negatív változások ugyanakkorák. A pozitív különbségekhez tartozó rangszámösszeg tehát éppen ugyanakkora, mint a negatívokhoz tartozó; vagyis mindkettő egyenlő a teljes rangszámösszeg, n(n+1)/2 felével. Ezzel az első formulát be is láttuk. A második, a szórás képlete az első n szám négyzetösszegéből vont gyök fele (l. az (5.4) formulát). Most azt fogjuk megmutatni, hogy miért éppen ennyi a szórás. Lássuk el a negatív különbségekhez tartozó rangszámokat mínusz előjellel! Ekkor a teljes minta az 1, 2, …, n rangszámokból áll, csak közülük némelyeknek +, másoknak – az előjele. A nullhipotézis – változatlanság – teljesülése esetén a pozitív és negatív rangszámok ugyanannyian vannak és mintegy „kiegyenlítik egymást”. Ezt egy kicsit matematikusabb módon úgy fejezik ki, hogy egy-egy rangszám 50% valószínűséggel kap + (és természetesen ugyanilyen valószínűséggel –) előjelet. Ha így tekintjük őket, akkor az i rangszám várható értéke 0 (mert ugyanakkora valószínűséggel lehet az értéke +i, mint –i), varianciája pedig i2. (Négyzetéből a várható érték négyzetét kellene levonnunk, az pedig nulla.)
A mintaelemek, mint arról valamikor régen, a bevezetőben szó volt, egymástól független változók. (Ha nem így lenne, nem hordoznának ugyanannyi információt a változóra vonatkozóan, és az n elemű minta „kevesebbet érne”, mint n mintaelemtől elvárható lenne.) Azt is említettük az első részben (xx. oldal), hogy független változók összegének varianciája az összeadandók varianciáinak összegével egyenlő; számtalanszor fölhasználtuk ezt a szabályszerűséget a próbák képletének előállítása során. A rangszámokból álló, de a jelzett módon előjelekkel ellátott minta varianciája tehát i 2 , és hogy ez mennyi, azt a korábban bebizonyított (5.4) képletből tudjuk – csak éppen N helyébe mindenütt kis n-et kell írnunk. Ennek gyöke azonban a teljes összeg szórása lenne, nekünk pedig csak R+ (és a nullhipotézis értelmében vele egyenlő nagyságú R–) szórása kell; az (5.4)-ből kapott kifejezés gyökét tehát el kell feleznünk. Ha a 2-es osztót bevisszük a gyök alá (persze négyzetre emelve), rögtön kapjuk a fenti, (5.35)-ös képletet.
Most pedig végezzük el a Wilcoxon-próbát ezen a közelítő módon is, és hasonlítsuk össze a kapott eredményeket. (Ne felejtsük: ezzel csak az eljárást illusztráljuk! A próbát mindig elég egyféleképpen elvégezni, és ha táblázat áll a rendelkezésünkre – tehát ha n nem nagyobb 25-nél –, akkor eszünkbe sem jut a közelítő módszert alkalmazni.) A várható érték és a szórás kiszámítása: 10 11 10 11 21 μ 27,5 σ 2 96,25 σ 9,8107 4 24 A z érték és a valószínűség meghatározása (az I. táblázatból):
126
50,5 27,5 p = 0,0095, 2,344 9,8107 de ez egyoldali valószínűség, mi pedig kétoldali próbát végzünk. A próba végeredménye eszerint: p = 0,019. Ugyanaz jött ki tehát, mint az előbb (és mint az egymintás t-próbával): kétoldali hipotézis esetén p < 2%. z
5.3.2.4 Kapcsolt rangok előfordulása A példában is voltak kapcsolt rangok, de ez nem okozott semmiféle gondot. Egyrészt 2–2 adat volt csak egyforma; ilyenkor alig változik az eredmény, bármilyen korrekciót vezetünk is be. Másrészt az eredmény így is szignifikáns volt; miért akartuk volna „még szignifikánsabbá” tenni azt? (Tudjuk, hogy a korrekció mindig ebben az irányban hat.) Végül pedig a példát a Wilcoxon-próba táblázata segítségével oldottuk meg, és csak az illusztráció kedvéért számítottuk ki a normális közelítést is. A táblázat használatakor, akárcsak az eddig tárgyalt többi próba esetében, nem kell semmiféle korrekciót végezni – de nem árt tudni azt, hogy a táblázat ilyenkor a „konzervatív” irányban torzít egy kissé, azaz nehezebben ad szignifikáns eredményt. (A helyes valószínűségi értékek valamivel alacsonyabbak, mint a táblázatban feltüntetett szintek.) Ezzel azonban nem kell törődnünk; elég, ha tudomásul vesszük, hogy így van. Nagyobb elemszámok esetén, ha már nem tudjuk használni a táblázatot, a rangszámösszegeket standardizálni kell, és ilyenkor már fölmerül a kapcsolt rangok miatti korrekció kérdése. Mint a korábbi esetekben is: a szórást kell módosítanunk. (Kapcsolt rangok esetén, mint tudjuk, kisebb lesz a szórás.) Most azonban nem lesz szükség olyan bonyolult korrekciós képletre, mint a korábban tárgyalt próbák esetében.
Az 5.1.4. szakasz elején található levezetésből tudjuk, hogy a kapcsolt rangok miatti korrekció csak az adatok négyzetösszegét módosítja, mégpedig úgy, hogy ki kell belőle vonnunk a Ei 12 kifejezést, ahol Ei az egyformákból álló sorozatok ei hosszából (5.7) szerint képzett kifejezést jelenti. Az (5.35)-ös képletben csak a (4-gyel elosztott) négyzetösszeg áll a gyök alatt, a korrekciós tagot tehát ebből kell levonni. A szórás felezése miatti 4-es osztó persze erre az új tagra is vonatkozik, a korrigált szórásképlet tehát:
n(n 1)(2n 1) Ei . 24 48 Most pedig nézzük meg néhány meglehetősen szélsőséges példán, hogy mit eredményez a kapcsolt rangok miatti korrekció. 24 elemű példákat választottam, mivel ennél az elemszámnál, mint azt látni fogjuk, az (5.34), (5.35) paraméterek akár fejben is kiszámíthatók. Ez az elemszám már elég nagy ahhoz, hogy a rangszámösszegek normális eloszással való közelítése megbízható legyen, viszont még benne van a VII. táblázatban, így az eredményeket ott is ellenőrizhetjük. Az 5.10. táblázatban három, hasonló adatokra támaszkodó példa szerepel: az egyikben nincsenek kapcsolt rangok, a másikban az egész minta ilyenekből áll, de az egyforma adatokból álló sorozatok (nem éppen, de) viszonylag rövidek, végül a harmadik példában az egyformákból álló sorozatok igen hosszúak, emellett a minta tartalmaz nem kapcsolt rangokat is. Természetesen számtalan variációt lehetett volna készíteni ezekből (és teljesen más) adatokból, de a mondanivaló illusztrálására elég lesz ez a három is. Mindhárom esetben Wilcoxon-próbát végzünk, kétoldali hipotézissel. A. Mivel a VII. táblázatban szerepel a 24-es elemszám, az eredmény onnan közvetlenül leolvasható, hiszen az 5.10. táblázatban ott vannak az R+, illetve R– rangszámösszegek is. Látjuk, hogy 80 (és 220) kívül esnek az 5%-os szignifikanciához tartozó határokon, az A példa eredménye tehát szignifikáns. Viszont a (5.36)
K
127
82 (és 218) rangszámöszszegek ugyanezeken a határokon belül vannak, a B és C példa eredménye tehát – a Wilcoxon-próba táblázata szerint – nem szignifikáns. Igen ám, de a táblázat – kapcsolt rangok előfordulása esetén – a „konzervatív irányba” torzít, tehát hajlamos megtartani a nullhipotézist, pedig a pontos valószínűség esetleg kisebb 0,05-nél. Itt vajon nem ez az eset áll-e fönt, hiszen a rangszámösszegek közel vannak a (szignifikanciát jelentő) határokhoz, és ugyancsak sok a kapcsolt rang mindkét példában. Ennek vizsgálatára megoldjuk ezeket a példákat normális közelítéssel is, és alkalmazzuk az (5.36) alatt található korrekciót. 5.10. táblázat: Wilcoxon-próba 24 elemű mintákból, kapcsolt rangokkal és anélkül A eset: Kapcsolt rangok nincsenek Különbségek (rendezve)
0,1 –0,2 –0,3 –0,4 0,8 0,9 –1,0 –1,4 1,5 –1,6 –1,8 –1,9 2,2 2,3 2,4
Rangszámok – +
1 2 3 4 5 6 7 8 9 10
B eset: Az egyforma adatokból álló sorozatok viszonylag rövidek Különbségek (rendezve)
0,3 0,3 0,3 0,3 –0,3 1,4 –1,4 –1,4 –1,4 1,8
13 14 15
–1,8 –1,8 2,3 2,3 2,3
2,5 3,1 3,2 3,3 3,4
16 17 18 19 20
2,3 –2,3 3,2 3,2 3,2
3,5 3,7 –3,8 3,9
21 22
–3,2 3,8 3,8 3,8
11 12
23 24
R– és R+ : 80 220
R– és R+ :
Rangszámok – +
3 3 3 3 3
C eset: Két hosszú sorozat is van egyforma adatokból Különbségek (rendezve)
Rangszámok – +
0,4 0,4 0,4 0,4 0,4
4,5 4,5 4,5 4,5 4,5
11
–0,4 –0,4 –0,4 –1,5 –1,6
15 15 15
2,3 2,3 2,3 2,3 2,3
16,5 16,5 16,5 16,5 16,5
19,5 19,5 19,5
2,3 2,3 2,3 2,3 –2,3
16,5 16,5 16,5 16,5
23 23 23
–2,3 –2,3 3,8 3,9
7,5 7,5 7,5 7,5 11 11
15 15
19,5
82 218
4,5 4,5 4,5 9 10
16,5 16,5 16,5 23 24
R– és R+ : 82 218
A negatív és pozitív értékekhez tartozó rangszámokat külön oszlopba írtuk, hogy az összeadást megkönnyítsük. Mindenekelőtt számítsuk ki a normális közelítéshez szükséges várható értéket és szórást. Mivel ezek csak az elemszámtól függnek, értékük mindhárom példában ugyanaz. Mint korábban említettem, ennél az elemszámnál a paraméterek mindenféle segédeszköz nélkül kiszámíthatók. Az (5.34) és (5.35) képletek alapján:
24 25 6 25 150 4 128
24 25 49 25 49 5 7 35 24 Oldjuk meg először az A feladatot normális közelítéssel. A számolás hihetetlenül egyszerű: z 220 150 70 2. 35 35 A Melléklet I. táblázatából p = 0,02275 olvasható ki, ez azonban csak az eloszlás egyik vége. Mivel kétoldali próbát végzünk, ezt a valószínűséget meg kell szoroznunk kettővel; a végeredmény p = 0,0455, vagyis kisebb 5%-nál. Az eredmény tehát szignifikáns, egybehangzóan a Wilcoxonpróba táblázatából kiolvasott eredménnyel. A rangszámösszegekből látjuk, hogy a pozitív különbségek – önkontrollos kísérlet esetében mondhatjuk így: a növekedések – vannak túlsúlyban. (Ez egyébként a másik két példa esetében is így van.) Az első példa (A) inkább csak tréfából szerepel itt, hiszen a kapcsolt rangok miatti korrekció hatásával foglalkozunk éppen. De szerettem volna megmutatni, hogy még bonyolult, ijesztő képletek használata során is kaphatunk – és nem is olyan ritkán! – egyszerű, fejben is kiszámolható eredményeket. A B és C példa eredménye a Wilcoxon-próba táblázata szerint nem volt szignifikáns. Nincs ez másképp normális közelítés alkalmazásakor sem. Mindkét példára érvényesen:
z 218 150 68 1,943. 35 35 A Melléklet I. táblázatában p = 0,026 (z harmadik tizedesjegye alapján interpoláltunk az 1,94-hez és 1,95-höz tartozó valószínűségek közt), de ezt ismét meg kell szoroznunk kettővel, hiszen kétoldali próbát végzünk: p = 0,052. Az eredmény, ahogy vártuk is, nem szignifikáns (p>0,05), de nincs messze tőle. Azt is tudjuk, hogy a kapcsolt rangok miatti korrekció „a szignifikancia irányába” tolja el az ereményt. Vajon szignifikánsak lesznek-e az eredmények korrekció után? A B példában egyetlen egy „tisztességes rangszám” sincs, csak kapcsolt rangok. Az egyforma adatokból álló sorozatok hosszára (ei) van szükség, hogy a korrekciós képletben szereplő Ei-ket meghatározhassuk. Ezek az ei hosszúságok, mint azt az 5.10. táblázatból könnyen kiolvashatjuk, rendre: 5, 4, 3, 5, 4, 3. A hozzájuk tartozó Ei értékek leolvashatók a 97. oldalon található kis táblázatból: 120, 60, ill. 24 – és itt mindegyik kétszer szerepel. Az Ei értékek összege ebben a mintában 2×204 = 408. Bármennyire örültünk is az előbb a „fejben kiszámítható” szórásnak, most vissza kell térnünk a varianciához, mert a korrekciót gyökvonás előtt – a „gyökjel alatt” – kell elvégeznünk. (Lásd az (5.36) képletet!) A + szórás képletében 25×49, azaz 1225 áll a gyökjel alatt (ami persze ugyanaz, mint 35 – a szórás – négyzete). Ebből kell levonnunk az Ei-k összegének 48-ad részét, hogy a korrigált varianciát megkapjuk. Most már elkezdhetjük a számolást: K 1225 408 1225 8,5 1216,5 34,8784. 48 z 218 150 1,9496 34,8784 Az I. táblázatból kikeresett fél-valószínűség alig lesz nagyobb a z=1,95-höz tartozó értéknél: p = 0,0256. A végeredmény ennek kétszerese, p = 0,0512 – tehát nem szignifikáns! Hiába volt a rengeteg kapocsolt rang, a végeredmény alig módosult. Az 5.1.4. szakaszban már említettük, hogy nem annyira a kapcsolt rangok száma, hanem az egyformákból álló sorozatok hosszúsága dönti el, hogy a korrekció mennyire módosítja a próba végeredményét. Vizsgáljuk meg most a C feladatot, ahol ugyan csak két ilyen sorozat van, de azok hosszabbak, mint a B példában találhatók. Az 5.10. táblázatből könnyű megállapítani, hogy a különbségek mintájában az első 8, és később még 12 adat egyforma. Az előbbi jelölésekkel e1=8,
129
e2=12. A hozzájuk tartozó Ei értékeket már nem találjuk meg a 97. oldal kis táblázatában; ki kell őket számítanunk: E1 = 7×8×9 = 504 E2 = 11×12×13 = 1716. (Ne felejtsük el, hogy n3 n (n 1)n(n 1), és a formula kiszámításának egyszerűbb módja ez az utóbbi.) A számolás menete ugyanaz, mint az előbbi példában:
K 1225 504 1716 1225 46,25 1178,75 34,3329 48 z 218 150 1,9806 34,3329 Az I. táblázatban z=1,98-nál 0,02385-öt találunk, a fenti z-hez tartozó valószínűség ennél alig kisebb: 0,02382. Ennek duplája lesz a próba végeredménye: p = 0,04764 – tehát kisebb 5%-nál! Az eredmény – az (5.36) alatti korrelció felhasználásával – szignifikáns. Más kérdés, hogy az ilyen „nyögve kierőszakolt” szignifikanciáknak van-e valami értelme. Az 5%-os érték egy megállapodás, semmi több. Az, hogy éppen átlépjük vagy éppen nem lépjük át, a gyakorlat szempontjából vajmi keveset számít. Akkor tehát fölösleges volt ez az egész „kínlódás”, a lehető legjobb korrekciós képlet megtalálása? Nem egészen. A statisztikai módszerek soha nem a valóságot írják le, hanem annak egy – többé-kevésbé jól sikerült – megközelítését. Igyekeznünk kell a legtökéletesebb statisztikai leírást – a legjobb modellt – megtalálni és azt alkalmazni. De mindig tudnunk kell, hogy ez nem maga a valóság, hanem annak egy – szegényes elképzelésink szerint felépített, leegyszerűsített – megközelítése.
Miért húzunk mégis „falat” az 5%-os valószínűségi szintnél? Azért, mert valamiben meg kellett állapodni, hogy mikor mondhatjuk (például egy gyógymód hatásossága esetében) azt, hogy „igen”, és mikor azt, hogy „nem” – úgy, hogy azt más is elfogadja. Nem azért, mert ő is hisz benne vagy helyesli, hanem mert világszerte elfogadott megállapodás, hogy ami a bűvös érték alá esik, az igen, ami pedig fölé, az nem. Ez azonban legtöbbször nem zárja le a kérdést, nem állítja (és akadályozza) meg a további vizsgálódást. Valahogy úgy van ez, mint a törvényekkel. Pontos határokat kellett húzni, hogy a törvény működjék – de a bírói elbíráláson múlik, hogy egy „eset” a határ melyik oldalára esik. (Jobb nem a kellemetlen asszociácókat keltő büntetőtörvényekre gondolni; elegendő analógiát nyújt a polgári törvénykönyv és annak alkalmazása.)
Befejezésül még egy megjegyzést fűzünk a Wilcoxon-próbához. Korábban céloztunk rá, hogy valahogyan „rendhagyó”, némiképp „kilóg a sorból” – szóval nincs minden rendben vele. Ha jobban megfigyeljük a követendő eljárást a tárgyalt négy statisztikai próba esetében, könnyen rájövünk, mi itt a „baj”, a rendkívüliség. A többi próba mindig úgy kezdődött, hogy az adatokat rangszámokkal cseréltük föl, és eztán minden számolást a rangszámokkal végeztünk. Itt azonban nem! Úgy indult az eljárás, mint egy paraméteres próba; mondjuk mint a Wilcoxon-próba paraméteres megfelelője, az egymintás t: kivontuk egymásból az összetartozó adatokat. Csak ezután kezdődött a rangsorolás, a különbségek kicserélése rangszámokra. Egy kicsit olyan öszvér-próba ez: nem paraméteres, de nem is egészen rangsorolásos. Ennek a különcségnek „tudományos” megfogalmazást is lehet adni, nem csak így beszélgetni róla. Azt szokták mondani, hogy ez a próba nemcsak azt követeli meg, hogy az adatok között egyértelmű legyen a sorrend („ez kisebb, az pedig nagyobb”), hanem azt is, hogy a változások (különbségek) ugyanígy rendezhetők – rangsorolhatók – legyenek. Látszólag teljesen természetes ez és magától értetődő, mégsem következik az alapadatok rangsorba állíthatóságából. Ha például olyasmit vizsgálunk, amire a százalékos változás jellemző, hamis eredményt kaphatunk.
130
Egy rövid számpéldával világítom meg ezt az állítást. Legyen a kezelés olyan, hogy átlagosan (vagy jobb lenne így mondani: tipikusan, jellemzően) 10%-os változást idéz elő a vizsgált értékben. Akkor egy 8%-os változás „kicsi”, egy 12%-os pedig nagy; rangsorba állításkor az első megelőzi a másodikat. Legyen a két összetartozó adatpár, amelyek majd segítenek eligazodni ebben a problémában, 50 és 56, valamint 100 és 108. Az első párban 6 a különbség, a másodikban 8; rangsoroláskor az első megelőzi a másodikat. (Az most mindegy, hogy jönnek-e még közéjük más különbségek a mintából vagy nem.) Viszont az első pár esetén 12%-os növekedés következett be, a második esetben pedig 8%-os, tehát a helyes (??) rangsoroláskor a második adatpár kerül előrébb, mert ott kisebb a növekedés. Egyszerű esetet vettünk példának, de nyilván vannak a kezelésre bekövetkező megváltozásnak bonyolultabb törvényszerűségei is, amikor nem ilyen könnyű eldönteni, hogy melyiket kell kisebbnek, melyiket nagyobbnak tekinteni. (A fenti esetben egyszerű a megoldás: különbség helyett a hányadosokat – vagy a százalékos változásokat – kell kiszámítani, és azokat rangsorolni.) Bár már a t-próba esetében is találkoztunk ezzel a problémával (ott azt mondtuk: lehet hányadosokkal is elvégezni a próbát, de ha az eredeti adatok normális eloszlásúak voltak, a hányadosok – ellentétben a különbségekkel – nem lesznek azok), de valahogy nem sokat törődtünk vele. Őszintén meg kell mondanom: azon kívül, hogy a tankönyvek (de nem mindegyik!) figyelmeztetnek a Wilcoxon-próbának erre a külön feltételére, a gyakorlatban nem találkoztam még vele. Nem emlékszem, hogy láttam volna valakit, aki megnézte volna: teljesül-e ez a feltétel, és hogyan lehetne korrekt módon alkalmazni a Wilcoxon-próbát. Mit lehet erre mondani? Azt, hogy mégsem olyan egyszerű a statisztikai módszerek alkalmazása a gyakorlatban, és még a legegyszerűbb, közkeletű eljárások is megtréfálhatnak néha. Mégsem lenne helyes, ha ez elvenné a kedvünket a statisztikai próbák alkalmazásától. Meg aztán: tudunk jobbat helyettük? Ugye hogy nem!
131
5.4 Rangkorrelációs módszerek Az előző két fejezetben – független és összetartozó mintákat hasonlítva össze – végső soron a különbség és a megváltozás rangsorolásos statisztikai próbáit ismertük meg. Ebben a fejezetben a kapcsolat vizsgálatának rangsorolásos módszereiről lesz szó. Ilyenkor mindig egy minta van, és ezen az egy mintán (legalább) két változót vizsgálunk.* A rangkorrelációs módszerek egyszerre mindig két (és csak két) változót vesznek figyelembe. A következő fejezet foglalkozik egy olyan módszerrel, amely kettőnél több változót vizsgál egyszerre. Magától értetődő dolog – meg jól ismert már a korrelációs együtthatóval kapcsolatban mondottakból is (1.5 fejezet) –, hogy a két változó értékei páronként összetartoznak. Ugyanannak a személynek (esetleg állatnak vagy tárgynak) két tulajdonságáról, két jellemző értékéről van szó; ez határozza meg az adatpárok összetartozását. A minta elemszáma, a személyek száma (amit n-nel fogunk jelölni) ilyenkor tehát nem az „adatok számával” egyenlő: kétszer vagy – a következő fejezetben – többször ennyi adat van; ám „különválasztva”, az adatpárokat egymástól elszakítva a probléma értelmét veszti. Nem „az emberek testmagasságáról”, sem pedig „súlyáról” (valójában tömegéről) akarunk megfogalmazni valamit, hanem a kettő összefüggéséről. Ha különválasztanánk az összetartozó adatpárt, mondjuk külön kezelve ugyanannak a személynek a magasságát és a testsúlyát, nem tehetnénk fel afféle kérdést, hogy nagyobb testmagassággal nagyobb súly jár-e együtt (általában persze, és nem törvényszerűen), vagy pedig nem. A minta adatait továbbra is átrendezhetjük, sorrendjüket fölcserélhetjük – de nem külön-külön, hanem mindvégig együtt tartva az adatpárokat. A paraméteres esetben az r korrelációs együttható mérte a változók közti kapcsolatot, a kontingenciatáblázatokban pedig a ( kontingencia- és a ( asszociációs együttható.** Lássuk tehát, milyen mérőszámokat kínál a statisztika rangsorolható adatok esetén. Az első szakaszban a Spearman-féle rangkorrelációs együtthatót ismerjük meg, amelyik lényegében az r korrelációs együttható „átmentése” nemparaméteres vizsgálatokra, a második szakaszban a Kendall-féle rangkorrelációt, amely a kontingenciatáblázat együtthatójához hasonló, de annál finomabb mérőeszközt kínál a rangsorba állítható adatok kapcsolatának mérésére.
5.4.1 A Spearman-féle rangkorrelációs együttható Ahhoz, hogy ezt az együtthatót megismerjük, használatát elsajátítsuk, semmi mást nem kell tudnunk, csak azt: hogyan kell rangsorolni az adatokat. Amint ugyanis ez megvan, egyszerűen korrelációs együtthatót (r-t) kell számolnunk – de nem az eredeti adatokból, hanem a helyükbe lépő rangszámokból. Ezt az együtthatót rS-sel fogjuk jelölni, az indexben is „emléket állítva” a sokoldalú „műkedvelő” statisztikus (és műkedvelő pszichológus) kutatónak, Spearmannek. Nem csak egyszerűsége, az r lineáris korelációs együtthatóval való szoros rokonsága miatt került első helyre ez az együttható: időben is megelőzte a másikat. A klasszikus rangsorolásos módszereket (és ebben a könyvben csak ezeket tárgyaljuk) mind a XX. század közepén dolgozták ki. Spearman a maga együtthatóját 1904-ben (!) publikálta egy
*
A gyakorlatban úgyis mindig ez történik! Nem egy, de nem is kettő, hanem több adatot jegyzünk föl minden megvizsgált személyről. Ha mást nem is, például azt, hogy férfi-e vagy nő; de legtöbbször följegyezzük a korát is – és minden egyebet, ami fontos lehet a vizsgált tulajdonság szempontjából, vagy kellhet a szóban forgó csoport – a minta – megfelelő jellemzéséhez. **
És ne feledkezzünk meg a pont-biszeriális korrelációról sem, amelyik akkor alkalmazható, ha egyik változó mérhető, a másik pedig dichotóm.
132
pszichológiai folyóiratban – nem sokkal azután, hogy Pearson* bevezette a kapcsolat máig legismertebb mérőszámát, az r lineáris korrelációs együtthatót. Ha már szóba került ez a linearitás, álljunk meg egy percre, és nézzük meg: hogyan áll ez a dolog a nemparaméteres esetben. Gondoljunk az első részben (xx oldal) megismert pontdiagramra, az (xi, yi) adatpárok derékszögű koordinátarendszerben történő ábrázolására. A pontok egyenes körüli tömörülését mérte az r együttható, és „rosszul mért”, ha az adatpárok által meghatározott pontok valamilyen görbe mentén helyezkedtek el. A rangsorolás „kizárja” a görbét, hiszen az egymást követő rangszámok egyforma távolságban, egyenlő „lépésközzel” követik egymást; nem fordulhat elő, hogy egyik változó „gyorsabban” (mondjuk a másik négyzetével arányosan) nő. A rangszámok azért mégsem zárják ki, hogy valamilyen görbeség elő ne forduljon. Mégpedig olyan (l. az 1.x. ábrát a xx. oldalon), amikor a görbe visszafordul: x növekedésével y egy darabig nő, azután csökkenni kezd (vagy fordítva: először csökken, aztán meg növekszik).** A „linearitás” követelménye helyébe a rangkorrelációs esetben ezért a „monotonitás” lép: a rangkorrelációs együtthatók monoton kapcsolatok mérésére alkalmasak: mennél nagyobb az egyik változó, annál nagyobb a másik is (pozitív korreláció), vagy éppen fordítva: mennél nagyobb az egyik, annál kisebb a másik (negatív korreláció). A fogalom szimmetrikus (akárcsak a képletek): az „egyik” helyett mondhatunk x-et vagy y-t, mindegy. 5.4.1.1 Az adatok rangsorolása Rangkorreláció számításakor a két változót külön rangsoroljuk, tehát az 1 és n közti rangszámokkal helyettesítjük mind az xi, mind az yi adatokat Annyira magától értetődő, hogy a változókat nem rangsorolhatjuk együtt, hogy az ember szinte szégyelli magyarázni. Gondoljunk csak az egyik legkézenfekvőbb, korábban is említett példára: azt vizsgáljuk, hogy milyen a kapcsolat a testmagasság és a „testsúly” közt. Az egyik hosszúság dimenziójú, általában cm-ben felírva, a másik tömeg, rendszerint kg-ban. Hogyan lehet két különböző dimeziójú számról azt mondani, hogy egyik kisebb, másik nagyobb? Ha csak a számjegyeket néznénk, a rangsor elején szerepelnének az összes súlyok, a végén a testmagasságok. Azok talán nagyobbak? És ha a magasságot méterben adjuk meg (1,73, 1,82 stb.), akkor azok lesznek a „kisebbek”, és ők kerülnek a rangsor elejére! De még ha azonos a két dimenzió, akkor is abszurdum az „együttes” rangsorolás! Ha két lelki tulajdonságot, mondjuk a depressziót és a szorongást mérjük egy-egy pszichológiai teszttel: mindkettőt egy pontszám jellemzi, tehát azonos a „dimenzió”; mégsem mondható, hogy egy 20 pontos depresszió enyhébb (a rangsorban előrébb áll) egy 30 pontos szorongásnál – különösen akkor, ha az egyiket 25, a másikat mondjuk 50 pontos skálán méri a teszt. Vagy lássunk egy közérthetőbb példát. Ha a följegyzett adat a szisztolés, illetve a diasztolés vérnyomás – amiket nyilván ugyanazon a skálán, ugyanabban az egyégben mérünk és adunk meg –, akkor sem keverhetjük össze és rangsorolhatjuk őket együtt, mert az egésznek úgy semmi értelme. Külön rangsoroljuk tehát az x, és külön az y adatokat. Ha egyformák akadnak köztük, azok kapcsolt rangokat kapnak (ugyanazt a rangot, a rájuk jutó rangszámok átlagát). Az xi adatokat az ri, az yi adatokat a qi rangszámokkal cseréltük fel, ahol ri és qi egyaránt 1 és n közti egész számok, vagy – egyes esetekben, ha páros számú rangot vagyunk kénytelenek „összekapcsolni” – az említettek közé eső „félszámok” (pl. 1,5, 6,5 vagy ilyesmi).
*
Ha már ebben a fejezetben annyi mindenkit emlegetünk, mint egyik vagy másik módszer felfedezőjét, essék egyszer szó Karl Pearsonról is, akit sokan a (modern) statisztika megindítójának, első jelentős alakjának tartanak. (Mások ezt a szerepet az ugyancsak sokoldalú Francis Galtonnak szánják, akiről már a könyv első részében is volt szó.) Pearson nevéhez fűződik – a korrelációs együtthatón kívül – a négymezős táblázatokból számolható 2-próba is (l. a 3.x fejezetet). **
Persze mindez a két változó kapcsolatának törvényszerűségére vonatkozik, nem az egyes pontokra. Azok – a véletlen hatások következtében – szétszóródnak, eltérnek az (elképzelt) egyenestől, görbétől. Hiszen a statisztika éppen az ilyen véletlen hatásokkal, „szabálytalan” szétszóródásokkal foglalkozik.
133
5.4.1.2 Az rS együttható kiszámításának módja Az előbb mondottak szerint megváltoztatott, az eredeti adatok helyett rangszámokból álló mintában egyszerűen kiszámítjuk az r korrelációs együtthatót, ugyanúgy, ahogy annak idején az xi, yi mérési adatokból tettük:
Qrq
rS
(5.37)
Qr Qq
,
ahol a szereplő kifejezések ugyanazt jelentik, mint az első részben. Igazán csak a biztonság kedvéért ismételjük meg őket: Qrq ri qi
(5.38)
r q i
i
n
r r n
2
Qr
(5.39)
i
2
i
q q n
2
Qq
(5.40)
i
2 i
.
Valamennyi szumma 1-től n-ig értendő. (Már régi megállapodás, hogy a határokat ilyenkor nem írjuk ki.) Ha nincsenek kapcsolt rangok, Qr és Qq pontosan ugyanakkora (azt is tudjuk (5.5)-ből, hogy értékük (n3–n)/12), tehát az (5.37) képlet jelentősen egyszerűsödik. Érdemes azonban ilyenkor további egyszerűsítéseket is bevezetni.*
Nemcsak a nevezőben álló négyzetösszegeket, Qrq-t is sikerül egyszerű, könnyen számolható alakra hozni, ha sem az xi, sem az yi adatok közt nincs egyforma. Először is számítsuk ki az összetartozó rangszám-párok különbségét, di-t (5.41)
di ri qi .
Mindegy, hogy r-ből vonjuk-e ki q-t vagy fordítva, mert csak a különbség négyzetére lesz szükség, az pedig így is, úgy is pozitív. Az (5.41) alatti különbséget emeljük négyzetre: di2 ri 2 qi2 2ri qi , majd összegezzük az így kapott tagokat valamennyi mintaelemre:
(5.42)
d
2 i
ri 2 qi2 2 ri qi .
Mivel ri is, qi is az 1 és n közti egész számokat jelenti (csak más sorrenben, ami az összeadás eredményén nem változtat),
r
2
i
qi2 ,
továbbá ugyanezen okból
r q r q . 2
2
i
n
*
i
n
i
i
n
Ebben a számítógépes világban igazán kérdéses: érdemes-e ezeket az „egyszerűsítéseket” elvégezni. Ha a gépben szerepel r kiszámítási programja – márpedig nemcsak a kompjuterekben, a „jobb” zsebszámológépekben is van ilyen program vagy létre lehet hozni –, akkor kár további egyszerűsítéssel kínlódni: egyszerűbb, ha azt használjuk. Mégsem mehetünk el mellette szó nélkül, mert a tankönyvek többsége egyszerűen az itt következő, kézi számításkor valóban egyszerűbb formulát adja meg – gyakran az általános képlet említése nélkül.
134
Ezek segítségével (5.42) így alakítható tovább:
r q d r n q n 2
2 i
2
2
i
i
Qr Qq 2Qrq 2 ahonnan
i
2 i
2 ri qi 2
r q i
i
n
n n 2Qrq , 12 3
n3 n di Qrq . 12 2 2
Ezt kell elosztani az (egymással egyenlő) Qr és Qq szorzatának négyzetgyökével, tehát (n3–n)/12-vel. Az egyszerűsítést fejben is elvégezhetjük. A végképlet:
rS 1
(5.43)
6 d i2 n3 n
.
A levezetés során – aki vette a fáradságot, és végigolvasta azt, láthatta – sokszor kihasználtuk, hogy nincsenek kapcsolt rangok. A (kézi számolásra szánt) (5.43) alatti képlet tehát csak az ilyen esetekben érvényes. Mivel azonban kevés kapcsolt rang csak kevéssé változtatja meg az eredményt, sokan (nagyon helytelenül) ilyenkor is az (5.43)-as, egyszerűnek kikiáltott, de azért mégsem olyan egyszerű képletet használják (5.37) helyett. De ki mondja meg, hogy mennyi a „kevés” kapcsolt rang és mennyi a „sok”? Nehéz elképzelni, hogy erre bárki is „elméletileg alátámasztott” szabályt fog kidolgozni. De nincs is rá szükség: ahelyett, hogy méricskélnénk, mennyi torzítást engedünk meg magunknak (azért a kis előnyért, hogy (5.43)-mal számolhatunk), jobban tesszük, ha már egyetlen adat-egyformaság, egyetlen kapcsolt rang esetén is az általánosan érvényes, (5.37) alatti képletet használjuk.* Egy valamire feltétlenül jó ez az egyszerűsített képlet. Azonnal látszik rajta, hogy a Spearmanféle rangkorrelációs együttható értéke +1, ha a két adatsor – a két változó – a lehető legszorosabb kapcsolatban van. Ilyenkor ugyanis a legkisebb x-adat párja a legkisebb y-adat, a következő legkisebbé a következő legkisebb y – és így tovább az egész mintában. A két rangsor, r és q tehát „identikus”: a párok ugyanazokból a (pozitív egész) számokból állnak. Ilyenkor valamennyi di különbség nulla, így (5.43) második tagja eltűnik. Ha a rangsorok éppen fordítva felelnek meg egymásnak, vagyis az 1-es párja n, a 2-esé (n–1), és végig tovább ugyanezen szabály szerint, az együttható –1. Meg lehet ezt mutatni az (5.43)-as képleten is, de ezzel most nem fárasztjuk az olvasót.
Ehelyett egy régi ismeretre hivatkozunk, a könyv első részéből: a korrelációs együttható nagysága nem változik, ha az egyik (vagy mindkét) változót lineárisan transzformáljuk; előjele is csak akkor, ha az egyik transzformáció negatív számmal való szorzást ír elő valamelyik változó számára. A rangsor megfordítása** azt jelenti, hogy a korábbi qi rangszámok helyett a következő módon adunk meg új rangszámokat: (5.44)
ti n 1 qi .
(Tessék végigpróbálni: ez éppen a rangszámok fordított sorrendjének felel meg, ahogy a -os rész előtti utolsó bekezdésben az első néhány tagra megmutattuk.) *
A példák után azért még visszatérünk erre a kérdésre. Már csak azért is, mert sajnos elég általános gyakorlat, tankönyvekben is, az (5.43)-as képlet használatának ajánlása. **
És nemcsak az említett, –1-es korrelációt adó esetben, hanem mindig, ha az egyik változót fordítva rangsoroljuk. (Például a megoldáshoz szükséges idő helyett a megoldás sebességét adjuk meg. Ekkor a legkisebb adatból lesz a legnagyobb, és az egész sorrend megfordul.)
135
Az pedig világos, hogy (5.44) lineáris transzformáció: a rangszámokat (–1)-gyel szoroztuk (ami az előjel ellenkezőre váltását eredményezi), majd egy konstanst, (n +1)-et adtunk hozzájuk, ami nemhogy a korrelációs együtthatót, de a Q-kat sem változtatja meg.
Azt mondani sem kell, hogy az rS rangkorrelációs együttható nem lehet sem 1-nél nagyobb, sem –1-nél kisebb; ez a lineáris korrelációs együttható jól ismert tulajdonságából, és az (1.xx) meg az (5.37) képlet lényegi azonosságából következik; de jól látszik (5.43)-on is: 1-ből egy határozottan pozitív számot vonunk le. Ha nem lenne így, ha értéke nem –1 és +1 között lenne mindig, nem nevezhetnénk korrelációs együtthatónak, és nem használhatnánk a kapcsolat mérésére. Ez az „1 alattiság” a kapcsolati mérőszámok közös tulajdonsága; igaz volt az eddig tanult mérőszámokra is, és teljesül a későbbiekben előforduló, változók kapcsolatát mérő „együtthatók” mindegyikére vonatkozóan. 5.4.1.3 Példák a Spearman-féle rangkorrelációs együttható számolására Sokat emlegettük a testmagasság és a „testsúly” kapcsolatát.* Vizsgáljuk meg most ezt egy középiskolás fiúkból álló (elképzelt) mintán! Az adatokat az 5.11. táblázat tartalmazza. 5.11. táblázat: A testmagasság és a testsúly közti kapcsolat vizsgálata Sorszám Magasság Rangszám cm (magasság)
di
Rangszám „Testsúly” (súly) kg
1.
174
4
0
4
60
2.
186
7
2
5
66
3.
169
2
1
3
57
5.
157
1
1
2
56
5.
177
5
2
7
79
6.
187
8
0
8
87
7.
173
3
2
1
52
8.
181
6
0
6
70
A tulajdonképpeni „alapadatok”, xi és yi a második és az utolsó oszlopban találhatók. A hozzájuk rendelt rangszámokat – az (5.37) képlet alapján számolt rangkorrelációs együttható csak ezeket használja föl – egyrészt utánuk (ri), másrészt eléjük (qi) írtuk, eltérő betűtípussal, ahogy megszoktuk. Mivel azonban nincsenek kapcsolt rangok, használhatjuk az (5.43) képletet is. Ennek előkészítésére a két rangszámoszlop között megadtuk a rangszámokból számolt különbség, di abszolút értékét is. (Az oszlopok némiképp furcsa sorrendje a felhasználás formális könnyítését célozza.) A számításokat ezúttal a szokottnál jobban részletezzük, hogy mindenki biztos lehessen benne: jól értette-e a tennivalókat. Remélhetőleg később már nem lesz szükség ennyi részletre. Először Qrq-t határozzuk meg: (4 7 6)(4 5 6) 36 36 Qrq 4 4 7 5 6 6 197 197 162 35. 8 8 Persze azt összeadás nélkül is tudtuk, hogy a számok összege 1-től 8-ig 8.9/2-vel, azaz 36-tal egyenlő. Ugyanezért nem is számoljuk ki külön Qr-et és Qq-t, hiszen mindkettő Q8-cal egyenlő: *
Egy fizikus bizonyára szemünkre vetné, hogy összekeverjük a tömeg és a súly fogalmát; ezért tettük idézőjelbe a szót. De mivel mindenki így hívja, az idézőjelet ezután legtöbbször elhagyjuk.
136
83 8 504 42. 12 12 A rangkorrelációs együttható kiszámításához elég egyetlen osztás: 35 rS 0,83 , 42 ahol a 3-as fölé tett pont azt jelenti, hogy ez a számjegy ismétlődik meg, végtelen sokszor. Ugyanezt az eredményt kapjuk a (5.43)-as képlettel is, hiszen nincs kapcsolt rang. Az 5.11. táblázat negyedik oszlopában álló különbségek négyzetösszegét akár fejben is elkészíthetjük. Van három darab 2-es; ezek négyzete 4, a háromé együtt 12. Ezenkívül van két 1-es, négyzetük ugyancsak 1; az előbbiekhez hozzáadva a négyzetösszeg 14. Ezt behelyettesítve: 6 14 14 1 rS 1 1 1 1 0,16 0,83 . 504 84 6 Aki zsebszámológéppel számol, az persze nem szokott ennyit „kínlódni” az egyszerűsítésekkel, hanem elosztja 6.14=84-et 504-gyel. (Ezt épp a lap tetején számítottuk ki, mint 8 köbének és 8-nak a különbségét.) De láthattuk, hogy ha nem sajnáljuk a fáradságot, és kicsit „körülnézünk” a számaink közt, a számológép teljesen felesleges. Nem csak ebben a példában! Ha az n elemszám nem túl nagy, ezek a rangszámokból álló képletek legtöbbször hasonló, könnyen egyszerűsíthető számolásra vezetnek. Legfeljebb a végén van szükség egy-egy osztásra. Természetesen nem kívánok itt a számológép (fölösleges) használata ellen hadakozni; többször megtettem már ezt korábban. Inkább csak arra szeretnék figyelmeztetni, hogy mivel gépi számoláskor nagyon könnyű hibázni (elég egy szám vagy műveleti jel „mellényomása”), ezért mindig igyekezzünk legalább nagyjából utánaszámolni fejben is a műveleteknek; így a nagyon nagy hibákat talán elkerülhetjük. És itt, a rangkorrelációk számításakor, igazán nem nehéz a fejben történő „utánaszámolás”. Ugyanazt az eredményt kétféleképpen is megkaptuk – az (5.37) és az (5.43) képletek segítségével –, mivel a példában nem volt kapcsolt rang. Apró változtatásokkal átalakíthatjuk úgy a mintát, hogy a magasságok (vagy a súlyok) közt két, három vagy még több egyforma legyen, és elvégezhetjük a számolást az ennek megfelelően kiosztott kapcsolt rangokkal is. Tanulságos látni, hogyan változnak – és hogyan térnek el egymástól egyre inkább – a két képlettel kapott eredmények (és számolási gyakorlatnak sem utolsó ez a játék). Mivel azonban az olvasó valószínűleg talál ennél jobb szórakozást magának, elmondom saját – erre és más példákra vonatkozó – tapasztalataimat. Az rS együttható értéke nagyon érzékenyen reagál az egyforma adatokra, illetve az ezek miatt bevezetett kapcsolt rangokra. Akár egyetlen egyforma adatpár is képes már a második tizedesjegyet is jónéhány értékkel megváltoztatni. Négy-öt egyforma adat esetén esetleg már nem is hasonlít a kapott együttható az eredetire. Ráadásul a változás nemcsak az egyforma adatok számától, hanem azok „helyétől” is függ; pontosabban attól, hogy mik az egyformává tett x adatok y „párjai” (vagy megfordítva). A rangszámok közti különbségek négyzetösszege (l. az (5.42) képletet) bizonyos mértékig követi ezt a változást, de nem pontosan. Így azután, ahogy az egyforma adatok száma nő, az (5.43) képlettel számolt (hibás) együttható egyre inkább eltér az (5.37) képlettel számított (helyes) rS értéktől. Véleményem szerint akkor lehet csak megengedni az (5.43) képlet használatát kapcsolt rangok előfordulásakor, ha az egész mintában csak két kapcsolt rang van, nem több. Minden más esetben félrevezető lehet az (5.43) képlettel számolt eredmény. Qr Qq
A két képlettel kapott eredmény eltérése néha meglepően nagy. Álljon itt erre két példa. Mindkettő az 5.11. táblázat adataiból készült úgy, hogy a súlyok változatlanul hagyásával bizonyos testmagasságokat egyformákkal cseréltünk fel, ráadásul fordítva rendeztük őket. (Ilyet kapunk például akkor, ha azt mérjük, hogy ki mennyire „marad el” a 2 métertől.) Az egyik esetben az (5.37)-tel számított rS = – 0,5774 helyett az (5.43) képlet kereken nullát adott, míg a másikban a helyes rS = – 0,8452 helyett a hibás képlet – 0,5714-et „mért”. 137
(Ez utóbbi eltérés jelentőségét a következő pontban értjük meg igazán, mikor a rangkorrelációs együttható szignifikanciájáról lesz szó.) További hátrány, hogy ez a torzítás nem szimmetrikus: más az értéke pozitív, és más negatív együtthatók esetén. (Pedig jól tudjuk, hogy a korrelációs együtthatónak – így persze a rangkorrelációnak is – csak az abszolút nagysága számít, előjele nem.) Ennek az az oka, hogy a d i2 négyzetösszeg kisebb lesz – lefelé torzít –, ha kapcsolt rangok is vannak.* Az (5.43)-as képlet mutatja, hogy ha ez a négyzetösszeg kisebb, kevesebbet vonunk le 1-ből, a rangkorrelációs együttható tehát növekszik. Az eredmény: a pozitív együtthatók nagyobbak, a negatívok pedig kisebbek lesznek, mint lenniök kellene. (Negatív számok növekedése ugyanis abszolút értékük csökkenését jelenti, hiszen pl. –0,3 nagyobb –0,5-nél.) Gondoljuk csak el, milyen abszurdumot eredményez ez az aszimmetria. Ha pozitív a kapcsolat, az (5.43)-as képlettel számolt rangkorreláció erősebbnek tűnik (és ezért többször lesz szignifikáns is, mint kellene), míg ha a kapcsolat negatív, az (5.43)-as képlet gyengébbnek mutatja, mint amilyen az valójában.
Ugyanebből az aszimmetriából, az ellentétes irányú – és eltérő nagyságú** – torzításból következik, hogy az (5.43) képlettel számolva nem teljesül az az alapkövetelmény, hogy az egyik változó „irányultságát” megváltoztatva – a rangsorolást megfordítva – az együttható egyszerűen váltson előjelet. Az (5.43) képlettel számolt „valami” ezt nem teszi meg, az tehát nem is rangkorrelációs együttható! (Kivéve persze ha egyáltalán nincs kapcsolt rang. Akkor nincs semmi baj ezzel a képlettel.)
A kapcsolt rangokkal történő számolásra – és az elmondottak részbeni illusztrálására – a Wilcoxonpróba (és az egymintás t-próba) példájának adatait használjuk fel (l. az 5.9. táblázatot). Csak az első oszlopra lesz szükségünk. Az 5.12. táblázatban a „kiindulási erőértékeket” vesszük elő újra, mert valaki azt mondta, hogy ez az erő szerinte a gyerek sportolási hajlamának, igyekezetének, ügyességének – tehát voltaképp testnevelési érdemjegyének függvénye. Ennek próbáltunk „utánajárni”. A táblázat első oszlopába a tanuló sorszáma került; ez csak a táblázatban történő tájékozódást könnyíti meg. A második oszlopban az 5.9. táblázat első oszlopának adatai állnak, a harmadik oszlopban az ezekhez tartozó rangszámok. Látjuk, hogy az erőadatok közt voltak egyformák is, ezért itt kapcsolt rangokat is találunk. Az utolsó oszlopban a másik változó, a torna érdemjegy adatai találhatók. Itt aztán igazán sok az egyforma, hiszen mindössze négy különböző érték fordul elő. (Ugyan ki bukik meg tornából?) Az osztályzatokhoz tartozó rangszámokat az utolsó előtti oszlopban talájuk meg. Ugyanúgy, ahogy az előző fejezetekben, a rangszámokat más betűtípussal igyekeztünk kiemelni, a többi adattól elkülöníteni. Hiszen ezek azok a számok, amelyekkel a rangkorreláció kiszámításakor dolgoznunk kell. Mivel az rS rangkorrelációs együtthatón kívül az (5.43)-as képlettel számolható valamit is el akarjuk készíteni (az előbb említettem, hogy ez nem rangkorreláció!), a rangszám-párok közti különbséget is megadtuk, a két rangszám-oszlop között. Ezeket kisebb számjegyekkel írtuk, mint a táblázat többi adatát – ezzel is utalva arra, hogy nem a többinél fontosabb adatokról van szó (amilyenek a rangszámok), hanem kevésbé fontos, sőt teljesen fölösleges mennyiségekről. (De mi lenne a „tanulsággal”, ha nem számítanánk ki ezt a hibás, fölösleges számot?) Ennyi bevezető után lássuk a táblázatot!
*
Ezzel a jelenséggel már többször találkoztunk, l. pl. az 5.1.4. szakaszt.
**
Annyira így van, hogy egyik torzítás sokszorosa lehet a másiknak!
138
5.12. táblázat: Iskolás lányok kézi nyomóerejének (l. az 5.9. táblázatot) összefüggése tornából kapott érdemjegyükkel Sorszám
A kéz Rang- Különb- Rang Torna izomereje számok ség számok osztályzat (xi) (ri) (qi) (yi) di
1.
5,4
4
3
7
4
2.
5,5
7
3
4
3
3.
5,5
7
0
7
4
4.
5,1
1
9,5
10,5
5
5.
5,3
3
4
7
4
6.
5,8
12
10,5
1,5
2
7.
5,5
7
3,5
10,5
5
8.
5,7
11
4
3
9.
5,2
2
8,5
10,5
5
10.
5,6
10
8,5
1,5
2
11.
5,5
7
3
4
3
12.
5,5
7
3,5
10,5
5
7
A rangkorrelációs együttható számítását nem kell ismét részletezni. A rangszámokból (3. és 5. oszlop) számolt korrelációs együttható értéke rS = – 0,7317; tehát nemhogy a tornából elért eredmény határozná meg az erőt, hanem éppen ellentétes – negatív – kapcsolatban van vele: minél jobb az eredménye valakinek a tárgyból, annál kisebb a keze nyomóereje. Vagy pedig: minél erősebb valaki, annál rosszabb eredményt ér el testnevelésből. Ne feledjük: a korrelációs együttható a kapcsolat tényét állapítja (állapíthatja) meg, és semmit nem mond a két változó közti oksági összefüggésről. És mit kapnánk, ha az (5.43)-as képletet próbálnánk használni? A 4. oszlopban álló számok négyzetösszegét kell csak meghatározni, aztán már alig van tennivaló. A négyzetösszeg 461,5 (ezt ugyan aligha számoljuk ki számológép nélkül! – hát ilyen ez az „egyszerű” képlet), a végeredmény pedig –0,6136. Bizony elég messze van a jó értéktől. A táblázatot kár lett volna tovább bonyolítani, de gyakorlásképp kiszámolhatjuk, milyen értékeket kapunk ugyanebben a feladatban pozitív kapcsolat esetén. (Hogyan, hát itt nem negatív kapcsolat van? De igen, csakhogy ez az egész pusztán fogalmazási kérdés, mint rögtön meglátjuk.) Fordítsuk meg az y változó rendezését! Ne a torna osztályzatot adjuk meg, hanem azt, hogy kik az első, másod, harmad, negyed osztályú tornászok. Az eddigi ötösök most az 1-es „jegyet” kapják, a négyesek 2-est, és így tovább. Az új változót rangsorolva az 5.12. táblázat utolsó előtti oszlopában álló rangszámok fordítottját kapjuk abban az értelemben, ahogy arról a 135. oldalon volt szó. (L. az (5.44) képletet is!) Csak tanácsolni tudom az olvasónak, hogy végezze el ezt az egyszerű módosítást; alig van vele munka, és kiváló gyakorlási lehetőség. Az új rangszámoszlop és a táblázat harmadik oszlopában álló rangszámok közt számolt rangkorrelációs együttható természetesen nem lesz más, mint az előbbi érték, csak most pozitív előjellel: rS = 0,7317. Ha elkészítjük a rangszám-párok különbségének négyzetösszegét is (értéke most 71,5), az (5.43) képlet alapján könnyen kapjuk, hogy az ál-rangkorreláció 0,75. Abszolút értékben nagyobb, mint a helyes számérték (ahogy erről az előző oldalon volt szó), de a kettő közti eltérés sokkal kisebb, mint az előbbi esetben (0,02 a korábbi 0,12 helyett). 139
5.4.1.4 A Spearman-féle rangkorrelációs együttható szignifikanciája A Spearman-féle rS rangkorrelációs együttható elsődleges feladata, hogy egy minta adatai alapján mérje két változó kapcsolatának szorosságát. Ez a mérés természetesen pontatlan, hiszen egy (kis) minta alapján következtet a (végtelen) változóra. Óhatatlanul fölmerül a kérdés – mint minden hasonló statisztikai vizsgálat esetében –, hogy egyáltalán van-e ilyen kapcsolat. Az rS együttható kiszámított értéke csak nagyjából közelíti meg az elméleti értéket; hátha a változók közt nincs is semmiféle kapcsolat (a elméleti korrelációs együttható 0), és pusztán a véletlen az oka, hogy mi ekkora rangkorrelációs együtthatót kaptunk – amiből esetleg szoros kapcsolatra következtetünk, tévesen. Ahhoz, hogy ezt eldönthessük, el kell végeznünk egy statisztikai próbát. Fölállítva azt a nullhipotézist, hogy a elméleti korrelációs együttható 0, vagyis a változók közt nincs semmiféle kapcsolat, megvizsgáljuk, hogy esetünkben az rS együttható szignifikánsan eltér-e nullától vagy nem.
Ez a gondolatmenet itt kétszeresen is hibás. Egyrészt a változó eloszlásáról nem tételeztünk föl semmit (eloszlásmentes eljárásokat beszélünk meg ebben az egész részben), tehát azt sem tudhatjuk, hogy létezik-e (elméleti) korrelációs együtthatója.* A másik hiba az, hogy a rangkorrelációval mérhető kapcsolattal a függetlenséget, a kapcsolat teljes hiányát állítottuk szembe. Pedig tudjuk, hogy bizonyos „görbevonalú”, pontosabban nem monoton kapcsolatok a rangkorrelációs együtthatókkal nem mutathatók ki, azok nem alkalmasak ilyenek mérésére. A hipotéziseket tehát úgy kellene felállítanunk, hogy van-e monoton kapcsolat a változók közt vagy nincs. Ilyen „pontoskodásra” azonban ritkán törekszünk. A nullhipotézist általában úgy fogalmazzuk meg, mint előbb – és egyszerűen arra gondolunk, hogy úgyis csak monoton kapcsolatokról van szó. (Nem árt néha eszünkbe idézni, hogy pongyolaságainkkal milyen messze vagyunk a matematika szabatosságától.)
Ennek eldöntéséhez szükségünk van a Spearman-féle rangkorrelációs együttható eloszlására. Mint a többi rangsorolásos próbastatisztika esetében, itt is elkészítették azt, kis elemszámok esetére. A táblázatokból ki lehet válogatni a szokásos szignifikanciaszintekhez tartozó rS értékeket; ezeket tartalmazza a Melléklet XI. táblázata. A pontos eloszlástáblázatokat, legjobb tudomásom szerint, n =11-gyel bezárólag készítették el. E fölött a nagy mintákra érvényes közelítést használják. Mivel a Spearman-féle rangkorrelációs együttható pontosan ugyanazt a képletet használja (csak éppen rangszámokra), mint az r lineáris korrelációs együttható, eléggé kézenfekvő, hogy nagy n mintaelemszámok esetén eloszlása is ugyanahhoz – a t-eloszláshoz – tart. Persze előbb el kell végeznünk ugyanazt a standardizálást, mint r esetében. Mivel az együttható nullától való eltérését vizsgáljuk, a várható érték nulla, szórása pedig, akárcsak r-é:
sr
1 rS2 . n2
Szokás szerint (osztás helyett) ennek reciprokával szorzunk, így megkapjuk a (2.xx) képlethez teljesen hasonló kifejezést: (5.45)
t rS
n2 . 1 rS2
Ez a mennyiség (n –2) szabadságfokú t-eloszlást követ.
*
És még ha létezik is: annak megismerésére nem tehetünk kísérletet, ha következetesek akarunk maradni a módszer nemparaméteres jellegéhez.
140
Léteznek más, ennél bonyolultabb képletek is, amelyekkel jobban meg lehet közelíteni rS valódi eloszlását. Ezeket nem ismertetjük, de eredményüket felhasználjuk a XI. táblázatban: a táblázat 12 és 30 közti elemszámokra vonatkozó része egy ilyen közelítés alapján készült. Így azután az (5.45) képletet csak akkor kell használnunk, ha elemszámunk meghaladja a 30-at. És most lássuk, mi a helyzet a fejezet során kiszámított rS együtthatókkal! Az 5.11. táblázat adataiból (magasságok és súlyok összefüggése) rS=0,8333-at kaptunk. Az elemszám 8 volt; a táblázatból közvetlenül leolvashatjuk, hogy p<0,02.* A táblázat kétoldali (mint erről a „könnyen felezhető” valószínűségek árulkodnak), ha tehát egyoldali hipotézist fogalmaztunk volna meg („a testúly és a testmagasság közt pozitív összefüggés van”), akkor az eredmény az 1%-os szinten is szignifikáns lenne. De nem baj: eredményünk így is szignifikáns, hiszen a XI. táblázatból kiolvasott érték kisebb, mint 5%. A 137. oldal utolsó két sorában említettünk két együtthatót, amelyeket ugyanennek a 8 elemű mintának a „torzításaiból” – adatainak egyformákká tételével – kaptunk. Az első nem szignifikáns (p>0,10), a második azonban igen: p<0,02. Ha azonban valaki arra vetemednék, hogy a hibás képlettel számolt együtthatót keresi ki – amelynek értéke, mint annak idején írtuk, 0,5714 –, ugyanennek a mintának az alapján nem szignifikáns összefüggést, azt is mondhatnánk: függetlenséget állapítana meg. A táblázatot, annak pontos és közelítő értékeit, persze arra az esetre dolgozták ki, mikor nincsenek kapcsolt rangok. De – akárcsak a töbi rangsorolásos próba esetében – használhatjuk kapcsolt rangok esetén is. A kapcsolt rangok kiosztásának ismert szabálya biztosítja, hogy az eltérések nem nagyok, és a próbák (mint ezt a Mann–Whitney-próba, illetve Wilcoxon táblázata esetében említettük) kissé torzítanak a „veszélytelenebb”, vagyis a konzervatív irányba. A 137. lap utolsó sorában említett együttható tehát mindenképpen szignifikáns – ám ez soha nem derül ki, ha az (5.43)-as képlettel számolunk. Végül nézzük meg az 5.12. táblázatból számolt rangkorrelációs együttható szignifikanciáját. Itt is kétoldali hipotézist állítunk föl:** van-e összefüggés a torna osztályzat és a kéz nyomóereje közt vagy nincs. A kiszámított együttható rS = –0,7317 volt. Az előjellel nem kell törődnünk: tudjuk, hogy a korrelációs együtthatónak csak az abszolút nagysága számít. A XI. táblázat 12-es sorában azt látjuk, hogy ez az érték szignifikáns: a hozzá tartozó valószínűség kisebb 2%-nál. (Ami azt illeti, csaknem eléri az 1%-os szintet; ehhez rS = 0,7343 elég lenne.) Minden kiszámított értéket ki tudtunk keresni a táblázatban, de – pusztán gyakorlásképpen – nézzük meg, mit kaptunk volna a t-eloszlásból, ha az (5.45) képlet alapján számolunk. Előbb lássuk a második, kapcsolt rangokat tartalmazó esetet. (A képletet nem szokták ilyenkor korrigálni.) 10 t 0,7317 3,395. 1 0,5354 A t-táblázatból (Melléklet V. táblázat) ezt olvassuk le: p<0,01. A szignifikancia tehát „még erősebb”, mint előbb. (De ennek semmi jelentősége.) Végül az 5.11. táblázatból számolt korreláción is elvégezve a standardizálást, t = 3,693, p<0,02 (de „majdnem” 0,01) adódik, ami megfelel az eloszlástáblázatból kiolvasott értéknek.
*
Mivel kis elemszámoknál a rangkorreláció viszonylag kevés különböző értéket vehet fel, gyakran fogunk olyan esettel találkozni, hogy kiszámított értékünk pontosan megegyezik a táblabeli értékkel. Ez azonban nem azt jelenti, hogy p=0,02-t kellett volna írnunk! A kevés értékből álló rangszám-statisztikák eloszlása „lépcsős” (l. az 5.1. táblázatot és az 5.1. ábrát!), tehát szó sincs róla, hogy a 0,8333-as (és ennél nagyobb) értékek valószínűsége 2% lenne. A teljes eloszlás (itt nem közölt) táblázatából kiderül, hogy ennél az értéknél levágva rS eloszlását, mindkét végéből 0,0077, összesen tehát 0,0154 valószínűségű részt (kb. másfél százalékot) távolítottunk el. De ha „eggyel tovább megyünk”, már 0,011 az eltávolított rész, összesen tehát több, mint 2%. És ugyanígy van ez minden valószínűségi szint esetében. **
És milyen jól tesszük! Az említett „szakértő” a torna-jegyek és az erő pozitív összefüggését várta; ehelyett jókora negatív korrelációt kaptunk. Persze azt még nem tudjuk, hogy higgyünk-e annak – azaz hogy a kapott korreláció szignifikáns-e.
141
5.4.2 A Kendall-féle rangkorrelációs együttható A Kendall-fél rangkorrelációs együttható különleges, speciális helyet foglal el a statisztikai módszerek, de legalábbis a rangsorolásos eljárások közt. Kétségkívül rangsorolásos, de – ellentétben a könyvben tárgyalt többi eljárással – értékét nem a rangszámokból kell számolni. Emellett még az egyszerű rangsorolásos módszerek közt is kitűnik hallatlan egyszerűségével (bár eredeti megfogalmazásán ezt nem lehet észrevenni, sőt…), de van olyan eset (nevezetesen a kapcsolt rangok), amikor kellemetlen nehézségekbe ütközünk. Sorolhatnánk még „különcségeit”, de jobb, ha megismerkedünk magával az együtthatóval. Mintha csak azt akarná bizonyítani, hogy más, mint a többi: ennek az együtthatónak a jelölése is szokatlan, azt is mondhatnánk: szabályellenes. Erről persze nem az együttható maga tehet, de még csak nem is Kendall, a módszer kitalálója és kifejlesztője (és a matematikai statisztika tudományának egyik legjelentősebb teoretikusa), hanem a statisztikai „közbeszéd”, amelyik meghagyta, mintegy szentesítette a szabálytalan jelölést. A Kendall-féle rangkorrelációs együttható jelölése ugyanis mindenütt, a komoly és a komolytalan statisztikai irodalomban egyaránt , ami – mint afféle görög betű – általában a paraméterek számára van fenntarva.
Persze teljesen rendben van ez a dolog – a matematikai statisztikán belül. Ott ugyanis ennek az együtthatónak is, mint szinte mindennek, amit eddig tanultunk, az elméleti értékét, vagyis a paramétert definiálják először, és jelölik (általában) valamilyen görög betűvel. Amikor a mintából számított értékre, az előbbinek a becslésére (a statisztikákra) kerül a sor, ezt úgy jelölik, hogy a betű fölé kis „kalapot” tesznek. Valahogy így: ˆ , ˆ , ˆ . . Az a rangkorrelációs együttható tehát, amiről ebben a szakaszban szó lesz, valójában τˆ ; ezt a megkülönböztetést azonban nem használjuk, ahogy eddig sem tettük. Marad a jelölés, a mintából számított együtthatóra vonatkoztatva. Nem árt megjegyezni, hogy ez a görög-latin jelöléspár nem következetes másutt sem. De inkább az ellenkezője fordul elő: paramétereket is gyakran jelölünk latin betűvel. Gondoljunk a binomiális eloszlásra (3.x. fejezet): annak paraméterei n és p. Az n még csak hagyján, hiszen az a minta elemszáma; pontos érték, és nem kell „becsülni”. De a p valószínűség igazán elméleti, megérdemelne egy jelölést. Jónéhány statisztikai könyv így is jár el. Szerintem azonban, azon kívül, hogy bonyolítaná az olvasást, zavart is okozna ez a jelölési „fontoskodás”: kisiskolás korunk óta megszoktuk, hogy a valami „körrel kapcsolatos dolog”.
A Kendall-féle rangkorrelációs együttható tehát (nálunk és az egész statisztikai irodalomban) . De eddig még semmi egyebet nem tudunk róla. Ideje megismerkedni vele. 5.4.2.1 Az együttható képlete Van egy „kétdimenziós”, xi, yi adatpárokból álló mintánk – mint ahogy minden korrelációs vizsgálat így kezdődik. Ezekből az adatokból azonban semmit nem számolunk ki (sőt a később – csak könnyítésül és nem szükségből – bevezetett rangszámokból sem), hanem csak számláljuk őket.* Kiveszünk ezekből az adatpárokból kettőt, és megnézzük, hogy milyen a két x és a két y egymáshoz való viszonya: ha a második x nagyobb, mint az első, és ugyanez igaz a két y-ra is, akkor ez a két pár ugyanúgy van rendezve. Akkor is ez a helyzet, ha a második x kisebb az elsőnél, és a második y is kisebb az elsőnél. Viszont ha az x-ek közül az első a nagyobb, a hozzájuk tartozó y-ok közül pedig a második (vagy fordítva: az első x és a második y a kisebb), akkor ez a két pár fordítva van rendezve. *
Ugye tudjuk, mi a kettő közti különbség? A számolás mindig valamilyen alapműveletet (vagy azok egymásutánját) jelenti; a számlálás azonban csak bizonyos dolgok darabszámának megállapítása. Megszámláljuk őket, hányan vannak: 1, 2, 3, …
142
Végigvizsgálva a mintát, minden lehetséges módon kiválasztva két-két adatpárt, följegyezzük az ugyanúgy rendezett kettősök számát (ezt jelöljük U-val), és a fordítva rendezettekét (ezt jelöljük F-fel). Ezekből számítható egyszerű módon a rangkorrelációs együttható: (5.46)
τ
U F . U F
Mielőtt még az olvasó – teljes joggal – elátkozna, hogy ezt a bonyodalmas valamit hogyan mertem egyszerű eljárásnak nevezni, gyorsan kijelentem, hogy az előbbi leírást négy egymás utáni lépésben annyira le fogjuk egyszerűsíteni, hogy tényleg gyerekjáték lesz kiszámítása. Akkor már az előbb leírtak is érthetőek lesznek. (Tisztában vagyok vele ugyanis, hogy formai okokból – a két adatpár, vagyis négy adat egyszerre történő vizsgálata, ezek egymástól való megkülönböztetése, a fogalmak összekeveredése miatt – az előbbi leírás még a legelszántabbak számára is alig követhető.)* Előbb azonban vizsgáljuk meg kissé az (5.46) képletet. Első látásra is nyilvánvaló, hogy értéke nem lehet nagyobb 1-nél (két pozitív szám – darabszámok! – különbsége mindig kisebb, mint az összegük), tehát teljesítik a korrelációs mérőszámokra vonatkozó legfontosabb kritériumot. De szélsőséges esetben el is érhetik az 1-et: ha nincsenek fordítva rendezett kettősök (F=0), akkor az együttható értéke +1, míg ha bármely két adatpárt nézzük is, azok mind fordítva vannak rendezve (U=0), akkor értéke –1, mint ez azonnal leolvasható a képletből. Később könnyű lesz belátni, hogy ilyen esetek ténylegesen is előfordulhatnak.
Az olvasó bizonyára észrevette, hogy (5.46) pontosan ugyanaz, mint a kontingenciatáblázatokból számolt asszociációs együttható, képlete. Természetesen nemcsak a két képlet: a két fogalom is megegyezik. Annak idején is azokat a párokat számláltuk össze, amelyek ugyanúgy, illetve azokat, amelyek fordítva voltak rendezve. A két eljárás hasonlóságát (sőt azonosságát!) azért nehéz észrevenni, mert az adatok elrendezése lényegesen különbözik: egyenként felsorolt adatpárok, illetve kontingenciatáblázatba tömörített gyakoriságok. Később látni fogjuk, hogy a kontingenciatáblázatos elrendezés, illetve abban az ugyanúgy és fordítva rendezett párok keresése a Kendall-fél rangkorrelációs együttható számolásakor is segítségünkre lehet.
5.4.2.2 A számolás elvégzésének célszerű módja A képlet ugyan egyszerű, de a különböző párok összehasonlítása, a megfelelőek összeszámlálása igen kellemetlen, fáradságos feladat. Lássuk a korábban megígért egyszerűsítéseket! Legkevésbé fontos az első, de többnyire ajánlatos ezt is elvégezni: az eredeti xi, yi adatok helyett vezessük be a rangszámokat, ugyanúgy, ahogy a Spearman-féle rangkorrelációs együttható esetében tettük. (Az x és y adatokat tehát külön rangsoroljuk 1-től n-ig, ahol n a minta elemszáma. Nincs értelme itt elismételni, hogy milyen abszurd, őrült gondolat lenne az „együttes” rangsorolás; mindezt megtalálja az olvasó az 5.4.1.1 pontban, a 133. oldalon.) Azért jó a rangszámok bevezetése, mert az 1 és n közti pozitív egész számokról egyetlen pillantással megállapíthatjuk, hogy melyik a nagyobb, melyik a kisebb. Viszont az „eredeti” adatok esetében újra és újra gondolkodnunk kell. Egyszer még csak eldöntjük, hogy (pl.) 3,47 és 3,51 közül melyik a nagyobb, de ha rengetegszer kell ehhez hasonlót tennünk, az már fárasztó; jobb elkerülni. A második egyszerűsítés jóval lényegesebb. Ha rendezzük a mintát úgy, hogy egyik változója (mondjuk x) szerint a legkisebbtől a legnagyobbig sorban álljanak ott az adatok, akkor már csak fele annyi döntést kell hoznunk: x-ről mindig tudjuk, hogy az a nagyobb, amelyik lejjebb áll, tehát csak az y-ok „rendezettségét” kell megállapítanunk.
*
A legnagyobb nehézséget az okozza, hogy itt adatpárokból veszünk ki mindig kettőt, azaz egy-egy párt; párok párjairól van tehát szó, és ezt – megfelelő elnevezés híján – elég nehéz érthetően leírni.
143
Ahhoz, hogy ezt könnyebben beláthassuk, vegyük elő az előző szakasz példáját (5.11. táblázat). Magukat az adatokat (testsúlyok, testmagasságok) nem ismételjük itt meg, csak a rangszámokat (az 5.11. táblázat harmadik és ötödik oszlopát) másoljuk át az 5.13. táblázatba. Mindjárt készítsük el az „átrendezett” változatot is: az első változó (testmagasság) szerint rendezzük az adatpárokat. Megtehetnénk ezt természetesen magukkal az adatokkal is, de a rangsorolás már félig elvégezte a feladatot: a rangszám mutatja, melyik x adat volt a legkisebb, melyik a következő, és így tovább, a legnagyobbig. Ajánlható, hogy mindig ebben a sorrendben végezzük ezt a két lépést: először rangsoroljunk, és csak azután rendezzük át a mintaelemeket. Bár magától értetődő, de nem árt, ha hangsúlyozzuk: az átrendezés nem az x adatokra, hanem az adatpárokra vonatkozik. Nem a „testmagasságokat”, hanem a „személyeket” rakjuk sorba: minden személy „viszi magával” testsúly-adatát is. Ha nem így lenne, elszakadnának egymástól az összetartozó testmagasság és testsúly értékek, és semmit sem lehetne megállapítani kapcsolatukról, korrelációjukról. Az 5.13. táblázat első két oszlopa az elősző szakasz 5.11. táblázata megfelelő oszlopainak egyszerű másolata. A harmadik és negyedik oszlopban az átrendezett minta áll, mint ezt mindenki könnyen ellenőrizheti. 5.13. táblázat: Az 5.11. táblázat példájának rangsorolt adatai Testmagasság (eredeti rangszámok)
Testsúly Az átrendezett minta rangszámai (eredeti rangszámok) (magasság) (testsúly)
4
4
1
2
7
5
2
3
2
3
3
1
1
2
4
4
5
7
5
7
8
8
6
6
3
1
7
5
6
6
8
8
Most sem fogunk azonban még hozzá a rangkorrelációs együttható (5.46) képlet szerinti kiszámításához, hanem „észreveszünk” valamit, és ennek megfelelően egyszerűsíteni fogjuk a képletet. (Nem formailag, mert azt aligha lehetne, hanem a számolás szempontjából.)
Azt már tudjuk, hogy csak y-t (a testsúlyt) kell figyelnünk: bármelyik két párt vesszük is ki, az x-ek mindig „fölülről lefelé” vannak rendezve. Az első és a második párt számításba véve, y ugyanígy van rendezve (mert 3 nagyobb, mint 2); ez tehát az „ugyanúgy” rendezettek közé tartozik, és U-ba számít bele. Ha az első és a harmadik párt vesszük ki, ez F-et gyarapítja, mert „fordítva rendezett”, hiszen 1 kisebb 2-nél (míg persze a megfelelő x-ek „rendben vannak”: 3 nagyobb 1-nél). n De minek számlálnánk végig valamennyit? Hiszen tudjuk, hogy ezeket a kettősöket 2 . féleképpen választhatjuk ki, ami a jelen esetben 8 7/2=28; a teljes „létszám”, U és F együtt tehát ennyi. Ha egyiket – mondjuk F-et – meghatározzuk, ki tudjuk számítani U-t is. De még erre sincs szükség. A képlet „ügyes” átalakításával elérhetjük, hogy abban csak F szerepeljen:
144
τ
U F 2F 2F 2F 4F 1 1 1 , U F U F n(n 1) / 2 n(n 1)
ahol U+F helyébe behelyettesítettük a binomiális együttható „kifejtett” képletét. A végső formát mindenkinek érdemes ismernie, hiszen ennek alapján fogunk számolni: (5.47)
τ 1
4F , n(n 1)
ahol F a „fordítva rendezett” adatpárokat, n az elemszámot jelenti. A számolás most már nagyon egyszerű. Végigmegyünk a második – az 5.13. táblázatban az utolsó – oszlopon, és azt számláljuk, hogy egy-egy adat (rangszám) alatt hány nála kisebb szám található. (Ezek mind „fordítva rendezettek” lesznek, hiszen az előtte levő oszlop minden száma alatt csak nála nagyobb rangszámok vannak.) Az első, azaz 2 alatt egy ilyen számot találunk, 3 alatt szintén egyet, 1 alatt egyet sem (nem is találhatunk!), és így tovább, mind a hét számra. (A nyolcadik alatt már semmiféle szám nincs!) Egyenként számba véve: 1+1+0+0+2+1+0 = 5. A Kendall-féle rangkorrelációs együttható a példában eszerint: 45 5 τ 1 1 1 0,3571 0,6429. 87 14 Ugyanebben a példában a Spearman-féle rangkorrelációs együttható rS = 0,8333 volt. A két együttható tehát számértékben különbözik (ez mindig így van!), de mindkettő – a maga „skáláján” – ugyanolyan jól méri a kapcsolatot. (Erre a kérdésre később még visszatérünk.) Ha tehát olyasmit kérdezünk, hogy ezek vagy azok közt a változók közt szorosabb a kapcsolat – vagy pedig azt, hogy két meghatározott változó közt hogyan alakul a kapcsolat különböző populációkban –, akkor mindig ugyanazt a rangkorrelációs együtthatót (tehát vagy a Kendall- vagy a Spearman-félét) kell kiszámítanunk a különböző esetekben.
Korábban említettük, hogy a +1 és –1 értékeket is fel tudja venni. Ezt most már könnyen be tudjuk látni. Ha a két rangsor azonos (ilyenkor volt +1 a Speraman-féle rangkorrelációs együttható értéke!), akkor egyetlen egyszer sem találunk kisebb számot az y változónak megfelelő rangszámoszlopban (hiszen az ugyanolyan, mint az x változó oszlopa, vagyis sorba megy 1-től n-ig). Ezért (5.47) második tagja 0, és = +1. Ha viszont y éppen fordítva rendezett, mint x, akkor a rangszámok n-től 1-ig sorakoznak szépen egymás alatt. Az első alatt (n–1), a második alatt (n–2) nála kisebbet találunk, és így tovább, végül az utolsó előtti (a 2-es rangszám) alatt egyet (az 1-es rangszámot). Ezek összege nem más, mint a pozitív egész számok összege 1-től (n–1)-ig, ami a sokszor fölhasznált (5.1) képlet értelmében (n–1)n/2. Betéve ezt az (5.47)-es képletbe:
1
4(n 1)n / 2 1 2 1, n(n 1)
éppen ahogy állítottuk. A két rangkorrelációs együttható tehát ilyenkor egyenlő,* ezért a néhány sorral ezelőtti állítás, mely szerint értékük mindig különböző, nem egészen igaz.
*
Ugyanez a helyzet azokban az esetekben, amikor mindkét rangkorrelációs együttható a nulla értéket veszi föl. (Ez nem történik ám meg minden elemszám mellett! A Melléklet XII. táblázatában szereplő kis elemszámok közül ilyen a 4, az 5, a 8, a 9 és a 12. A rangkorrelációs együtthatók lépcsős eloszlása azonban gyakran „átugorja” a nullát.) Elvileg az sincs kizárva, bár valószínűtlen, hogy máskor is előfordul a két rangkorrelációs együttható számszerű megegyezése; én azonban még nem találkoztam ilyennel.
145
5.4.2.3 Grafikus eljárás az együttható kiszámítására Négy egyszerűsítést ígértünk, és csak hármat vezettünk be (rangsorolás, átrendezés, csak a fordítva rendezettek megszámlálása); a negyedikre csak most kerül sor. Az F érték kiszámításához hét (az általános esetben n –1) „számlálást” kellett végeznünk, ami nem volt ugyan fárasztó, de vagy le kell írni a részeredményeket vagy fejben tartani azokat, ami még kis elemszámok esetén is bizonytalan, könnyen elhibázható. Ezért találták ki azt a grafikus eljárást, amely F meghatározását egészen könnyűvé teszi. Ezt az 5.2. ábrán mutatjuk meg; szinte szóbeli magyarázat sem kell hozzá. Az ábrán az első változó szerint sorba rendezett rangszámok szerepelnek. (L. az 5.13. táblázat utolsó két oszlopát!) A meg1 2 felelő – egymással egyenlő – rangszámokat egyenes vonallal össze kell kötni. Ezután összeszámláljuk a metszéspontokat; 2 3 ez megadja a Kendall-féle rangkorrelációs együttható számolásához szükséges F értéket. Hát lehet ennél egyszerűbb eljárást még 3 1 csak elképzelni is? A példában F = 5; ezt kaptuk korábban is, a fordított elrende4 4 zésű párok összeszámlálásakor. Csak arra kell vigyázni, hogy a metszéspontok ne fedjék egymást. (Pl. az ábrán található apró 5 7 háromszög, ha nem vigyázunk, egyetlen pontba zsugorodhat öszsze.) Szükség esetén meg lehet kissé görbíteni a vonalakat, hogy 6 6 ezt elkerüljük. Néha elég, ha – mint a rajzon is – egy-egy vonalat lejjebb vagy följebb húzunk a számok közepénél. Csak visszaka7 5 nyarodó vonalat nem szabad húzni, mert az hibás értéket ad! Erre szolgáltat példát az 5.3. ábra, egy három elemű mintában. 8 8 5.2. ábra
Az ábrán látható kis minta két változója közt teljes „összhang”, azaz a legszorosabb pozitív kapcsolat van: (mindkét) rangkorrelációs együttható értéke +1. Nyilvánvaló, hogy nincs fordítva rendezett pár, tehát F értéke nulla. Mégis találunk 4 metszéspontot, a hibás összekötések miatt. Könnyű belátni, hogy így akárhány metszéspont előállítható; ezek azonban nem az F értéket adják meg, tehát nem is számolható belőlük .
1
1
2
2
3
3 5.3. ábra
5.4.2.4 A táblázatos módszer Most a Kendall-féle rangkorrelációs együttható kiszámításának újabb egyszerű módszerét ismerjük meg. Ez egyszerűségében ugyan nem vetekszik az előbb bemutatott grafikus eljárással, de számos más előnye van. Például nem követeli meg az előző eljárás három „előkészítő” lépésének elvégzését, tehát még a rangsorolást sem. Természetesen ha elvégeztük a rangsorolást, akkor ez az eljárás is valamivel egyszerűbben hajtható végre, de kérdés, hogy összességében nem járunk-e jobban, ha a módszert az alább bemutatott módon, közvetlenül az adatokra alkalmazzuk. Az ötletet a Kendall-féle együttható és az asszociációs együttható (l. a 3.x.x pontot) rokonsága adja, amit az 5.4.2.1 pont végén már említettünk. Az eljárás egy n×n méretű táblázat, lényegében kontingenciatáblázat megrajzolásával kezdődik. Az egyik oldalra mondjuk fölülre, felírjuk az egyes oszlopok fölé az xi adatokat, nagyság szerint rendezve. (Szokásos módon úgy, hogy baloldalt a legkisebb, jobboldalt a legnagyobb adat álljon.) Ezután a táblázat baloldalán, a sorok jelöléseként, elhelyezzük az yi adatokat, szintén rendezve. Legjobb, ha úgy járunk el, mint a kontingenciatáblázat esetében: legfölül áll a legkisebb adat, és sorra lefelé az egyre nagyobb adatok. Mivel az adatok közt nincsenek egyformák, mind a sorok, 146
mind az oszlopok megjelölése egyértelmű. (Amennyiben elvégeztük a rangszámok kiosztását is, az oszlopok és sorok megjelölése egyaránt az 1 és n közötti egész számokkal történik.) Ezután vesszük sorra az eredeti minta adatpárjait, és – mint pontokat egy koordinátarendszerben* – a megfelelő cellában egy-egy ponttal „ábrázoljuk” őket (5.4. ábra). Az ábrán az 5.11. táblázatban található minta adatait – testmagasságok és testsúlyok – használtuk föl. 157 169 173 174 177 181 186 187 Vegyünk egy tetszőleges pontot, és nézzük meg, hogy hány ponttal áll ugyanúgy 52 rendezett, hánnyal fordítva rendezett viszonyban. Ragadjuk ki pl. az első sorban álló pon- 56 tot, és nézzük, hány pont található tőle jobbra 57 és lefelé. (Letakarva az első sort és a harmadik oszlopot, könnyen megszámlálhatjuk a 60 kérdéses pontokat.) A jobbra azt jelenti, hogy 66 x értéke nagyobb, a lejjebb, hogy y-é is nagyobb; pontunk tehát mindezekkel a pontok- 70 kal „ugyanúgy rendezett” viszonyban áll. Ha sonlóképpen, a balra és lejjebb található 79 pontok „fordítva rendezett” párt alkotnak 87 kiválasztott pontunkkal: y értéke nagyobb, de x értéke (balra esik, tehát) kisebb. Első pon5.4. ábra tunkkal eszerint 5 pont képez ugyanúgy, 2 pedig fordítva rendezett párt. Elvégezve ezt valamennyi pontra, könnyen kapjuk az U és az F értékeket. Legjobb, ha sorról sorra haladunk, hogy egyik pont se maradjon ki. Följebb soha nem kell nézni, mert azokat a párokat egyszer már figyelembe vettük „fölülről”. A példában U = 5+6+5+4+1+1+1 = 23. (Az utolsó sorban álló pontot soha nem kell vizsgálni, hiszen annál „lejjebb” már semmi sincs.) A fordítva rendezett párokra – a könnyebb követhetőség kedvéért kiírva a nullákat is – kapjuk: F = 2+0+0+ +0+2+1+0 = 5. A Kendall-féle rangkorrelációs együttható az (5.46) képlet szerint: 23 5 18 9 0,6429, 23 5 28 14 pontosan ugyanaz, mint amit az előző módszerrel, az (5.47) képlettel számolva kaptunk. A módszer fő előnye azonban az, hogy ezen a módon definiálható és kiszámítható a együttható egyforma adatok (kapcsolt rangszámok) előfordulásakor is. Ez ugyanis nem oldható meg olyan egyszerűen, mint a Spearman-féle rangkorrelációs együttható esetében. Az egyforma adatok esetére több eljárást is kidolgoztak, de ezek – az alább bemutatott módszer kivételével – lényegesen bonyolultabbak, mint az eredeti számolása. Márpedig a Kendall-féle rangkorrelációs együttható használata mellett legfőbb érv éppen annak hallatlan egyszerűsége.
Kendall meglátása szerint két egyfoma adat „félig nagyobb, félig kisebb” egymásnál, ezért az ilyen pár félig az ugyanúgy, félig a fordítva rendezett párokhoz tartozik, ½-del gyarapítja mind az U, mind az F értéket. Mások kihagyják az ilyen párokat; az U–F különbség így is, úgy is ugyanakkora lesz. Abban azonban megoszlanak a vélemények, hogy mi legyen nevezője. A Kendall által javasolt formula nemcsak nehézkes, hanem mesterkélt is. De vannak ennél vadabb javaslatok is. Úgy kell „szétrakni” – minden lehetséges módon – az egyformákat, hogy hol az ugyanúgy, hol a fordítva rendezett párok számát növeljék. Kiszámítva mindezeket az együtthatókat, átlaguk lesz a mintában érvényes rangkorrelációs együttható. (Egyesek csak a legnagyobbat és a legkisebbet számolják ki, és azok átlagát
*
Valóban olyan ez, mint egy koordinátarendszer. Azzal az eltéréssel, hogy y nem alulról fölfelé, hanem – célszerűségi okokból – fölülről lefelé számozódik
147
veszik.) Mondani sem kell, hogy ezekben az eljárásokban sok a bizonytalanság, megnő a számolási munka, és még csak abban sem bízhatunk, hogy az így kapott átlag egyáltalán jelent valamit. Az említett eljárások lényegesen bonyolultabbak abban az esetben, ha mindkét változóban vannak egyforma értékek. Sokan ezt az esetet ki is zárják, mások nem térnek ugyan ki rá, de olyan számolásmódot adnak meg, amely csak akkor egyértelmű, ha csak egyik változóban fordulnak elő egyformák; így bizonytalanságban hagyják a módszer alkalmazóját. Ezzel szemben az előbb bemutatott táblázatos módszer teljesen természetes, magától értetődő módon, minden korlátozás nélkül terjeszthető ki az egyforma adatok esetére. Megőrzi az asszociációs együtthatóval való rokonságot; mintegy annak „kismintás” változata. Megmarad továbbá az a korrelációs alaptulajdonság is, hogy az együttható valóban a +1 és –1 értékek közt változik. (A mások által javasolt, egyforma adatok esetére érvényes együtthatók abszolút értéke általában nem érheti el az 1-et.)
A táblázatos módszer a korábbiaknak megfelelően működik, ha az adatok közt egyformák is vannak. A fölírt kontingenciatáblázat azonban „zsugorodik”, hiszen ha két vagy több x-adat egyforma, akkor az oszlopok, ha az y-ok közt vannak egyformák, akkor a sorok száma lesz kisebb: annyi oszlop és sor lesz, amennyi a sorbaállított különböző adatok száma. Viszont a „pontok”, azaz az (xi, yi) párok száma változatlanul n. Ebből az következik, hogy – ellentétben az 5.4. ábrán látható esettel – lesznek olyan sorok és oszlopok, amelyekben egynél több pont helyezkedik el. De az U és F értékek meghatározása ugyanolyan egyszerű! Könnyebben érthető mindez, ha veszünk egy példát. Az 5.12. táblázat volt az alapja a kapcsolt rangokból számolt Spearman-féle rangkorrelációs együttható kiszámításának. Most még az ott fölírt rangszámok sem kellenek; elég a táblázat második oszlopában található, a kéz izomerejét jelentő xi, illetve az utolsó oszlopban álló yi (testnevelés osztályzat) adatokat figyelembe venni. A 12 elemű minta táblázata 4×8-as méretre „zsugorodik” (5.5. ábra). Látjuk, hogy nemcsak az egyes sorokban és osz5,1 5,2 5,3 5,4 5,5 5,6 5,7 5,8 lopokban van egynél több pont, hanem bizonyos cellákba is egynél több pont kerül. U és F meghatá- 2 rozásánál ezek mindegyikét figyelembe kell venni. 3 Amíg csak a jobbra és lejjebb vagy a balra és lej jebb található pontok közt van ilyen, ez egészen ter- 4 mészetes. (Hiszen a pontokat számláljuk!) De ami- 5 kor egy ilyen, több pontot tartalmazó cellához keressük az ugyanúgy és fordítva rendezett párokat, 5.5. ábra nem szabad megfeledkeznünk arról, hogy valamennyi, a cellában álló ponthoz tartoznak a talált „jobbra és lejjebb”, ill. „balra és lejjebb” álló pontok; a kapott számokat tehát meg kell szorozni a cellában álló pontok számával. Ismét egy példa segít: a második sor ötödik cellájában 2 pont van. (Ami azt jelenti, hogy a mintában két, egyaránt az (5,5; 3) koordinátákkal megadott pár van.) Ettől jobbra és lefelé nem találunk pontot (U „járuléka” tehát 0), de balra és lejjebb 4 pont van. Ezt kettővel szorozva kapjuk F járulékát, hiszen az említett cella mindkét pontjához találunk 4, balra és lejjebb álló pontot (ugyanazt a négyet, természetesen). Ahogy az előbb is mondtuk, úgy célszerű eljárni, hogy az éppen szóban forgó pont sorát és oszlopát letakarjuk, és így végezzük a számlálást. Különböző adatok esetén (5.4. ábra) ilyenkor csak a vizsgált pontot takartuk le, de ha egyforma adatok vannak, akkor más pontokat is letakarunk, amelyek így – az egyformaság miatt – kimaradnak a számlálásból. (Így is kell!) Ha nagyon sok az egyforma adat, pontok helyett jobb azok számát írni a cellákba. Így már igazi kontingenciatáblázatot kapunk, és a számolás pontosan ugyanúgy történik, mint esetében
148
(xxx oldal). A fenti táblázatnál ezt még nem érdemes megtenni,* de a mondottak illusztrálására azért elvégezzük ezt az átalakítást (5.6. ábra). Mindegy, hogy a számolást melyik ábra alapján végezzük. Ebben az esetben jobb a „pontos”, 5.5. ábrát használni, mert a sok nulla csak zavar: U=1+0+2×0+0+2+2+0=5. (Az utolsó sor „pontjaival” soha nem kezdünk el számolni.) Továbbá: F = =9+10+2×4+7+2+2+2=40. A kapcsolt rangok esetére módosított Kendall-féle rangkorrelációs együttható: k 5 40 35 7 0,7778. 5 40 45 9 Emlékeztetünk, hogy ugyanebben a példában a Spearman-együttható rS = – 0,7317 volt.
5,1 5,2 5,3 5,4 5,5 5,6 5,7 5,8 2
0
0
0
0
0
1
0
1
3
0
0
0
0
2
0
1
0
4
0
0
1
1
1
0
0
0
5
1
1
0
0
2
0
0
0
5.6. ábra
Nem meglepő, hogy ez az együttható negatív. Erről már az 5.5. ábra is árulkodik: a pontok mintha megpróbálnának a „mellékátlóra” illeszkedni, végig követve a „balra és lefelé” irányt. Ezzel szemben az előző példában (5.4. ábra) a pontok a „főátló” körül tömörülnek, mintha mind a „jobbra és lefelé” irányt akarnák tartani. 5.4.2.5 A Kendall-féle rangkorrelációs együttható szignifikanciája Természetesen itt is fölvetődik a kérdés, hogy valódi-e az a kapcsolat, amit a rangkorrelációs együttható mér. Más szóval: nem lehetséges az, hogy a paraméter (az elméleti rangkorrelációs együttható) nulla, és csak a véletlen ingadozás miatt akkora az együttható értéke, amekkorát kaptunk? (Egyelőre csak arra az esetre gondoljunk, amikor minden adat különböző.) Ha ismerjük -nak „az elméleti rangkorrelációs együttható nulla” nullhipotézis melletti eloszlását, a kérdésre könnyen tudunk válaszolni: levágunk ebből az eloszlásból egy előre meghatározott valószínűségű részt (általában 5%-ot), és megnézzük, hogy számított értéke a csonkított eloszláson kívül vagy belül helyezkedik-e el. Statisztikai próbát végzünk tehát, vizsgálva a együttható 0-tól való eltérésének szignifikanciáját. Az eloszlást (kis n-ek esetén) Kendall kiszámította, és mások kibővítették még néhány n figyelembevételével. Ezekből az eloszlásokból kiírtuk azokat a küszöbértékeket, amelyeknél az eloszlást csonkítani kell, hogy a szokásos szinteken eldönthessük a együttható szignifikanciáját (Melléklet, XII. táblázat).** A táblázat kétoldali és egyoldali hipotézisek vizsgálatára egyaránt alkalmas; ezért szerepelnek benne a szokásos 1, 5 és 10%-os értékek mellett a 2 és 20%-os küszöbértékek is. Határozzuk meg a példában – testmagasságok és testsúlyok közt – kiszámolt Kendall-féle rangkorrelációs együtthatóhoz tartozó valószínűséget! A = 0,6429 értéket kell a táblázat n=8-nak megfelelő sorában kikeresni. Mint látjuk, ez éppen megegyezik az 5%-hoz tartozó (kétoldali) küszöbértékkel. Mint minden hasonló esetben, a küszöbszám a „levágott részbe” számít; azt kaptuk tehát, hogy p<0,05. (Az ugyanebből a példából számolt Spearman-féle rangkorrelációs együttható is szignifikáns volt; igaz, hogy ott p<0,02-t írhattunk a Melléklet XI. táblázata alapján. Erre a kérdésre még visszatérünk.) Mint látjuk, ha az elemszám 12-nél nagyobb, táblázata (XII. táblázat) nem ad támpontot a szignifikancia eldöntéséhez. Ilyenkor azonban ennek az együtthatónak az eloszlása már elég közel van a normális eloszláshoz; használhatjuk tehát annak táblázatát. Csak persze előbb standardizálnunk kell -t.
*
Ha háromnál több pont található valamelyik cellában, feltétlenül ezt az utat ajánljuk. Könnyebbé tehetjük a számlálást, ha a 0-t nem írjuk ki, hanem üresen hagyjuk a megfelelő cellákat. (Akárcsak az 5.5. ábrán.) Igazság szerint nem , hanem F vagy az (U–F) különbség táblázatai találhatók meg az irodalomban. Nem volt nehéz azonban a (csak n-től függő) konstans (U+F)-fel osztva meghatározni a együtthatókra vonatkozó küszöbértékeket. **
149
A nullhipotézis az, hogy elméleti értéke – vagy ami ezzel egyenértékű: -nak mint változónak a várható értéke – 0; ez kerül tehát standardizáláskor a képlet számlálójába.* A Kendall-fél rangkorrelációs együttható (nullhipotézis esetén érvényes) szórását bizonyítás nélkül adjuk meg: 2(2n 5) (5.48) στ . 9n(n 1) Annak érdekében, hogy a standardizálást „gyakorolhassuk”, számítsuk ki a Kendall-féle rangkorrelációs együtthatót még egy példában. (5.14. táblázat) Legyen ez a (valódi problémát felvető, de elképzelt adatokkal felírt) példa az, hogy megvizsgáljuk: hogyan függ össze a szorongás és a depresszió középkorú, szívinfarktuson átesett férfibetegeknél. Mindkét változót egy-egy pszichológiai teszttel mérték meg. A szorongást 0 és 32, a depressziót 0 és 24 pont közt mérte a két teszt. 5.14. táblázat: A szorongás és a depresszió közti kapcsolat vizsgálata férfi szívbetegeken Szorongás
Depresszió
Átrendezett rangszámok
pontszám
rangszám
pontszám
rangszám
Szorongás
Depresszió
25
12
20
12
1
3
20
10
21
13
2
6
12
5
2
1
3
9
9
2
10
6
4
2
27
13
17
10
5
1
15
7
7
4
6
5
22
11
13
8
7
4
31
15
22
14
8
7
3
1
6
3
9
11
10
3
16
9
10
13
19
9
18
11
11
8
11
4
4
2
12
12
28
14
24
15
13
10
18
8
12
7
14
15
14
6
8
5
15
14
Az 5.14. táblázat első és harmadik oszlopa az adatokat tartalmazza. Mivel csak a két változó, a szorongás és a depresszió korrelációjára vagyunk kíváncsiak (és a mértékükre nem), elég a tesztek nyerspont eredményeit megadni: nincs szükség semmiféle skálázásra. A második és a negyedik oszlop az előbbi változókhoz tartozó rangszámokat tartalmazza. A két utolsó oszlopban, akárcsak az előző táblázatban, a személyek sorrendjének átrendezésével olyan mintát állítottunk elő, amelyben a szorongás változó növekvő – súlyosbodó – sorrendben szerepel.
*
Valójában persze nem kerül oda, hiszen – akárcsak az egymintás vagy a korrelációs t-próba esetében – ezt a „nulla kivonását” fölösleges lenne a képletben feltüntetni.
150
Az F értéket kiszámíthatja az olvasó pl. a 145. oldalon leírt módon. (Munkájának ellenőrzésére álljanak itt a részeredmények: F = 2+4+6+1+0+1+0+0+2+3+0+1+0+1.) Egyszerűbb azonban, ha a grafikus módszert választja; ezért elvégeztük a táblázat két utolsó oszlopában a megfelelő rangszámok összekötését. A metszéspontokat megszámlálva F = 21 adódik, ugyanannyi, mint a két sorral feljebbi számok összege. Végül ha az előző pontban bemutatott táblázatos eljárás mellett dönt, meg kell határoznia U-t is (U = 84), és az (5.46) képletet kell használnia. Érdemes megfigyelni, hogy még ilyen „nagy számok” esetén is milyen könnyen kiszámítható a Kendall-féle rangkorrelációs együttható az (5.47) képlettel. F-en kívül csak az elemszámra van szükség; látjuk a táblázatból, hogy n =15. A számolást bárki elvégezheti fejben is: 4 21 4 3 7 4 τ 1 1 1 1 0,4 0,6. 15 14 35 2 7 10 Standardizáljuk ezt az értéket, hogy meghatározhassuk a hozzá tartozó valószínűséget: τ 0,6 0,6 0,6 z 3,117. στ 2(30 5) 0,3704 0,1925 9 15 14 A Melléklet I. táblázatából kikeresve (és nagyjából, fejben interpolálva) kapjuk, hogy az egyoldali valószínűség 0,00091, kétoldali próbavégzés* esetén tehát p = 0,00182, ami kisebb nemcsak az 5, hanem az 1%-os valószínűségi szintnél is.
Összehasonlításképpen számítsuk ki a Spearman-féle rangkorrelációs együtthatót is az 5.14. táblázat adataiból, és határozzuk meg a hozzá tartozó valószínűséget. Az első lépéseket ezúttal nem részletezzük (bárki könnyedén elvégezheti a számolást az 5.14. táblázat alapján!); végül is d i2 120 , ahonnan
6 120 3 1 1 0,2143 0,7857. 14 15 16 14 (Ezt a számolást is el lehetett fejben végezni!) A XI. táblázat módot ad rá, hogy a valószínűséget közvetlenül leolvashassuk: p<0,01.** rS 1
Itt is végezhetünk „normális közelítést”, csak, mint tudjuk, ilyenkor a t-táblázatot kell használnunk. (5.45) alapján:
t 0,7857
13 0,7857 5,828 4,579. 0,3827
A Melléklet V. táblázatából, f=13 szabadságfok mellett leolvasható, hogy p<0,001. Hasonló az eredmény, mint előbb, sőt – ha egyáltalán lehet ilyet mondani – a szignifikancia „még kifejezettebb”. Bár első példánkban (5.13. táblázat) a Kendall-féle együttható szignifikanciája a XII. táblázatból közvetlenül megállapítható volt, végezzük el a standardizálást ott is, és nézzük: milyen valószínűséget kapunk ezen a módon:
z
0,6429 0,6429 2,2261. 2(16 5) 0,28868 987
Az egyoldali valószínűség 0,013, tehát a (kétoldali) próbavégzés eredménye p=0,026, ami nyilván *
Megjegyzendő, hogy nyugodtan végezhettünk volna egyoldali próbát. A szívbetegek pszichológiai problémáival foglalkozók több évtizedes tapasztalata, egyöntetű véleménye szerint a szorongás és a depresszió pozitív kapcsolatban van ebben a betegcsoportban. **
Egy ennél részletesebb táblázatból azt is sikerült megállapítani, hogy p<0,002 – ez pedig pontosan megegyezik a Kendall-féle együtthatóra kapott valószínűségi értékkel!
151
kisebb 5%-nál (de nagyobb 2%-nál); ugyanaz tehát, mint amit a XII. táblázatból leolvastunk. A normális eloszlással történő közelítés eszerint viszonylag kis elemszámok esetén is kielégítő. (Meg kell jegyezni, hogy Kendall eredeti szövegében az áll, hogy eloszlása már n=8-tól kezdve „megkülönböztethetetlen” a normális eloszlástól.) Több esetben is egymás mellé tettük az ugyanabból a mintából számolt Spearman- és Kendallféle rangkorrelációs együtthatóhoz tartozó valószínűségeket. Úgy nagyjából ugyanakkorák voltak, de mégsem egészen. Pedig a statisztikai könyvek egybehangzóan azt állítják, hogy – különböző számértékeik, eltérő skáláik ellenére – az rS és a együttható „egyforma erős” annak eldöntésében, hogy két változó közt van-e monoton kapcsolat vagy nincs. Ami másképp fogalmazva azt jelenti, hogy mindkettő ugyanúgy utasítja el (vagy tartja meg) a két változó függetlenségére vonatkozó nullhipotézist. Ez az állítás azonban csak nagyjából igaz – legalábbis a mintából számolt rangkorrelációs együtthatókra vonatkozóan. (És ugyan mi más érdekelne minket?) A fenti állítást tehát nem kell szigorúan venni, és nem nehéz olyan esetet találni (akár a fent tárgyalt példák esetében is!), amikor egyik együttható szignifikáns kapcsolatot mutat a két változó között, a másik pedig nem. Gondoljunk az első, 8 elemű mintára (5.11. és 5.13. táblázat). Ha 2%-os szignifikanciahatárt választottunk volna (vagy pedig egyoldali próbát végzünk 1%-os szignifikanciaszint választásával), a Spearmanféle rangkorrelációs együttható szignifikánsnak bizonyul, a Kendall-féle azonban nem. A következőkben megpróbálom megvilágítani ennek az ellentmondásnak az okait. Töprengésről, a lehetséges okok felsorakoztatásáról lesz szó, nem pedig határozott állításokról. Nem is várom, hogy az olvasó is velem tartson ebben a kalandozásban. Akit azonban mégis érdekel az ilyen szellemi torna, megtalálja ezeket a gondolatokat a figyelmeztető -jelekkel elkülönített részben.
Olcsó dolog lenne annyival elintézni a kérdést, hogy hiszen az efféle állítások, amilyeneket a tankönyvek a rangkorrelációs együtthatókra vonatkozóan megfogalmaznak, úgyis csak „statisztikusan” igazak: a véletlen ingadozás kisebb eltéréseket megenged és meg is magyaráz. Itt azonban, érzésem szerint, jóval többről, megmagyarázható eltérésekről van szó. Ezeket próbáljuk kicsit körüljárni a következőkben. Három fő oka van annak, hogy a két rangkorrelációs együttható eloszlásának egyformaságára, a két eloszlás segítségével végzett statisztikai próbák azonos erejére vonatkozó „tankönyvi megállapítás” nem teljesülhet maradéktalanul. Az egyik, hogy ezek az eloszlások „lépcsősek”; kicsit szakszerűbb megfogalmazással diszkrét – tehát nem folytonos – eloszlásokról van szó. A másik ok az, hogy a „lépcsők” nagysága lényegesen különbözik a két együttható vonatkozásában; a Kendall-féle rangkorrelációs együttható minden elemszám esetén (kivéve az n=2 és n=3 eseteket) lényegesen kevesebb különböző értéket vesz föl, mint a Spearman-féle. Ráadásul a kettő közti különbség is nő a minta elemszámának növekedésével. Végül a harmadik ok az, hogy az egymáshoz viszonyítot rangsorok – vagyis maga a kapcsolat – változásával nem teljesen párhuzamosan változik a két rangkorrelációs együttható. Most lássuk ezeket az okokat (és a szignifikancia kimondására vonatkozó hatásukat) egyenként.
*
Az eloszlás „lépcsős” voltából következik, hogy nem pontosan 5 (vagy más, előre elhatározott) százalékot „vágunk le” az eloszlásokból, mint folytonos eloszlások esetén, hanem egy ennél valamivel kisebb értéket.* Képzeljük azt, hogy valamely mintában olyan szoros a két változó közti kapcsolat, hogy függetlenség esetén 0,045 a valószínűsége, hogy – csupán véletlenül – ilyen előforduljon. (Ez ugye szignifikáns, hiszen kisebb 5%-nál.) Ha a rangkorrelációs együttható olyan, hogy 5%-os küszöbszáma 0,046-nál vágja le az eloszlást, akkor a fenti összefüggést szignifikánsnak fogjuk találni. Ha viszont olyan, hogy a küszöb-
Nagyobbat azért nem, mert az előírt szignifikanciaszintet nem léphetjük túl; az első fajta hiba az elkövethető legnagyobb hibát mutatja. Erre utal az eredmény felírásának szokásos módja is: p kisebb, mint 0,05.
152
szám 0,032-es valószínűségnek felel meg, akkor ugyanerre a kapcsolatra azt mondjuk, hogy nem szignifikáns. (Ilyenkor ugyanis 3,2% a tényleges szignifikanciaszint, mert a rangkorrelációs együttható következő értékéhez már 5%-nál nagyobb valószínűség tartozik.) Ezek a számok nem légbőlkapottak! A rangkorrelációs együtthatók eloszlástáblázata szerint a Spearman-, illetve a Kendall-féle együtthatók küszöbszámainak n=8 esetén éppen ezek a valószínűségek felelnek meg. (Más kérdés, hogy a „valójában 0,045-ös valószínűségű kapcsolat” pusztán spekuláció: nincs mód ennek tényleges megmérésére.) A példa olyan volt, hogy a Kendall-féle együttható küszöbszámának valószínűsége esett messzebb a névleges értéktől, 5%-tól. Ez legtöbbször így is van, ugyanis ennek az együtthatónak az esetében nagyobbak a „lépcsők”. Ezt fogalmaztam meg előbb, mint a vitatott tankönyvi állítás nemteljesülésének második okát. Mielőtt ezt (és a „második ok” kettős megállapításának másik részét) számszerűen is alátámasztanám, menjünk egy lépéssel vissza. A két rangsor egymáshoz viszonyított helyzete (tehát lényegében a kapcsolat mértéke) n! féle lehet. Ez, eltekintve az egészen kis elemszámoktól, olyan nagy szám, hogy nem is kellene emlegetni az eloszlások „lépcsős” voltát: nyugodtan folytonosnak tekinthetnénk őket.
Csakhogy nem minden rangsor-kombinációhoz tartozik különböző rangkorrelációs együttható! Gondoljunk a két független minta összehasonlításakor végzett megfontolásainkra és az 5.1. táblázatra. Ott 9! (362880) különböző sorrenddel kellett volna számolnunk, a két minta eltérését mutató rangszámösszeg ezzel szemben mindössze 19 értéket vehetett fel; ennyi értékből állt tehát a teljes eloszlás. A csökkenés mértéke a rangkorrelációk esetében is hasonló. Anélkül, hogy a (pusztán formális algebrai műveleteket igénylő) levezetés részleteivel terhelném az olvasót, közlöm a végeredményt. A rangkorrelációs együtthatók különböző értékeinek száma a Kendall, illetve a Spearman-féle együttható esetében n(n 1) n3 n 1, illetve 1. 2 6 (A második formula n=3 esetén nem érvényes.) A két elemzett példára (5.13. és 5.14. táblázat) vonatkoztatva ez azt jelenti, hogy az első esetben (8 elemű minta) a rangkorrelációs együtthatók eloszlása 29, illetve 85 értékből áll, a másodikban (n=15) 106, illetve 561értékből. Ezek a „teljes eloszlások” természetesen mindig tartalmazzák a szélsőséges +1 és –1 értékeket is. Kis elemszámok (4 vagy 5) esetén a Spearman-féle együttható különböző értékeinek száma mintegy kétszerese a Kendall-féle együttható által fölvehető értékeknek, n=8-nál már kb. háromszoros, 15-nél bő ötszörös az arány, és a fenti formulák nem hagynak kétséget afelől, hogy a különbség tovább nő.
Ezek a számok persze messze elmaradnak attól, ahányféleképpen a rangsorok viszonyulhatnak egymáshoz. Ez a szám a 8 elemű minták esetében 40320, a 15 elemű mintákra pedig több, mint egy billió, a csaknem kimondhatatlan 1 307 674 368 000. Természetesnek látszik, hogy ha a kapcsolat egyre szorosabbá, a két rangsor egyre hasonlóbbá válik (beszéljünk most csak a pozitív korrelációkról), akkor egy idő után „lép” egyet a két rangkorrelációs együttható is, És mivel a Spearman-félének sokkal több értéke, több „lépnivalója” van, ezért az fog sűrűbben változni. Ez általában így is van, de nem mindig. Csak egyetlen példát említek. Ez persze nem általános szabályszerűségre mutat rá; inkább csak afféle „ellenpélda”, hogy lám: a Kendall-féle rangkorrelációs együttható is reagálhat érzékenyebben a rangsorok változtatására. Induljuk ki az 5.13. táblázat példájából. Ott = 0,6429 volt az eredmény, amihez p<0,05 tartozott a XII. táblázat alapján. (Emlékeztetünk, hogy ez az együtható éppen a küszöbszámmal volt egyenlő.) Másrészt (még az előző szakaszban) kiszámítottuk ugyanebben 153
a mintában a Spearman-féle együtthatót és a hozzá tartozó valószínűséget: rS = 0,8333, p<0,02. (Ez az együttható szintén egybeesett a küszöbszámmal.) Mindkét eredményt megerősítette a normális, illetve t-eloszlással kapott közelítés is. Most változtassuk meg kissé a mintát. Az első változó (testmagasság) rangszámainak változatlanul hagyásával cseréljük ki az 1-es és a 4-es rangszámot a testúlyok közt. (Az új sorrend 2 3 4 1 7 6 5 8 lesz.) Könnyű utánaszámolni, hogy a fordított párok száma 6-ra, a rangszámkülönbségek négyzetösszege 20-ra nő. Így a megváltoztatott mintában = 0,5714 és rS = 0,7619 lesz a két rangkorrelációs együttható. Az elsőhöz 0,10>p>0,05, a másodikhoz p<0,05 valószínűség tartozik. Az egyik tehát szignifikáns, a másik pedig nem – ellentétben a statisztika szakkönyvek kategorikus állításával. Még érdekesebb a következő módosítás. Változtassuk tovább a testsúlyok sorrendjét úgy, hogy csökkenjen a fordított elrendezésű párok – a metszéspontok – száma. Ezt eredményezi, ha a 7–6–5 ciklust az 5–7–6 ciklussal cseréljük föl. (A testsúlyok rangszám-sorrendje, ha a magasságokét meghagyjuk nagyság szerinti elrendezésben: 2 3 4 1 5 7 6 8.) Kiszámolva a két együthatót, rS annyi, amennyi eredetileg volt (0,8333), viszont megnő, tekintettel arra, hogy F értéke 4-re csökkent: = 0,7143, ékesen bizonyítva, hogy a két, egyszerre végrehajtott változtatásra csak az „érzéketlenebb” Kendall-féle együttható reagált, a Spearman-féle nem. A szép az egészben az, hogy így mindkettőhöz a p<0,02 valószínűség tartozik (mindkét együttható a küszöbértéket veszi fel).
Következik-e mindebből, hogy a két rangkorrelációs együttható a szignifikancia eldöntése szempontjából nem egyenértékű (mint ahogyan azt a tankönyvek állítják), vagy ezek az eltérések belül vannak a megengedett statisztikai ingadozáson? Ezt döntse el az elszánt olvasó, aki végigkísérte az előbbi gondolatokat. Vagy esetleg más oka is van az eltérésnek, az általam említetteken kívül? Ez sincs kizárva.
Befejezésül ejtsünk néhány szót az egyforma adatok esetéről, tehát a k együttható szignifikancájáról. Itt nem lehet olyan könnyen elintézni a dolgot, mint a Spearman-féle együttható esetében. (Bár véleményem szerint ott sem lenne szabad olyan könnyen venni: korreláció esetén a kapcsolt rangok sokkal jobban beleszólnak az érték alakulásába, mint a mintákat összehasonlító próbastatisztikák számolásakor.) Ott azzal lehetett érvelni, hogy az „eredeti” adatokból számolt t sem „bánja”, ha az adatok közt egyformák vannak; miért lenne ez baj akkor, ha az adatok pozitív egész számok (rangszámok)? Van, akit teljesen meggyőz ez az érvelés, másokat nem. Mégis mindenki úgy jár el, ahogyan ezt az 5.4.1.4 pontban említettük. A Kendall-féle együttható esetében azonban egészen más a helyzet. Nem az történik, hogy módosul a rangkorrelációs együttható eloszlása, hanem az, hogy egyetlen eloszlás helyett nagyon sok eloszlást kell figyelembe venni. Más és más eloszlás alapján kell dönteni aszerint, hogy hány egyforma adat van, és a rangsor melyik részén helyezkednek el ezek az egyformák. Csak nagyon röviden említünk néhány példát. A együttható n=4 (tehát használhatatlanul kis minta) esetén 24 értéket vehet föl (4!=24). A különböző értékek száma azonban mindössze 7; ennyiből áll tehát a teljes eloszlás. Ugyanez a négyelemű minta egyforma adatok esetén annyi egymástól eltérő változatban fordulhat elő, hogy ha táblázatba akarnánk foglalni, 27 eloszlástáblázatot kellene készítenünk. (Ezek 6 vagy kevesebb különböző értéket tartalmaznak és még csak nem is mind szimmetrikusak.) Az ötelemű minta még mindig kicsi ahhoz, hogy szignifikancia kimondására használjuk: a XII. táblázatból látszik, hogy csak a két legnagyobb érték éri el az egyoldali 5, illetve 1%-os szintet. Ez az eloszlás azonban már 120 kiszámítását, és egy 11 tagú eloszlásba való besorolását követeli meg – ha minden adat különböző. Ha megengedjük az egyformaságokat, 119, az előbbinél kisebb eloszlást kell előállítanunk – és ezek alapján sem lehet a szignifikanciát kimondani máskor, mint a legszélsőségesebb, k 1 esetben. (A következő „lépcső” már 5% fölé esik.) El lehet képzelni, mi a helyzet a nagyobb, a gyakorlati alkalmazásokban előforduló elemszámok esetén. 154
Táblázatba foglalni tehát teljesen reménytelen ezt az esetet. Egyedül az képzelhető el, hogy a számítógép az adott szituációnak megfelelő eloszlást előállítja, és a kapott értékhez tartozó valószínűséget kinyomtatja nekünk. Ha n nem nagyobb, mint 7 vagy 8, erre még talán érdemes programot készíteni, de nagyobb elemszámok esetén már ez is túl nagy „befektetés” ahhoz az eredményhez képest, hogy k együtthatónkról kiderüljön: szignifikáns-e vagy sem. Sebaj, gondolhatnánk, ott a normális közelítés! Ez sem visz azonban sokkal közelebb a megoldáshoz. A standardizáláshoz szükséges formulákat még senki nem állította elő. Megcsinálták viszont az (U–F) különbség standardizálásához szükséges szórás formuláját.* Ám még ezzel sem oldottuk meg a problémát: az (U+F) nevező ebben az esetben nem konstans, hanem függ U és F konkrét értékeitől; még ilyen kínlódás árán sem jutunk el tehát k küszöbszámaihoz. Nyugodjunk hát bele, hogy a Kendall-féle rangkorrelációs együttható szignifikanciájáról csak akkor tudunk beszélni, ha az adatok közt nincsenek egyformák. Egyforma adatok esetén nem használhatjuk a XII. táblázat küszöbszámait, sem a standardizálás (5.48)-as képletét. Még abban sem lehetünk biztosak, hogy ha mégis megpróbáljuk ezeket alkalmazni, a konzervatív irányba torzított eredményt kapunk. 5.4.2.6 Melyiket számítsuk ki a két együttható közül? A statisztikai irodalomban hosszú elemzések találhatók a két rangkorrelációs együttható összehasonlítására, előnyeik és hátrányaik felsorakoztatásával. Egyik szempont éppen az szokott lenni (a kettőt ugyanolyan jónak bizonygató érvelés során), aminek vitatható voltáról az előző pontban túlságosan is hosszan elmélkedtem. A másik szokásos érv – ezúttal a együttható mellett – az, hogy fölhasználható a kapcsolat „tisztított” mérésére is, ami azt jelenti, hogy létezik az együttható parciális változata. Ez az érv azonban szerintem egyáltalán nem helytálló. A Spearman-féle rangkorrelációs együttható ugyanis mind számításmódjában (l. az (5.37) képletet), mind határeloszlásában (n–2 szabadságfokú t-eloszlás) oly mértékben azonos az r lineáris korrelációs együtthatóval, hogy egyszerűen nem látok semmi okot, amiért ezekből a rangkorrelációkból ne lehehetne parciális korrelációt számítani, a korábban megismert képletek alapján (xxx oldal). Egy további, de az előzőnél nyomósabb érv a Kendall-féle együttható mellett, hogy sokkal inkább „nemparaméteres”, mint a másik. Ezt az együtthatót valóban a sorrendekből számoljuk ki, anélkül, hogy „kikacsintanánk” a paraméteres eljárások felé. Ezzel szemben a Spearman-féle rangkorrelációs együttható nem tesz mást, mint az ízig-vérig paraméteres korrelációs képletet használja, csak éppen fölcseréli előbb az adatokat a megfelelő rangszámokkal.** Egyértelműen a együttható mellett szól, hogy sokkal egyszerűbb a kiszámítása. Emlékezzünk csak, hogy gyakorlatilag fejben tudtuk kiszámítani az együtthatót a fejezet valamennyi példájában. Láttuk, hogy F (vagy U és F) meghatározása sem jelent semmilyen problémát, ha igénybe vesszük a grafikus vagy a táblázatos eljárást. Ellene szól viszont az, hogy szignifikanciájáról csak akkor tudunk beszélni, ha az adatok mind különbözők. Éppen az előbb tárgyaltuk meg az egyforma adatok előfordulása esetén érvényes eloszlások előállításának nehézségeit. A Spearman-féle együttható szignifikanciáját ezzel szemben ilyenkor is ugyanúgy szokás vizsgálni, mint csupa különböző adat esetén. A torzítás valószínűleg valóban kisebb, de azért alighanem sokan megkérdőjelezik ennek a – mint mondtam: általánosan alkalmazott – eljárásnak a jogosultságát. Végül is nem lehet egyértelmű választ adni, hogy melyik rangkorrelációs együttható ajánlható jó szívvel. Saját – nem érvekre, inkább egyéni szimpátiára támaszkodó – véleményem az, hogy használjuk inkább a Kendall-féle együtthatót, és csak akkor vegyük elő a Spearman-félét, ha egyforma adatok vannak, és kíváncsiak vagyunk az együttható szignifikanciájára is. *
Le sem írom! Ez a formula körülbelül másfél sor hosszúságú.
**
Persze ez az érv csak annyit jelent, hogy rS nem igazán nemparaméteres, de azt nem, hogy jobb a másiknál.
155
5.5 Az egyetértési együttható A szintén Kendall nevéhez fűződő W egyetértési együttható mind felépítését, mind számításmódját tekintve hallatlanul egyszerű – ahogyan ezt a rangsorolásos eljárások esetében már megszokhattuk. Másfelől azonban ez a módszer túllépi ennek a bevezető jellegű statisztikai könyvnek a kereteit. Ez az eljárás ugyanis statisztikai szempontból többváltozós, márpedig ebben a könyvben csak egyváltozós módszereket tárgyalunk. Többször említettük, hogy akár emberekből, akár másból (állatokból, tárgyakból) áll a minta, annak elemeire vonatkozóan szinte mindig több adatunk van, mint az az egy, amelyet – ha valahogy emlegetni kellett – „vizsgált változónak” neveztünk. Például a személyi adatok: nem, kor, iskolai végzettség stb., de egyéb mért és megfigyelt adatok is, amelyek éppúgy képezhetnék vizsgálatunk tárgyát, mint az eddigi „vizsgált változó”. A gyakorlati problémák tehát szinte mindig „többváltozósak”, de a statisztikai módszer, amellyel elemeztük őket, mindeddig egyváltozós volt. A figyelmes olvasó biztosan tiltakozik, hogy hiszen eddig is szerepelt két változó ugyanabban a mintában, és vizsgáltuk is a kettő kapcsolatát. Ez így is van, ám a két változó kapcsolatát vizsgáló eljárások, például a korrelációs együttható (és a korábban tárgyalt lineáris regresszió) az egyváltozós statisztikai módszerek közé számítanak.
Látszólag logikátlan így ez az egyváltozós–többváltozós megkülönböztetés. Persze lehetne pontosabb meghatározást adni a változók együttes kezelését, „párhuzamos figyelembevételét” követelve meg, ami megszüntetné ezt a logikátlanságot. De kár ezzel a kérdéssel sokat foglalkozni, hiszen az egyváltozós és többváltozós eljárások közt nem olyan éles a határvonal, mint általában gondoljuk. A kétszempontos varianciaanalízis (l. a 4.6 fejezetet), ha úgy vesszük, szintén kétváltozós eljárás: a vizsgált változónak két másik változótól – a szempontoktól – való függését elemzi. Ha pedig mindenképpen „menteni” szeretnénk a korrelációszámításnak az egyváltozós módszerek közé való sorolását, gondoljunk a lineáris regresszióra. Az azért egyváltozós, mert a vizsgált értékeknek egyetlen változótól való függőségét elemzi; a korrelációs együttható pedig ugyanezt a függőséget méri.
A többváltozós statisztikai mószerek bonyolult számítási eljárásokat írnak elő, amelyek már egészen kis elemszámok esetén is megkövetelik számítógép használatát. Ennél fontosabb azonban, hogy a felhasznált matematikai apparátus lényegesen bővebb annál, mint amennyit ebben a könyvben feltételeztünk. Látszólag minden az ellen szól tehát, hogy egy többváltozós eljárást, akár (mint esetünkben is) a legegyszerűbbet, ezen a helyen tárgyaljunk. Másfelől azonban a W egyetértési együttható olyan sok szállal kötődik az előző fejezetekben tárgyalt (egyváltozós) rangsorolásos eljárásokhoz, hogy sokkal inkább ide tartozik, mint a többváltozós módszerek közé. És még valami. Itteni tárgyalása remek ürügyet szolgáltat majd néhány olyan fogalom bevezetésére, amelyek egyébként nem fordulnának elő ebben az egyváltozós módszereket tárgyaló, bevezető statisztikai könyvben, de amelyeknek ismerete a többváltozós módszerek majdani használóinak (e könyv olvasóinak!) elengedhetetlen. Mindenekelőtt azonban lássuk azokat a helyzeteket (vagy inkább gyakorlati problémákat), amelyekben ennek az együtthatónak a kiszámítására van szükség. Hiszen egyelőre még azt sem tudjuk, miért neveztük ezt az eljárást többváltozósnak! (És azt sem, hgy miért éppen egyetértési együttható a neve.)
5.5.1 Az egyetértési együttható használatát igénylő feladatok Az alaphelyzet a következő. Van n személy – ez tehát a minta elemszáma –, akiket többen is (ezek számát jelöljük k-val) rangsorolnak valamilyen szempont szerint. (Bírálóknak fogjuk nevezni őket, mert a legtöbb gyakorlati feladatban valóban erről, a személyek elbírálásáról van szó.) Fontos hangsúlyozni, hogy minden bíráló önállóan, a többiektől függetlenül végzi a rangsorolást. A sze156
mélyek közti különbségtétel végül is egy közös rangsor alapján történik, amely a k darab rangsor birtokában születik meg, és így a bírálók együttes véleményét tükrözi. Ez a közös rangsor annál hitelesebb, mennél jobban egyetértettek a bírálók a személyek megítélésében. A bírálók közti egyetértést méri a W egyetérési együttható; ezt fogjuk megismerni az alábbiakban. Lássunk néhány példát. Valamilyen vállalat vagy hivatal vezetői azt állapítják meg a személyekről (a „jelöltekről”), hogy mennyire alkalmasak egy bizonyos állás, hivatal vagy tisztség betöltésére. Gyermekek egy csoportját rangsorolják a tanárok, például aszerint, hogy mennyire jó magaviseletűek. Vagy mennyire okosak, mennyire önállóak – és így tovább, rengeteg szempont szóba jöhet. Pszichoterápiát irányító szakemberek egy csoportja aszerint állítja sorba a résztvevőket, hogy mennyire gyógyultak, milyen mértékben hasznosították a terápiát. Orvosok egy csoportja arról nyilatkozik a rangsoroláskor, hogy egy betegcsoport tagjai közül ki mennyire súlyos beteg; esetleg ez dönti el, hogy milyen sorrendben végzik el náluk a műtéti beavatkozást. Sportvezetők rangsorolják a klub sportolóit, aminek eredményeképp a legjobbak fognak bekerüni a csapatba, a válogatott keretbe. Egy nyári tábor vezetői rangsorolják a résztvevőket, hogy ki tanult legtöbbet, illetve hogy ki mennyire felelt meg annak az elvárásnak, ami a tábor célja volt. Mielőtt még kiegészítenénk a példákat néhány olyan esettel, amikor nem személyeket, hanem valami mást kell rangsorolni, szeretnénk felhívni a figyelmet egy fontos körülményre. A bírálók egyetértése – ennek mértékét mutatja majd a kiszámítandó W együttható – nem jelenti azt, hogy az általuk készített sorrend helyes is. Ha létezik olyan objektív skála, amelyik megmutatja, hogy ki a legelső, a második (stb.) a személyek közül, akkor ez határozza meg a „helyes” sorrendet. (A betegség súlyosságát például megbízható laboratóriumi leletekkel gyakran meg lehet határozni.) Legtöbbször azonban nincs ilyen objektív skála (valamilyen feladatra való alkalmasság általában csak utólag derül ki!), vagy ha van, az nem pontosan azt méri, amit a bírálók – a maguk szubjektív, de több körülményt is figyelembe vevő módján – talán jobban el tudnak bírálni. (Például a sportolók esetében: nem feltétlenül azokat kell kiküldeni a versenyre, akik a leggyorsabban futnak, hanem akiknek az „állóképessége” is jó, jobban tűrik a hosszú verseny izgalmait, a rájuk nehezedő lelki terheket.) Mindenesetre le kell szögeznünk, hogy az egyetértési együttható egyáltalán nem alkalmas arra, hogy a sorrend helyességét megállapítsuk. Mint a neve is mutatja, ez csupán az egyetértést, a rangsorolások egybehangzóságát vizsgálja. Sajnos előfordul, hogy egyesek úgy vélik, a többek által együttesen kialakított sorrend „statisztikai alátámasztása”, a W együttható egyúttal azt is jelenti, hogy az igazságnak megfelelő sorrendet határozták meg. Mint említettük, nem csak személyeket lehet rangsorolni; lássunk néhány példát erre is. Közel áll az előbbiekhez az az eset, amikor egy zsűri tagjai (ők aztán igazán „bírálók”!) művészeti alkotásokat – festményeket, verseket, drámákat, zeneműveket – rangsorolnak, például egy pályamunka elbírálásakor. De a „bírálók” lehetnek egy kutatás vizsgálati személyei is. Ha például a művészi ízlés egyöntetűségét vizsgálja egy kutató valamilyen társadalmi vagy életkori csoportban, arra kéri vizsgálati személyeit, hogy mondják meg, melyik vers vagy kép tetszik nekik jobban. Vagyis rangsoroltatja velük a bemutatott alkotásokat – de nem igazán érdekli a kapott sorrend. Nem azt nézi, hogy a legjobbakat, legszebbeket (eldönthető ez egyáltalán?) teszik-e előre a sorrendben, hanem azt vizsgálja: egyetértő-e a csoport véleménye. Sok más kutatásban is adódhat hasonló helyzet. Mondatokat, állításokat is lehet rangsorolni aszerint, hogy mennyi azok igazságtartalma. Vagy bizonyos tulajdonságokat a fontosságuk szerint. És a példákat itt is vég nélkül lehetne sorolni, akárcsak a személyek sorbaállítása esetében.
Valószínűleg feltűnt az olvasónak, hogy milyen sokat időztünk a példák felsorolásánál. Ennek az az oka, hogy az itt tárgyalt helyzet eltér az eddig vizsgált problémáktól. Egyetlen csoport van csak, mint a regressziós és korrelációs vizsgálatokban, de kettő helyett több (k darab) változó szerepel: azok a rangsorok, amelyeket az egyes bírálók határoztak meg. Valószínűleg a k változó egymással való kapcsolata (vagy inkább egyformasága) érdekel minket, hiszen ez jelentené a címben is szereplő egyetértést. De hogyan lehet értelmezni a kapcsolat fogalmát kettőnél több változóra?
157
Szerencsére ezt a bonyolult értelmezési problémát nem kell megoldanunk. A következőkben bemutatott eljárás választ ad a felsorolt (és azokhoz hasonló) feladatokban fölmerülő kérdésekre anélkül, hogy ehhez bármilyen új, elvont fogalmat be kellene vezetni. A megoldás egyszerű és természetes lesz – ahogyan ezt egy rangsorolásos eljárástól el is várjuk. Bármilyen sok példát soroltunk is fel, távolról sem merítettük ki a W együttható alkalmazási lehetőségeit. Vannak olyan – hasonlóan k változós – esetek, amelyekben a „bíráló” fogalma már nem is szerepel, sőt az „egyetértés” szót is csak nagyon elvontan, átvitt értelemben használhatjuk, mégis az „egyetértési együttható” ad választ az ott fölmerülő kérdésekre. Addig azonban nincs értelme ezek bemutatásának, amíg az „alapproblémát” nem oldottuk meg.
A felsorolt példák többségében látszólag az volt a cél, hogy kialakuljon az állásra jelentkező jelölteknek, az osztály tanulóinak, a pszichoterápia résztvevőinek, a benyújtott pályamunkáknak (stb.) valamilyen közös rangsora. Ennek alapján lehet azután alkalmazni a jelentkezőket, díjazni a pályamunkákat, összeállítani egy csapatot – mikor mi a helyzet. Ez a közös rangsor, mint látni fogjuk, általában könnyen meghatározható a k darab, különböző bírálók által készített rangsorból. Ehhez azonban nincs szükség semmiféle statisztikára. Minket az érdekel – és ennek vizsgálata igazi statisztikai probléma –, hogy az eredmény mögött valóban egyetértő döntés áll-e, a kapott sorrend a bírálók (tanárok, pszichológusok, orvosok, vállalati vezetők, zsűritagok, kísérleti személyek stb.) közös véleményét képviseli-e. Azaz volt-e egyetértés a bírálók között és milyen mértékben? Ezt az egyetértést méri egy 0 és 1 közti skálán a W egyetértési együttható; 0 azt jelenti, hogy hiányzott az egyetértés, 1 azt, hogy tökéletes egyetértés volt köztük. Most már tudjuk, mi a feladat, de még nem ismerjük az együttható kiszámítási módját (csúnya szóval képletét). Előbb azonban lássunk egy számpéldát! Ez a szituáció elképzelését és az eljárás menetének megértését egyaránt megkönnyíti majd. Az alábbi példa „szöveg nélküli”, hogy tetszésünk szerint gondolhassunk az előbb felsorolt problémák bármelyikére, vagy más, nem is említett példára. A „méreteket” természetesen rögzíteni kellett: a mintához tartozó személyek száma, az n elemszám 7-tel egyenlő, akiket 4 bíráló (k=4) rangsorolt, egymástól függetlenül. 5.15. táblázat: Példa az egyetértési együttható számolására A jelölt neve
A 4 bíráló által készített rangsorok
Ri
Anna
4
5
3
4
16
Beáta
7
6
6
7
26
Cecília 2
1
4
2
9
Csilla
6
4
7
5
22
Diána
1
2
1
1
5
Enikő
3
3
5
3
14
Éva
5
7
2
6
20
Az 5.15. táblázat első oszlopában a rangsorolt személyek* – mondjuk pályázók – „nevét” tüntettük föl, hogy beszélhessünk arról, ki a legjobb, ki kerül a második helyre stb. Az ezután következő oszlopok tartalmazzák a négy bíráló rangsorolásának eredményét. Legyen a példa olyan, *
Ha nem személyek, hanem mondjuk festmények vagy tulajdonságok rangsorolására gondolunk, a nevek ezeket is szimbolizálhatják. A „névadással” tehát nem csökkentettük a példa általánosságát.
158
hogy a legjobb jelölt kapja az 1-es, a legrosszabb a 7-es rangszámot. Úgy is mondhatjuk, hogy a bírálók a helyezési számokat adták meg.
Elképzelhető a fordított eljárás is, amikor a jelölteket az általuk elért (tényleges vagy csak a bírálók képzeletében élő) pontszámok alapján rangsorolják. A táblázat hasonló lesz, mint előbb, csak ilyenkor nem az „első” a legjobb, hanem a legmagasabb pontszámú, vagyis a hetedik (általában n-edik). Mivel a „helyezési számok” szerinti rangsorolás némiképp természetesebb, az eljárást a következőkben ennek megfelelően fogalmazzuk meg. Az eljárás menete és a kapott eredmény persze mindkét esetben ugyanaz.
A táblázat tartalmaz még egy oszlopot: az egy sorban álló – ugyanahhoz a személyhez tartozó – rangszámok összegét. Erre szükségünk lesz a W együttható kiszámításakor, de nem csak ezért tüntettük itt fel. Ennek az utolsó, Ri jelű* oszlopnak az alapján állapíthatjuk meg a jelöltek „együttes helyezését”, a négy bíráló helyezési számainak közös végeredményét. Nyilván az az első az n pályázó közül, akinek rangszámösszege a legalacsonyabb. (Csupa 1-est kapott, vagy ha nincs is így, összességükben előrébb helyezték őt a bírálók a többieknél.) A második legkisebb Ri rangszámösszeg jelöli ki a második helyezettet, és így tovább. Így a példában Diána–Cili–Enikő–Anna– Éva–Csilla–Bea a sorrend. Megvan tehát a „közös rangsor”, és ha csak ez lett volna a kérdés, készen is lennénk. Mi azonban elsősorban arra vagyunk kíváncsiak, hogy egyetértő bírálóktól származik-e ez a helyezés, illetve, mivel tökéletes egyetértés a gyakorlatban aligha fordul elő, milyen mértékű volt a bírálók csoportjának egyetértése a személyek – pályázók – megítélésében.
5.5.2 A W egyetértési együttható kiszámításának módja Mint már említettük, az egyetértés mérőszáma 0-tól 1-ig terjedő értékeket vehet fel, ahogyan ezt el is várjuk egy valamirevaló kapcsolati (korrelációs) mérőszámtól. De miért nem –1-től +1-ig? Miért nem beszéltünk (vagy fogunk beszélni) negatív értékekről? Azért, mert ilyennek egyszerűen nincs értelme. Egyetértés vagy van vagy nincs (és a mérőszám mutatja majd, hogy milyen mértékben van meg vagy mennyire hiányzik), de „negatív egyetértés” nem képzelhető el. Ezt könnyű megérteni már akkor is, ha mindössze három bíráló van. Például azt látjuk, hogy az első kettő nagyon nem ért egyet, teljesen (vagy legalábbis erősen) más véleményen vannak. ** Ha viszont ez így van, a harmadik vagy az egyikkel, vagy a másikkal (legalább bizonyos mértékben) kénytelen egyetérteni. Nem lehet, hogy a két – egymással ellentétes – vélemény mindegyikével ellentétes véleményen legyen. Mivel ilyesmi elképzelhetetlen (3-nál nagyobb k esetén szintúgy, mint a most említett esetben), úgy konstruáljuk meg az együtthatót, hogy az csak pozitív lehessen. Most is úgy járunk el, mint a legtöbb rangsorolásos módszer esetében: megpróbáljuk kitalálni az eljárást. Ezt azonban, akárcsak máskor, a „főszövegtől” elkülönítve, a -os részben tesszük, hogy akik nem akarnak részt venni ebben a felfedező kalandozásban, a kész képlettől kezdve folytathassák az olvasást.
*
Olyan formulát keresünk tehát, amely a rangsorok egyformaságát egy 0 és 1 közti, mindig pozitív számmal méri. Ezért legjobb, ha valami négyzetes mérőszámot találunk ki; így nem kell attól tartani, hogy az valaha is negatív értéket vesz föl.
Így szoktuk jelölni a rangszámösszegeket.
**
Ez úgy nyilvánul meg, hogy fordítva rangsorolják a jelölteket: aki egyiknek a legjobb, az a legrosszabb a másiknak.
159
Mi mutat teljes egyetértésre? Az, ha minden bíráló ugyanazt személyt tartja a legjobbnak (elsőnek), mindnyájan ugyanazt tartják másodiknak, és így tovább. Az 5.15. táblázathoz hasonlóan felírt minta ekkor úgy néz ki, hogy valamelyik sorában* csupa 1-es, egy másik sorban csupa 2-es áll, és így tovább, míg végül valamelyik – az „utolsó” – sorban a minta elemszámával megegyező szám (n) áll minden oszlopban. A táblázat utolsó, az abban a sorban álló rangszámok összegét feltüntető oszlopában ilyenkor állnak a legszélsőségesebb számok: egyikben (a „csupa 1-es összegeként”) k, a másikban 2k (a 2-esek összege), és sorban k többszörösei az előforduló legnagyobbig, nk-ig. Amint valaki csak egy kicsit is nem ért egyet a többivel, ezek az Ri számok közelebb kerülnek egymáshoz. Leginkább akkor látjuk ezt, ha az első vagy az utolsó személyt illetően van némi eltérés: a legkisebb szám nem k, hanem annál nagyobb lesz (hiszen valaki ezt a személyt csak másodiknak, harmadiknak – vagy akárhányadiknak – jelölte meg), a legnagyobb szám pedig kisebb, mert a csupa n közé egy (vagy több) kisebb szám kerül. Persze akkor is ugyanez a helyzet, akkor is közelebb kerülnek egymáshoz a számok, ha valahol másutt, „közben” romlik el a teljes egyetértés. Mennél nagyobb a véleménykülönbség, annál kevésbé térnek el egymástól az Ri sorösszegek. Sőt akár egyformák is lehetnek;** ilyenkor a bírálók csoportja semmi különbséget nem talál a jelöltek közt – ami azzal egyenértékű, hogy teljes köztük a véleménykülönbség.
Kézenfekvő tehát, hogy az Ri számok szórásával mérjük az egyetértést. De még a szórásra sincs szükség, elég a szórásnégyzet (variancia) számlálóját, QR-t kiszámítani.*** (Minek bajlódjunk a nevezővel? Az csak a minta elemszámától függ, és semmi köze az egyetértéshez.) Persze nem lehet QR az egyetértés mérőszáma, mert annak nagysága a minta elemszámától és a bírálók számától is függ. (Arról nem is beszélve, hogy általában nagyobb 1-nél, pedig a mérőszámnak 0 és 1 köztinek kell lennie.) „Normálni”, valamivel osztani kell tehát, mint a kapcsolati mérőszámokat (gondoljunk r-re, -re és a többire). Erre a célra mi sem lehet jobb, mint QR maximális értéke; így nemcsak kisebb lesz 1-nél az együttható, hanem el is érheti 1-et. Tehát: (5.49)
W
QR . Qmax
Az előbbi gondolatmenet során láttuk, hogy az Ri számok akkor esnek egymástól legtávolabb, akkor legnagyobb a szórásuk (és így a belőlük számolt QR is), ha tökéletes egyetértés van a bírálók közt. Ilyenkor – és csakis ilyenkor – lesz 1 a W egyetértési együttható értéke, és akkor lesz 0, ha minden Ri egyforma; ez pedig a teljes véleménykülönbségre, az egyetértés teljes hiányára mutat. (Mint az előbbi lábjegyzet utalt rá, a nulla értéket nem mindig veheti föl az együttható. De az egyetértés hiányára mutatnak a kis, nulla-közeli értékek is.)
*
A fenti formula azonban még nem a végleges képlet. A nevezőben álló Qmax értékét ki tudjuk fejezni a mintára jellemző n és k számok segítségével. Emlékezzünk csak rá, hogy teljes egyetértés – a maximális QR – esetén mik is voltak az Ri számok: k, 2k, 3k, …, nk. Nem tudjuk ugyan „fejből” rávágni, hogy mennyi az ezekből számolt Q, de jól ismerjük (l. az (5.5) képletet!) az 1, 2, …, n számokból számolt Q értékét: (n3–n)/12. Azt viszont már a könyv első részéből tudjuk, hogy ha a minta adatait megszorozzuk egy számmal (lineáris transzformáció!), akkor a belőlük számolt variancia (és Q) a szorzószám négyzetével szorzódik meg. De hiszen itt is éppen ez történik! Az első n számból álló minta helyett Ri olyan
Nem szükségképp az elsőben! A személyek sorrendje akármilyen lehet; például betűrendben soroljuk fel őket.
**
Ez nem mindig lehetséges. Vannak olyan n és k kombinációk, amikor nem fordulhat elő teljes egyformaság. (Mindig ez a helyzet, ha k páratlan, n pedig páros. Az olvasóra bízzuk: gondolkodjék el rajta, hogy mi lehet ennek az oka.) ***
Íme itt a négyzetes mérőszám!
160
számsort alkot, amelyben az egyes elemek éppen k-szorosai az előbbi minta elemeinek. Ezzel meg is kaptuk a teljes egyetértés esetén érvényes QR értékét: (5.50)
Qmax
k 2 ( n 3 n) . 12
Behelyetesítve ezt az (5.49) formulába, kapjuk W szokásos „tankönyvi” képletét: (5.51)
12QR . k ( n 3 n)
W
2
Most már semmi akadálya, hogy meghatározzuk W-t az 5.15. táblázat adataiból. Számítsuk ki előbb QR-t. A „számolásra alkalmas” formulával:
R . R n 2
(5.52)
QR
i
2 i
De az R-ek összegét is ismerjük! Az 5.15. táblázatban (és minden hasonló adatelrendezésben) úgy is összegezhetünk, hogy előbb oszloponként készítjük el a számok összegét. Márpedig ez az öszszeg minden oszlopban n(n+1)/2 (talán már hivatkozni sem kell az (5.1) formulára!), a k oszlopösszeg összege (ami persze ugyanaz, mint az n sorösszeg, tehát az Ri-k összege) eszerint (5.53)
R
i
kn(n 1) . 2
Betéve ezt az utolsó eredményt (5.52)-be, kapjuk, hogy (5.54)
QR Ri2
k 2 n(n 1) 2 . 4
Ennek alapján fogjuk kiszámítani W-t a példában. Az első tagot az 5.15. táblázat utolsó oszlopából számoljuk: 162 +262 +92 +…+202 = 2118. A második tag csak a példát meghatározó k és n számoktól függ, az aktuális adatoktól nem. Értéke 16.7.64/4 = 1792. Eszerint QR értéke 2118 –1792 = 326. Végül az egyetértési együttható:
W
12 326 0,7277. 16(73 7)
Ez meglehetősen nagy fokú egyetértésre utal, hiszen a kapott együttható jóval közelebb van 1-hez, mint az egyetértés hiányát jelentő 0-hoz. A skála ugyan nem egyenletes (ezt tudjuk már az r korrelációs együttható bevezetése óta), de a gyakorlatban már ennél jóval kisebb, 0,4–0,5 körüli együtthatók esetében is egyetértő bírálókat szoktak emlegetni.
5.5.3 Rangsorokból álló minták Mielőtt tovább mennénk, figyeljünk fel egy érdekes körülményre. Az eddig tárgyalt rangsorolásos eljrásokban mindig voltak valamilyen (mondjuk xi, esetleg xi és yi) adataink, általában mérési adatok, amelyeket rangsoroltunk (aminek része volt az adatok rangszámokkal történő felcserélése). Most más a helyzet. Maguk az „eredeti” adatok már rangszámok. Ez nem szükségszerű, de a konkrét esetek többségében így van. Vajon miért nem találkoztunk ilyennel az eddig tárgyalt módszerek során? A független csoportokat összehasonlító eljárások (5.2 fejezet) esetében elképzelhetetlen eleve rangszámokat kiosztani. Minden csoport külön egységet képez (hiszen függetlenek), gyakran a vizsgálat is másutt, más időben történik; egyszerűen nincs mód arra, hogy ezeknek a csoportoknak 161
az elemeit közös rangsorba állítsuk. Előbb valamilyen módon megmérjük, elbíráljuk őket; a rangsort pedig az így kapott számértékek – az „eredeti adatok” – alapján határozzuk meg. Hasonló a helyzet összetartozó minták összehasonlításakor (5.3 fejezet). A Wilcoxon-próba esetében előbb meg kell állapítani, hogy mekkora és milyen irányú az a változás, amit az alkalmazott „kezelés” eredményezett, és csak aztán tudjuk – irányuktól függetlenül, csak nagyságuk alapján – rangsorolni őket. Egyedül talán a Friedman-próba használatakor fordulhat elő, amikor az egyes személyek különböző körülmények közt oldanak meg egy feladatot (vagy azonos körülmények közt egymáshoz hasonló feladatokat), hogy a vizsgálatvezető rögtön „rangsorolja”, melyik megoldás volt a legjobb (vagy leggyorsabb), az ezután következő, és így tovább. De ilyenkor is egyszerűbb, ha valamilyen méréssel meghatározzuk előbb a teljesítményt, azután a mérőszám nagysága alapján rangsorolunk. (Ha nem azonos személyekről, hanem blokkokról van szó, különösen nehéz elképzelni a „direkt rangsorolást”.) A rangkorrelációs vizsgálatokban (5.4 fejezet) előfordulhat, hogy a két változó eleve rangszámokból áll. Leginkább talán olyankor, ha ugyanazokat a személyeket két vizsgáló minősíti valamilyen szempont szerint. A rangkorreláció ilyenkor a két minősítés – a két rangsorolás – hasonlóságát méri. Ez azonban nem más, mint az egyetértés vizsgálatának k = 2 melletti, speciális esete! Formálisan ilyenkor is alkalmazható a W egyetértési együttható – ezzel viszont elvesztjük annak a lehetőségét, hogy az „egyetértés hiánya” helyett „ellentétes vélemény”-ről beszélhessünk (a negatív rangkorrelációk ugyanis ezt jelentik). A rangkorrelációs és egyetértési együtthatók közti viszonyról egyébként később, az 5.5.6 szakaszban lesz szó. 5.5.3.1 A közvetlen rangsorolás előnyei Ha a bírálóknak személyek egy csoportját kell rangsorolniuk, gyakran támaszkodhatnak bizonyos mérésekre, számszerű eredményekre. Az állásra jelentkezők, az iskolás gyerekek, a pszichoterápia résztvevői előzetesen egy vagy több tesztet oldottak meg, a betegekről készültek különféle vizsgálatok, a sportolók teljesítményét följegyezték (fussuk csak végig a bevezetőben említett példákat!), és ezek az eredmények a bírálók rendelkezésére állnak. De mit csináljanak ezekkel a részeredményekkel? Adják őket össze? Ez legtöbbször értelmetlen feladat. Még ha egységesen „standardizált” adatokról van is szó, az összeadás akkor is kétes értékű. Ritkaság, hogy két pszichológiai teszt, két vizsgálati lelet (stb.) eredménye egyformán fontos legyen az alkalmasság, az önállóság, a gyógyultság, a súlyosság stb. megállapításában. (Ismét az első szakasz példáira utaltunk.) A bírálónak tehát súlyoznia kell a rendelkezésére álló eredményeket. És ez még nem minden. A számszerű eredményekhez, leletekhez „mérhetetlen” tényezők is csatlakozhatnak, ha pl. egy állásra való alkalmasságot vagy egy betegség súlyossági fokát akarjuk minősíteni, egy másik személy alkalmasságához vagy betegségéhez hasonlítani. Arról már nem is beszélve, hogy egyes összehasonlításokban (művészeti alkotások elbírálása, iskolás gyerekek magaviseletének minősítése) szinte soha nem állnak rendelkezésünkre mérések vagy egyéb számszerű adatok. Az esetek igen nagy részében a bíráló szubjektív ítéletén múlik, hogy kit minősít alkalmasabbnak, jobbnak, méltóbbnak a másiknál. A rangsor elkészítéséhez legtöbbször persze felhasznál a bíráló számszerű támpontokat is. Különféle jelek, a személyre (vagy tárgyra) vonatkozó részletek alapján pontozza a jelölteket, és az elért pontszámok segítségével határozza meg a rangsort.* Ezek a pontszámok néha még csak nem is számok (tartalmazhatnak szavakat is, mint „egészen kiváló”, „meglehetősen gyenge” stb.), de még ha valóban számok is, akkor sem tekinthetők másnak, mint a rangsorolás egyéni – és esetleg esetről estre változó – segédeszközének. Objektív mérésnek semmiképpen sem. A bírálók rendszerint azt a feladatot kapják, hogy rangsorolják a jelölteket, nem pedig azt, hogy számszerűen minősítsék őket. Ez eleve kizárja, hogy görcsösen keressenek valamilyen mérő*
Megteheti persze, hogy a pontszámokat adja át a vizsgálat vezetőjének, aki ennek alapján osztja ki a rangszámokat. Ez az eset alig különbözik attól, amikor a bíráló maga rangsorol. Mégis van ennek az eljárásnak (legalább egy) hátránya, mint rövidesen látni fogjuk.
162
számot arra, hogy valaki „mennyire gyógyult”, egy tréning vagy tábor tapasztalatait „mennyire hasznosította”, egy beadott pályamunka „milyen értékes” stb. További előnye a rangsorolásra való felszólításnak, hogy a bíráló ritkán fog „holtversenyt” megállapítani. Szinte kényszerítve érzi magát, hogy egyértelműen eldöntse, ki az első, a második, és így tovább. Ha egyéni pontszámait elég átadnia, rendszerint kiderül, hogy azok közt egyformák is vannak. Hiába ad ezeknek a hozzáértő vizsgálatvezető kapcsolt rangokat az ismert szabály szerint, a végeredmény kevésbé biztos, kevésbé megbízható lesz, mint olyankor, ha nincsenek kapcsolt rangok. A „közvetlen rangsorolás”, bármilyen előnyös is, általában nem könnyű feladat. Öt-hat jelöltet még viszonylag könnyen sorba tudnak állítani a bírálók, de nagyobb csoport rangsorolása még a gyakorlott szakembert is próbára teszi. 5.5.3.2 A közvetlen rangsorolás nehézségei Az előző pontban a közvetlen rangsorolás előnyeit igyekeztünk felsorolni. Ám mindaz, amit ott elmondtunk, egyúttal az eljárás nehézségeire is rávilágított. Jó az, hogy egyszerre több szempontot is figyelembe lehet venni, de hogyan kombináljuk ezeket? Jó az, hogy egyértelműen kiderül, ki áll előrébb, ki áll hátrább a sorban, de hogyan erőszakoljuk ki a különbségtételt az „egyformák” közt? Itt nincs helyünk arra, hogy ennek a látszólag egyszerű műveletnek, a mintaelemek sorbaállításának (rangsorolásának) összes problémáját felsoroljuk, megbeszéljük. Feltétlenül meg kell azonban említenünk a legfőbb nehézséget, amihez hasonlóval a formálisan sokkal összetettebb eljárás, a mérés során nem találkoztunk. Akármit mérünk is meg, a mérés mindig egy valamire, egy meghatározott tulajdonságra vonatkozik; így van ez a legegyszerűbb mérések (távolság, tömeg, időtartam megmérése) esetében éppúgy, mint egy összetett laboratóriumi eljárás során, pl. egy koncentráció meghatározásakor. Rangsoroláskor viszont az a szempont, amelynek az alapján a sorbaállítást el kell végezni, több tényezőtől függ, és ezeket „egyszerre” kell a bírálónak figyelembe vennie. Gondoljunk a bevezetőben említett legelső példára: egy bizonyos állásra való alkalmasság esetében döntő lehet, hogy milyen a jelölt képzettsége, de az is, hogy mekkora a szakmai tapasztalata, és talán ugyanilyen fontos, hogy milyen a fellépése, a döntési képessége, a határozottsága, a kapcsolatteremtő készsége (és ezzel nyilván nem értünk a felsorolás végére). De hasonló a helyzet más esetekben is. A bírálók közti nézetkülönbség, az egyetértés hiánya rendszerint abból fakad, hogy a sok szóba jöhető tényező fontosságát egymástól eltérően ítélik meg. Ha csupán egyetlen tényező, mondjuk a képzettség vagy a szakmai tapasztalat alapján kellene sorbaállítaniuk a jelölteket, valószínűleg ugyanaz vagy nagyon hasonló rangsor adódna mindegyiküknél, hiszen ott vannak a munkavégzési adatok, az iskolai bizonyítványok, amelyek alapján ez a tényező mintegy „lemérhető”. A bírálónak azonban azt kell eldöntenie, hogy ki mennyire alkalmas az állás betöltésére; az pedig, hogy ebbe milyen – köztük számokkal ki nem fejezhető – tényezőket számít bele és melyiknek milyen fontosságot tulajdonít, teljesen egyéni. (Éppen ezért van szükség több bírálóra!) A bírálók közt tehát vannak, és kell is hogy legyenek egyéni különbségek. Előfordul azonban, hogy a bírálók csoportja nagyjából egységesen, egyetértően ítéli meg a jelölteket, de akad egyvalaki, aki teljesen eltér a többiektől, mintegy „kilóg a sorból”. Ez rendszerint arra mutat, hogy ő más szempont alapján végezte a rangsorolást, mint a többiek. Félreértett vagy szándékosan félremagyarázott valamit.* Az ilyen félreértés legtöbbször könnyen tisztázható, és az illető bíráló új rangsora már jól illeszkedik a többieké közé. Ha pedig nem, a bírálót – illetve az általa készített rangsort – ki kell hagyni, és a végső, közös rangsort enélkül kell elkészíteni. Ez nem jelenti az eredmény meghamisítását. Éppen ellenkezőleg: a „renitens” bíráló nem a megadott, hanem valamilyen más szempont szerint rangsorolta a jelölteket; az ő rangszámainak beszámítása tehát nem kívánatos, esetleg nem is ismert irányba torzítaná a végeredményt. Ehhez azonban csak akkor folyamodjunk, ha az eltérő rangsor kihagyása után ugrásszerűen megnő a W együttható. *
Maradva az előző példánál: nem azt nézi, hogy ki alkalmasabb az állásra, hanem pl. azt, hogy melyik jelölt rokonszenvesebb. Így azután alkalmassági sorrend helyett szimpátia-sorrendet készít.
163
A közvetlen rangsorolás másik nagy nehézsége, úgy is mondhatnánk, technikai jellegű. Ha túl sok a jelölt (és ez a „túl sok” már n = 6 körül elkezdődik), lehetetlen úgy fejben tartani minden adatot (beleértve a szubjektív benyomásokat is), hogy az elkészült sorrend híven tükrözze mindazt, amit a jelöltekről tudunk. Az elsők és az utolsók kiválasztása általában még sikerül, de középtájon „minden összekavarodik”, és meg nem tudnánk mondani, hogy X-et miért tettük hátrébb, mint Y-t, pedig legalább olyan jó, mint amaz, ha ugyan nem jobb. Ezen a bizonytalanságon próbál segíteni a következő pontban tárgyalt eljárás, amely kicsit talán hosszadalmasabb, mint a közvetlen rangsorolás, de jóval megbízhatóbb rangsor előállítását teszi lehetővé. 5.5.3.3 A páros összehasonlítások módszere Az eljárás lényege, hogy a bíráló mindig csak két személyt hasonlít össze: azt kell eldöntenie, hogy kettejük közül melyik a jobb (alkalmasabb, önállóbb, betegebb – mikor mi a rangsorolás szempontja), és nem kell törődnie a minta többi elemével. Az összehasonlítás eredményét följegyzi, majd megint vesz két mintaelemet, és azokat hasonlítja össze. Az eljárás mindaddig folytatódik, míg valamennyi párt össze nem hasonlította. n A mintaelemkből képezhető párok száma , vagy közvetlenül számolható alakban n(n–1)/2. 2 Ez azt jelenti, hogy egy 6 elemű minta estében 15, egy 10 elemű mintában 45, egy 20 eleműben már 190 összehasonlítást kell végezni. Az összehasonlítások száma tehát rohamosan nő. (Viszont akárhány elemű minta sorbaállítását elvégezhetjük anélkül, hogy akár egyetlen egyszer is bonyolultabb műveletet kellene végeznünk, mint két elem egymással való összehasonlítását!)
Az eljárás rendszerint úgy zajlik, hogy egy összehasonlítási lapot kapnak a bírálók, amelyen az összes pár fel van tüntetve. Nekik csak az a dolguk, hogy megjelöljék (pl. aláhúzással), a kettő közül melyiket tartják jobbnak, szebbnek, okosabbnak, alkalmasabbnak – tehát a rangsorban előbbre valónak. A lapot úgy állítják össze, hogy az összehasonlítások véletlen (random) sorrendben szerepeljenek, kiküszöbölve ezzel a korai vagy késői előfordulásból adódó esetleges torzításokat. Mindenki körülbelül ugyanannyiszor szerepel a párok első és második elemeként, ezzel is biztosítva az „egyenlő esélyeket”. Mindez azonban a vizsgálat technikai részéhez tartozik; mi itt csak a statisztikai vonatkozásokkal foglalkozunk. A részleteket számos szakkönyvben megtalálhatja az olvasó.
Miután minden párt összehasonlított a bíráló, mindenkit (n–1)-szer bírált el (összehasonlítva őt az összes többivel). Számláljuk össze, hogy az egyes személyeket hányszor ítélte jobbnak (alkalmasabbnak stb.) a másiknál; ezt a di számot nevezzük az illető preferencia vagy dominancia értékének.* A di érték 0 és (n–1) közti egész szám. Akit mindenki másnál jobbnak ítélt a bíráló, vagyis akinek dominancia értéke (n–1), az kapja az 1-es rangszámot, akinek dominancia értéke (n–2), az mindenki másnál jobb, kivéve az 1-es rangszámmal jellemzett első személyt; ő tehát a 2-es rangszámot kapja, és így tovább. Aki senkivel szemben sem bizonyult jobbnak, annak dominancia értéke di = 0; ő fogja kapni az n rangszámot. Ezzel a rangsorolást be is fejeztük. A világ azonban nem ilyen szép, a helyzet nem ilyen egyszerű. A preferencia értékek közt csak akkor fordul elő minden egész szám 0 és (n–1) között, ha a bíráló teljesen következetes volt. De mit jelent az, ha nem következetes? Azt, hogy döntéseiben „hurok” fordul elő: A-t B-nél, B-t C-nél ítélte jobbnak, de A és C összehasonlításakor C javára döntött.** Jobban áttekinthető, ha a prefe-
*
Preferencia azért, mert ennyiszer kiválasztották, másokkal szemben „preferálták” az illetőt; dominancia pedig azért, mert ennyiszer bizonyult „dominánsnak”, előbbre valónak a másiknál. A jelölésnél a dominancia kezdőbetűjét részesítettük előnyben, mert p ebben a könyvben szinte mindig valószínűséget jelent, itt pedig ilyesmiről nincs szó. **
A matematikában ezt úgy fejezik ki, hogy a preferencia megállapítása nem tranzitív.
164
renciát (dominanciát) a személyeket jelentő nagybetűk közé tett nyíllal mutatjuk: A→B. Az előbbi példa ekkor így írható fel: A→B→C→A. (Vagy röviden: „ABC hurok”.)
Már egyetlen ilyen hurok elrontja a rangsort. Ha a példaként említett három személy, A, B és C a teljesen következetes döntéshez tartozó rangsor elején álltak, akkor a felírt hurok esetén A dominancia értéke eggyel csökken és C dominancia értéke eggyel nő. Így tehát mindháromnak (n–2) lesz a dominancia értéke; ez pedig azt jelenti, hogy kapcsolt rangokat kell adni: 1, 2 és 3 helyett három darab 2-es szerepel. Lássunk még egy példát. Legyen a következetlen döntés (szintén a rangsor elején) a következő: A→B→C→D→A. Mint könnyű belátni, ez két hurkot jelent: ABD és ACD. A preferencia értékek úgy módosulnak, hogy A-é eggyel csökken, D-é eggyel nő (a többi marad változatlan), tehát d1 n 2, d 2 n 2, d3 n 3 és d 4 n 3 . Szintén kapcsolt rangokat kell kiosztani, és a rangsor így alakul: 1,5 1,5 3,5 3,5 5 … Ha a hurkok nem a rangsor elején fordulnak elő, hanem másutt, hatásuk hasonló.
Hurkok előfordulása a döntéssorban a bíráló bizonytalanságát jelenti. Ha pontos képe lenne a jelöltek sorrendjéről, döntéseiben nem fordulna elő hurok. Ezért azután igazságos (bár nem kellemes), hogy olyan rangsort kapunk, amelyben kapcsolt rangok vannak. Mennél több a hurok, annál több a kapcsolt rang. Ha túl sok a hurok, fölmerül a bíráló alkalmasságának kérdése. Vagy nem világos számára, hogy mi az a szempont, amely szerint preferálnia kell egyik személyt a másik fölött, és döntései ezért bizonytalanok, vagy pedig kellő megfontolás nélkül, esetleg csak találomra dönt. Az első esetben a vizsgálatvezetővel való beszélgetés, a döntés szempontjának tisztázása, a figyelembe veendő tényezők fontosságának megbeszélése megoldja a problémát; a második esetben azonban a bírálót ki kell zárni a vizsgálatból. Olyan bírálóra, aki lelkiismeretlenül, figyelmetlenül látja el feladatát, nincs semmi szükség. Nem lenne helyes a „túl sok hurok” megállapítását a vizsgálatvezető ösztöneire, megérzéseire bízni. Nem túl sok számolással meghatározható az ún. következetességi együttható, amely objektív mércéje a bírálat megbízhatóságának. Ennek alapján dönthetjük el, hogy megtartsuk-e a bizonytalan bírálót vagy sem. A hurkok számának megállapítását és a következetességi együttható kiszámítását szerencsére nem mindig kell elvégezni. Ezért nem is itt, hanem a „nemkötelező”, pluszos szövegrészben foglalkozunk vele.
A di preferencia értékek összege nem változik, akár van hurok akár nincs. A döntések száma ugyanis változatlan (n(n–1)/2), és ugyanennyi a di számok összege is. Négyzetösszegük azonban csökken, ha hurok fordul elő. Ez ugyanis, mint az előbb láttuk, a di számok egyformaságát okozza, ez pedig csökkenti a szórást, ami azzal egyenértékű, hogy csökken a négyzetösszeg, hiszen az összeg változatlan. (L. az 5.1.4 szakaszt.) Nem nehéz belátni (ezért a bizonyítást ezúttal elhagyjuk), hogy a di számok négyzetösszege kettővel csökken minden hurok „belépésekor”. Ez a körülmény módot ad a hurkok számának, h-nak a meghatározására: (5.55)
2h
n(n 1)(2n 1) d i2 . 6
Az első tagban az első (n–1) szám (5.4) szerint számított négyzetösszege áll (vagyis di négyzetösszege teljes következetesség esetén). Ahányszor 2-vel kisebb az aktuális négyzetösszeg, annyi a hurkok száma. Mivel a hurkok száma függ a minta elemszámától (néhány összehasonlítás esetén nagyobb „szégyen” következetlenül dönteni, mintha sok döntés közé csúszna be egy vagy két hiba), előbb a hurkok „viszonylagos számát” határozzuk meg, és ezzel mérjük a következetessé-
165
get. A hurkok viszonylagos száma, hrel a tényleges hurokszám, h és az „elkövethető” legnagyobb hurokszám, hmax hányadosa:
hrel h . hmax
(5.56)
(A maximális hurokszám, hmax képletét később adjuk meg.) A K következetességi együtthatót úgy definiáljuk, mint a viszonylagos hurokszám „ellentettjét”:
K 1 hrel .
(5.57)
Azonnal látni, hogy ha nincs hurok, azaz h = 0, a következetességi együttható 1, ha pedig a hurkok száma eléri a lehetséges maximumot, azaz h = hmax , akkor nincs következetesség, ezért K = 0. A következetességi együttható tehát ugyanúgy egy 0 és 1 közti mérőszám, mint a kapcsolat mérőszámai. Rendszerint azonban nem ezt, hanem a százszorosát szoktuk emlegetni (emlékezzünk csak a V variációs együtthatóra!), százalékban adva meg, hogy egy-egy bíráló mennyire következetes.
Adósak vagyunk még a maximális hurokszám, hmax képletének megadásával. Ez egy kicsit kellemetlenebb formula lesz; mindjárt meglátjuk, hogy miért. Láttuk – és (5.55)-ből is következik –, hogy mennél nagyobb a hurkok száma, annál kisebb a di preferencia értékek négyzetösszege. Ez viszont akkor a legkisebb, ha valamennyi di egyforma. Ezt úgy érhetjük el, ha az összes preferenciát, n(n–1)/2-t egyenletesen osztjuk szét n részre. Vagyis ilyenkor
d i n 1 , i 1, 2, , n. 2
(5.58)
Ez azonban csak páratlan n esetén egész szám, páros n esetén nem; ilyenkor a di számokat módosítani kell. (A preferenciák száma gyakoriság; nem lehet más, csak egész.) Célunk az, hogy a négyzetösszeg a lehető legkisebb legyen; ekkor lesz a hurkok száma (5.55) szerint a legnagyobb. Ismét csak bizonyítás nélkül közöljük, hogy ezt a célt akkor érjük el, ha az (5.58) szerinti preferencia értékek felét ½-del növeljük, másik felét ½-del csökkentjük. Páros n esetén tehát n/2 darab n/2 értékű, és n/2 darab (n–2)/2 értékű di szám fordul elő. Ebből (és (5.58)-ból) meghatározhatjuk a hurkok maximális számát az (5.55) képlet alapján. Páratlan n esetén:
2 n(n 1)(2n 1) 4n 2 3(n 1) n n 1 n(n 1) 2n 1 n 1 n(n 1) 6 2 6 4 12 3 n(n 1) n 1 n n ( Qn ), 12 12 ahonnan
2hmax
3 hmax n n , ha n páratlan. 24
(5.59)
A másik eset kicsit több számolást követel:
n(n 1)(2n 1) n n 2 n n 2 2 n (n 1)(2n 1) n 2 (n 2) 2 6 2 2 2 2 2 3 4 2 2 2 4(2n 3n 1) 3(n n 4n 4) n n (8n 2 12n 4 6n 2 12n 12) 2 12 24 n(n 2 4) (n 2)n(n 2) n (2n 2 8) , 24 12 12
2hmax
166
ahonnan (5.60)
3 hmax n 4n , ha n páros. 24
Behelyettesítve (5.59)-et, ill. (5.60)-at az (5.56), majd az (5.57) képletekbe, kapjuk a K következetességi együtthatót. Még csak annyit jegyzünk meg, hogy a hurkok számát (5.55) segítségével kiszámítani jóval egyszerűbb, mint az előforduló hurkokat megtalálni, a preferenciákból kikövetkeztetni. A következetességi együtthatót, ha szükséges, kiszámíthatjuk a fentiek alapján. Legtöbbször azonban ennél egyszerűbben is eljárhatunk, ha n elég kicsi. Magára az együtthatóra úgysincs szükségünk, csak azt kívánjuk meg, hogy „elég nagy” legyen. Általában azt írjuk elő, hogy egy bíráló következetessége legalább 90%-os legyen; ez azt jelenti, hogy K ne legyen kisebb, mint 0,9. Előre ki lehet számítani, hogy legfeljebb hány huroknak szabad előfordulnia, hogy ez a követelmény teljesüljön. Az 5.16. táblázatban megtaláljuk a „megengedhető” hurokszámot a fenti követelmény, valamint az ennél enyhébb, 80%-os következetesség, K=0,8 megkövetelése esetére is. 5.16. táblázat: A döntési hurkok megengedett száma, előírt következetesség mellett n
A legnagyobb megengedett hurokszám K > 0,9 K > 0,8 esetén
5
0
0
6
0
1
7
1
2
8
2
4
9
3
6
10
4
8
11
5
11
12
7
14
Feltűnő, hogy milyen nagy „engedményt” jelent, ha 90 helyett csak 80%-os következetességet várunk el: az eltűrt hurkok száma kb. kétszerese az előbbinek. Nagyobb elemszámokra biztosan nem érdemes táblázatot adni, hiszen már 5–6 hurkot sem nagyon lehet megtalálni anélkül, hogy számukat a képlet alapján meghatároznánk. Azt, hogy egyáltalán van-e hurok, abból vehetjük észre, hogy a di számok közt egyforma értékek is vannak. Amennyiben valamennyi dominancia érték különböző, biztosak lehetünk benne, hogy a bíráló 100%-osan következetes volt.
5.5.4 A W egyetértési együttható szignifikanciája A 161. oldalon megállapítottuk, hogy az (5.15. táblázat adataiból) kiszámított egyetértési együttható „nagyfokú egyetértésre utal”, mivel elég közel van 1-hez. Ennyit azonban az 5.15. táblázat egyszerű szemrevételével is megállapíthattunk volna, W kiszámítása nélkül is. Kell valami egzakt eljárás, amely megmutatja, hogy a kiszámított együttható valódi egyetértést tükröz-e, vagy pedig a véletlen számlájára írhatjuk, hogy ilyen nagy W-t kaptunk, és valójában nincs is egyetértés. Ennek
167
eldöntésére, mint a hasonló esetekben mindig, statisztikai próbát kell végeznünk. Lássuk tehát a W együttható szignifikanciájának vizsgálatára alkalmas próbát! Az olvasó már nyilván kívülről fújja a „leckét”: felállítjuk „az egyetértés teljes hiánya” nullhipotézist, vagyis feltesszük azt, hogy az elméleti egyetértési együttható nulla. Ezután elkészítjük W ilyenkor érvényes eloszlását, eltávolítjuk belőle a legszélsőségesebb 5%-ot,* és azt vizsgáljuk, hogy az általunk kiszámított együttható a levágott részbe esik-e; ilyenkor nevezzük az eredményt szignifikánsnak. A W együttható – kis elemszámok esetén használható – eloszlását a Mellékletben találjuk (X. táblázat). Ez a furcsa táblázat csak egészen kis elemszámok (n=3 és 4, valamint nem túl nagy k) esetére adja meg a szokásos küszöbszámokat, ezért legtöbben szinte mindig a könnyen kiszámítható, alább tárgyalt közelítő eljárást használják. Kendall azonban hosszú cikkekben bizonygatta, hogy az a közelítés csak „nagy” (ami csak annyit jelent, hogy 7-nél nagyobb!) elemszámok esetén kielégítő, és egy bonyolult, itt nem tárgyalt transzformációt javasolt a „mérsékelten nagy” elemszámokra. Ez a transzformáció (meglepő módon) az F-eloszlásba viszi át a W együttható eloszlását. Friedman vállalkozott rá, hogy a bonyolult transzformáció alapján meghatározza a leggyakrabban használt, 5 és 1%-os szignifikanciához szükséges küszöbszámokat; ezt felhasználva készültek a X. táblázat „hiányos” oszlopai. Itt megtaláljuk a példánkhoz tartozó küszöbértékeket is. Mint látjuk, az 1%-os szignifikanciához tartozó küszöbérték 0,5912; a példában ennél nagyobb volt W, azt írhatjuk tehát, hogy p<0,01. Ami azt jelenti, hogy nem összevissza adták a bírálók az 5.15. táblázatban található rangszámokat, hanem valamilyen „közös elv” vezette őket a rangsorolásban. Éppen az ilyen „közös elv” alapján történő rangsorolás jelenti azt, hogy egyetértés van. Általában azonban nem állnak rendelkezésünkre ilyen, küszöbszámokat tartalmazó táblázatok, és sokan úgy vélik, hogy már n=5-től kezdve nyugodtan használható a „normális közelítés”, ami a jelen esetben, mivel négyzetes mérőszámról van szó, természetesen 2-et jelent. Azt kell megvizsgálnunk, hogy a (5.61)
χ 2 k (n 1)W
kifejezés értéke szignifikáns-e az (n–1) szabadságfokú 2-eloszlás táblázata szerint. Vagy ha tán W-t ki sem számítottuk, hanem csak az érdekel, van-e szignifikáns egyetértés a bírálók közt: 12QR 2 . (5.62) kn(n 1) (Ezt a formulát úgy kaptuk, hogy (5.61)-be egyszerűen behelyettesítettük (5.51)-et.) De kinek jut eszébe ilyesmi? Ki találta azt ki, hogy W, két egyszerű számmal beszorozva, éppen 2-eloszlású lesz? Első látásra valóban meglepő ez az állítás, de inkább csak addig, amíg el nem gondolkozunk kissé, amíg nem próbáljuk W-t más, korábban már megismert eljárásokban előforduló formulákhoz hasonlítani. Nem kell soká keresnünk, hogy ilyet találjunk. Ha ez megvan, már minden nehézség nélkül magunk is előállíthatjuk az (5.61) formulát, és nemcsak hogy nem csodálkozunk rajta, hanem inkább azt találjuk különösnek, hogy miért nem jutott ez már előbb az eszünkbe. Ez azonban azt jelenti, hogy a fenti képletet levezetjük (ha úgy tetszik: bizonyítjuk azáltal, hogy más, ismert képletekre vezetjük vissza); ez tehát nem ide, a főszövegbe, hanem „védett területre”, a -jelekkel elkülönített részbe való.
*
Találkoztunk mi már ilyen, „egymással párhuzamos” rangsorokkal. Csak akkor teljesen más célból, más formában írtuk föl őket. A különbség pusztán formai: ott a rangsorok nem „függőlegesen”, hanem „vízszintesen” helyezkedtek el. Ugye rájött már az olvasó, hogy a Friedman-próbáról van szó?
Csak az egyik végén, természetesen! Ez nem „egyoldali” kérdésfeltevés; olyanról itt nincs értelme beszélni. A 0 „körüli” eloszlás, mivel annak minden értéke pozitív, a „nagy”, 1-hez közeli értékek esetén szélsőséges.
168
Nézzük először ezt a formai megegyezést. Ha az 5.15. táblázatot „oldalról” nézzük – vagy ha ez túlságosan kényelmetlen: egyszerűen, a könyvvel együtt, 90º-kal elforgatjuk –, a Friedman-próbában elemzett elrendezés tökéletes hasonmása áll előttünk (5.6. táblázat). A nevek helyébe a kezelések (körülmények) kerülnek, a bírálók helyét pedig az ottani személyek veszik át. Az utolsó oszlop („oldalról nézve” ez az utolsó sor!) rangszámösszegei ugyancsak megtaláhatók ott is, csak – az összegezés eltérő iránya miatt, egy régi-régi megállapodásnak megfelelően – i helyett j index különbözteti meg őket. Ez azonban csak formai egyezés. De vajon az a hipotézis, amit a Friedman-próba vizsgál, ugyanaz-e, mint amit az egyetértési együttható szignifikanciája esetében vizsgáltunk? Természetesen ugyanaz. Hiszen a nullhipotézis ott is az, hogy az R rangszámösszegek egyformák. Ott ez azt jelentette, hogy a körülmények vagy kezelések közt nincs különbség, itt azt, hogy a bírálók közt nincs semmilyen egyetértés. És ennek ellenkezője? Ha a minták (kezelések, körülmények) közt eltérés van, az az Rj rangszámösszegek eltérésében jelentkezik – ugyanúgy, ahogy az egyre nagyobb egyetértést az egyre eltérőbb Ri ragszámösszegek mutatják. Megtehetjük tehát, hogy az 5.15. táblázat adataiból is a G próbastatisztikát határozzuk meg, de talán célszeűbb, ha a képleteken megmutatjuk az (5.29) formula által megadott G és az (5.61) alatti 2 rokonságát.
Egyeztessük előbb egymással a jelöléseket. A rangszámokból álló sorok „hossza” a Friedman-próba esetében h, az egyetértési együttható felírásakor ugyanez n. A rangsorok száma az „elforgatott” elrendezésben g volt; itt ezt k-val jelöltük. Ennek megfelelően írjuk át G-t:
G
12 Ri2 3k (n 1). kn(n 1)
Most pedig írjuk hasonló alakba k(n–1)W-t, hiszen az követ – állításunk szrint – (n–1) szabadságfokú 2-eloszlást ugyanúgy, ahogy G (h–1) szabadságfokú 2-eloszlást követett. E célból W (5.51) alatti képletébe betesszük QR (5.54) alatti formuláját:
k (n 1)W k (n 1)
12 k 2 n(n 1) 2 12 2 R Ri2 3k (n 1), i 2 3 k ( n n) 4 kn(n 1)
ami pontosan ugyanaz, mint az előző, G „átjelölésével” kapott kifejezés. Ezzel a bizonyítást be is fejeztük. Vizsgáljuk meg ezen a módon is a példában kiszámított egyetértési együtthatót. W = 0,7277 volt, ezt kell (5.61) szerint beszorozni 4-gyel és 6-tal: 2 = 24.0,7277= 17,465. A 2-táblázatból (Melléklet, II. táblázat) azonnal leolvasható, hogy az eredmény szignifikáns: p<0,01. (A táblázat hatodik, a szabadságfoknak megfelelő sorát kellett néznünk.) Ugyanazt kaptuk tehát, mint a X. táblázatból. Ahhoz, hogy a X. táblázat pontos eloszláson alapuló, több valószínűségi szintet is feltüntető első részét is „kipróbálhassuk”, írjunk föl egy újabb példát. A példa szövege ezúttal az egyetértési együttható más, már az első szakaszban emlegetett egyéb alkalmazásaira utal. Az osztály négy legjobb tanulóját sorba állította az osztályfőnök (jegyeikre, osztálykönyvi bejegyzésekre és személyes tapasztalataira támaszkodva) a következő tantárgyak alapján: magyar, történelem, fizika, kémia, matematika – és magaviselet. Azt próbálta ezzel eldönteni, hogy (legalábbis nagyjából) mindenben ugyanaz a tanuló-e a legjobb, a második, harmadik (stb.), vagy az egyes tantárgyak más, egymástól eltérő szempontok alapján „rangsorolják” a diákokat. Ha úgy tetszik: a tantárgyak, mint bírálók egyetértését vizsgálta az osztályfőnök. Eredményeit az 5.17. táblázat tartalmazza.
169
5.17. táblázat: Négy diák rangsorolása különféle tantárgyakban elért eredményeik alapján „Nevek”
Magatartás
Magyar
Történelem
Fizika
Kémia
Matematika
Ri
A
4
3
1
4
4
4
20
B
2
1
3
2
1
1
10
C
3
4
4
1
2
2
16
D
1
2
2
3
3
3
14
A táblázat tartalmazza az egyes tanulókra vonatkozó rangszámösszegeket is; semmi sem hiányzik ahhoz, hogy a W egyetértési együtthatót kiszámítsuk, és szignifikanciáját meghatározzuk. Először most is a sorösszegek négyzetösszegét számítjuk ki: 202+102+162+142=952. Az állandó tag (l. az (5.54) képletet) ezúttal 36.4.25/4 = 900. Végül tehát az egyetértési együttható 12 52 W 0,2889. 36 60 Az együttható meglehetősen kicsi; azt, hogy szignifikáns-e, a Melléklet X. táblázatából tudjuk eldönteni. A példában n=4 és k=6; a megfelelő sorban azt találjuk, hogy W a 20 és a 10%-os küszöbszámok közé esik. Azt kaptuk tehát, hogy p>0,10. az együttható nem szignifikáns. Ugyanezt kapnánk egyébként az (5.61) alatti közelítéssel is: 6.3.0,2889 = 5,2, és ez a 2-táblázat harmadik sorában ugyancsak a 10 és 20%-os értékek közé esik. A nem szignifikáns eredmény azt jelenti, hogy a tantárgyak nem ugyonolyan „szempontok” alapján tartják jobbnak az egyik, gyöngébbnek a másik tanulót. Ez valószínűleg így is van, bár a hallatlanul kis elemszám aligha ad jogot bármilyen állítás megfogalmazására. Mégis, nézzük meg kicsit jobban az 5.17. táblázatot, és próbáljunk meg abból kiolvasni valamit. Talán azt lehet megállapítani, hogy a „humán” tárgyak a tanulók egyik csoportjának (A és D) mennek jobban, a „természettudományos” tárgyak (és a matematika!) a másiknak (B és C) – míg a magaviselet egyik „tantárgycsoporthoz” sem tartozik: tőlük függetlenül, eltérő szempontok alapján „osztogatja kegyeit”. (De hogyan lehet négy diák esetében a tanulók „csoportjairól” beszélni?) Hogy ezt a sejtést igazoljuk, vagy legalábbis kissé jobban alátámasszuk, sokkal több tanulót kellene vizsgálnunk. De hát itt nem is ez volt a cél, hanem a Friedman-próba táblázatának – illetve a X. táblázat ebből számolt sorainak – alkalmazása az egyetértési együtthatóra; ehhez pedig 4-nél nagyobb elemszám nem jöhetett szóba. A példa úgyis kitalált adatokat tartalmazott. Ahelyett, hogy annak általánosításáról, több tanulóra való kiterjesztéséről ábrándoznánk, nézzük meg inkább, hogy miben különbözik ez az eset az 5.15. táblázat által reprezentált „alapproblémától”, a mintához tartozó egyedek több bíráló általi megítélésétől. Az „egyedek” itt is lehetnek tárgyak vagy fogalmak (bár az 5.17. táblázat esetében történetesen személyek voltak), ez tehát nem lényeges különbség. Viszont a bírálók helyébe a tantárgyak léptek. A tantárgyak is „minősítik” valahogy a minta elemeit, de egyáltalán nem azt várjuk tőlük, hogy „egyetértsenek”. Itt inkább úgy merül föl a kérdés, ahogyan az előbb is fogalmaztuk, hogy ugyanolyan szempont szerint minősít-e az egyik és a másik tantárgy. Vagy úgy is fogalmazhatjuk (és ha tantárgyak helyett például különböző pszichológiai tesztekre gondolunk, még inkább ez a helyzet), hogy az egyes tárgyak (tesztek) a személyeknek ugyanazt a tulajdonságát vizsgálják-e.* A tantárgyak esetében ez a tulajdonság látszólag a tudás; de valószínű, hogy mást jelent a tudás egy logikára épülő, az ismeretek közti összfüggések megértését előtérbe helyező tantárgy és egy *
A korábban tárgyalt, bírálókra és jelöltekre értelmezett problémák is fogalmazhatók így. A bírálók akkor értenek egyet, ha a jelölteknek ugyanazt a tulajdonságát veszik figyelembe a rangsor meghatározásakor. Mégsem ajánlatos teljesen áttérni erre a fogalmazásmódra, mert a bírálók (pl. egy állásra való alkalmasság megítélésekor, de máskor is szinte mindig) nem egy, hanem több tulajdonság alapján döntenek.
170
olyan tantárgy esetében, amely sok adat (név, dátum, esemény) memorizálását követeli meg. És akkor még a magatartásról nem is beszéltünk; itt a „tudás” szó használata sem helyénvaló. (Hiszen más tudni, hogy mi a helyes magatartás, és megint más aszerint is viselkedni.)
5.5.5 A kapcsolt rangok miatti mó dosítás Többször emlegettük ugyan, hogy a szokásos eljárás – a bírálók által végzett közvetlen rangsorolás – ritkán eredményez kapcsolt rangokat, de ez inkább csak kis elemszámok esetén igaz. Nagyobb elemszámoknál, amikor a bírálók általában képtelenek közvetlen rangsorolásra, vagy valamilyen pontozást végeznek rangsorolás helyett, vagy a páros összehasonlítás módszerét alkalmazzák. Mindkét esetben gyakoriak a kapcsolt rangok. Az 5.5.3.3 pontban láttuk, hogy csak akkor nincs kapcsolt rang, ha a bíráló teljesen – 100%-osan – következetes. Eszerint kapcsolt rangok előfordulnak, a képlet (és a próbastatisztika) módosítására tehát szükség van. Ezt fogjuk most megadni.
Az (5.51) képlet számlálója nem módosul, QR-et a tényleges rangszámösszegekből számoljuk ki, ahogy eddig is. Az (5.49) formulában található Qmax azonban más lesz (azt is tudjuk az előző fejezetek tapasztalataiból, hogy kisebb lesz), ha kapcsolt rang szerepel valamelyik – vagy akár mindegyik – oszlopban. Megtehetjük, hogy a módosított képletet egyszerűen levezetjük, kiszámolva az egyes oszlopok négyzetösszegeinek átlagos változását, majd ebből az Ri összegek négyzetösszegének módosulását, de ezúttal másik utat követünk – ezzel is hangsúlyozva a voltaképpen többváltozós W együttható és az (egyváltozós) Friedmanpróba rokonságát. Az előző szakaszban láttuk, hogy (a jelölések összehangolása után) W k(n–1)-szerese és a Friedman-próba G próbastatisztikája egymással ekvivalens. A k(n–1) kifejezés konstans (csak az elelmszámtól és a változók számától függ, a feladattól, az egyetértés mértékétől független), azért W és annak kapcsolt rangok miatti korrigált változata, We között* ugyanolyan összefüggés van, mint annak idején G és korrigált változata, Gk között. Az (5.31) képlet mutatja, hogy G-t az (5.30)-ban megadott korrekciós tényezővel kellett elosztani (119. oldal). Ennek itteni formája (a jelölések megfelelő cseréje után):
1
E
ij
k ( n n) 3
.
A kettős szumma úgy értendő, hogy az összegezést kiterjesztjük valamennyi rangsor minden kapcsolt rangjára. Osszuk el ezzel a kifejezéssel a W egyetértési együtthatót, hogy annak korrigált formáját, We-t megkapjuk! Az (5.51) képlet felhasználásával:
12QR 12QR k ( n 3 n) We 2 3 . Eij k (n n) k Eij 1 k ( n 3 n) 2
Természetesen ugyanezt kaptuk volna, ha az előbb említett levezetést – Qmax kapcsolt rangok esetére érvényes formulájának kiszámítását és annak (5.49)-be való behelyettesítését – elvégezzük. *
A k indexet itt nem célszerű használni a kapcsolt rangokra (vagy az emiatt alkalmazott korrekcióra) vonatkoztatva, mert k a feladat egyik paramétere: a változók száma. Az e index a rangsorokban előforduló egyforma adatokra utal.
171
A kapott fontos formulát ismételjük meg a „főszövegben” is:
We
(5.63)
12QR . k (n n) k Eij 2
3
Hátra van még a szignifikancia vizsgálatához szükséges 2 módosított képletének előállítása. Ehhez újra felhasználjuk az (5.61) formulát; csak ezúttal nem W, hanem We kerül a képletbe. Behelyettesítés után akár fejben is elvégezhetjük az egyszerűsítést. A végeredmény:
2
(5.64)
12QR
E kn(n 1)
.
ij
n 1
A korrekció elvégzése „megkönnyíti” a szignifikanciát. Hiszen ha összehasonlítjuk ezt a formulát (5.62)-vel, látjuk, hogy a nevezőből egy pozitív számot vontunk le, ezzel növelve a tört (tehát 2) értékét. A korrekció hatása általában kicsi; ezzel a kérdéssel éppen eleget foglalkoztunk a különféle próbák, például a témánkkal közeli rokonságban álló Friedman-próba esetében. Most inkább lássunk még egy számpéldát; olyat, amelyikben elég sok kapcsolt rang fordul elő. Egy öttagú zsűrinek kellett eldöntenie, hogy a pályázatra benyújtott festmények közül melyik (illetve melyiknek az alkotója) kapjon díjat. Az első öt helyezett kap pénzjutalmat, ráadásul az első három pályamunkát egy-egy állami múzeum jó áron (?) meg is vásárolja; nem mindegy tehát, melyik festmény hányadik helyre kerül. A festők álnéven adták be művüket; ez szerepel (betűrendben) az 5.18. táblázat első oszlopában. A táblázat további oszlopai az öt zsűritag helyezési számait mutatják, az utolsó oszlop pedig a rangszámösszegeket; – pontosan ugyanúgy, ahogy az első elemzett példa (5.15. táblázat) esetében láttuk. 5.18. táblázat: Az év legnagyobb festészeti díjainak odaítélése Pályázók
A zsűritagok helyezési számai
Ri
Breughel
7
8
9
7
6,5 37,5
Dűrer
8
6
8
7
6,5 35,5
Matisse
9
9
7
5
9
39
Munkácsy
6
3
1
7
4
21
Rembrandt 4
6
5,5 9
6,5 31
Renoir
4
6
2
1
2
15
Rubens
4
1
5,5 2
2
14,5
Tiziano
1,5 4
3
3
6,5 18
Veronese
1,5 2
4
4
2
13,5
A zsűritagoknak ebben az esetben nem állt rendelkezésére semmifél numerikus „fogódzó”, csupán szakmai hozzáértésükre és egyéni ízlésükre támaszkodhattak. A titkosítás is tökéletes volt: azt sem tudták, kik adtak be pályamunkát, így az alkotók kilétére vonatkozó, stílusjegyekre támaszkodó találgatások is nagyon esetlegesek voltak. Így azután a „jó barátom”, meg „undok fráter” jellegű, az értékeléshez nem igazán tartozó szempontok sem torzíthatták az eredményt.
172
Viszont a mérlegelés szempontjainak kevéssé „egzakt” jellege miatt nagy volt a bizonytalanság, ezért feltűnően sok a kapcsolt rang.* Lássunk hozzá az egyetértési együttható meghatározásához! Elsőnek most is QR-t számítjuk ki: 37,52+35,52+…+13,52 = 6531. A második tag 2252/9 = 5625. QR e kettő különbsége, tehát 906. Ez az összes kiszámítandó mennyiségben szerepel. Először ne törődjünk vele, hogy kapcsolt rangok is voltak. Az (5.51) képlettel számolva W 12 906 10872 0,604, 25 720 18000 és ezt szorozva 40-nel (k(n–1)-gyel), adódik 2 = 24,16. Ez bőven szignifikáns: p < 0,01. (A táblázat 8. sorát kell nézni, mert (n–1) a szabadságfok.) Használhatjuk persze az (5.62) képletet is 2 kiszámítására, akkor is ugyanezt kapjuk. Lássuk most, mit eredményez a kapcsolt rangok miatti korrekció. Ehhez előbb meghatározzuk az Eij számokat. Az első mintában van két egyforma és három egyforma rangszám; eszerint e11=2 és e21=3, vagyis E11=6 és E21=24. A második mintában csak egyetlen hármas sorozat van: e12 = 3, E12=24, a harmadik mintában egyetlen kettes (E13=6), a negyedikben csupán egy hármas (E14=24), végül az ötödikban: e15=3 és e25=4, tehát E15=24 és E25=60. Az Eij számok összege: 6+24+24+6+ +24+24+60 = 168. Most már csak be kell helyettesíteni (5.63)-ba és (5.64)-be (vagy az első eredményt szorozni 40-nel), hogy We-t és a korrigált értéknek megfelelő 2-et megkapjuk: 10872 We 10872 0,6336 18000 5 168 17160 és 10872 2 10872 25,343. 168 429 5 9 10 8 Mind az együttható, mind a belőle számolt 2 valamivel nagyobbak, mint korrekció nélkül, ez azonban a szignifikanciát nem érinti.** Az együttható szignifikáns voltát előre lehetett sejteni a rangszámösszegek közti nagy eltérésekből. A 18. táblázatot azonban érdemes még egyszer szemügyre venni, mert abból további érdekes következtetések vonhatók le. Az első három helyezett, Veronese, Rubens és Renoir a zsűritagok szerint majdnem egyformán jó festményt nyújtott be.*** A következő kettő (Tiziano és Munkácsy), akik szintén kapnak díjat, jócskán elmaradnak tőlük 18-as, illetve 21-es helyezési számukkal, de még nagyobb az eltérés köztük és a díjazás nélkül maradt három festő (festmény) között. A zsűri döntése tehát – anélkül, hogy ezt külön irányíthatták volna – kiválóan megfelel a pályázati kiírásnak: az öt díjazott jelentősen jobb, mint díj nélkül maradt társaik, de az a három fetsmény, amelyik rögtön múzeumba kerül, a díjazottak közt is kiemelkedik. Mindaz, amiről eddig szó volt, az egyes rangsorokban előforduló egyformákra vonatkozik, és nem érinti a rangszámösszegek segítségével előállítható közös rangsort. Lehet, mint ezt a példában is látjuk, hogy minden bíráló úgy rangsorolt, hogy eredményében kapcsolt rangok szerepelnek, az Ri rangszámösszegek mégis mind különbözők. Másfelől viszont gyakori az az eset, amikor egyik rangsorban sincsenek kapcsolt rangok, a rangszámösszegek közt viszont több egyforma is van. Gondoljunk arra, amit a 160. oldalon mondtunk: ha egyáltalán nincs egyetértés, azaz W = 0, vala-
*
A zsűritagoktól természetesen senki sem várta, hogy ismerjék a kapcsolt rangok kiosztásának szabályát. Ezért efféle listákat adtak be: „Tiziant és Veroneset javaslom az első helyre, Rembrandtnak, Rubensnek és Renoirnak adnám a második díjat” és így tovább. Volt, aki még az ötödik helyig sem jutott el. A szakértő statisztikus azonban könnyen meghatározta ezekből az – általában kapcsolt rangokat is tartalmazó – rangsorokat. **
Mint erről már többször volt szó: ha az eredmény anélkül is szignifikáns, a korrekciót nem is érdemes elvégezni. De most nem a zsűritagok egyetértésére voltunk „kíváncsiak”, hanem a korrigált egyetértési együttható kiszámítását akartuk gyakorolni. ***
Érdekes, hogy a „győztes” (Veronese) egyetlen igazi első helyezést sem kapott!
173
mennyi Ri egyforma! Ebben a szélsőséges esetben nincs közös rangsor, hiszen az a bírálók együttes véleményét tükrözné; „együttes vélemény” pedig – az egyetértés hiánya miatt – nem létezik. A többi, nem ilyen szélsőséges esetben is előfordul, szignifikáns egyetértés mellett is, hogy az Ri rangszámösszegek közt vannak egyformák. (Akár van kapcsolt rang a táblázat „belsejében”, akár nincs.) Ha mégis akarunk közös rangsort készíteni, akkor kétféle eljárás közt választhatunk. Az egyik az, hogy a közös rangsorban is kapcsolt rangokat adunk az egyformáknak, ugyanazt az eljárást követve, mint közönséges adatok rangsorolásakor. Ilyenkor „döntetlenek” alakulnak ki a jelöltek közt, Valószínűleg sokan választják ezt a módszert, hiszen számtalanszor hallani, hogy ketten vagy hárman értek el második helyezést, vagy hogy a zsűri két első díjat osztott ki stb. A másik – matematikailag talán jobban alátámasztható – eljárás „szétválasztja”, sorrendbe állítja az egyforma rangszámösszeggel bíró jelölteket. Veszik az egy sorban álló rangszámok – tehát az egyedi minősítések – négyzetösszegét, és azt teszik a legjobb helyre, akinél ez a négyzetösszeg a legkisebb, másodikra a következő legkisebb négyzetösszeget adó jelöltet, és így tovább. Ez egyenértékű azzal, hogy a nekik adott rangszámok szórását veszik figyelembe: mivel az összeg egyforma, a szórás nagyságát a négyzetösszeg nagysága határozza meg. Ha kisebb a szórás, egységesebb volt a jelölt elbírálása a bírálók csoportja részéről. Ezt az eljárást is illusztráljuk egy igen egyszerű példán. A példa ezúttal ismét „szöveg nélküli”, akárcsak a fejezet első példája (5.15. táblázat). 5.19. táblázat: Közös rangsor kialakítása egyforma rangszámösszegek előfordulásakor Jelöltek
I
Bírálók II III
Ri
V
1
2
1
4
W
4
4
4
12
X
5
1
2
8
Y
2
3
3
8
Z
3
5
5
13
A példa olyan egyszerű, hogy a számolást nem is kell részletezni. Az egyetértési együttható: W 12 52 0,5778. 9 120 Ez nem szignifikáns: mint a Melléklet X. táblázatából közvetlenül leolvasható, a p valószínűség 0,10 és 0,20 közé esik. (Ugyanezt kapjuk, ha W 12-szeresét hasonlítjuk a 2-táblázat negyedik sorához.) Ennek ellenére elkészítjük a közös rangsort. Nyilván V a legjobb, ám a második-harmadik helyen „holtverseny” alakul ki. Látni való azonban, hogy X-et szélsőségesen, egymásnak ellentmondóan ítélték meg a bírálók: volt, aki az első, volt, aki az utolsó helyre tette. Viszont egyöntetű véleményük az, hogy Y-é az említett „másodikharmadik” hely. Az imént ajánlott módszer ezt meg is erősíti. Az X-hez tartozó négyzetösszeg 30 (25+1+4), míg az Y-hoz tartozó 22 (4+9+9). Y megítélése egységesebb (mert szórása kisebb), tehát ő kapja a második helyet, és X-nek marad a harmadik. (A negyedik W, az ötödik Z, mint ez a táblázat utolsó oszlopából közvetlenül leolvasható.) Ezzel a kérdéssel nem foglalkozunk többet, mert elsődleges célunk ebben a fejezetben az egyetértés mérése, nem pedig a közös rangsor meghatározása. Láttuk, hogy a példában a viszonylag nagy W ellenére nem szignifikáns az egyetértés; ez a kis elemszámnak (és a bírálók kis számának) tudható be. Így van ez minden statisztikai próba esetében: a próbák ereje az elemszám növelésével nő (amit korábban legtöbbször úgy fogalmaztunk, hogy a második fajta hiba ilyenkor csökken). 174
5.5.6 Az egyetértési együttható és a rangkorreláció viszonya Újra és újra beleütközünk a kérdésbe: mi köze az egyetértési együtthatónak a rangkorrelációs együtthatókhoz? Itt elsősorban a feladat hasonlósága a szembetűnő. A rangkorrelációs együtthatók két változó közt mérik a kapcsolatot nemparaméteres eljárással, az egyetértési együttható több változó közt végzi el ugyanezt. Ha az egyetértési együtthatót a szélsőséges, k=2 esetben számítanánk ki, akkor igazán azt a feladatot végeznénk el, amit a rangkorrelációs együtthatók. Az eredmény mégsem ugyanaz. A W együttható pozitív mérőszám, amely 0 és 1 közti értékekkel méri az egyetértés mértékét; a rangkorrelációs együtthatók negatív értékeket is felvesznek, az egyetértés hiányán túlmenően lehetővé téve az „ellentétes vélemény” vizsgálatát is. A feladat mégis hasonló, ha a mérőszám értéke más is; kell hogy legyen kapcsolat a kétfajta mérőszám közt. Rögtön megállapíthatjuk, hogy csak a Spearman-féle rS rangkorrelációs együttható jön szóba. Ezt a rangszámokból számoljuk, akárcsak a W egyetértési együtthatót. A Kendall-féle együttható az adatok közti nagyságrendi viszonyok számlálására épül, és a rangszámokat nem kezeli adatokként. Emlékezzünk csak, hogy a rangszámokat pusztán kényelmi okokból vezettük be: csak azért volt rájuk szükségünk, hogy eldönthessük, melyik adat kisebb, melyik nagyobb. A Spearman-féle rangkorrelációs együttható és az egyetértési együttható közt azonban szoros viszony áll fönn. Igaz ugyanis, hogy W a feladatban kiszámított rS rangkorrelációs együtthatók átlaga. Pontosabban meg kell azonban mondanunk, hogy ezt az átlagot hogyan értelmezzük. A pontosabb megfogalmazáshoz célszerű bevezetni azt a matematikai fogalmat, amely a többváltozós statisztikai módszerekben amúgy is nélkülözhetetlen. (Emlékezzünk, hogy az egyetértési együttható többváltozós eljárás; ezért kellett annyit foglalkozni az értelmezésével, példák tömegét sorakoztatva fel.) Ez a fogalom a mátrix; nehezen képzelhető a többváltozós módszereknek olyan tárgyalása, amely ennek használatát kikerüli. Többváltozós módszerekre szinte mindenkinek szüksége van, bármilyen pályán végez is tudományos munkát. Ezen nemcsak a kutatómunkát értem! A gyakorlati feladatokban talán még fontosabb szerepe van a statisztikai, köztük elsősorban a többváltozós módszereknek, mint a kutatásban. Miért nem foglalkozunk akkor ilyenekkel is a könyvben? Mert egyetlen könyv nem tartalmazhatja egy tudományág – jelen esetben a statisztika – egészét. Az egyváltozós módszerek ismerete, de még inkább talán megértése nélkül azonban nem lehet megérteni (és használni!) a többváltozósakat. Van azonban néhány lépcsőfok, amely a kettőt elválasztja, amelyen át kell jutni, hogy a megismert egyváltozós módszereket képzeletünkben többváltozósakká általánosíthassuk, vagy hogy a merőben új, csak többváltozós esetben értelmezhető módszereket felfoghassuk. Talán a legfontosabb ilyen „lépcsőfok” a mátrix fogalma; ezt valahogy be kellett csempészni ebbe az egyváltozós eljárásokat tárgyaló könyvbe, hogy aki később többváltozós módszerekről olvas vagy éppen használni akarja őket, legalább azt tudja, miről van szó. Jó ürügy volt erre az egyetértési együttható, az egyetlen többváltozós eljárás, amely valahogy „betévedt” ide. Nem állítom, hogy amit itt elmondok, az elég a többváltozós módszerek leírásának megértéséhez. Ahhoz, hogy egy többváltozós módszert elsajátíthassunk*, ennél többet kell tudni a mátrixok tulajdonságairól. Ez a pár oldal azonban elég lesz arra, hogy e könyv olvasói, mikor később találkozni fognak többváltozós módszerek leírásával, legalább tudják hova tenni a fogalmat, és képesek legyenek könnyedén megtanulni azt, ami egy-egy konkrét módszerhez „mátrixszámításból” szükséges.
*
Nem a számolást! azt elvégzi a számítógép. De a módszer „elsajátítása” feltétlenül szükséges ahhoz, hogy a számítógépet rávegyük, hogy azt csinálja, ami nekünk kell, és hogy az eredményeket értelmezhessük.
175
5.5.6.1 A mátrix fogalma A mátrix formailag nem más, mint téglalap alakban elrendezett számok összessége. A téglalapban elhelyezett számokat a mátrix elemeinek nevezik. A mátrix elmeit, ha általánosságban beszélnek róluk (és nem egy konkrét mátrixról van szó), valamilyen szimbólumokkal, pl. x-szel jelölik. Az elemeknek két indexet szokás adni (xij); ez egyértelműen meghatározza minden elem helyét a mátrixban. Az első index jelenti a sort, a második az oszlopot: x35 a mátrix harmadik sorának ötödik elemét, x52 az ötödik sor második elemét jelenti, és így tovább. (Hasonlóan indexeltük az adatokat a kontingenciatáblázatban!) Magát a mátrixot általában vastagon szedett nagybetűkkel jelölik: A, B, X és hasonlók. Különösen fontosak, a statisztikában gyakran szerepelnek az ún. négyzetes mátrixok. Az a mátrix négyzetes (mint ez elnevezéséből is kitalálható), amelyikben a sorok és oszlopok száma megegyezik. Az (5.65) alatti elrendezés egy 4×4-es (négyzetes) mátrixot mutat.
(5.65)
x11 x 21 X= x31 x41
x12 x22 x32 x42
x13 x23 x33 x43
x14 x24 x34 x44
Egy négyzetes mátrix bal felső sarkától a jobb alsó sarkáig vezető helyeket a mátrix főátlójának nevezik; a főátlóban azok az elemek állnak, amelyeknek két indexe megegyezik. A (négyzetes) mátrixot szimmetrikusnak nevezik, ha a főátlóra szimmetrikusan elhelyezkedő elemek egymással egyenlők, azaz minden i, j indexpárra igaz, hogy xij x ji . Mindaz, amit eddig elmondtunk, minden négyzetes vagy téglalapos elrendezésre igaz lehet; a számok helyett állhatnának betűk is vagy apró ábrák. Attól, hogy valamiket így rendezünk el, a kapott téglalap még nem lesz mátrix. Ami az így elrendezett számokat (és csakis számokat) mátrixokká teszi, az a „viselkedésük”. A mátrixok ugyanis általánosított számok. Lássuk, mitől lesznek azok. Mi is a számok fő jellemzője? Mi az, ami megkülönbözteti őket a betűktől, ábráktól vagy bármi mástól? Az, hogy köztük műveleteket lehet végezni: két szám összege, különbsége, szorzata, hányadosa szintén szám. Az említett négy alapművelet csaknem korlátozás nélkül* elvégezhető. A mátrixok azért „számok” (általánosított számok), mert velük is végezhetők műveletek. Igaz, itt már több a korlátozás, mint a közönséges számok esetében, de ez nem meglepő. Így például összeadni vagy kivonni egymásból csak ugyanakkora mátrixokat lehet; ez nyilván azt jelenti, hogy ugyanannyi sorból és oszlopból állnak. Szorzás esetén kissé bonyodalmasabb ez az „egyformasági” korlátozás, de négyzetes mátrixokra vonatkozólag a szorzásra is érvényes, hogy ugyanakkoráknak kell lenniök, hogy össze lehessen őket szorozni. Fontos négyzetes mátrix az egységmátrix (jelölése I), ami ugyanazt a szerepet tölti be, mint a számok között az 1: ha megszorzunk vele valamit, az nem változik. Az 1 számmal szorozva egy számot, az változatlan marad; az I egységmátrixszal bármilyen mátrixot szorozva a mátrix nem változik: AI = IA = A. Maga az egységmátrix igen egyszerű: főátlójában mindenütt az 1 szám áll, többi eleme pedig 0. Ez tehát szintén szimmetrikus mátrix. Furcsának tűnhet, hogy az előbb – fölcserélt tényezőkkel – megismételtük a szorzás felírását. Erre azért volt szükség, mert mátrixok szorzatára általában nem igaz a tényezők fölcserélhetősége. Vagyis ha A és B két különböző mátrix, az AB és BA szorzat rendszerint nem ugyanaz a mátrix. (Ha a mátrixok nem négyzetesek, nem is lehet mindkét szorzást elvégezni.)
*
Egyedül a nullával való osztás kivétel; már az iskolából tudjuk, hogy ez „tilos művelet”. De jobb, ha azt mondjuk: ennek a műveletnek nincs értelme.
176
Még több korlátozás vonatkozik az osztásra.* Egy (négyzetes) mátrixszal úgy lehet elosztani egy másikat, hogy a mátrix „reciprokával” szorzunk. (Ez számokra is igaz!) Ezt a reciprokot a mátrix inverzének nevezik; A inverze az A-1 mátrix. A „reciprok” szóból és a jelölésből lehet következtetni, hogy ez mit jelent: AA-1 = I. (A tényezők egyébként ebben a szorzásban fölcserélhetők.) A probléma csak az, hogy nem minden mátrixnak van inverze; matematikusabb megfogalmazással: nem minden mátrix invertálható. Mátrixokkal való műveletekre azonban egyelőre nem lesz szükségünk. (A többváltozós statisztikai eljárások során azonban igen!) Ennyit is csak azért mondtunk el itt, hogy érthetővé tegyük, hogyan „mertük” a mátrixokat általánosított számoknak nevezni. 5.5.6.2 A korrelációs mátrix A korrelációs mátrix elemei korrelációk.** Ha van egy k változós mintánk, a változók közt számos korrelációt számolhatunk ki. Az i-edik és j-edik változó közt számított korreláció jele rij (i, j = 1, 2, …, k). Minden változót mindegyikkel korreláltatva k2 számot kapunk. Ezeket egy négyzetes mátrixba rendezhetjük, amelyiknek k sora és k oszlopa van. Az rij korreláció indexe egyúttal a mátrixban elfoglalt helyét is mutatja. Mivel azonban a korreláció képlete (és maga a fogalom is) szimmetrikus, azaz minden esetben igaz, hogy rij = rji, ez a mátrix szimmetrikus lesz. A főátlóban csupa 1-es áll, hiszen bármely változónak önmagával vett korrelációja +1. (A változó önmagát teljesen meghatározza.) Az R korrelációs mátrix végül is így néz ki (maradva az (5.65)-ben fölírt 4×4-es esetnél):
(5.66)
1 r 12 R= r13 r14
r12 1 r23 r24
r13 r14 r23 r24 . 1 r34 r34 1
Ha a változók egymástól mind függetlenek, a korrelációs mátrix az I egységmátrixszal egyezik meg, mivel ilyenkor valamennyi rij korreláció 0-val egyenló. k Egy k×k méretű, tehát k2 elemű korrelációs mátrix előállításához elég korrelációt kiszámí 2 tani; ennyi pár választható ki ugyanis k változó közül. A mátrix többi elemét részint a szimmetria, részint a főátló mindig azonos értékei miatt ebből már felírhatjuk.(A fenti, négyváltozós esetben ez összesen 6 korreláció kiszámítását jelenti; ezt hangsúlyoztuk is (5.66) felírásában.) Az ebben a fejezetben tárgyalt esetekben a változók rangszámok, a köztük számolt (lineáris) korrelációs együttható tehát nem más, mint a Spearman-féle rangkorrelációs együttható. Ezek állnak tehát az R korrelációs mátrixban. Ezek után könnyű megfogalmazni az egyetértési együttható viszonyát a változók közti páronkénti rangkorrelációs együtthatókhoz: a feladatban elkészített k×k méretű korrelációs mátrix öszszes elemeinek átlaga pontosan egyenlő a W egyertértési együtthatóval! Az állítás igazolása csupán algebrai átalakításokat igényel, és nincs szükség semmiféle ötletre, csupán a változókból kivehető sok pár megfelelő jelölése okoz némi kényelmetlenséget. Éppen ezért nem is végezzük itt el a bizonyítást; az így fölszabadult helyet sokkal hasznosabban tölthettük meg a mátrixokra vonatkozó, sok helyen fölhasználható alapismeretekkel. Ha az olvasó nem hiszi a fenti – valóban kissé meglepő – állítást, könnyen ellenőrizheti azt tetszőleges számpéldákon, vagy igazolhatja a két képlet azonosságát. Annak az öszefüggésnek, hogy R összes elemeinek átlaga kiadja W-t (természetesen csak akkor, ha a mátrixban rangszámok közti korrelációk állnak), inkább csak elvi jelentősége van. Szá*
Nem is használják az osztás kifejezést!
**
A többváltozós statisztika talán legtöbbet szereplő fogalma a korrelációs mátrix.
177
molni összehasonlíthatatlanul könnyebb W-t az (5.51) – vagy akár az (5.63) – képlet alapján, mint kiszámítani a sok rangkorrelációs együtthatót, és azokat átlagolni. Ez már a k=3 esetben is igaz. Befejezésül csak azt mutatjuk meg, hogy a k=2 szélsőséges esetben, amikor egyetlen rangkorreláció megoldja a feladatot, mekkora lenne az egyetértési együttható.* Egyúttal választ kapunk arra is, hogy „hova tűnnek a negatív értékek”. Ebben az esetben az (5.66) alatti R korrelációs mátrix ilyen egyszerű alakot ölt: 1 r R= . r 1
A mátrix négy elemének átlagolása a 2 2r 1 r tört kiszámítását jelenti; ez lesz egyenlő W4 2 vel. Hiába negatív a (rang)korreláció, 1 nagyobb nála, és a tört értéke pozitív lesz. Az r 1 szélsőséges esetben W-re nullát kapunk, ami azt jelenti, hogy a kétváltozós esetben az ellentétes vélemény jelenti az egyetértés teljes hiányát – ami igazán logikusnak tűnik.
5.6 A rangsorolásos próbák előnyei és hátrányai A rangsorolásos próbák rendre ugyanazokra a kérdésekre adtak választ, mint a t-próbák és a varianciaanalízis; ezt a párhuzamot a próbák tárgyalása során többször is hangsúlyoztuk. Óhatatlanul fölmerül a kérdés: melyik módszer a jobb, melyiket érdemes választani egy-egy kérdés megválaszolására. Ilyen szembeállításnak látszólag nincs értelme, hiszen a „paraméteres” módszerek használata megköveteli, hogy a vizsgált változó normális eloszlású legyen, míg a „nemparaméteresek” mindössze annyit, hogy az eloszlás legyen folytonos. Ez igaz, a gyakorlatban azonban ezek a feltételek – akárcsak az alkalmazott statisztikai modell többi feltétele – úgyis csak közelítően teljesülnek.** Az adatok soha nem vehetnek fel minden értéket –∞ és +∞ között (mint egy „igazi” normális eloszlású változó), és a rangsorolásos eljárásoknak az a feltétele, hogy két egyforma adat előfordulásának valószínűsége nulla legyen,*** szintén nem szokott teljesülni. Ráadásul mindkét fajta módszert alkalmazzák diszkrét eloszlású változók esetén is, ha azoknak „elég sok” különböző értékük van, illetve ha eloszlásuk „kellően megközelíti” a normális eloszlást. Ezeknek a pontatlanságoknak, a feltételekkel szemben való engedményeknek részletes megvitatásába nem mehetünk bele. Az ilyen vita csak a statisztika elméleti kutatóit érdekelné, és nem nagyon segítené a módszerek gyakorlati alkalmazóit. Ehelyett inkább felsorolunk néhány érvet, amelyekkel egyrészt a „nemparaméteres”, másrészt a „paraméteres” tábor hívei érvelnek saját módszereik mellett. Remélhetőleg ez ad némi segítséget a módszerek alkalmazóinak a legmegfelelőbb módszer kiválasztásához. A rangsorolásos módszerek híveinek legfőbb érve, hogy ezek a módszerek jóval kevesebb feltételhez vannak kötve (így például a normális eloszlás teljesülését sem követelik meg), ezért sokkal szélesebb körben alkalmazhatók, mint a paraméteres eljárások. Ez kétségtelenül igaz, de az „ellentábor” erre olyan robusztussági vizsgálatokkal válaszol, amelyek kimutatják, hogy a legtöbb esetben, amikor rangsorolásos módszereket használunk, a normális eloszlásra épülő eljárásokat is nyugodtan lehetne alkalmazni. *
Ilyenkor nem szoktuk azt kiszámítani; egyszerűen nincs rá szükség.
**
A modellnek épp az a lényege, hogy leegyszerűsíti a valóságot. Annak hallatlan bonyolultságát ugyanis semmilyen számítási vagy egyéb eljárás nem tudja pontosan leírni. ***
Ezt követelné meg ugyanis a folytonosság.
178
A másik érv a nemparaméteresek mellett a számolási egyszerűség. A statisztika „aranykorában”, a módszerek leggyorsabb és legsokoldalúbb fejlődése idején (a XX. század közepe táján) ez az érv kétségtelenül helytálló volt. De ma, amikor nemcsak az aritmetikai műveleteket végzik a gépek, hanem kész statisztikai programcsomagok állnak a felhasználók rendelkezésére – tehát még azzal sem érvelhetünk, hogy egyik vagy másik módszert könnyebb programozni –, ez a különbségtétel lényegében érvényét vesztette. A „paraméteres” módszerek hívei leginkább azzal szoktak érvelni, hogy a normális eloszlásra épülő eljárások sokkal több, összetettebb probléma megoldására alkalmasak, mint a rangsorolásosok. Sokáig úgy látszott, ez komoly érv. De a rangsorolásos módszerek gyors fejlődése, új és gyakran meglepő, ugyanakkor egyszerűen végrehajtható eljárások kidolgozás megcáfolni látszott ezt az érvet is. A legújabb időkben pedig a statisztika olyan új irányokba fejlődött, olyan új területeket hódított meg, amelyek a fentebbi két nagy módszercsalád egyikébe sem sorolhatók be. Régebben megoldhatatlannak látszó problémákat oldottak meg, kitágítva egyúttal az alkalmazhatóság feltételeit is oly módon, hogy a fenti érvelés elvesztette ha nem is érvényességét, de fontosságát. Végül van egy érv, amely a legkomolyabbnak látszik. A paraméteres eljárások hívei azt vetik szemére a „rangsorolásosoknak”, hogy eljárásaik gyöngébbek a normális eloszlásra támaszkodó módszereknél, hiszen már azzal, hogy az adatokat rangszámokkal cserélik föl, rengeteg információt „kidobnak”. Mivel a „gyengébb” nem más, mint az „erősebb” ellentéte, ez az érv a statisztika szakkifejezéseivel nyilván azt jelenti, hogy a rangsorolásos próbák ereje kisebb – azaz második fajta hibájuk nagyobb –, mint a paraméteres próbáké. Végre egy érv, amelyik nagyon fontosnak, megcáfolhatatlannak látszik, és amelyikre elég pontosan tudunk válaszolni is. Ehhez azonban be kell vezetnünk a próbák relatív erejének fogalmát. A próbák ereje növelhető (annak idején ezt így fogalmaztuk: a második fajta hiba csökkenthető) a minta elemszámának növelésével. (L. a 2.xx ábrát a xxx oldalon.) Így azután minden próba esetében meghatározható az a legkisebb elemszám, ami ahhoz szükséges, hogy egy bizonyos megváltozást, különbséget, kapcsolatot (hívjuk egyszerűség kedvéért hatásnak; ezt jelölte a 2.xx ábrán) éppen ki tudjon mutatni.* Két próba relatív ereje ezeknek a legkisebb szükséges elemszámoknak a hányadosa. Ezzel az erő megadását függetlenítettük a konkrét feladattól (vagyis a hatás nagyságától), hiszen a két összehasonlítandó próba erejét mindig ugyanabban a feladatban vizsgáljuk. Az egyes próbákra vonatkozóan úgy szokás megadni a relatív erőt, hogy az adott feltételek közt választható legerősebb próbához viszonyítjuk őket. Esetünkben ez azt jelenti, hogy a Mann– Whitney-próba erejét a kétmintás t-próbáéhoz, a Kruskal–Wallis-próbáét ez egyszempontos varianciaanalízis erejéhez, és így tovább. Az egésznek természetesen csak akkor van értelme, ha teljesül a normális eloszlás feltétele, tehát választhatnánk a varianciaanalízist (vagy annak speciális esetét, a t-próbát) is, nemcsak a rangsorolásos módszert. A szükséges elemszámok hányadosát rendszerint százalékban fejezik ki; így azután a legerősebb próba 100%-os, és az összes többi próba „jóságát” szemléletesen mutatja annak százalékos ereje. Mit is fejez ki ez a százalék? Mit jelent például az, hogy az általunk vizsgált próba relatív ereje 85%? Úgy láthatjuk ezt be a legkönnyebben, ha egy olyan feladatra gondolunk, amelyben a próbának a hatás kimutatásához (szignifikanciájához) éppen 100 adatra lenne szüksége, viszont a feladatban alkalmazható legerősebb próba (mondjuk a t-próba) már 85 adatból ki tudja mutatni ugyanezt a hatást. (85/100=0,85, ami százalékban kifejezve éppen 85%.) Ez az elemszám-viszony a próbára jellemző, és nem függ attól, hogy mekkora hatás kimutatásáról van szó.** Lássuk ezek után a rangsorolásos próbák relatív erejét, vagyis azt, hogy mennyit „veszítünk” az adatok számértékenek „eldobásával”, a rangszámok bevezetésével! *
A hatás „kimutatása” azt jelenti, hogy a próba (megadott szinten) szignifikáns eredményt ad, ezzel „bizonyítva” a hatás létezését. **
Bizonyos mértékben azonban függ az elemszámtól. Az ugyan mindegy, hogy a példában említett 100-as elemszám helyett 50, 20 vagy mondjuk 220 adatról van szó, de nagyon nagy és nagyon kis elemszámok esetén a próbák százalékos ereje eltérő lehet. A konkrét esetekben erre is kitérünk majd.
179
A korábbi fejezetekben tárgyalt eljárások közül legerősebb a Mann–Whitney, a Kruskal–Wallis- és a Wilcoxon-próba (5.2.1, 5.2.2 és 5.3.2 alfejezetek). Erejük már kis elemszámok esetén is 95% körüli, nagy elemszámokra pedig meg is haladja azt. (Határesetben a pontos kiszámított érték 3/, ami közelítőleg 0,955.) Ez szinte semmi veszteséget nem jelent! Ugyan mennyit számít az, hogy 20 adat helyett ugyanolyan érzékeny eredmény kimondásához már 19 adat elég lenne, vagy akár az is, hogy 400 adat helyett elég lenne 382-t megmérni valamilyen vizsgálatban! És mindez csak akkor, ha ezek helyett az eljárások helyett a varianciaanalízis különböző formáit is alkalmazhatnánk, vagyis ha teljesül, hogy a vizsgált változó normális eloszlású. De honnan tudhatnánk ezt olyan biztosan? Nem éri-e meg néhány személlyel többet megvizsgálni, néhány adattal többet beszerezni, hogy ettől a kényelmetlen feltételtől megszabaduljunk? Valamivel gyengébb, de még mindig igen erősnek számít a hátra levő három eljárás: a Friedman-próba és a rangkorrelációs együtthatók szignifikanciájának meghatározása a függetlenség vizsgálatára; ezek ereje körülbelül 91%.* Összehasonlítás kedvéért megemlítjük, hogy a korábban tárgyalt előjelpróba és mediánpróba ereje (az egy- és kétmintás t-próbához viszonyítva őket) nagy minták esetén alig több 63%-nál; az elméletileg meghatározott érték 2/ százszorosa. Ezek ereje viszont az elemszám növelésével csökken, éppen fordítva, mint a rangsorolásos próbák esetében. Egészen kis (6 körüli) elemszámok mellett úgy találták, hogy ez a viszonylagos erő 95% – de ilyen kis elemszámok esetén a t-próbák használata is vitatható. Valószínű, hogy a „paraméteres vagy nemparaméteres?” vitát soha nem lehet eldönteni. Észérvek helyett inkább a megszokás, sőt esetenként érzelmi tényezők határozzák meg a próbák kiválasztását. Így például a mérési módszereire „büszke” orvostudomány gyakran hajlamos a nemparaméteres módszerek elutasítására, mert „sajnálja” pontos számadatait rangszámokkal fölcserélni. A méréseikben – és „mérőműszereikben”, a tesztekben – sokkal inkább kételkedő pszichológusok viszont előszeretettel használnak nemparaméteres próbákat. Úgy érzik, és nem minden ok nélkül, mintha ezeket az ő adataikra, „testreszabottan” készítették volna el a módszerek felfedezői, akik közt valóban számos pszichológus is akadt.
*
Az 5.5 fejezetben megismert egyetértési együtthatónak nincs paraméteres megfelelője, ezért nincs mihez viszonyítani.
180