Kemény Sándor: Nemparaméteres statisztikai módszerek
NEMPARAMÉTERES STATISZTIKAI MÓDSZEREK A leggyakrabban használt próbák (pl. a t-próbák) feltételezik a normális eloszlást. Sokszor ez nem teljesül, még transzformáció után sem. A következmény: az első ill. másodfajú hiba-valószínűsége eltér a deklarálttól (Pl. azt hisszük, hogy p=0.01, tehát szignifikáns a különbség, pedig helyesen számolva p=0.2 lenne, tehát nem szignifikáns a különbség. Ebben a jegyzetben egyrészt a paraméteres próbáknak (mint például a kétmintás t-próba) megfelelő, de a normális eloszlás használatát elkerülő rang-módszerekről lesz szó, másrészt a leszámlálással keletkező, tipikusan binomiális (esetleg Poisson-) eloszlású változókra vonatkozó vizsgálatokról. A jegyzet harmadik fő része olyan regressziós esetekkel foglalkozik, amelyeknél a függő változó binomiális (igen/nem) típusú.
1. Rangokon alapuló próbák Alkalmazásuk akkor merül föl, ha az adatok legalább sorrendi skálán értelmezhetők, de az eloszlás nem normális. 1.1. Két független minta összehasonlítása (Wilcoxon-Mann-Whitney) Normális eloszlás szerinti ingadozás (és azonos variancia) esetén a kétmintás t-próbát alkalmazzuk erre a feladatra. 1.1.1 Wilcoxon-Mann-Whitney próba (kismintás, egzakt eljárás) 1. példa (Conover: Nonparametric statistics, p. 101 nyomán) Akik iskola előtt óvodába jártak, azok jobban teljesítenek-e iskolában, mint azok, akik nem jártak óvodába? Minta: 12 gyerek : - 8 nem volt óvodás - 4 óvodás volt átlag 3.5 3.6 3.7 3.8 3.9 4 4.1 4.2 4.3 4.4 4.5 4.6
járt-e n n n i n n i i n n i n
rang 1 2 3 4 5 6 7 8 9 10 11 12
Értékelés: Az iskolában elért átlageredményüket néztük (sorrendi skála, a sorrend nyilvánvaló, a különbségek a rangok között nem egyenlők). Sorba rendeztük átlageredményeik alapján a diákokat. Az 1-es sorszámot a legkisebb átlagú diák kapta, a 12-es sorszámot pedig a legnagyobb átlageredményű diák kapta. Ha az óvodát jártak jobbak, rangszámaik nagyobbak, a nem jártakéi kisebbek, világos helyzet. Itt az óvodát jártak rangszámai: 4,7,8,11.
1
Kemény Sándor: Nemparaméteres statisztikai módszerek
Az összes konfigurációk száma, ahányféleképpen a 4 óvodát járt elhelyezhető a 12 között:
12 12 ⋅11 ⋅10 ⋅ 9 = = 495 1⋅ 2 ⋅ 3 ⋅ 4 4
Ha véletlenszerűen helyezkednek el, bármelyik konfiguráció valószínűsége 1/495. A próbastatisztika az óvodát jártak rangszámának összege (W), ennek minimális lehetséges értéke 10 (1+2+3+4), maximális lehetséges értéke 42 (9+10+11+12). Csoportosítsuk a konfigurációkat W szerint:
12,11,10,9 12,11,10,8 12,11,10,7 12,11,9,8 12,11,10,6 12,11,9,7 12,10,9,8 12,11,10,5 12,11,9,6 12,11,8,7 12,10,9,7 11,10,9,8 12,11,10,4 12,11,9,5 12,11,8,6 12,10,9,6 12,10,8,7 11,10,9,7
Wi 42 41 40
P (W= Wi) 1/495 1/495 2/495
P (W≥ Wi) 1/495=0.002 2/495=0.004 4/495=0.008
39
3/495
7/495=0.014
38
5/495
12/495=0.024
37
6/495
18/495=0.036
A példa szerinti egyoldali eset H0: az óvodát jártak nem jobbak a nem jártaknál (rosszabbak vagy ugyanolyanok), véletlenszerűen osztódnak ki a rangszámok. H1: az óvodát jártak jobbak, nagyobb a rangszámuk. Ha H0 egyenlőség-része igaz, akkor annak valószínűsége, hogy az óvodát jártak rangszám-összege 37 vagy nagyobb legyen, 0.036. Ha H0 egyenlőtlenség része igaz (1/495-nél kisebb a valószínűsége, hogy nagyobb rangszámot kapjanak, vagyis az óvodát jártak ténylegesen rosszabbak), akkor annak valószínűsége, hogy az óvodát jártak rangszám-összege 37 vagy nagyobb legyen, még kisebb, mint 0.036. 36-nál már túllépnénk a 0.05-os határt. Az elutasítási tartomány 42-37, ha 37 vagy ennél nagyobb a rangszámok összege, akkor 0.05-os szignifikanciaszinten el kell utasítani a H0-t, vagyis ki kell mondani, hogy az óvodát jártak jobban teljesítenek az iskolában. A példában 4,7,8,11, Σ=30, tehát elfogadjuk a H0-t. Összegezve: Ezek az adatok nem támasztják alá, hogy az óvodába jártak jobb tanulmányi eredményt értek el, mint azok a diákok, akik nem jártak óvodába. Kapcsolt rang (tie): Ez akkor merülne föl, ha két gyerek egyforma rangszámot kapna. Pl. ha a 6. és 7. helyen egyforma a rangszám (mert az iskolai átlaguk egyforma), akkor mindkét gyerek 6.5-es sorszámot kap.
2
Kemény Sándor: Nemparaméteres statisztikai módszerek
További lehetséges hipotézis-párok az 1. példára Kétoldali eset H0: az óvodába járt diákok tanulmányi eredménye megegyezik az óvodába nem járt diákok tanulmányi eredményével, az óvodát jártak nem különböznek a nem jártaktól, vagyis véletlenszerűen osztódnak ki a rangszámok H1: az óvodát jártak különböznek, kisebb vagy nagyobb a rangszámuk. Az ellenhipotézis érvényessége esetén az óvodát jártak rangszáma vagy a rangsor elején (1, 2, 3, 4), vagy a rangsor végén van (9, 10, 11, 12), 38-nál ill. 14-nél van a 0.025-es határ. Az elutasítási tartomány kétoldali határ esetén: (10-14) és (38-42) A nullhipotézist elfogadjuk, ha 15≤W≤37. A másik egyoldali hipotézis-pár a következő lenne: H0: az óvodát jártak nem rosszabbak a nem jártaknál (jobbak vagy ugyanolyanok), véletlenszerűen osztódnak ki a rangszámok (1/495-nél nem kisebb a valószínűsége, hogy nagyobb rangszámot kapjon egy óvodát járt gyerek). H1: az óvodát jártak rosszabbak, kisebb a rangszámuk (1/495-nél kisebb a valószínűsége, hogy nagyobb rangszámot kapjon egy óvodát járt gyerek). Ha 15 vagy ennél kisebb a rangszámok összege, akkor 0.05-os szignifikanciaszinten el kell utasítani a H0-t, vagyis ki kell mondani, hogy az óvodát jártak rosszabbul teljesítenek az iskolában. A föntebb ismertetett próbát Wilcoxon eredetileg két azonos elemszámú minta (n1=n2) összehasonlítására dolgozta ki. Mann és Whitney a következő módosított próbastatisztikát javasolta különböző elemszámú mintákra:
U = n1n2 +
n1 (n1 + 1) −W 2
A példában U = 4 ⋅ 8 +
4⋅5 − 30 = 12 2
A számolás egzakt, nagy mintára azonban nehéz. 1.1.2 Wilcoxon-Mann-Whitney próba (nagymintás, közelítő módszer) Kihasználjuk, hogy a centrális határeloszlás tétele értelmében bármilyen eloszlásból vett mintaelemek összege normális eloszláshoz közelít, minél nagyobb elemszámú mintát veszünk, annál inkább, tehát a W valószínűségi változó normális eloszlású.
z≈
W − E (W ) Var (W )
E (W H 0 ) =
n1 ⋅ (n1 + n 2 + 1) n1 ⋅ ( N + 1) = 2 2
Var (W H 0 ) =
n1 ⋅ (n1 + n2 + 1) ⋅ n2 12
(a fejezet végén bemutatott levezetés szerint).
3
Kemény Sándor: Nemparaméteres statisztikai módszerek
z0 =
n1 ( N + 1) 2 n1 n2 ( N + 1) 12
W−
Az 1. példa megoldása nagymintás módszerrel:
E (W H 0 ) =
4 ⋅ (4 + 8 + 1) = 26 2
Var (W H 0 ) = z0 ≈
30 − 26 34.67
4 ⋅ (4 + 8 + 1) ⋅ 8 = 34.67 12 = 0.6794
Ha az ellenhipotézis igaz (az óvodát jártak jobbak), W nagy, tehát fölső határ kell. A 0.6794-es értékhez a z-táblázatból 0.752-et olvasunk le P( z ≤ 0.6794 ) = 0.752 . Annak valószínűsége, hogy
z a talált próbastatisztika-értéknél nagyobbat vegyen föl: P( z ≥ 0.6794 ) = 0.248 . Elfogadjuk H0-t, mert 0.248>>0.05. Ha kapcsolt rangok (ties) is vannak, a képletekben bizonyos korrekciókat kell alkalmazni, az
z0 =
n1 ( N + 1) 2 = n1 n2 ( N + 1) 12
W−
n1 ( N + 1) 2 N n1 n2 ∑ Rk2 − NR 2 N ( N − 1) k =1 W−
helyett a
z0 =
n1 (N + 1) 2 próbastatisztika érvényes. 2 N ( ) n1 n2 n n N + 1 Rk2 − 1 2 ∑ N ( N − 1) k =1 4( N − 1) W−
ahol Rk a k-adik elem (a példában gyerek) rangszáma. N
1 N (Rk − R )2 = s R2 = ∑ N − 1 k =1
Var (W H 0 ) =
∑R k =1
2 k
− NR 2
N −1
n1 n2 2 sR N
Folytonossági (Yates-) korrekció A binomiális eloszlás diszkrét, a normális eloszlás folytonos. Tehát amikor annak valószínűségét keressük, hogy az ábrán szereplő binomiális eloszlású valószínűségi változó az x=7 értéket vegye föl, a normális eloszlásból annak valószínűségét kell kiolvasnunk, hogy az x 6.5 és 7.5 között legyen. Az emiatt hozzáadott (ill. levont) 0.5-es értéket folytonossági korrekciónak nevezik. 4
Kemény Sándor: Nemparaméteres statisztikai módszerek
x + 0.5 − np x − 0.5 − np x + 0.5 − np − Φ x − 0.5 − np , = Φ p ( x ) ≈ P ≤z≤ np(1 − p ) np(1 − p ) np (1 − p ) np(1 − p ) ahol Φ a standardizált normális eloszlás eloszlásfüggvénye. 0.3
0.2
0.1
0.0 0
1
2
3
4
5
6
7
8
9
10
x=b=7 A 0.5 természetesen csak akkor megfelelő korrekció, ha az eredeti binomiális eloszlású valószínűségi változó értékkészlete az egész számokat tartalmazza, ez pl. a selejtes darabok számára teljesül. Ha a mintabeli selejtarány a valószínűségi változó, annak értékei 1/n egész számú többszörösei lehetnek, ilyenkor a korrekció 0.5/n. Ha azt kell kiszámítanunk, hogy az x binomiális eloszlású valószínűségi változó milyen valószínűséggel nem halad meg egy b (pl. b=7) értéket, hozzá kell a korrekciót adni b-hez:
b + 0.5 − np . P ( x ≤ b ) ≈ P z ≤ ( ) − np 1 p 0.3
0.2
0.1
0.0 0
1
2
3
4
5
6
7
8
9
10
x≤b=7 Ha a kérdés az, hogy az x binomiális eloszlású valószínűségi változó milyen valószínűséggel marad b alatt, le kell vonni a korrekciót b-ből:
b − 0.5 − np . P ( x < b ) ≈ P z < ( ) np 1 − p 5
Kemény Sándor: Nemparaméteres statisztikai módszerek
0.3
0.2
0.1
0.0 -2
0
2
4
6
8
10
12
x
z0 ≈
30 − 26 − 0.5 34.67
= 0.5944 , p = 0.276
Ellenőrizzük az 1. példa adataira, hogy mennyire különböznek a nagymintás és az egzakt módszerrel kapott p-értékek. Az egyszerűság kedvéért a számolást egy olyan esetre végezzük el, ahol az egzakt módszer eredményei már rendelkezésre állnak. Feltételezzük tehát, hogy az óvodát járt gyerekek rangszámösszege 37. Az egzakt módszerrel annak valószínűsége, hogy ilyen vagy ennél nagyobb rangszám-összeget kapjunk, amennyiben az óvodát járt gyerekek nem jobbak a többieknél: 0.036 (a példa megoldásánál használt táblázatból leolvasható). Ez a kismintás módszer p-értéke. A közelítéssel kapott p-érték:
z0 ≈
37 − 26 34.67
= 1.868 , p = 0.031
folytonossági korrekcióval:
z0 ≈
37 − 26 − 0.5 34.67
= 1.783 , p = 0.037
Látható tehát, hogy az egzakt és a közelítő módszer eredménye jó egyezést mutat. Minél nagyobb a vizsgált minták elemszáma, annál jobb egyezésre számíthatunk. A szakirodalomban különböző információk találhatók arról, hogy milyen feltételek mellett alkalmazható a nagymintás módszer, de a legmegengedőbb forrás is csoportonként legalább 10 előfordulást ír elő. Esetünkben ez nem teljesül, mégis elfogadható a közelítő számolás. A közelítés jósága nem csak a minták elemszámától függ, hanem attól is, hogy a számolandó pérték mekkora. Ennek magyarázata az, hogy a normális eloszlástól való eltérésre a farok-terület számítása érzékeny. Ezt figyelembe véve a nagymintás módszert akkor jogos alkalmazni, ha a kiszámítandó p valószínűség a
1 n intervallumba esik. < p< n +1 n +1
2. példa (J. Krauth: Distribution-free statistics, An application-oriented approach, Elsevier, 1988, p. 50) Pszichiátriai betegeket lítium-készítménnyel ill. placebóval kezelnek. A 6 páciens közül véletlenszerűen választották ki azt a hármat, akik a kezelést kapják. A függő változó a páciensek önértékelése a depressziós skálán (VAS: Visual Analogue Scale, a nagyobb érték súlyosabb
6
Kemény Sándor: Nemparaméteres statisztikai módszerek
depressziót jelez). A kérdés az, hogy a lítium-készítménnyel való kezelés csökkenti-e a depressziót. Legyen az elsőfajú hiba megengedett valószínűsége α = 0.05 ! Az eredmények: kezelt (T) score 7 10 11
kontroll (C) score 10 15 12
rang 1 2.5 4
rang 2.5 6 5
Kismintás eljárás A rangok és rangszám-összegek számítása a két csoportban: csoport score rang
T 7 1
T 10 2.5
C 10 2.5
T 11 4
C 12 5
C 15 6
A kezeltek (T) rangszám-összege: W= 7.5 A kontroll csoport (C) rangszám-összege: 13.5. Tegyük fel, hogy a rangszám csak a véletlentől függ. Hogyan lehet kiosztani a rangszámokat?
6 = 20 , a 6 páciensből a 3-at 20-féleképpen lehet kiválasztani, tehát a teljesen véletlenszerű 3
kiosztásnál egy konfiguráció valószínűsége 0.05..
Ha a (bizonyos rangszámmal jelzett) egyedeket cserélgetjük a két csoport között, a rangszámösszegek a következőképpen változnak.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1 1 (T) 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2
2.5 1 (T) 1 1 1 2 2 2 2 2 2 1 1 1 1 1 1 2 2 2 2
4 1 (T) 2 2 2 1 1 1 2 2 2 1 1 1 2 2 2 1 1 1 2
2.5 2 (C) 1 2 2 1 2 2 1 1 2 1 2 2 1 1 2 1 1 2 1
6 2 (C) 2 1 2 2 1 2 1 2 1 2 1 2 1 2 1 1 2 1 1
5 2 (C) 2 2 1 2 2 1 2 1 1 2 2 1 2 1 1 2 1 1 1
7
W 7.5 6 9.5 8.5 7.5 11 10 9.5 8.5 12 9 12.5 11.5 11 10 13.5 12.5 11.5 15 13.5
Kemény Sándor: Nemparaméteres statisztikai módszerek
Ha az igazi kísérletben W minimális, az arra utal, hogy a kezelésnek van hatása. A legkisebb rangszám-összeg a 6, tehát itt lenne a legmeggyőzőbb a Li hatása. H0: a kezeltek eredményei nem jobbak a nem kezeltekénél (rosszabbak vagy ugyanolyanok), véletlenszerűen osztódnak ki a rangszámok. H1: a kezeltek eredményei jobbak, tipikusan kisebb a rangszámuk. A kísérletben W=7.5, ezen kívül még egy ilyen kombináció van, és még egy W=6-os is. Annak valószínűsége, hogy a W próbastatisztika értéke a talált vagy annál szélsőségesebb (kisebb) legyen, ha a nullhipotézis igaz: P(W ≤ 7.5) =
3 = 0.15 , ez meghaladja az α = 0.05 határt, tehát 20
el kell fogadnunk a nullhipotézist. Elhisszük, hogy a véletlen műveként állt elő a kezeltek adott rangszáma, az adatok nem mondanak ellent annak a feltételezésnek, hogy a Li-nak nincs hatása a depresszióra. Tegyük fel, hogy W=6-ra jön ki!.
1 = 0.05 20
P (W ≤ 6) =
Határeset, elvetnénk a nullhipotézist. A rangszámösszegek lehetséges értékeinek megállapításakor használt „cserélgetős” technika a Fisher-Pitman-féle randomizációs próba része. Ahogy az itt bemutatott példában is látható, a rangszámösszegekre alkalmazott Fisher-Pitman randomizációs próba egyenértékű a WilcoxonMann-Whitney próbával. A két módszer különbsége abban áll, hogy a randomizációs próba nem csak rangszámokra végezhető el. Ennek bemutatására a 3. példában kerül sor. Nagymintás (közelítő eljárás)
E (W H 0 ) =
n1 ⋅ ( N + 1) 3 ⋅ (3 + 3 + 1) = = 10.5 2 2
A varianciára nem használhatjuk az egyszerű képletet, mert kapcsolt rangok vannak!
E (R H 0 ) = R =
N +1 = 3.5 , 2
ahol R a rangszám. N
s R2 =
∑R k =1
2 k
− NR 2
N −1
Var (W H 0 ) =
z0 ≈
= 3.4
n1 n2 2 3 ⋅ 3 sR = ⋅ 3.4 = 5.1 N 6
7.5 − 10.5 5.1
6 ⋅ 3.5 2 1 = 12 + 2.5 2 + 4 2 + 2.5 2 + 6 2 + 5 2 − 4 5
= −1.328
Alsó határt kell néznünk, az z-táblázatból ez -1.645, elfogadjuk a nullhipotézist. Másképpen, annak valószínűsége, hogy z a talált –1.328 értéket vagy annál szélsőségesebbet (kisebbet) vegyen föl, 1-0.9082=0.0918, ez meghaladja a 0.05-ot.
8
Kemény Sándor: Nemparaméteres statisztikai módszerek
Folytonossági korrekcióval:
z0 ≈
7.5 + 0.5 − 10.5 5.1
= −1.107
A z-táblázatból p=0.134, ez már közelebb van a pontos módszer szerinti 0.15-hoz. Ha kétoldali lenne az ellenhipotézis, akkor a folytonossági korrekciót az egyik oldalon pozitív, a másik oldalon negatív irányban kellene alkalmazni. Ehelyett úgy járunk el, hogy a kezeltek (T) rangszám-összege (itt W= 7.5) és a kontroll csoport (C) rangszám-összege (itt W= 13.5) közül a kisebbiket helyettesítjük, és a pozitív korrekciót (+0.5) alkalmazzuk. A folytonossági (Yates-) korrekció alkalmazásával nehezebben utasítjuk el a nullhipotézist, mint nélküle, tehát a próba így konzervatívabb. 1.1.3 A Mann-Whitney-Wilcoxon-próba alkalmazásának feltételei 1.) Mindkét mintának véletlennek kell lennie. 2.) A mintáknak egymástól is függetlennek kell lenniük 3.) Legalább sorrendi skála legyen A nullhipotézis és ellenhipotézis megfogalmazása (egyoldali esetre) Legyen F (ξ ) az x változó eloszlásfüggvénye, G (ξ ) az y változóé, ezekkel H0: F (ξ ) ≤ G (ξ ) , P( x < y ) ≤ P( x > y ) H1: F (ξ ) > G (ξ ) , P( x < y ) > P( x > y ) (x többnyire kisebb y-nál)
F(x) x
G(x) y
x
y
Az ellenhipotézis szerint sztochasztikusan kisebb x az y-nál, x többnyire kisebb, mint y. (Vargha András: „két változó ugyanakkoraságának vizsgálata”, Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal, Pólya Kiadó, 2000)
9
Kemény Sándor: Nemparaméteres statisztikai módszerek
A H1: E ( x ) < E ( y ) használhatóbb (a paraméteres próbáknál megszokott alakú) hipotézis lenne, de az előbbiből csak akkor következik, ha 4.) A két eloszlás alakja azonos, legfeljebb a helyzetükben térnek el: F (ξ ) = G (ξ + c ) A föntebbi ábra éppen ilyen esetet mutat. Ha a 4. feltétel nem teljesül, a két változó ugyanakkoraságára vonatkozó hipotézis nem egyenértékű a két valószínűségi változó várható értéknek vagy mediánjának egyenlőségére vonatkozó hipotézissel. Az alábbi ábra két olyan eloszlást mutat, amelyek várható értéke azonos, de az nem igaz rájuk, hogy x többnyire ugyanakkora, mint y, mert ha az eloszlások alakja különböző, nemcsak helyzetükben térnek el. Ebben az esetben a kétféle hipotézis nem ugyanazt jelenti. Az egyik görbe a 3 szabadsági fokú χ2-eloszlás sűrűségfüggvénye, tehát a várható érték 3, a másik a 6-χ2 változó sűrűségfüggvénye utóbbinak is 6-3=3 a várható értéke. A várható értékek azonosak, a H0: F (ξ ) ≤ G (ξ ) , P(x < y ) ≤ P( x > y ) nullhipotézisnek mégis ellentmondanak. 0,24 0,22 0,20 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,00 -5
0
5
10
15
20
25
A Mann-Whitney-Wilcoxon-próbát akkor használjuk, ha folytonos (intervallum-) skálán mért adataink vannak, de az ingadozás nem normális eloszlású, vagy ha nem folytonos az eloszlás, pl. sorrendi skálán mért adataink vannak. A sorrendi skálán az adatok helyett rangokat alkalmazunk. A normális eloszlású ingadozás esetén kétmintás t próbát használunk:
t0 =
x1 − x2 1 1 s + n1 n2
Ha nem normális az eloszlás, a rangokra használunk analóg próbát:
R1 − R2
t0 = sR
1 1 + n1 n2
Látszik, hogy a Mann-Whitney-Wilcoxon-próba közel áll a rangokon végzett t-próbához. Vargha András ezt a próbát rang Welch-próbának nevezi (Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal, Pólya Kiadó, 2000, p. 270).
10
Kemény Sándor: Nemparaméteres statisztikai módszerek
Feladat: hasonlítsuk össze a 2. példa adatain a Mann-Whitney-Wilcoxon-próbát a rangokra végzett t-próbával! 1.1.4 Fisher-Pitman-féle randomizációs próba intervallum-skálán mért adatokra 3. példa (J. Krauth: Distribution-free statistics, An application-oriented approach, Elsevier, 1988, p. 43) Az állatoknak meg kellett tanulniuk, hogy úgy jussanak el a szalonnához, hogy az áramütést elkerüljék. A tanulási időt mérték. A vizsgálatban a kérdés az volt, hogy a kezelés (amfetamin) rontja-e a tanulási képességeket. H0: a kezeltek tanulási képessége nem rosszabb a nem kezeltekénél (jobb vagy ugyanolyan), az elsajátítási idő rövidebb vagy ugyanakkora, H1: a kezeltek tanulási képessége rosszabb, az elsajátítási idő hosszabb, vagyis egyoldali (fölső) az ellenhipotézis. T 35.2 32.4 28.6 35.2 36.0
C 28.6 30.4
A W próbastatisztika itt a tanulási idők összege az amfetaminnal kezelt egyedeknél (rangszámot nem használunk, mert a tanulási idő intervallumskála, több információt hordoz, mint a rangszám, a különbség is értelmezhető). A táblázat első sora a tényleges eredmény, a továbbiak az egyedek (idő-eredmények) csoportok közötti fölcserélgetésével adódnak.
W = 35.2 + 32.4 + 28.6 + 35.2 + 36.0 = 167.4
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
35.2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2
32.4 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 1 1 1 1 1 2
28.6 1 1 1 1 1 1 2 2 2 2 1 1 1 1 2 1 1 1 1 2 1
35.2 1 1 1 2 2 2 1 1 1 2 1 1 1 2 1 1 1 1 2 1 1
36.0 1 2 2 1 1 2 1 1 2 1 1 1 2 1 1 1 1 2 1 1 1
28.6 2 1 2 1 2 1 1 2 1 1 1 2 1 1 1 1 2 1 1 1 1 11
30.4 2 2 1 2 1 1 2 1 1 1 2 1 1 1 1 2 1 1 1 1 1
W 167.4 160.0 161.8 160.8 162.6 155.2 167.4 169.2 161.8 162.6 163.6 165.4 158.0 158.8 165.4 160.8 162.6 155.2 156.0 162.6 158.8
Kemény Sándor: Nemparaméteres statisztikai módszerek
7 7 ⋅6⋅5⋅ 4⋅3 = = 21 2 ⋅3⋅ 4 ⋅5 5 7 7 ⋅6 = = 21 2 2 Ha a véletlenen múlik csak a tanulási idő, bármelyik konfiguráció előfordulási valószínűsége 1/21. A táblázat szerint 3 olyan konfiguráció van, amelyben W akkora vagy nagyobb, mint a kísérleti eredmények szerinti (a W próbastatisztika akkora vagy szélsőségesebb értéket vesz föl, ha csak a véletlenen múlik a feladat megoldásának idő-szükséglete, vagyis ha a nullhipotézis igaz), ezek az 1., 7. és 8. sorok. Vagyis a nullhipotézis érvényessége esetén 3 / 21 = 0.143 a valószínűsége annak, hogy a W próbastatisztika akkora vagy szélsőségesebb értéket vegyen föl, mint a kísérleti eredmények szerinti. Ez meghaladja a választott 0.05-os határt, ill. p=0.143.
P (W ≥ 167.4) =
3 = 0.14 21
H0-t elfogadjuk, nem szignifikáns a kezelés hatása. Feladat: Hasonlítsuk össze a 3. példa adatain a randomizációs, a kis-és nagymintás Mann-WhitneyWilcoxon-próbát, a szokásos és a rangokra végzett t-próbát! A próba relatív ereje Legyen n1 és n2 a szükséges minta-elemszám a két próbára adott α és β mellett. Az első próba másodikra vonatkozó relatív ereje n2 és n1 hányadosa (hányszor nagyobb minta kell a második próbához, mint az elsőhöz). Ha n2>n1, az első próba erősebb. A próba aszimptotikus relatív ereje (asymptotic relative efficiency):
n2 n1 →∞ n 1
ARE = lim
Az irodalom szerint a két összehasonlítandó sokaság normális eloszlása esetén a Mann-WhitneyWilcoxon-próba majdnem olyan erős mint a kétmintás t-próba (ARE=0.95), nem normális eloszlás esetén erősebb. Tehát ha kétségünk van az eloszlást illetően, nem veszítünk sokat normális eloszlás esetén sem, ha ezt a próbát alkalmazzuk. 1.1.5 A Wilcoxon-próba levezetése [Conover, W.J.: Practical nonparametric statistics, J.
Wiley, 3rd ed. 1999] Vegyünk két csoportot, az első (például kezelt) csoport minta-elemszáma n1, a másiké n2, az összes N. A Wilcoxon-féle rang-összeg-próba próbastatisztikája: n1
W = ∑ Ri i =1
Az Ri rang-számok (tehát hogy melyik elem melyik rangot kapja) valószínűségi változók, mert ha újra elvégeznénk a kísérleteket, nem ugyanezt a kiosztást kapnánk (pl. másutt lehetnének a kapcsolt rangok). Annak valószínűsége, hogy az i-edik elem a k rangot kapja, p k = P(R = k ) . Valamely elem rangszámának várható értéke:
12
Kemény Sándor: Nemparaméteres statisztikai módszerek
N
E (R ) = ∑ Ri pi i =1
Varianciája:
{
}
N
Var (R ) = E [R − E (R )] = ∑ [Ri − E (R )] pi 2
2
i =1
A nullhipotézis: minden mintaelemhez bármely rang hozzárendelése egyformán valószínű, tehát annak pi valószínűsége, hogy az i-edik elem az Ri rangot kapja, 1/N, vagyis
H 0 : pi =
1 N
i = 1,..., N
E (R H 0 ) = ∑ Ri pi = N
i =1
Var (R H 0 ) =
1 N
1 N
N
∑R i =1
N
i
=R.
2 ∑ [Rk − E (R )] = k =1
1 N
∑ (R N
k =1
− R) = 2
k
1 N 2 ∑ R k − NR 2 = A N k =1
A rangszámok (ha nincsenek kapcsolt rangok) egy 1 növekményű számtani sor elemei, amelyre
k
=
N ( N + 1) 2
2 k
=
N ( N + 1)(2 N + 1) 6
N
∑R k =1 N
∑R k =1
E (R H 0 ) = R =
Var (R H 0 ) =
N +1 2
N 2 −1 1 N 2 ( N + 1)(2 N + 1) ( N + 1) − = =A ∑ R k − NR 2 = N k =1 6 4 12 2
W várható értéke a nullhipotézis érvényessége esetén:
n1 n1 n ( N + 1) E (W H 0 ) = E ∑ Ri = ∑ E (Ri ) = n1 R = 1 2 i =1 i =1 W varianciája (nem független valószínűségi változók összegének varianciája): n1 n1 n1 n1 Var (W ) = Var ∑ Ri = ∑Var (Ri ) + ∑ ∑ Cov (Ri , R j ) i =1 j =1, j ≠ i i =1 i =1
(
)
A kovariancia, figyelembe véve, hogy P Ri = k , R j = l =
1 (mivel Ri N féle értéket vehet N ( N − 1)
föl, az Rj már csak N-1 félét, mivel j≠i):
Cov (Ri , R j H 0 ) =
N N 1 1 E [(Ri − R )(R J − R )] = ∑ ∑ [(Rk − R )(Rl − R )] = N ( N − 1) N ( N − 1) k =1 l =1,l ≠ k
13
Kemény Sándor: Nemparaméteres statisztikai módszerek
=
N N 1 N ( ) ( ) (Rk − R )2 = − A − − − R R R R ∑ k ∑ ∑ l N −1 N (N − 1) k =1 l =1 k =1
∑ (R N
és kihasználtuk, hogy
k =1
Var (W H 0 ) = ∑ A − n1
i =1
k
− R)= 0
n (n − 1) nn n n ( N + 1) 1 n1 n1 A = n1 A − 1 1 A= 1 2 A= 1 2 ∑ ∑ N − 1 i =1 j =1, j ≠i N −1 N −1 12
Vigyázat, ez az összefüggés csak akkor használható, ha nincsenek kapcsolt rangok! Szokás használni a következő jelölést is: N
1 N (Rk − R )2 = s R2 = ∑ N − 1 k =1
Var (W H 0 ) =
∑R k =1
2 k
− NR 2
N −1
=
N A , ezzel N −1
n1 n2 nn A = 1 2 s R2 N −1 N
Ez utóbbi összefüggés kapcsolt rangok esetén is érvényes!
1.2. Egymintás Wilcoxon-próba (Wilcoxon signed rank test) Emlékeztetőül az egymintás t-próba:
E ( x ) = µ 0 = x ref
t0 =
xref : standard
x − µ0 s n
A Wilcoxon-próba alkalmazásának feltétele a szimmetrikus eloszlás, ezt csak a sorrendi skálától kezdve értelmezhetjük. Vagyis annak ellenére, hogy rang-módszerről van szó, az adatoknak legalább intervallum-skálán értelmezhetőknek kell lenniük. 4. példa (QS-9000, Measurement systems analysis, Reference manual, 3rd ed. 2002, p. 87) Egy munka-etalon méretét nagyon pontos eszközzel meghatározták (xref =6.00), majd ezt a munkaetalont 15-ször megmérték a minősítendő mérőeszközzel. Vizsgáljuk meg, hogy a mérőrendszer torzít-e! Az egymintás t-próba eredménye: Test of means against reference constant (value) (gagebias) Mean t-value df p Std.Dv. N Std.Err. Reference Variable Constant x 6.006667 0.212020 15 0.054743 6.000000 0.121781 14 0.904804
Ezt a próbát akkor jogos használnunk, ha az ingadozásról tudjuk, hogy normális eloszlást követ. 14
Kemény Sándor: Nemparaméteres statisztikai módszerek
i
xi
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
5.8 5.7 5.9 5.9 6.0 6.1 6.0 6.1 6.4 6.3 6.0 6.1 6.2 5.6 6.0
d i = xi − x ref -0.2 -0.3 -0.1 -0.1 0.0 0.1 0.0 0.1 0.4 0.3 0.0 0.1 0.2 -0.4 0.0
Ri x i − x ref ≠ 0
Ri′
Ri′
6.5 8.5 3 3
-6.5 -8.5 -3 -3
42.25 72.25 9 9
3
3
9
3 10.5 8.5
3 10.5 8.5
9 110.25 72.25
3 6.5 10.5
3 6.5 -10.5
9 42.25 110.25
2
A Wilcoxon-próba nullhipotézise:
H0 : µe = µ0
(a medián valamely meghatározott értékkel egyenlő)
d i = xi − µ 0 próbastatisztikája:
W=
∑ R′
i∈d1 〉 0
i
ahol Ri′ az előjeles rang (signed rank). Lehet a pozitív különbségek helyett a negatív különbségekre is szummázni, ill. szokás a két szumma közül a kisebbik értékűt választani, esetünkben ez 31.5. Az Ri′ előjeles rangot úgy kapjuk, hogy a zérus különbségek figyelmen kívül hagyásával rangsoroljuk a különbségek abszolút értékét (ez adja a föntebbi táblázat Ri oszlopát), majd e rangokhoz a különbség előjelét rendeljük. A kismintás eljárás részleteit itt nem ismertetjük. Nagy mintára (vagy sok kapcsolt rang esetén) a normális eloszlással közelítjük a W eloszlását:
z=
W − E (W )
z0 =
Var (W )
∑ R′ i
i
∑ Ri′
2
, de ebben a képletben már nemcsak a pozitív különbségekre szummázunk, hanem
i
az összes előjeles rangokat összegezzük, ahol a különbség nem zérus.
A példában z 0 =
∑ R′ i
i
∑ Ri′
2
=
3 494.5
= 0.135
i
15
Kemény Sándor: Nemparaméteres statisztikai módszerek
Az alkalmazás feltételei: • legalább sorrendi (ill. intervallum-) skála • szimmetrikus eloszlás (transzformáció segíthet, ha nem teljesül, ekkor kell az intervallum-skála) • az adatok független valószínűségi változók egyetlen sokaságból 1.3 Páros próba (Wilcoxon matched pairs) Emlékeztetőül a páros t-próba
t0=
d sd / n
Ez akkor használható, ha a d különbségek eloszlása normális, konstans varianciával. Ha kevésbé szigorú feltételek mellett alkalmazható próbát szeretnénk, nem-paraméteres próbát kell végezni. (Ugyanaz, mint az egymintás próba, csak különbségekre végezzük)
5. példa (G. E. P. Box, W. G. Hunter, J. S. Hunter: Statistics for experimenters, J. Wiley, 1978, p. 97) boy
material A
material B
13.2(L) 8.2(L) 10.9(R) 14.3(L) 10.7(R) 6.6(L) 9.5(L) 10.8(L) 8.8(R) 13.3(L)
1 2 3 4 5 6 7 8 9 10
14.0(R) 8.8(R) 11.2(L) 14.2(R) 11.8(L) 6.4(R) 9.8(R) 11.3(R) 9.3(L) 13.6(R) average difference
B–A difference d
Ri′
0.8 0.6 0.3 -0.1 1.1 -0.2 0.3 0.5 0.5 0.3
9 8 4 -1 10 -2 4 6.5 6.5 4
0.41
15
13
wear
11
9
7
material A material B
5 0
1
2
3
4
5
6
7
8
9
boys
16
10
11
Kemény Sándor: Nemparaméteres statisztikai módszerek
z0 =
∑R
′
i
i
∑ R′
2
=
i
49 382.5
= 2.505
i
A z-táblázatból p/2=0.0061, p=0.012, a páros t-próbánál p=0.0085 volt az eredmény.
Matched pairs (összeillesztett párok) Mivel a páros próba sokkal érzékenyebb a kétmintásnál, használata előnyösebb, ha erre lehetőség van, pl. fogyókúránál mindenkire a saját testsúlyának-változását kell nézni. Sajnos nem mindig lehet olyan kísérletet végezni, ahol mindenki önmaga kontrollja. Ilyenkor minél több szempontból ugyanolyan egyedeket keresnek, ezeket pároknak tekintjük. Józan figyelmeztetés: S. Siegel: Nonparametric statistics for the behavioral sciences, McGraw-Hill, 1956, p. 63: “Wherever it is feasible, the method of using each subject as his own control is preferable to the pairing method. The reason for this is that we are limited in our ability to match people by our ignorance of the relevant variables which determine behavior. Moreover, even when we do not know what variables are important and therefore should be controlled by the pairing process, our tools for measuring these variables may be faulty. A matching design is only as good as the experimenter’s ability to determine how to match the pairs, and this ability is frequently very limited.”
1.4. Több (független) csoport összehasonlítása Normális eloszlás szerinti ingadozás esetén ez egy faktor szerinti varianciaanalízissel oldható meg. A rang-módszerek köréből két nemparaméteres próba használatos: a Kruskal–Wallis-próba és a Mood-féle mediánpróba.
6. példa Háromféle gyógyszerrel (A, B és C) kezelt csoport vizeletében található bilirubin mennyiségét kell összehasonlítanunk. Az értékeket az analizátor nem számszerűen adja ki, a következők lehetségesek: Negatív Kicsi Mérsékelt Nagy
0 s m l
A kísérleti adatokat mutatja a háromféle gyógyszerrel kezelt csoportokra a következő táblázat. Gyógyszer Bilirubin mennyisége
A 0 0 s 0 s
B s 0 m s 0
C 0 m s m s
A kérdés az, hogy van-e különbség a három csoport között. 17
Kemény Sándor: Nemparaméteres statisztikai módszerek
1.4.1. Kruskal–Wallis-próba A próba a Mann–Whitney-próba általánosítása több medián összehasonlítására. Feltételezi, hogy a minták (az egyes faktorszintekhez tartozó csoportok) azonos alakú sokaságokból származnak, a mintaelemek ε hibái egymástól függetlenek, és folytonos a függő változó, vagyis legalább intervallumskálán értelmezhető. A nullhipotézis pontosan fogalmazva az, hogy a minták (csoportok) mögött álló sokaságok eloszlása azonos. Tehát a nullhipotézisnek ellentmond, ha akár az eloszlások várható értéke (mediánja), akár varianciája vagy egyéb alakparaméterei különböznek. Ez azt jelenti, hogy amennyiben a próba szignifikáns (a különbség a csoportok között szignifikáns), nem tudjuk, hogy az eloszlás helyzeti (várható érték, medián) vagy alakparaméterei (variancia, ferdeség, lapultság) különböznek. A próbastatisztika:
12 r Ri2 ∑ H= n(n + 1) i =1 p i
− 3(n + 1)
ahol n az összes adatok száma n =
r
∑p i =1
i
,
Ri az i-edik szint (csoport, minta) rangösszege, pi ≥ 5, vagyis minden csoportban legalább 5 elemnek kell lennie. A nullhipotézis teljesülése esetén a H próbastatisztika χ2 eloszlású, r–1 szabadsági fokkal. Ha több csoportban is vannak azonos elemek (ties), korrekció szükséges:
H corr =
H ∑ t i3 − t i
(
1−
)
i
n3 − n
ahol ti az azonos i rangú elemek száma. Először kiszámítjuk az egyes adatok rangszámát úgy, hogy nagyság szerint sorba rendezzük őket. Ha azonos értékeket találunk, azok egy átlagos rangszámot kapnak. Például a „0” (negative) összesen hatszor fordul elő, eszerint az első 6 rangszámot kell kapniuk, ezért mindegyiküké 3.5 lesz. Az „m” háromszor fordul elő, ezek viselnék az utolsó három rangszámot (13, 14, 15), közösen a 14-et kapják. Az így előálló rangszámok és a rangösszeg: A 0 0 s 0 s összeg
rangA 3.5 3.5 9.5 3.5 9.5 29.5
B s 0 m s 0
rangB 9.5 3.5 14 9.5 3.5 40
C 0 m s m s
rangC 3.5 14 9.5 14 9.5 50.5
A próbastatisztika kiszámított értéke: H(2, n=15) = 2.5407, az ehhez tartozó p érték: 0.2807. A faktorszintek közötti eltérés itt nem szignifikáns, mivel a p érték 0.05-nál sokkal nagyobb. Az esetleges páronkénti összehasonlításra itt a normális eloszlást igénylő t-próbák (Fisher, Bonferroni, Scheffé) helyett nemparaméteres kétmintás próbákat, pl. a Mann–Whitney-próbát illik használni. 1.4.2. A Mood-féle mediánpróba Feltételezései megegyeznek a Kruskal–Wallis-próbáéival. Kevésbé érzékeny azonban a kiugró értékekre, de ha ilyenek nincsenek, gyengébb próba. Ez azt jelenti, hogy könnyebben elfogadja azt a 18
Kemény Sándor: Nemparaméteres statisztikai módszerek
nullhipotézist, hogy a faktorszintek között nincs különbség, amikor pedig van, vagyis nagyobb vele a másodfajú hiba kockázata, mint a Kruskal–Wallis-próbával. A próba elvégzéséhez az adatokat két csoportra (c = 2) osztjuk: az egyik csoportba kerülnek a mediánnál kisebb vagy azzal egyenlő nagyságú adatok, a másikba a mediánnál nagyobbak. A medián itt az „s”. Ún. kontingenciatáblázatot készítünk (lásd alább) az adatokból a két csoport és a faktor szintjei ( i = 1,...,r ) szerint. Az egyes cellákba írjuk az előfordulások nij számát („mért”). Kiszámítjuk, hogy ha a három faktorszint között nem lenne különbség (a faktornak nem lenne hatása), milyen számban várnánk a mediánhoz képest két csoportban az esetek előfordulását, ez lesz nˆ ij („számított”). Itt a 15 adat között a 3 csoportban összesen 12-szer fordul elő a 0 és az „s” (bilirubin <= medián), csoportonként egyenlően szétosztva 4 jut egy csoportra. Ezzel analóg módon a medián feletti 3 érték is várhatóan egyenlően oszlana el a három csoportban, ha a gyógyszerek hatásában nincs különbség. A 5 4 1 0 1 -1 5
mért számított mért-számított mért számított mért-számított Összes
<= medián
> medián
B 4 4 0 1 1 0 5
C 3 4 -1 2 1 1 5
Összes 12
3
15
Ha a faktornak nincs hatása (nincs az A, B és C gyógyszer között különbség), a következő kifejezés χ2 eloszlású, (r − 1)(c − 1) szabadsági fokkal: r
χ
χ2 = ∑∑
(n
ij
− n ij
)
2
n ij
i =1 j =1
.
(16.3)
Itt r = 3, c = 2, tehát a szabadsági fok 2. A χ2 próbastatisztika kiszámított értéke 2.5, az ehhez tartozó p érték 0.2865, tehát nem jelentős a faktorszintek közötti különbség. 1.5. Rang-korreláció A „közönséges” (ún. Pearson-féle) korreláció akkor használható szigorúan, ha a két valószínűségi változó, amelyek között összefüggést keresünk, normális eloszlás szerint ingadozik. Ez számos esetben nem teljesül, máskor szóba se jöhet, pl. ha az adatok sorrendi skálán értelmezhetők. A Pearson-féle korrelációs együttható:
r=
∑ (y i
∑ (y
i
− y )( xi − x )
− y)
2
i
i
∑ (x − x )
2
i
i
A rangokra az ún Spearman-féle rang-korrelációs együtthatót használhatjuk:
ρ=
∑ [R( y ) − R( y )][R(x ) − R(x )] i
i
∑ [R( y ) − R( y )] ∑ [R(x ) − R(x )] 2
2
i
i
i
i
∑ R( y ) − i
i
=
i
N + 1 N + 1 R(xi ) − 2 2
N + 1 ∑i R( y i ) − 2
19
2
N + 1 ∑i R(xi ) 2
2
Kemény Sándor: Nemparaméteres statisztikai módszerek
7. példa S. Siegel: Nonparametric statistics for the behavioral sciences, McGraw-Hill, 1956, p. 204 A vizsgált személyek autoritárius hajlamát és a társadalmi beilleszkedésre való törekvésük mértékét pontozták. A kérdés az, hogy van-e a két jellemző között összefüggés.
1 2 3 4 5 6 7 8 9 10 11 12
AUTHORIT 82 98 87 40 116 113 111 83 85 126 106 117
R 2 6 5 1 10 9 8 3 4 12 7 11
STRIVING 42 46 39 37 65 88 86 56 62 92 54 81
R 3 4 2 1 8 11 10 6 7 12 5 9
ρ = 0.818
20