Eloszlás-független módszerek (folytatás) 14. elıadás (27-28. lecke) Illeszkedés-vizsgálat
27. lecke • khí-négyzet eloszlású statisztikák esetszámtáblázatok elemzésére • Illeszkedés-vizsgálat
¨ Gyakorisági sorok és táblázatok elemzése Bevezetés • Kvalítatív ismérvek elemzésérıl lesz szó, az ismérv(ek) változatai kategóriák, osztály-megjelölések • f-fel jelöljük adott osztályba esı mintaelemek számát (esetszám, gyakoriság = frekvencia), ezeket „cellagyakoriság”-oknak is nevezik, mert cellákba írjuk • F-fel jelöljük az f (megfigyelt) gyakoriság becslését (várt értékét) az aktuális Ho hipotézis mellett
Gyakorisági sorok és táblázatok elemzése (Bevezetés folytatása)
• A null-hipotézis ellenırzésére általában két (eltérı) statisztika használatos •
( f − F)2 F
∑
(1) K = (2) G = 2∑fln(f/F) / itt a ln természetes alapú logaritmus/
• Mindkettı az {f} észlelt cella-gyakoriságok táblázatának bizonyos távolsága az {F} „várt” cella-gyakoriságok táblázatától • Mindkettı (közel) χ 2 eloszlású (ha Ho igaz), G használata több szempont szerinti osztályozásnál elınyös
¨ Illeszkedés vizsgálat • Az n-elemő minta egyedeit a vizsgált kvalitatív ismérv szerint osztályokba soroljuk, az osztályok száma c, az iedik osztályba fi egyed esik (Σ fi =n) • A feltételezett sokasági megoszlás (ez H0): p1, p2, …, pc, összegük 1=100 %. • Kérdés: a minta alapján elfogadható-e a feltételezett sokasági megoszlás?
Illeszkedés vizsgálat (folytatás) • H0-t igaznak feltételezve átrendezzük az esetszámok megoszlását, fi becslése Fi =npi (i = 1,2,…, c), ezek összege szintén n. • Ezután kiszámítjuk az {f}: f1 f2 …. fc megfigyelési gyakoriságok táblázatának, és az {F}: F1 F2 …. Fc becsült gyakoriságok táblázatának a x2-távolságát (K vagy G)
Illeszkedés vizsgálat (folytatás) • A két táblázat x2-távolsága a K-statisztikával: K =∑
( f i − Fi )2 Fi
=
∑
( f i − np i )2 np i
• E távolság a G-statisztikával: f G = 2 ∑ f i ln i = 2 Fi
[∑
f i ln f i −
∑
f i ln( np i )
• Mindkét statisztika közel x2 eloszlású, a szabadságfok = c-1.
]
Illeszkedés vizsgálat (számpélda) • N = 200 kétgyermekes családot véletlenszerően kiválasztva egy településen, kaptuk, hogy 54 családban 2 lány, 36 családban 2 fiú van. • Ha elfogadjuk, hogy egy sokaságban a fiú:lány arány 50%-50 %, akkor a kétgyermekes családok negyedében 2 lány, felében 1 fiú + 1 lány, negyedében 2 fiú várható (c = 3 kategória). • A H0 hipotézis tehát p1=0,50 ; p2=0,25 p0=0,25 ; ahol az index a fiúk számát jelenti a családban.
Illeszkedés vizsgálat (számpélda folytatása) • A minta gyakorisági megoszlása f: 54 110 36 összesen n=200 • A H0 (1:2:1 arány) mellett a várt gyakoriságok F: 50 100 50 összesen: n=200 • A két gyakorisági sor x2-eltérése (df=2): 2 2 2 ( 54 − 50 ) (110 − 100 ) (36 − 50 ) K= + + = 5,24 50
100
50
G = 2[54 ln(54 / 50) + 110 ln(110 / 100) + 36 ln(36 / 50)] = 5,63
• A kritikus érték 5,99 (tábl.), az 1:2:1 arányt elfogadjuk.
Dichotom eset • Ha az ismérv dichotom, a formulák lényegesen egyszerőbbé alakíthatók • Jelölje a két osztályt A és B, feltételezzük (ez H0), hogy az alapsokaságban az A osztályba esik az egyedek 100p%-a, a B osztályba 100q%-a (p+q=1). • Az n elemő mintából a esik A-ba, b B-be (a+b=n). A becslések tehát A=np, B=nq
Dichotom eset (folytatás) • A K statisztika eredeti formulája 2 2 ( a − np ) (b − nq ) K= + ,
np
nq
• Némi algebrai átalakítás után 2 ( a − np ) K= eloszlása 1 szabadságfokú npq khi-négyzet eloszlás, 5 %-os kritikus értéke 3,84 • Ezt a képletet használtuk korábban a p sokasági relatív gyakoriság konfidencia határainak számítására.
Dichotom eset (folytatás) • Speciálisan, a p=q null-hipotézisnél (a fele-fele arány ellenırzésénél) K képlete tovább egyszerősödik: K
=
(a
− b ) a + b
2
• Számpélda: egy munkahelyen a=13 férfi és b=7 nı dolgozik. Megfelel-e ez a fele-fele aránynak? K =
(13
− 7) = 1 , 8 < 3 , 84 13 + 7 2
(a kritikus érték) a válasz: „igen, megfelel” (kétoldali próba) Az Excellel 1,8-hoz P=0,18-at kapunk.
KÖSZÖNÖM TÜRELMÜKET
28. lecke • Illeszkedés-vizsgálat dichotom ismérvre (folyt.) • Kétirányú osztályozás elemzése (1)
Dichotom eset, kis mintaszám • Kis mintaszámnál K (és G) eloszlása távolabb áll a khínégyzet eloszlástól. • Ilyenkor a K-statisztikánál a Yates-korrekciót alkalmazzuk, a számlálóban a-np helyett |a-np|-0,5-öt írunk, illetve a fele-fele arány ellenırzésénél a-b helyett |a-b|-1et. 2 ( 13 − 7 − 1) • A fenti példában tehát K = 13 + 7 = 1,25
Dichotom eset, kisminták (folytatás) • Még pontosabb a Binominális eloszlással számolni • A példánkban a fele-fele arány ellenırzése egyoldali (H1:p<1/2) próba esetén így fest: 20 20 20 P(nık≤7 a 20-ból) = 0 + 1 + ... + 7 / 2 = 0 ,13 ns [Az eredményt azonnal kapjuk az Excelbıl az fxBinomiális menüpontból, a beírások: sikerek 7, kísérletek 20, valószínőség 0,5, eloszlásfüggvény IGAZ] • Kétoldali próbánál P = 2 x 0,13 = 0,26 ns 20
Dichotom eset folytatás (4) • A G-statisztika formulái dichotom osztályozásnál p : q arányra a b G = 2 a ln + b ln np nq
• Speciálisan p = q = ½ esetre
G = 2[a ln a + b ln b − n ln (n / 2 )] • A példánkban a = 7, b = 13, n = a+b = 20, G = 2[7 ln 7 + 13 ln 13 − 20 ln 10 ] = 1,83
szinte azonos K értékével.
q A két szempont szerinti osztályozás • A minta-elemeket két szempont szerint osztályozzuk (besoroljuk) • Az A szempont osztályainak száma a (A1, A2, …, Aa) – ezek az A ismérv változatai a B szempont osztályainak száma b (B1, B2, …, Bb) – ezek a B ismérv változatai. • Az n mintaelem így ab számú cellába oszlik el, jelölje fij az [AiBj] cellába esı egyedek számát.
Két szempont szerinti osztályozás folytatás (1) • Az alapsokaságra vonatkozóan két feladat-típus merülhet fel. Mindkét esetben ugyanazt a khí-négyzet statisztikát alkalmazzuk, csak az eredmények interpretációjában van eltérés. • (1) Függetlenség vizsgálat: A és B mint változók függetlenek-e. Például hajszín és szemszín kapcsolata, iskolai végzettség és pártállás kapcsolata. • (2) Homogenitás vizsgálat: az A ismérv osztályain azonosak-e a B ismérv szerinti gyakorisági megoszlások. Például különbözı településeken azonose az iskolai végzettség szerinti megoszlás.
Két szempont szerinti osztályozás folytatás(2) A hipotézis ellenırzése • A megfigyelések {fij} táblázatát összehasonlítjuk a H0 hipotézishez igazított várt értékek {Fij} táblázatával, mindkettı a sorból és b oszlopból áll. Fij számítását késıbb ismertetjük. • A két táblázat távolsága (K vagy G) (a-1)x(b-1) szabadságfokú khí-négyzet eloszlású statisztika: (f − F ) , G = 2 ∑ f ij ln ( f ij / F ij ) K = ∑ F 2
ij
ij
ij
Az esetszám táblázat (kontingencia táblázat sémája • Az fij megfigyelt gyakoriságok peremösszegekkel kiegészített sémája az alábbi: {fij}
B1
B2
.
Bj
.
Bb
összeg
A1
f11
f12
.
f1j
.
f1b
f1 .
A2
f21
f22
.
f2j
.
f2b
f2 .
.
.
.
.
.
.
.
.
Ai
fi1
fi2
.
fij
.
fib
fi.
.
.
.
.
.
.
.
.
Aa
fa1
fa2
.
faj
.
fab
fa .
összeg
f.1
f.2
.
f.j
.
f.b
f..=n
Hipotézis ellenırzés kétirányú osztályozásánál (folytatás) • A H0 hipotézisnél (függetlenség, homogenitás) a várt (becsült) gyakoriságok: f i. f. j (i = 1,2,..,a; j = 1,2,..,b) F = ij
n
(a becslés miértjének elvi hátterét a foglalkozáson hallják) • Az {fij} táblázat mérete szintén a x b-s, peremösszegei azonosak az {fij} táblázat peremösszegeivel, tehát az esetszámok átrendezésérıl van szó.
Kétirányú osztályozás (fiktív példa) • n = 413 azonos korú férfira a felmérés {fij}: A/B
„balszemes” „kétszemes” „jobbszemes” összesen
„balkezes”
34 = f11
62 = f12
28 = f13
„kétkezes”
27
28
20
75 = f2.
„jobbkezes”
57
105
52
214 = f3.
összesen
118 = f.1
195 = f.2
100 = f.3
124 = f1.
413 = n
• Kérdés: van-e kapcsolat a „kezesség” és a „szemesség” között (H0: nincs) • A példa függetlenség vizsgálatra példa.
A fiktív példa folytatása (1) • Függetlenség esetén a cella-gyakoriságok becslése F11 = (124 x 118)/413 = 35,43 (34 helyett) F12 = (124 x 195)/413 = 58,55 (62 helyett) F13 = (124 x 100)/413 = 30,02 (28 helyett) és így tovább. • Az elsı sor gyakoriságait becsültük itt, a becslések összege 124, megegyezik a megfigyelt gyakoriságok f1. összegével.
KÖSZÖNÖM TÜRELMÜKET