1
V. Gyakorisági táblázatok elemzése
2
Tartalom
Diszkrét változók és eloszlásuk Gyakorisági táblázatok Populációk összehasonlítása diszkrét változók segítségével Diszkrét változók kapcsolatvizsgálata
3
Példák diszkrét változóra Személy
neme (x1 = férfi, x2 = nő) Iskolázottsági szint (x1 = Alsófok, x2 = Középfok, x3 = Felsőfok) 5-fokú skálaváltozók Diagnózis (x1 = Neurózis, x2 = Szkizofrénia, ...)
4
NEM 60
50
40
30
P erc ent
20
10 0 férfi
NEM
nõ
5
ISK 40
30
P erc ent
20
10
0 7
ISK
8
9
10
11
12
13
14
15
16
17
18
6
ISKKOD 50
40
30
P erc ent
20
10
0 7-11
ISKKOD
12-15
16-20
7
Az iskolai végzettség eloszlása Alsófok
Középfok
Felsőfok
29%
40%
31%
8
Másik példa diszkrét eloszlásra érték
0
arány 0,20
1
2
3
0,35
0,40
0,05
9
Kiemelt fontosságú diszkrét változók Változó típusa Kvantitatív Arány
Intervallum
Kvalitatív Ordinális
Nominális
10
Statisztikai problématípusok diszkrét változók esetén
11
1. Egy diszkrét változó eloszlásával kapcsolatos kérdések vizsgálata (Eloszlásvizsgálatok) – Igaz-e, hogy a pszichológusok között több az extravertált, mint az introvertált? – A Koronás, a Kádár és a Kossuth címer kedveltsége ugyanolyan mértékű-e?
12
2a. Populációk összehasonlítása egy diszkrét változó segítségével (Homogenitásvizsgálatok független mintákkal) – Igaz-e, hogy a nők között több neurotikus van, mint a férfiak között? – Ugyanolyan-e Bp.-en a Koronás, a Kádár- és a Kossuth-címer kedveltsége, mint vidéken?
13
2b. Helyzetek összehasonlítása egy diszkrét változó segítségével (Homogenitásvizsgálatok összetartozó mintákkal) – Változik-e a dohányosok aránya egy előadássorozat hatására különböző időpontokban?
14
3. Két diszkrét változó kapcsolatának vizsgálata (Kapcsolatvizsgálatok) – Függ-e a pártpreferencia az iskolázottságtól? – Milyen szoros kapcsolatban van a fenti két változó egymással?
15
Problématípusok rendszere Statisztikai probléma típusa Eloszlásvizsgálat
Homogenitásvizsgálat
Független minták
Kapcsolatvizsgálat
Összetartozó minták
16
A khi-négyzet-próba alapötlete A mintabeli kapott és a nullhipotézis (H0) igaz volta esetén várt gyakoriságok összehasonlítása és a köztük lévő különbségekből egy 2 próbastatisztika kiszámítása. g
2
i 1
(kapott i várt i ) várt i
2
17
Két populáció összehasonlítása egy diszkrét változó segítségével Kérdés:
Budapestiek és vidékiek között van-e különbség a címerpreferencia tekintetében?
Nullhipotézis:
A két populációban a címerválasztási arányok ugyananazok.
18
Kétszempontos gyakorisági táblázat Koronás Kádár Kossuth
Össz.
Bpest
116
15
32
n1 =163
Vidék
592
94
90
n2 =776
Össz.:
708
109
122
N =939
19
Kétszempontos gyakorisági táblázat (sorösszegek szerinti százalékok) Koronás Kádár Kossuth Össz. Bpest
71,2%
9,2% 19,6% 100%
Vidék
76,3% 12,1% 11,6% 100%
20
Általános khi-négyzet-próba H0 igaz volta esetén a 2 ( kapott várt ) ij ij 2 várt ij i, j próbastatisztika 2-eloszlást követ (szabadságfok: f = (sorok-1) (oszlopok-1)). 2 < 20,05: H0-t 5%-os szinten nem utasítjuk el. 2 20,05 : H0-t 5%-os szinten elutasítjuk.
21
A címeres példa eredménye Sorok száma: g = 2 Oszlopok száma: h = 3 Szabadságfok: f = (2-1) (3-1) = 1 2=2 Kritikus értékek: - 20,05 = 5,991 - 20,01 = 9,210 Kiszámított khi-négyzet-érték: 2 = 8,144 p-érték: p = 0,0170* Döntés: H0-t 5%-os szinten elutasítjuk (p < 0,05)
22
A khi-négyzet-próba lényege Minél
nagyobb az eltérés a kapott és a várt gyakoriságok között, annál valószínűbb, hogy H0 nem igaz.
eltérés egyik mértéke a 2 próbastatisztika. 2 Ha igaz H , ez a mennyiség közelítőleg -eloszlású. 0 Az
Ha
2 elég nagy, akkor H0-t elutasítjuk.
23
A 2-próba alkalmazási feltétele A
várt gyakoriságok ne legyenek kb. 5nél kisebbek. Engedmény: elég, ha 80%-ra teljesül. Például egy 2x2-es táblázatban 4 cella van, ezért ezekre mind teljesülnie kell. GYAK
24
Mit tehetünk, ha az alkalmazási feltétel nem teljesül? Kis
gyakoriságú sorok vagy oszlopok összevonása. Nagyobb minta választása. 2x2-es táblázat esetén a Fisher-egzaktpróba alkalmazása a 2x2-es 2 helyett.
25
Példa oszlopok összevonására h6 változó értékei Isk. szint Alsófok Középfok
0 3 0
1 2 2 16 2 10
3 10 13
4 24 20
Össz. 55 45
Felsőfok
0
4 17
5
16
Össz.
3
8 43
28
60
42 142 GYAK
26
Két diszkrét változó kapcsolatának vizsgálata 15 éves lányok
Könnyen teremt baráti kapcsolatokat Dohányzik Igen Nem Igen 105 17 Nem 469 340 Összesen 574 357
Összesen 122 809 931
Kapcsolatvizsgálat homogenitásvizsgálat
27
Sorösszegek szerinti százalékok táblázata 15 éves lányok
Könnyen teremt baráti kapcsolatokat Dohányzik Igen Nem Igen 86,1 13,9 Nem 58,0 42,0 Összesen 61,7 38,3
Összesen 100 100 100
28
A pártpreferencia függése az életkortól és a nemtől • A pártpreferencia nem függ a kortól, ha a pártpreferencia eloszlása különböző életkori szinteken ugyanaz. • A pártpreferencia nem függ a nemtől, ha a pártpreferencia eloszlása férfiaknál és nőknél ugyanaz.
29
Két változó (X és Y) függetlensége • X független Y-tól, ha Y eloszlása ugyanaz X minden értéke mellett; • Y független X-től, ha X eloszlása ugyanaz Y minden értéke mellett; • A függetlenség kölcsönös
30
Iskolázottság és szimpátia Függ-e az iskolai végzettségtől ennek a személynek a kedveltsége?
31
Eloszlás a 3 iskolázottsági szinten 50
százalék
40 30 20 10 0
Neg+
alsófok
Neg
középfok
0
Poz
felsőfok
Poz+
32
Nem és szimpátia Összefügg-e a nemmel ennek a személynek a kedveltsége?
33
Az eloszlás férfiaknál és nőknél 50
százalék
40 30 20 10 0
Neg+
férfi
Neg
0
Poz
nő
Poz+
34
A kapcsolat szorosságának mérése diszkrét változók esetén Cramér-féle
V
V kontingencia-együttható:
2 N (min(g, h) 1)
Ha
X és Y független, V = 0. 0 ≤ V ≤ 1. Dichotóm változók esetén V φ kontingencia e.h. GYAK