Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Associaties tussen kwalitatieve variabelen
Associaties tussen kwalitatieve variabelen
Associatiematen • Is er een verband (associatie) tussen variabelen ? antwoord: p-value χ2-toets Kan een eventuele afhankelijkheid in een steekproef ook daadwerkelijk worden gedetecteerd ? antwoord: onderscheidingsvermogen χ2-toets, steekproefomvang • Waar zitten de afwijkingen bij afhankelijkheid ? antwoord: aangepaste residuen • Hoe sterk is het verband ? Wat is de richting van het verband ? (ordinale variabelen) antwoord: associatiematen
24
26
47
3
26
24
2
48
zwakke associatie
sterke associatie
47
3
2
48
2
48
47
3
positieve associatie
Misverstand” “De p-value van de χ2-toets is een maat voor de sterkte van samenhang.” Onjuist !! voorbeeld Bent u voor of tegen legalisatie van abortus ?
ja
nee
100
98
102
200
4900
5100 10000
49
100
102
98
200
5100
4900 10000
100
200
200
200
400
10000 10000 20000
ja
nee
blank
49
51
zwart
51 100
ja
nee
χ 2 = 0.08
χ 2 = 0.16
p − value = 0.78
p − value = 0.69 p − value = 0.005
χ 2 = 8.0
negatieve associatie 1
2
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Associaties tussen kwalitatieve variabelen
Associaties tussen kwalitatieve variabelen
Associatiematen bij 2x2 tabellen • verschil in proporties definitie
n11
n12
n1 •
n21
n22
n2 •
n •1
n •2
n
eigenschappen • -1 ≤ dp ≤ 1 • hoe sterker de associatie hoe groter | dp |
Dp =
n11 n21 − n1• n2•
voorbeeld Verband tussen stress op werk en hartklachten
voorbeeld
Hartklachten
25
30
20
35
15
25
25
20
30
15
35
dp = 0
d p = 0.2
d p = 0.4
40
10
45
5
50
0
10
40
5
45
0
50
d p = 0.6
d p = 0.8
Sress op het werk
25
ja
nee
Totaal
ja
97
307
404
nee
200
1409
1609
Totaal
297
1716
2013
p − value = 0.0000000004 dp =
dp = 1
3
97 200 − = 0.116 404 1609 4
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Associaties tussen kwalitatieve variabelen
Associaties tussen kwalitatieve variabelen Voorbeeld
• Odds ratio
Definitie Beschouw een Bernouilli-experiment met succeskans p en niet-succeskans 1-p dan: p Odds = n11 n12 1− p Odds ratio =
Odds rij 1 Odss rij 2
n11 n1 = n21 n2 •
•
θ=
n22
n2 •
n •1
n •2
n
n12 n1 n n n n = 11 12 = 11 22 n22 n21 n22 n12 n21 n2
25
30
20
35
15
25
25
20
30
15
35
θ =1
n1 •
n21
25
θ = 2.25
θ = 5.44
40
10
45
5
50
0
10
40
5
45
0
50
θ = 16
θ = 81
θ =∞
•
Eigenschappen • θ ≥0 • als θ = 1 dan geen associatie • als θ > 1 dan odds rij 1 > odds rij 2 als θ < 1 dan odds rij 1 < odds rij 2 • θ =a en θ = 1/a geven even sterke maar omgekeerde associaties • hoe verder van 1 hoe sterker de associatie
•
n11 n22 n12 n21
5
6
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Associaties tussen kwalitatieve variabelen
Associaties tussen kwalitatieve variabelen
Voorbeeld
• Relatieve risico
Verband tussen stress op werk en hartklachten
Definitie
n11
Hartklachten
n12
n1•
Sress op het werk
ja
nee
Totaal
n21
n22
n2•
ja
97
307
404
n •1
n •2
n
nee
200
1409
1609
Totaal
297
1716
2013
rr =
n11 n1• n21 n2•
Voorbeeld
p − value = 0.0000000004 97 200 dp = − = 0.116 404 1609 97 *1409 θ= = 2.23 200 *307
25
25
30
20
35
15
25
25
20
30
15
35
rr = 1
rr = 2.33
40
10
45
5
50
0
10
40
5
45
0
50
rr = 4 7
rr = 1.5
rr = 9
rr = ∞ 8
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Associaties tussen kwalitatieve variabelen
Associaties tussen kwalitatieve variabelen
Voorbeeld
Associatiematen in r x c tabellen • Phi coëfficiënt
Verband tussen stress op werk en hartklachten
Voorbeeld
Hartklachten
Sress op het werk
ja
nee
Totaal
ja
97
307
404
nee
200
1409
1609
Totaal
297
1716
2013
¼n
¼n
½n
½n
0
½n
¼n
¼n
½n
0
½n
½n
½n
½n
n
½n
½n
n
minimale associatie
maximale associatie
χ2 = 0
p − value = 0.0000000004 97 200 dp = − = 0.116 404 1609 97 *1409 = 2.23 θ= 200 *307 97 200 = 1.93 rr = 404 1609
χ2 = n
Definitie
ϕ=
χ2 n
Eigenschappen – ϕ is invariant onder rij en kolompermutaties dus grootheid blijft behouden. – Bij 2 x 2 tabellen 0 ≤ ϕ ≤ 1 Helaas, soms ϕ >1 daarom…. 9
10
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Associaties tussen kwalitatieve variabelen
Associaties tussen kwalitatieve variabelen
• contingency coefficient Definitie
c=
Voorbeeld Is er een verband tussen een vergroting van de amandelen en het drager zijn van de bacterie Streptococcus Pyogenes ?
χ2
Status
χ +n 2
Omvang amandelen
helaas nu: c < 1 daarom ... • Cramers’ V Definitie
Nietdrager
drager
normaal
497 489.42 7.6 1.9
19 26.58 –7.6 –1.9
516
vergroot
560 558.67 1.3 0.3
29 30.33 –1.3 –0.3
589
Sterk vergroot
269 277.91 –8.9 –2.6
24 15.09 8.9 2.6
293
1326
72
Totaal
V=
χ2
Totaal
1398
χ = 7.887 2
n min( r − 1, k − 1)
p − value = 0.019
Eigenschap 0≤V≤1
ϕ=
7.887 = 0.0751 1398
Opmerking
c=
7.887 = 0.0748 7.887 + 1398
veel gebruikt voor het vergelijken van tabellen met verschillende dimensies
V= 11
7.887 1398 * min( 2,1)
= 0.0751 12
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Associaties tussen kwalitatieve variabelen
Associaties tussen kwalitatieve variabelen Definities – Bij een concordant paar observaties zijn de waarden voor beide variabelen bij de ene observatie “strikt kleiner” dan bij de andere observatie. – Bij een discordant paar observaties heeft de ene observatie voor beide variabelen afwisselend een kleinere en grotere waarden dan de andere observatie
Associaties tussen ordinale variabelen
• Positieve associatie: “hoge” waarden van de ene variabele gaan samen met “hoge” waarden van de andere variabele
• Negatieve associatie: “hoge” waarden van de ene variabele gaan samen met “lage” waarden van de andere variabele
Voldoening in werk
Voorbeeld
niet
Hoe hangt plezier in het werk af van het inkomen ? < 5000
Inkomen
Voldoening in werk niet
gaat wel
wel
Totaal
6
13
3
22
27.3%
59.1%
13.6%
100%
9
37
12
58
15.5%
63.8%
20.7%
100%
3
13
8
24
12.5%
54.2%
33.3%
100%
18
63
23
104
5000 - 25000
> 25000 < 5000
Inkomen
5000 - 25000
> 25000
Totaal
Totaal
gaat wel
wel
Totaal
6
13
3
22
27.3%
59.1%
13.6%
100%
9
37
12
58
15.5%
63.8%
20.7%
100%
3
13
8
24
12.5%
54.2%
33.3%
100%
18
63
23
104
obs(<5000, niet) en obs(>25000, wel) zijn concordant obs(<5000, wel) en obs(>25000, niet) zijn discordant obs(<5000, niet) en obs(>25000, niet) zijn niet-concordant en niet-discordant 13
14
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Associaties tussen kwalitatieve variabelen
Associaties tussen kwalitatieve variabelen •
Associaties tussen ordinale variabelen Concordante paren
γ= 13
6 37
12
12
13
8
8
C=6*(37+12+13+8) +13*(12+8)
13
8
8
+9*(13+8)
γ=
+37*8
3
3
13
C − D 1165 − 645 = = 0.29 C + D 1165 + 645
eigenschappen –1 ≤ γ ≤ 1 is γ > 0 dan positieve associatie is γ < 0 dan negatieve associatie is γ = 0 dan geen associatie hoe groter de (absolute) waarde van γ , hoe sterker het verband
Discordante paren
37
C−D C+D
voorbeeld
37
9
C=1165
9
Gamma Definitie
13 12 3
13
D=3*(9+37+3+13) +12*(3+13)
37
9 3
3
+13*(9+3)
• +37*3
Kendall’s tau-b, Kendal’s tau-c, Spearman’s rho-b, Spearmans’s rho-c, Sommers’d
τb =
D=645
•
15
C−D [ 12 n ( n − 1) − Tr ][ 12 n ( n − 1) − Tk ]
Rangcorrelatie van Spearman
16
Statistiek 2 voor TeMa Associaties tussen kwalitatieve variabelen •
voorbeeld 6
13
3
22
9
37
12
58
3
13
8
24
18
63
23
104
C = 1165 D = 645 22 58 24 Tr = + + = 231 + 1635 + 276 = 2160 2 2 2 18 63 23 Tk = + + = 153 + 1953 + 253 = 2359 2 2 2
τb =
1165 − 645
(5356 − 2160)(5356 − 2359)
= 0.168
17