Khi-négyzet próbák Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet
Khi-négyzet próba Példa
Az influenza elleni oltóanyagok különböző típusainak hatását vizsgálták abból a szempontból, hogy a beoltottak
milyen
arányban
betegedtek
meg.
Az
eredmények az alábbi táblázatban láthatók.
Kérdés: Mondhatjuk-e, hogy az egyes típusú oltóanyagok ugyanúgy hatnak, azaz, lényegében azonos-e a megbetegedettek aránya, vagy nem?
2012.11.07
Krisztina Boda
Khí-négyzet próbák
2
Khi-négyzet próba Példa • Mondhatjuk-e, hogy az egyes típusú oltóanyagok ugyanúgy hatnak, azaz, lényegében azonos-e a
megbetegedettek aránya, vagy nem? Influenzában megbetegedett
Nem betegedett meg influenzával
TOTAL
Csak szezonális
43
237
280
Csak H1N1
52
198
250
Kombinált
25
245
270
TOTAL
120
680
800
2012.11.07
Krisztina Boda
Khi-négyzet próbák
3
Khi-négyzet próba függetlenségvizsgálatra
A khi négyzet próbát két diszkrét változó közötti kapcsolat vizsgálatára használjuk. Azaz van-e kapcsolat
a két változó (𝑋 és 𝑌) között, vagy függetlenek egymástól.
Legyenek az 𝑋 és 𝑌 értékei 𝑥1 , 𝑥2 , … 𝑥𝑟 , és 𝑦1 , 𝑦2 , … 𝑦𝑐 az 𝐴1 , 𝐴2 , … 𝐴𝑟 illetve 𝐵1 , 𝐵2 , … 𝐵𝑐 kimenetelek esetén
A megfigyelések száma: 𝑛
2012.11.07
Krisztina Boda
Khí-négyzet próbák
4
Kontingencia táblázat Jelölje 𝑂𝑖𝑗 𝐴𝑖 é𝑠 𝐵𝑗 események együttes bekövetkezéseinek számát (megfigyelt gyakoriságok)
𝑩𝟏
𝑩𝟐
…
𝑩𝒄
Sor összeg
𝑨𝟏
𝑂11
𝑂12
⋯
𝑂1𝑠
𝑂1+
𝑨𝟐
𝑂21
𝑂22
⋯
𝑂2𝑠
𝑂2+
⋮
⋮
⋮
⋱
⋮
⋮
𝑨𝒓
𝑂𝑟1
𝑂𝑟2
⋯
𝑂𝑟𝑠
𝑂𝑟+
Oszlop összeg
𝑂+1
𝑂2+
⋯
𝑂𝑠+
𝑛
𝑟
𝑂+𝑗 =
𝑂𝑖𝑗 𝑗 = 1, 2, … , 𝑠 𝑖=1
2012.11.07
Krisztina Boda
𝐵𝑗 esemény gyakorisága
𝑠
𝑂𝑖+ =
𝑂𝑖𝑗 𝑗=1
𝑖 = 1, 2, … , 𝑟 𝐴𝑖 esemény gyakorisága
Várt gyakoriságok
Feltéve, hogy a két változó független, a kontingencia táblázat oszlop illetve sorösszegeinek segítségével kiszámolhatók a várt gyakoriságok, minden cellához. 𝒔𝒐𝒓ö𝒔𝒔𝒛𝒆𝒈 × 𝒐𝒔𝒛𝒍𝒐𝒑ö𝒔𝒔𝒛𝒆𝒈 𝒗á𝒓𝒕 𝒈𝒚𝒂𝒌𝒐𝒓𝒊𝒔á𝒈 = 𝒎𝒊𝒏𝒕𝒂𝒆𝒍𝒆𝒎𝒔𝒛á𝒎 𝑩𝟏
…
𝑩𝒄
Sor összeg
𝑨𝟏
𝑂1+
𝑨𝟐
𝑂2+
⋮
⋮
𝑨𝒓
𝑂𝑟+
Oszlop összeg 2012.11.07
Krisztina Boda
𝑩𝟐
𝑂+1
𝑂2+
⋯
𝑂𝑠+
𝑛
𝑶𝒊+ 𝑶+𝒋 𝑬𝒊𝒋 = 𝒏
Várt gyakoriságok
Feltéve, hogy a két változó független, a kontingencia táblázat oszlop illetve sorösszegeinek segítségével kiszámolhatók a várt gyakoriságok, minden cellához. 𝒔𝒐𝒓ö𝒔𝒔𝒛𝒆𝒈 × 𝒐𝒔𝒛𝒍𝒐𝒑ö𝒔𝒔𝒛𝒆𝒈 𝒗á𝒓𝒕 𝒈𝒚𝒂𝒌𝒐𝒓𝒊𝒔á𝒈 = 𝒎𝒊𝒏𝒕𝒂𝒆𝒍𝒆𝒎𝒔𝒛á𝒎 𝑶𝟏+ 𝑶+𝟏 𝑬𝟏𝟏 = 𝑩𝟏 𝒏 𝑩𝟐 𝑨𝟏
𝑩𝒄
𝑬𝟏𝟏
Sor összeg 𝑂1+
𝑨𝟐
𝑂2+
⋮
⋮
𝑨𝒓
𝑂𝑟+
Oszlop összeg 2012.11.07
Krisztina Boda
…
𝑂+1
𝑂2+
⋯
𝑂𝑠+
𝑛
Várt gyakoriságok
Feltéve, hogy a két változó független, a kontingencia táblázat oszlop illetve sorösszegeinek segítségével kiszámolhatók a várt gyakoriságok, minden cellához. 𝒔𝒐𝒓ö𝒔𝒔𝒛𝒆𝒈 × 𝒐𝒔𝒛𝒍𝒐𝒑ö𝒔𝒔𝒛𝒆𝒈 𝒗á𝒓𝒕 𝒈𝒚𝒂𝒌𝒐𝒓𝒊𝒔á𝒈 = 𝒎𝒊𝒏𝒕𝒂𝒆𝒍𝒆𝒎𝒔𝒛á𝒎 𝑩𝟏 𝑶
𝑨𝟏
𝑨𝟐
𝑬𝟏𝟏
𝟐+
+𝟏
…
𝑩𝒄
𝒏
Sor összeg 𝑂1+
𝑬𝟐𝟏
𝑂2+
⋮
⋮
𝑨𝒓
𝑂𝑟+
Oszlop összeg 2012.11.07
Krisztina Boda
𝑬𝟐𝟏 =
𝑶𝑩𝟐
𝑂+1
𝑂2+
⋯
𝑂𝑠+
𝑛
Várt gyakoriságok
Feltéve, hogy a két változó független, a kontingencia táblázat oszlop illetve sorösszegeinek segítségével kiszámolhatók a várt gyakoriságok, minden cellához. 𝒔𝒐𝒓ö𝒔𝒔𝒛𝒆𝒈 × 𝒐𝒔𝒛𝒍𝒐𝒑ö𝒔𝒔𝒛𝒆𝒈 𝒗á𝒓𝒕 𝒈𝒚𝒂𝒌𝒐𝒓𝒊𝒔á𝒈 = 𝒎𝒊𝒏𝒕𝒂𝒆𝒍𝒆𝒎𝒔𝒛á𝒎 𝑩𝟏
𝑩𝟐
…
𝑩𝒄
Sor összeg
𝑨𝟏
𝐸11
𝐸12
⋯
𝐸1𝑠
𝑂1+
𝑨𝟐
𝐸21
𝐸22
⋯
𝐸2𝑠
𝑂2+
⋮
⋮
⋮
⋱
⋮
⋮
𝑨𝒓
𝐸𝑟1
𝐸𝑟2
⋯
𝐸𝑟𝑠
𝑂𝑟+
Oszlop összeg
𝑂+1
𝑂2+
⋯
𝑂𝑠+
𝑛
2012.11.07
Krisztina Boda
Khi-négyzet próba függetlenségvizsgálatra
A khi négyzet próbát két diszkrét változó közötti kapcsolat vizsgálatára használjuk. Azaz van-e kapcsolat a két változó (𝑋 és 𝑌) között, vagy függetlenek egymástól.
A khi-négyzet próba alkalmazhatóságának feltételei az 5-nél kisebb várt gyakoriságot tartalmazó cellák száma legfeljebb az összes cella 20% -a. (Ehelyett gyakran
használjuk,
hogy
minden
cella
várt
gyakorisága legalább 5. Ez erősebb, de könnyebben ellenőrizhető feltétel.) Krisztina Boda
10
Khi-négyzet próba függetlenségvizsgálatra
H0: a két változó független (𝑃 𝐴𝑖 𝐵𝑗 = 𝑃 𝐴𝑖 𝑃(𝐵𝑗 ))
H1: a két változó között van kapcsolat Próbastatisztika: 𝒓 𝒄 𝟐 (𝑶 − 𝑬 ) 𝒊𝒋 𝒊𝒋 𝝌𝟐 = 𝑬𝒊𝒋
𝒊=𝟏 𝒋=𝟏
Ha az előbbi feltételek teljesülnek, akkor a minta eloszlása 𝒓 − 𝟏 𝒄 − 𝟏 szabadságfokú 𝜒 2 eloszlással közelíthető (𝑟 és 𝑐 a sorok és oszlopok száma a kontingencia táblázatban)
Krisztina Boda
11
Khi-négyzet próba függetlenségvizsgálatra
Döntés ha 𝜒 2 < 𝜒 2 𝑡𝑎𝑏𝑙𝑒 elfogadjuk a nullhipotézist, a két változó független ha 𝜒 2 > 𝜒 2 𝑡𝑎𝑏𝑙𝑒 , elvetjük a nullhipotézist, a két változó
között van kapcsolat
2012.11.07
Krisztina Boda
Khi-négyzet próbák
12
Khi-négyzet eloszlás
n független standard normális eloszlású véletlen változó négyzeteinek összege khi-négyzet eloszlású n szabadságfokkal 0.30 0.25 df 2 0.20 df 3
0.15
df 5
0.10
df 10
0.05 0.00
0
2012.11.07
Krisztina Boda
5
10
15
20
Khí-négyzet próbák
25 13
Khi-négyzet tábla
𝛼 = 0.05
szabadságfok:10
kritikus érték: χ2 𝑡𝑎𝑏𝑙𝑒 = 18.31
2012.11.07
Krisztina Boda
Khi-négyzet próbák
14
Khi-négyzet próba Példa • Mondhatjuk-e, hogy az egyes típusú oltóanyagok ugyanúgy hatnak, azaz, lényegében azonos-e a
megbetegedettek aránya, vagy nem? védőoltás típusa
megbetegedés megjelenése Influenzában megbetegedett
Influenzában nem betegedett meg
TOTAL
Csak szezonális
43
237
280
Csak H1N1
52
198
250
Kombinált
25
245
270
TOTAL
120
680
800
2012.11.07
Krisztina Boda
Khi-négyzet próbák
15
Khi-négyzet próba Példa
Hipotézisek: H0: a vakcina típusa és a megbetegedése megjelenése független H1: a vakcina típusa és a megbetegedése megjelenése nem független Elsőfajú hiba 𝛼 = 0.05 Szabadsági fok 𝒅𝒇 = 𝑟 − 1 𝑐 − 1 = 3 − 1 2 − 1 = 2 ∗ 1 = 𝟐
2012.11.07
Krisztina Boda
Khi-négyzet próbák
16
Khi-négyzet próba Példa
Számoljuk ki a várt gyakoriságokat
𝒔𝒐𝒓ö𝒔𝒔𝒛𝒆𝒈 ∗ 𝒐𝒔𝒛𝒍𝒐𝒑ö𝒔𝒔𝒛𝒆𝒈 𝒗á𝒓𝒕𝒈𝒚𝒂𝒌𝒐𝒓𝒊𝒔á𝒈 = 𝒎𝒊𝒏𝒕𝒂𝒆𝒍𝒆𝒎𝒔𝒛á𝒎 Number getting influenza Seasonal only
42
H1N1 only
Number not getting influenza
𝟐𝟖𝟎 ∗ 𝟏𝟐𝟎 𝟖𝟎𝟎
Combined TOTAL
2012.11.07
Krisztina Boda
TOTAL 280 250
270 120
680
Khi-négyzet próbák
800
17
Khi-négyzet próba Példa
Számoljuk ki a várt gyakoriságokat
𝒔𝒐𝒓ö𝒔𝒔𝒛𝒆𝒈 ∗ 𝒐𝒔𝒛𝒍𝒐𝒑ö𝒔𝒔𝒛𝒆𝒈 𝒗á𝒓𝒕𝒈𝒚𝒂𝒌𝒐𝒓𝒊𝒔á𝒈 = 𝒎𝒊𝒏𝒕𝒂𝒆𝒍𝒆𝒎𝒔𝒛á𝒎
Seasonal only
Number not getting influenza
42
238
𝟐𝟖𝟎 ∗ 𝟔𝟖𝟎 TOTAL 𝟖𝟎𝟎 280
H1N1 only
250
Combined
270
TOTAL
2012.11.07
Krisztina Boda
Number getting influenza
120
680
Khi-négyzet próbák
800
18
Khi-négyzet próba Példa
Számoljuk ki a várt gyakoriságokat
𝒔𝒐𝒓ö𝒔𝒔𝒛𝒆𝒈 ∗ 𝒐𝒔𝒛𝒍𝒐𝒑ö𝒔𝒔𝒛𝒆𝒈 𝒗á𝒓𝒕𝒈𝒚𝒂𝒌𝒐𝒓𝒊𝒔á𝒈 = 𝒎𝒊𝒏𝒕𝒂𝒆𝒍𝒆𝒎𝒔𝒛á𝒎
Seasonal only H1N1 only
Number getting influenza
Number not getting influenza
TOTAL
42
238
280
37.5
Combined TOTAL
2012.11.07
Krisztina Boda
120
𝟐𝟓𝟎 ∗ 𝟏𝟐𝟎 𝟖𝟎𝟎 680
Khi-négyzet próbák
250
245 800
19
Khi-négyzet próba Példa
Számoljuk ki a várt gyakoriságokat
𝒔𝒐𝒓ö𝒔𝒔𝒛𝒆𝒈 ∗ 𝒐𝒔𝒛𝒍𝒐𝒑ö𝒔𝒔𝒛𝒆𝒈 𝒗á𝒓𝒕𝒈𝒚𝒂𝒌𝒐𝒓𝒊𝒔á𝒈 = 𝒎𝒊𝒏𝒕𝒂𝒆𝒍𝒆𝒎𝒔𝒛á𝒎
Seasonal only H1N1 only
Number getting influenza
Number not getting influenza
42
238
37.5
212.5
Combined TOTAL
2012.11.07
Krisztina Boda
TOTAL
𝟐𝟓𝟎 ∗ 𝟔𝟖𝟎 280 𝟖𝟎𝟎 250
270 120
680
Khi-négyzet próbák
800
20
Khi-négyzet próba Példa
Számoljuk ki a várt gyakoriságokat
𝒔𝒐𝒓ö𝒔𝒔𝒛𝒆𝒈 ∗ 𝒐𝒔𝒛𝒍𝒐𝒑ö𝒔𝒔𝒛𝒆𝒈 𝒗á𝒓𝒕𝒈𝒚𝒂𝒌𝒐𝒓𝒊𝒔á𝒈 = 𝒎𝒊𝒏𝒕𝒂𝒆𝒍𝒆𝒎𝒔𝒛á𝒎
Seasonal only
Number not getting influenza
TOTAL
42
238
280
H1N1 only
37.5
Combined
40.5
TOTAL
120
2012.11.07
Krisztina Boda
Number getting influenza
𝟐𝟕𝟎 212.5 ∗ 𝟏𝟐𝟎 𝟖𝟎𝟎 680
Khi-négyzet próbák
250
270 800
21
Khi-négyzet próba Példa
Számoljuk ki a várt gyakoriságokat
𝒔𝒐𝒓ö𝒔𝒔𝒛𝒆𝒈 ∗ 𝒐𝒔𝒛𝒍𝒐𝒑ö𝒔𝒔𝒛𝒆𝒈 𝒗á𝒓𝒕𝒈𝒚𝒂𝒌𝒐𝒓𝒊𝒔á𝒈 = 𝒎𝒊𝒏𝒕𝒂𝒆𝒍𝒆𝒎𝒔𝒛á𝒎 Number getting influenza
Number not getting influenza
42
238
H1N1 only
37.5
212.5
Combined
40.5
229.5
270
TOTAL
120
680
800
Seasonal only
2012.11.07
Krisztina Boda
Khi-négyzet próbák
TOTAL
𝟐𝟕𝟎 ∗280 𝟔𝟖𝟎 250 𝟖𝟎𝟎
22
Khi-négyzet próba Példa
Számoljuk ki a várt gyakoriságokat
𝒔𝒐𝒓ö𝒔𝒔𝒛𝒆𝒈 ∗ 𝒐𝒔𝒛𝒍𝒐𝒑ö𝒔𝒔𝒛𝒆𝒈 𝒗á𝒓𝒕𝒈𝒚𝒂𝒌𝒐𝒓𝒊𝒔á𝒈 = 𝒎𝒊𝒏𝒕𝒂𝒆𝒍𝒆𝒎𝒔𝒛á𝒎 Number getting influenza
Number not getting influenza
TOTAL
42
238
280
H1N1 only
37.5
212.5
198
Combined
40.5
229.5
245
TOTAL
120
680
800
Seasonal only
2012.11.07
Krisztina Boda
Khi-négyzet próbák
23
Khi-négyzet próba Példa Minden cella esetén számoljuk ki
(𝑶𝒊𝒋 −𝑬𝒊𝒋 )𝟐
megfigyelt gyakoriságok Number getting influenza
Number not getting influenza
TOTAL
Seasonal only
43
237
280
H1N1 only
52
198
198
Combined
25
245
245
TOTAL
120
680
800
(𝟒𝟑 − 𝟒𝟐)𝟐 𝟒𝟐 Number getting influenza Seasonal only
várt gyakoriságok
𝑬𝒊𝒋
Number not getting influenza 0.0042
H1N1 only
0.0238 0.0238 5.6067
Combined
5.9321
1.0468
TOTAL
0.9894
TOTAL Number getting influenza
Number not getting influenza
TOTAL
42
238
280
H1N1 only
37.5
212.5
198
Combined
40.5
229.5
245
TOTAL
120
680
800
Seasonal only
2012.11.07
Krisztina Boda
Khi-négyzet próbák
24
Khi-négyzet próba Példa Minden cella esetén számoljuk ki
(𝑶𝒊𝒋 −𝑬𝒊𝒋 )𝟐 𝑬𝒊𝒋
megfigyelt gyakoriságok Number getting influenza
Number not getting influenza
TOTAL
Seasonal only
43
237
280
H1N1 only
52
198
198
Combined
25
245
245
TOTAL
120
680
800
várt gyakoriságok
(𝟐𝟑𝟕 − 𝟐𝟑𝟖)𝟐 𝟐𝟑𝟖 Number getting influenza
Number not getting influenza
Seasonal only
0.0238
H1N1 only
5.6067
0.0042 0.9894
Combined
5.9321
1.0468
TOTAL
0.0042
TOTAL Number getting influenza
Number not getting influenza
TOTAL
42
238
280
H1N1 only
37.5
212.5
198
Combined
40.5
229.5
245
TOTAL
120
680
800
Seasonal only
2012.11.07
Krisztina Boda
Khi-négyzet próbák
25
Khi-négyzet próba Példa Minden cella esetén számoljuk ki
(𝑶𝒊𝒋 −𝑬𝒊𝒋 )𝟐 𝑬𝒊𝒋
megfigyelt gyakoriságok Number getting influenza
Number not getting influenza
TOTAL
Seasonal only
43
237
280
H1N1 only
52
198
198
Combined
25
245
245
TOTAL
120
680
800
várt gyakoriságok
(𝟏𝟗𝟖 − 𝟐𝟏𝟐. 𝟓)𝟐 𝟐𝟏𝟐. 𝟓 Number getting influenza
Number not getting influenza
Seasonal only
0.0238
0.0042
H1N1 only
5.6067
Combined
5.9321
TOTAL
0.9894 0.9894
1.0468
TOTAL Number getting influenza
Number not getting influenza
TOTAL
42
238
280
H1N1 only
37.5
212.5
198
Combined
40.5
229.5
245
TOTAL
120
680
800
Seasonal only
2012.11.07
Krisztina Boda
Khi-négyzet próbák
26
Khi-négyzet próba Példa Minden cella esetén számoljuk ki
(𝑶𝒊𝒋 −𝑬𝒊𝒋 )𝟐 𝑬𝒊𝒋
megfigyelt gyakoriságok Number getting influenza
Number not getting influenza
TOTAL
Seasonal only
43
237
280
H1N1 only
52
198
198
Combined
25
245
245
TOTAL
120
680
800
várt gyakoriságok
(𝟐𝟓 − 𝟒𝟎. 𝟓)𝟐 𝟒𝟎. 𝟓 Number getting influenza
Number not getting influenza
Seasonal only
0.0238
0.0042
H1N1 only
5.6067
0.9894
Combined
5.9321 5.9321
TOTAL
1.0468
TOTAL Number getting influenza
Number not getting influenza
TOTAL
42
238
280
H1N1 only
37.5
212.5
198
Combined
40.5
229.5
245
TOTAL
120
680
800
Seasonal only
2012.11.07
Krisztina Boda
Khi-négyzet próbák
27
Khi-négyzet próba Példa Minden cella esetén számoljuk ki
(𝑶𝒊𝒋 −𝑬𝒊𝒋 )𝟐 𝑬𝒊𝒋
megfigyelt gyakoriságok Number getting influenza
Number not getting influenza
TOTAL
Seasonal only
43
237
280
H1N1 only
52
198
198
Combined
25
245
245
TOTAL
120
680
800
várt gyakoriságok
(𝟐𝟒𝟓 − 𝟐𝟐𝟗. 𝟓)𝟐 𝟐𝟐𝟗. 𝟓 Number getting influenza
Number not getting influenza
Seasonal only
0.0238
0.0042
H1N1 only
5.6067
0.9894
Combined
5.9321
TOTAL
1.0468 1.0468
TOTAL Number getting influenza
Number not getting influenza
TOTAL
42
238
280
H1N1 only
37.5
212.5
198
Combined
40.5
229.5
245
TOTAL
120
680
800
Seasonal only
2012.11.07
Krisztina Boda
Khi-négyzet próbák
28
Khi-négyzet próba Példa
Számoljuk ki a próbastatisztikát Number getting influenza
Number not getting influenza
Seasonal only
0.0238
0.0042
H1N1 only
5.6067
0.9894
Combined
5.9321
1.0468
TOTAL
TOTAL
Adjuk össze a kiszámolt értékeket! 𝑟 𝑐 2 (𝑂 − 𝐸 ) 𝑖𝑗 𝑖𝑗 𝝌𝟐 = = 0.0238 + 0.0042 + 5.6067 + 0.9894 + 5.9321 𝐸𝑖𝑗 𝑖=1 𝑗=1
+ 1.0468 = 𝟏𝟑. 𝟔𝟎𝟑𝟎 2012.11.07
Krisztina Boda
Khi-négyzet próbák
29
Khi-négyzet próba Példa
Adjuk meg a kritikus értéket (táblázatból) (𝛼 = 0.05, 𝑑𝑓 = 2) 𝜒 2 𝑡𝑎𝑏𝑙𝑒 = 5.99
Döntés: 13.6030 > 5.99 azaz 𝜒 2 > 𝜒 2 𝑡𝑎𝑏𝑙𝑒
Elvetjük H0, a két változó nem független a megbetegedések száma nem azonos a három csoportban
2012.11.07
Krisztina Boda
Khi-négyzet próbák
30
Khi-négyzet próba Példa SPSS eredmények 𝜒2
𝑝 = 0.001
= 13.603
A feltételek teljesülnek 2012.11.07
Krisztina Boda
Khi-négyzet próbák
31
Khi-négyzet próba Példa SPSS eredmények
𝑝 = 0.001 < 𝛼 = 0.05 elvetjük a nullhipotézist
2012.11.07
Krisztina Boda
Khi-négyzet próbák
32
Speciális eset: 2 x 2-es táblázat Rizikófaktor YES
NO
TOTAL
1.csoport
a
b
a+b
2.csoport
c
d
c+d
TOTAL
a+c
b+d
n
Próbastatisztika: 𝟐 𝒏(𝒂 𝒅 − 𝒃 𝒄) 𝝌𝟐 = 𝒂 + 𝒃 𝒄 + 𝒅 𝒂 + 𝒄 (𝒃 + 𝒅)
2012.11.07
Krisztina Boda
Khi-négyzet próbák
33
Khi-négyzet próba Példa
Két különböző kezelés eredményét hasonlítjuk össze az alábbi táblázat szerint:
Kezelés
Kimenetel
2012.11.07
Krisztina Boda
Meghalt
Él
TOTAL
A
5
45
50
B
8
42
50
TOTAL
13
87
100
Khi-négyzet próbák
34
Khi-négyzet próba Példa
H0: a kezelés kimenetele független a kezelés típusától a populációban (azaz azonos arányban halnak meg a két csoportban) H1: a kezelés kimenetele függ a kezelés típusától ∝= 0.05 𝑑𝑓 = 1 2
𝑛(𝑎 𝑑−𝑏 𝑐)2 𝑎+𝑏 𝑐+𝑑 𝑎+𝑐 (𝑏+𝑑)
𝜒 =
𝜒 2 𝑡𝑎𝑏𝑙𝑒 = 3.841
0.79 < 3.841 azaz 𝜒 2 < 𝜒 2 𝑡𝑎𝑏𝑙𝑒
Elfogadjuk a nullhipotézist, a két változó független
2012.11.07
Krisztina Boda
=
100(5∗42−8∗45)2 50∗50∗13∗87
Khi-négyzet próbák
= 0.79
35
SPSS output
SPSS által számolt 𝑝 érték 0.372, ez nagyobb, mint ∝= 0.05, ennek alapján szintén elvetjük a nullhipotézist. Chi-Square Tests
Pearson Chi-Square Continuity Correctiona Likelihood Ratio Fisher's Exact Test Linear-by -Linear Association N of Valid Cases
Value ,796b ,354 ,802
,788
df 1 1 1
1
Asy mp. Sig. (2-sided) ,372 ,552 ,370
Exact Sig. (2-sided)
Exact Sig. (1-sided)
,554
,277
,375
100
a. Computed only f or a 2x2 table b. 0 cells (,0%) hav e expected count less than 5. The minimum expected count is 6,50.
2012.11.07
Krisztina Boda
Khi-négyzet próbák
36
Yates korrekció
2 x 2 –es táblázat esetén a próbastatisztika értéke pontosabban számolható, ha az alábbi korrekciót alkalmazzuk. Yates korrekció csak akkor alkalmazható, ha a szabadságfok 1.
Próbastatisztik a Yates korrekcióval: 𝟏 𝒏( 𝒂 𝒅 − 𝒃 𝒄 − 𝟐 𝒏)𝟐 𝝌𝟐 = 𝒂 + 𝒃 𝒄 + 𝒅 𝒂 + 𝒄 (𝒃 + 𝒅)
2012.11.07
Krisztina Boda
Khi-négyzet próbák
37
Fisher féle egzakt teszt
Fisher féle egzakt teszt a próbastatisztika kiszámítása helyett közvetlenül a p értéket számol.
Habár a gyakorlatban akkor használjuk, ha a kis elemszámú minták van, de nagy elemszám esetén is
pontos értéket ad.
2012.11.07
Krisztina Boda
Khi-négyzet próbák
38
Fisher féle egzakt teszt Példa
Adott a következő gyakorisági táblázat HIV fertőzés
STDs
yes
no
total
yes
3
7
10
no
5
10
15
total
8
17
25
Van-e kapcsolat HIV fertőződés és STD között? (5%-os szinten).
2012.11.07
Krisztina Boda
Khi-négyzet próbák
39
Fisher féle egzakt teszt Példa
A megfigyelt táblázat valószínűsége adott marginálisok (sor ill. oszlopösszeg) esetén. 𝑎+𝑐 ! 𝑏+𝑑 ! 𝑎+𝑏 ! 𝑐+𝑑 ! 𝑝= 𝑛! 𝑎! 𝑏! 𝑐! 𝑑!
2012.11.07
Krisztina Boda
Khi-négyzet próbák
40
Fisher féle egzakt teszt Példa megfigyelt gyakoriságok HIV Infection
STDs
yes
no
total
yes
3
7
10
no
5
10
15
total
8
17
25
𝑝𝑜𝑏𝑠 =
10! 15! 8! 17! = 0.3332 3! 7! 5! 10! 25!
lehetséges átrendezések HIV Infection
STDs
yes
no
total
yes
2
8
10
no
6
9
15
total
8
17
25
𝑝=
10! 15! 8! 17! = 0.2082 2! 8! 6! 9! 25!
𝑝=
10! 15! 8! 17! = 0.0595 1! 9! 7! 8! 25!
𝑝=
10! 15! 8! 17! = 0.6068 0! 10! 8! 7! 25!
HIV Infection
STDs
yes
no
total
yes
1
9
10
no
7
8
15
total
8
17
25
HIV Infection
STDs
yes
no
total
yes
0
10
10
no
8
7
15
total
8
17
25
2012.11.07
Krisztina Boda
Khi-négyzet próbák
41
Fisher féle egzakt teszt Példa megfigyelt gyakoriságok HIV Infection
STDs
yes
no
total
yes
3
7
10
no
5
10
15
total
8
17
25
𝑝𝑜𝑏𝑠 = 0.3332 A Fisher féle 𝑝 érték kiszámolásához az összes lehetséges átrendezés közül csak azokat kell figyelembe venni, amelyek legalább 𝑝 = 0.2082 annyira eltérők, mint a megfigyelt táblázat (most mind)
lehetséges átrendezések HIV Infection
STDs
yes
no
total
yes
2
8
10
no
6
9
15
total
8
17
25
HIV Infection
STDs
yes
no
total
yes
1
9
10
no
7
8
15
total
8
17
25
𝑝 = 0.0595
HIV Infection
STDs
yes
no
total
yes
0
10
10
no
8
7
15
total
8
17
25
2012.11.07
Krisztina Boda
Fisher féle 𝒑 érték = 0.3332 + 0.2082 + 0.0595 + 0.0059 = 𝟎. 𝟔𝟎𝟔𝟖
𝑝 = 0.0059
Khi-négyzet próbák
42
Khi-négyzet próba illeszkedésvizsgálatra
Illeszkedésvizsgálat khi-négyzet próbával
Az illeszkedésvizsgálat célja annak meghatározása, hogy a mintaelemek adott eloszlású populációból származnak-e.
H0: 𝑋 változó eloszlása az adott eloszlás
H1: 𝑋 változó eloszlása nem az adott eloszlás
2012.11.07
Krisztina Boda
Khi-négyzet próbák
44
A változók eloszlása Diszkrét változó.
Kockajáték közben felmerül a gyanú, hogy szabályos-e a kocka. Kísérletképpen 120-szor feldobjuk a kockát.
Megfigyelt gyakoriságok
Folytonos változó Szeretnénk ellenőrizni, hogy egy folytonos változó (életkorok eloszlása) normális eloszlásból származik-e.
Az életkorok eloszlása
30 25 25
21 18
20
20
19
5
6
17
15 10 5 0 1
2012.11.07
Krisztina Boda
2
3
4
Khi-négyzet Khi-négyzet próbák próbák
45
Illeszkedésvizsgálat khi-négyzet próbával
Tegyük fel, hogy adott n elemű minta.
Készítsünk oszlopdiagramot vagy hisztogramot a változó típusának megfelelően. Mindkét esetében gyakoriságok sorozatát kapjuk: ezek a megfigyelt gyakoriságok.
Jelölje 𝑂𝑖 , 𝑖 = 1, 2, … , 𝑟 az 𝑖 -edik kategóriába esés gyakoriságát (𝑟 a kategóriák száma).
Jelölje p𝑖 , az 𝑖 -edik kategóriába esés valószínűségét a populációban. (az adott eloszlás esetén).
Ha ezek a valószínűségek ismertek, tiszta illeszkedésvizsgálatról beszélünk.
Krisztina Boda
Ha nem ismertek, akkor a mintából kell őket becsülni, ezért ekkor becsléses illeszkedésvizsgálatról beszélünk. Khi-négyzet próbák
46
Illeszkedésvizsgálat khi-négyzet próbával
Ha H0 igaz és 𝑛 nagy, akkor a relatív gyakoriságok a p𝑖 – k közelítései:
𝑝𝑖 =
𝑘𝑖 𝑛
→ 𝑘𝑖 = 𝑛 𝑝𝑖
megfigyelt gyakoriság
várt gyakoriság
Az alábbi próbastatisztika χ2 eloszlású (𝑟 − 1 − 𝑠) szabadság fokkal (ahol 𝑠 az eloszlás paramétereinek a száma 𝑟
𝜒2 = 𝑗=1
2012.11.07
Krisztina Boda
(𝑂𝑖 − 𝐸𝑖 )2 = 𝐸𝑖
𝑟
𝑗=1
(𝑘𝑖 − 𝑛 𝑝𝑖 )2 𝑛 𝑝𝑖
Khi-négyzet próbák
47
Illeszkedésvizsgálat Példa 1.
Kockajáték közben felmerül a gyanú, hogy nem szabályos a kocka. Kísérletképpen 120 dobást végzünk. H0: a kocka szabályos, minden dobás 1 egyformán valószínű, 𝑝𝑖 = . 6
Várható gyakoriságok minden kimenetel esetén: 1 𝑛 𝑝𝑖 = 120 ∗ = 20 6
Krisztina Boda
Khi-négyzet próbák
48
Illeszkedésvizsgálat Példa 1. Lehetséges kimenetelek:
1
2
3
4
5
6
Megfigyelt gyakoriságok:
25
18
21
17
20
19
Várt gyakoriságok:
20
20
20
20
20
20
6
χ2 = 𝑖=1
(𝑘𝑖 − 20)2 = 20
(25 − 20)2 +(18 − 20)2 +(21 − 20)2 +(17 − 20)2 +(20 − 20)2 +(19 − 20)2 =2 20
𝒅𝒇 = 6 − 1 = 𝟓
𝜒 2 𝑡𝑎𝑏𝑙𝑒 = 11.07
2 < 11.07, így elfogadjuk a nullhipotézist, és a kockát szabályosnak tekintjük
Krisztina Boda
Khi-négyzet próbák
49
Illeszkedésvizsgálat Példa 2.
Kockajáték közben felmerül a gyanú, hogy nem szabályos a kocka. Kísérletképpen 120 dobást végzünk. H0: a kocka szabályos, minden dobás 1 egyformán valószínű, 𝑝𝑖 = . 6
Várható gyakoriságok minden kimenetel esetén: 1 𝑛 𝑝𝑖 = 120 ∗ = 20 6
Krisztina Boda
Khi-négyzet próbák
50
Illeszkedésvizsgálat Példa 2. Lehetséges kimenetelek:
1
2
3
4
5
6
Megfigyelt gyakoriságok:
5
18
21
17
20
36
Várt gyakoriságok:
20
20
20
20
20
20
6
χ2 = 𝑖=1
(𝑘𝑖 − 20)2 = 20
(5 − 20)2 +(18 − 20)2 +(21 − 20)2 +(17 − 20)2 +(20 − 20)2 +(36 − 20)2 = 30 20
𝒅𝒇 = 6 − 1 = 𝟓
𝜒 2 𝑡𝑎𝑏𝑙𝑒 = 11.07
30 > 11.07, így elvetjük a nullhipotézist, a kocka nem szabályos
Krisztina Boda
Khi-négyzet próbák
51
Illeszkedésvizsgálat Normalitásvizsgálat
A következőkben az ún. becsléses illeszkedésvizsgálatra mutatunk be példát. Normalitás vizsgálat esetén általában nem ismerjük az eloszlás paramétereit, ezért azokat a mintából kell becsülni. Ezek segítségével fogjuk a 𝑝𝑖 -ket is megkapni. H0: a minta normális eloszlású populációból származik .
2012.11.07
Krisztina Boda
Khi-négyzet próbák
52
𝑟
Body height
𝜒2 =
30
𝑗=1
(𝑘𝑖 − 𝑛 𝑝𝑖 )2 𝑛 𝑝𝑖
20
ki
Frequency
10 Std. Dev = 8.52 Mean = 170.4
npi
N = 87.00
0 150.0
160.0 155.0
170.0 165.0
180.0 175.0
190.0 185.0
195.0
Body height
2012.11.07
Krisztina Boda
Khi-négyzet próbák
53
Gauss-papír alkalmazás Van egy egyszerű grafikus módszer a normalitás vizsgálatra. A "Gauss-papír" speciális koordináta rendszer, amelyben az tengely beosztása a normális eloszlás inverzének megfelelően van feltüntetve százalékokban. A minta eloszlásfüggvényét ebbe a rendszerbe belerajzolva normalitás esetén közelítőleg egy egyenest kapunk
http://www.hidrotanszek.hu/hallgato/Adatfeldolgozas.pdf
2012.11.07
Krisztina Boda
Khi-négyzet Khi-négyzet próbák próbák
54
SPSS: Q-Q plot (quantile-quantile plot)
2012.11.07
Krisztina Boda
Khi-négyzet Khi-négyzet próbák próbák
55
Egymintás próba egy esemény valószínűségére
Egy városi kórházban 2146 szülés között 515 szülést császármetszéssel végeztek (CS) 2001-ben. Hasonlítsuk ezt az arányt az országos 22%-hoz. Eltér-e a kórházban végzett császármetszések aránya az országostól?
H0: p=22% HA: p22%
z
2012.11.07
Krisztina Boda
p1 p (515 / 2146) 0.22 0.24 0.22 2.234 0.0089 p(1 p) 0.22 0.78 n 2146
Khi-négyzet próbák
56
Ismétlő kérdések és feladatok
A függetlenségvizsgálat célja, nullhipotézise Gyakorisági táblázat Megfigyelt és várható gyakoriságok A khi-négyzet próba feltétele Szabadságfok számítása khi-négyzet próba végrehajtásakor A khi-négyzet próba végrehajtása, döntés táblázat alapján és p-érték alapján 2x2-es táblázatok kiértékelése khi-négyzet próbával
2012.11.07
Krisztina Boda
Khi-négyzet próbák
57
Feladatok
Harminc egyetemista lány között 10, ugyanennyi fiú között csak fele ennyi aktív sportolót találtak. Mondhatjuk-e ennek alapján, hogy a lányok közt magasabb a sportolók aránya? (5%-os szinten. (alfa=0.05, 2tabla=3.84)). Mi itt a nullhipotézis? Az egyetemi előadások elnéptelenedésének egyik szomorú megfigyelője úgy látta, hogy a fiúk kevésbé járnak órákra, mint a lányok. 30 fiúból mindössze 10 járt rendszeresen előadásokra, míg 90 lány közül éppen a fele. Alátámasztják ezek az adatok a lányok szorgalmasabb óralátogatását? (alfa=0.05, 2tabla=3.84)) Mi itt a nullhipotézis? Két gyógyszert hasonlítottak össze mellékhatások szempontjából, 60 önkéntes pacienst véletlenszerűen soroltak be a két kezelés valamelyikébe. Független-e a mellékhatás attól, hogy melyik gyógyszerről van szó? Mellékhatás volt
Mellékhatás nem volt
A
10
20
B
5
25
2012.11.07
Krisztina Boda
Khi-négyzet próbák
58
Feladatok
Fiúkat és lányokat kérdeztek arról, vajon szükséges-e a biostatisztika. Értelmezze az alábbi SPSS outputot! Nem * A biostatisztika szükséges-e Crosstabulation
Nem
Fiú Lány
Total
Count % within Nem Count % within Nem Count % within Nem
A biostatisztika szükséges-e Igen Nem 72 7 91.1% 8.9% 142 14 91.0% 9.0% 214 21 91.1% 8.9%
Total 79 100.0% 156 100.0% 235 100.0%
Chi-Square Tests Value .001b .000 .001
Pearson Chi-Square a Continuity Correction Likelihood Ratio Fisher's Exact Test Linear-by -Linear .001 Association N of Valid Cases 235 a. Computed only f or a 2x2 table
df 1 1 1 1
Asy mp. Sig. (2-sided) .977 1.000 .977
Exact Sig. (2-sided)
Exact Sig. (1-sided)
1.000
.592
.977
b. 0 cells (.0%) hav e expected count less than 5. The minimum expected count is 7.06.
2012.11.07
Krisztina Boda
Khi-négyzet próbák
59