PARS KÖNYVEK HU ISSN 1788-4349
1. Pecsenye Katalin: Populációgenetika. 2006. Pars Kft., Nagykovácsi, 401 oldal, ISBN 963 06 0325 X 2. Reiczigel Jenő – Harnos Andrea – Solymosi Norbert: Biostatisztika nem statisztikusoknak. 2007. Pars Kft., Nagykovácsi, i-x + 455 oldal, ISBN 978 963 06 3736 7
Megrendelhető Pars Kft. 1245 Budapest, Pf. 1058
[email protected] 06-20-5752198
Reiczigel Jenő – Harnos Andrea – Solymosi Norbert
BIOSTATISZTIKA nem statisztikusoknak
Pars Kft., Nagykovácsi 2007
A könyv az Oktatási és Kulturális Minisztérium támogatásával, a Felsőoktatási Tankönyv- és Szakkönyv-támogatási Pályázat keretében jelent meg.
Lektorok Lang Zsolt Kis János
Borító: Németh János HU ISBN 978-963-06-3736-7 HU ISSN 1788-4349 © Reiczigel Jenő – Harnos Andrea – Solymosi Norbert, 2007 © Pars Kft., Nagykovácsi, 2007 Minden jog fenntartva, beleértve a mű bővített, illetve rövidített változatainak kiadási jogát is. A kiadó írásos engedélye nélkül sem elektronikus, sem hagyományos úton nem sokszorosítható, tárolható, illetve terjeszthető. Nyomdai munkálatok: Mondat Kft., Budapest
Tartalomjegyzék Előszó Köszönetnyilvánítás . . . . . . . . Hogyan olvassuk ezt a könyvet? . Szükséges előismeretek . . . . . . Jelölések, írásmód . . . . . . . . . Ismerkedés az R-rel . . . . . . . . Hogyan olvassuk az R-kódokat?
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
1 4 5 6 7 8 9
1. Bevezetés 13 1.1. Miért tanuljunk statisztikát? . . . . . . . . . . . . . . . . . . 13 1.2. Megjegyzések a példákhoz . . . . . . . . . . . . . . . . . . . . 16 1.3. Hétköznapi valószínűségszámítás és statisztika . . . . . . . . 20 2. A statisztika alapfogalmai 2.1. Populáció és minta . . . . . . . . . . . . . . . 2.2. Leíró és induktív statisztika . . . . . . . . . . 2.3. Mintavételi módszerek . . . . . . . . . . . . . 2.4. Az adatok . . . . . . . . . . . . . . . . . . . . 2.4.1. Adatmátrix . . . . . . . . . . . . . . . . 2.4.2. Adattípusok, mérési skálák . . . . . . . . 2.4.3. Transzformációk, származtatott változók 2.4.4. Hiányzó értékek . . . . . . . . . . . . . . 2.4.5. Kiugró értékek . . . . . . . . . . . . . . . 3. Egy kis valószínűségszámítás 3.1. Események, valószínűség . . . . . . . . . . 3.2. Oddsz és logit . . . . . . . . . . . . . . . 3.3. Relatív kockázat és esélyhányados . . . . 3.4. Valószínűségi változók . . . . . . . . . . . 3.4.1. Valószínűségi változók függetlensége .
. . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
23 23 27 29 33 33 35 39 45 48
. . . . .
51 51 56 58 60 68
3.5. A statisztikában leggyakrabban használt eloszlások 3.5.1. A hipergeometrikus és a binomiális eloszlás . 3.5.2. A Poisson-eloszlás . . . . . . . . . . . . . . . . 3.5.3. A normális eloszlás . . . . . . . . . . . . . . . 3.5.4. További folytonos eloszlások . . . . . . . . . . 3.6. A valószínűségszámítás és a statisztika kapcsolata
. . . . . .
68 69 74 77 80 82
4. Leíró statisztika 4.1. Táblázatok és ábrák . . . . . . . . . . . . . . . . . . . . . . . 4.1.1. Egy változó ábrázolása . . . . . . . . . . . . . . . . . . . 4.1.2. Két változó együttesének ábrázolása . . . . . . . . . . . 4.2. Mérőszámok, statisztikák . . . . . . . . . . . . . . . . . . . . 4.2.1. Egy változó jellemzése . . . . . . . . . . . . . . . . . . . 4.2.2. Két változó közötti összefüggés jellemzése . . . . . . . . 4.2.3. Asszociációs mértékek . . . . . . . . . . . . . . . . . . . 4.2.4. Adattranszformációk hatása a statisztikai mérőszámokra
87 87 88 97 103 104 115 118 121
5. Becslés 5.1. Alapfogalmak . . . . . . . . . . . . . . . . . . . . . . . 5.1.1. Pontbecslés . . . . . . . . . . . . . . . . . . . . . 5.1.2. Intervallumbecslés . . . . . . . . . . . . . . . . . . 5.1.3. Matematikai formalizmus . . . . . . . . . . . . . 5.1.4. A mintaátlag néhány fontos tulajdonsága . . . . . 5.1.5. Becslés pontossága . . . . . . . . . . . . . . . . . 5.2. Pontbecslések jósága . . . . . . . . . . . . . . . . . . . 5.2.1. Torzítatlanság . . . . . . . . . . . . . . . . . . . . 5.2.2. Konzisztencia . . . . . . . . . . . . . . . . . . . . 5.3. Eljárások pontbecslések készítésére . . . . . . . . . . . 5.3.1. Behelyettesítéses becslés . . . . . . . . . . . . . . 5.3.2. Maximum likelihood (ML) becslés . . . . . . . . 5.4. Eljárások konfidencia-intervallumok szerkesztésére . . 5.5. Több paraméter szimultán becslése . . . . . . . . . . . 5.6. A szükséges mintaelemszám meghatározása becsléshez
123 124 124 126 129 131 132 135 135 139 139 139 140 142 145 147
6. Hipotézisvizsgálat 6.1. A statisztikai hipotézisvizsgálat alapgondolata 6.1.1. Az indirekt bizonyítás . . . . . . . . . . . 6.1.2. A tudomány fejlődése . . . . . . . . . . . . 6.1.3. Nullhipotézis és alternatíva . . . . . . . . 6.1.4. Döntés a nullhipotézisről . . . . . . . . . .
. . . . .
. . . . .
. . . . . .
. . . . .
. . . . . .
. . . . .
. . . . . .
. . . . . . . . . . . . . . .
. . . . .
. . . . . .
. . . . . . . . . . . . . . .
. . . . .
. . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . .
151 . 153 . 154 . 155 . 156 . 159
6.2. A hipotézisvizsgálat technikai kérdései . . . . . . 6.2.1. Próbastatisztika . . . . . . . . . . . . . . . . 6.2.2. A p-érték meghatározása . . . . . . . . . . . 6.2.3. Döntés a H 0 -ról p-érték nélkül . . . . . . . . 6.2.4. Egyszerű és összetett hipotézisek . . . . . . 6.2.5. Próba ereje . . . . . . . . . . . . . . . . . . 6.3. További témák . . . . . . . . . . . . . . . . . . . 6.3.1. Többszörös összehasonlítások . . . . . . . . 6.3.2. Tesztek és konfidencia-intervallumok . . . . 6.3.3. A szükséges mintaelemszám meghatározása 6.3.4. Paraméteres és nemparaméteres eljárások .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
163 164 166 170 174 177 182 182 184 185 187
7. Gyakran használt statisztikai próbák 193 7.1. Várható értékekre (populációátlagokra) vonatkozó próbák . . 194 7.1.1. Egy várható érték . . . . . . . . . . . . . . . . . . . . . . 194 7.1.2. Két várható érték, független minták . . . . . . . . . . . . 196 7.1.3. Két várható érték, párosított minták . . . . . . . . . . . 200 7.1.4. Kettőnél több várható érték . . . . . . . . . . . . . . . . 202 7.2. Varianciákra vonatkozó próbák . . . . . . . . . . . . . . . . . 202 7.2.1. Egy variancia . . . . . . . . . . . . . . . . . . . . . . . . 203 7.2.2. Két variancia, független minták . . . . . . . . . . . . . . 203 7.2.3. Kettőnél több variancia, független minták . . . . . . . . 205 7.3. Eloszlásokra vonatkozó próbák . . . . . . . . . . . . . . . . . 206 7.3.1. Egy eloszlás: illeszkedésvizsgálat . . . . . . . . . . . . . . 206 7.3.2. Két változó együttes eloszlása: függetlenségvizsgálat . . . 212 7.3.3. Két vagy több eloszlás: homogenitásvizsgálat . . . . . . 218 7.4. Valószínűségekre (populációbeli arányokra) vonatkozó próbák 220 7.4.1. Egy valószínűség . . . . . . . . . . . . . . . . . . . . . . 220 7.4.2. Két valószínűség, független minták . . . . . . . . . . . . 222 7.4.3. Két valószínűség, párosított minták . . . . . . . . . . . . 225 7.4.4. Kettőnél több valószínűség, független minták . . . . . . 226 7.5. Mediánokra vonatkozó próbák . . . . . . . . . . . . . . . . . 227 7.5.1. Egy medián . . . . . . . . . . . . . . . . . . . . . . . . . 227 7.5.2. Két vagy több medián . . . . . . . . . . . . . . . . . . . 229 7.6. Rangpróbák . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 7.6.1. Wilcoxon-féle előjeles rangpróba . . . . . . . . . . . . . . 231 7.6.2. Mann–Whitney-féle U-próba . . . . . . . . . . . . . . . . 235 7.6.3. Kruskal–Wallis-féle H-próba . . . . . . . . . . . . . . . . 238 8. Korrelációszámítás
241
8.1. A Pearson-féle korrelációs együttható . . . . . . . . . . . . . 242 8.1.1. Hipotézisvizsgálat a Pearson-féle korrelációs együtthatóra vonatkozóan . . . . . . . . . . . . . . . . . 244 8.2. Együtthatók monoton, de nem lineáris kapcsolatokra . . . . 245 9. Regressziószámítás 249 9.1. A regressziószámítás szokásos kérdésfeltevései . . . . . . . . . 250 9.2. Véletlenség a magyarázó és a függő változóban . . . . . . . . 251 9.3. Mikor használjunk korreláció-, illetve regressziószámítást? . . 252 9.4. Egyszerű lineáris regresszió: I-es modell . . . . . . . . . . . . 253 9.4.1. Hipotézisvizsgálatok . . . . . . . . . . . . . . . . . . . . 255 9.4.2. A determinációs együttható . . . . . . . . . . . . . . . . 257 9.4.3. Predikció a modellben . . . . . . . . . . . . . . . . . . . 258 9.5. Origón átmenő regresszió . . . . . . . . . . . . . . . . . . . . 261 9.6. Egyszerű lineáris regresszió: II-es modell . . . . . . . . . . . . 263 9.6.1. MA-regresszió . . . . . . . . . . . . . . . . . . . . . . . . 263 9.6.2. SMA-regresszió . . . . . . . . . . . . . . . . . . . . . . . 263 9.7. Többszörös lineáris regresszió . . . . . . . . . . . . . . . . . . 266 9.7.1. Hipotézisvizsgálatok . . . . . . . . . . . . . . . . . . . . 269 9.8. További korrelációs mérőszámok . . . . . . . . . . . . . . . . 270 9.8.1. A többszörös korreláció és a determinációs együttható . 271 9.8.2. A parciális korreláció . . . . . . . . . . . . . . . . . . . . 272 9.9. Multikollinearitás . . . . . . . . . . . . . . . . . . . . . . . . 273 9.10. Regressziós diagnosztika . . . . . . . . . . . . . . . . . . . . . 276 9.10.1. Az illesztett modell jóságának vizsgálata . . . . . . . . . 277 9.10.2. Alkalmazhatósági feltételek vizsgálata . . . . . . . . . . 278 9.10.3. Kiugró értékek és torzító pontok . . . . . . . . . . . . . . 281 9.10.4. Diagnosztikus ábrák . . . . . . . . . . . . . . . . . . . . 289 9.11. Nemlineáris kapcsolatok . . . . . . . . . . . . . . . . . . . . . 290 9.11.1. Lineárisra visszavezethető regressziók . . . . . . . . . . . 292 9.11.2. Példák változók transzformálásával végzett regressziókra 294 9.11.3. Lineárisra nem visszavezethető regressziók . . . . . . . . 301 10. Varianciaelemzés (ANOVA) 10.1. A számítások . . . . . . . . . . . . . . 10.1.1. Varianciatábla (szórásfelbontás) . 10.2. Csoportok páronkénti összehasonlítása 10.3. Többtényezős varianciaelemzés . . . . 10.4. Kísérleti elrendezések . . . . . . . . . 10.4.1. Véletlen blokkos elrendezés . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
309 311 315 317 320 324 324
10.4.2. Latinnégyzet-elrendezés . . . . . . . . . . . . . . . . . . 326 10.5. Az ANOVA diagnosztikája . . . . . . . . . . . . . . . . . . . 328 10.6. Kontrasztok . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328 11. Az általános lineáris modell 11.1. A fejezet példája . . . . . . . . . . . . . . . . . . . . . . 11.1.1. A kísérlet rövid leírása . . . . . . . . . . . . . . . . 11.1.2. Exploratív elemzések . . . . . . . . . . . . . . . . . 11.2. Statisztikai modellek . . . . . . . . . . . . . . . . . . . . 11.3. A modell felírása . . . . . . . . . . . . . . . . . . . . . . 11.3.1. Példák különböző modellekre . . . . . . . . . . . . 11.3.2. Faktorok a lineáris modellben . . . . . . . . . . . . 11.4. A lineáris modell paramétereinek becslése . . . . . . . 11.4.1. A becsült értékek és a vetítő mátrix . . . . . . . . . 11.5. Hipotézisvizsgálat . . . . . . . . . . . . . . . . . . . . . 11.5.1. A null- és a telített modell . . . . . . . . . . . . . . 11.5.2. Modell és részmodell összehasonlítása . . . . . . . . 11.5.3. Az összes magyarázó változó együttes tesztelése . . 11.5.4. Több változó szimultán tesztelése . . . . . . . . . . 11.5.5. Megjegyzések a modellek tesztelésével kapcsolatban 11.6. A lineáris modellek alkalmazhatóságának feltételei . . . 11.6.1. Linearitás . . . . . . . . . . . . . . . . . . . . . . . 11.6.2. Kiugró és torzító pontok . . . . . . . . . . . . . . . 11.7. Modellválasztás . . . . . . . . . . . . . . . . . . . . . . . 11.7.1. Mit értsünk a „legjobb” modellen? . . . . . . . . . 11.7.2. A legszűkebb modell, amely nem különbözik szignifikánsan a teljes modelltől . . . . . . . . . . . 11.7.3. Információs kritériumok . . . . . . . . . . . . . . . 11.8. Modellszelekciós eljárások . . . . . . . . . . . . . . . . 11.8.1. Egyenkénti beléptetés . . . . . . . . . . . . . . . . . 11.8.2. Egyenkénti kihagyás . . . . . . . . . . . . . . . . . 11.8.3. Váltakozó beléptetés-kihagyás . . . . . . . . . . . . 11.9. Mikor használjuk az aov(), és mikor az lm() függvényt? . . . . . . . . . . . . . . . . 11.9.1. Négyzetösszegtípusok . . . . . . . . . . . . . . . . . 11.10. Többszörös összehasonlítások . . . . . . . . . . . . . . . 11.11. Kontrasztok az általános lineáris modellben . . . . . . . 11.11.1. Kontrasztok (általános lineáris hipotézisek) becslése és tesztelése . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
331 . 331 . 331 . 333 . 337 . 339 . 340 . 341 . 352 . 353 . 354 . 354 . 355 . 356 . 358 . 358 . 360 . 360 . 362 . 363 . 364
. . . . . .
. . . . . .
. . . . . .
365 365 367 367 368 368
. . . .
. . . .
. . . .
369 370 371 374
. . . 375
12. Az R-nyelv és -környezet 12.1. Telepítés . . . . . . . . . . . . . . . . . 12.2. RGui . . . . . . . . . . . . . . . . . . . 12.3. A ConTEXT kódszerkesztő . . . . . . . 12.3.1. Telepítés . . . . . . . . . . . . . . . 12.4. Első lépések az R-rel . . . . . . . . . . . 12.4.1. Függvények . . . . . . . . . . . . . 12.4.2. Csomagok . . . . . . . . . . . . . . 12.4.3. Súgó . . . . . . . . . . . . . . . . . 12.5. R-munkafolyamat . . . . . . . . . . . . 12.6. Adatok olvasása és írása . . . . . . . . . 12.6.1. Munkakönyvtár . . . . . . . . . . . 12.6.2. Adatok olvasása . . . . . . . . . . . 12.6.3. Adatok írása . . . . . . . . . . . . . 12.7. Adattároló objektumok . . . . . . . . . 12.7.1. Vektor . . . . . . . . . . . . . . . . 12.7.2. Mátrix . . . . . . . . . . . . . . . . 12.7.3. Data frame-ek . . . . . . . . . . . . 12.7.4. Lista . . . . . . . . . . . . . . . . . 12.7.5. Hivatkozás az objektumok elemeire
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
385 . 385 . 387 . 388 . 388 . 389 . 391 . 392 . 393 . 397 . 398 . 398 . 398 . 400 . 401 . 401 . 402 . 404 . 405 . 406
Függelék
415
A. Konfidencia-intervallumok képletei A.1. Normális eloszlású változó átlaga . . . . . . . . . . . . . A.2. Két normális eloszlású változó átlaga közötti különbség A.3. Normális eloszlású változó varianciája, illetve szórása . . A.4. Valószínűség (populációbeli arány) . . . . . . . . . . . . A.4.1. Wald-féle intervallum . . . . . . . . . . . . . . . . . A.5. Két valószínűség különbsége . . . . . . . . . . . . . . . . A.6. Relatív kockázat . . . . . . . . . . . . . . . . . . . . . . A.7. Esélyhányados . . . . . . . . . . . . . . . . . . . . . . .
415 . 415 . 416 . 419 . 420 . 420 . 422 . 423 . 424
. . . . . . . .
. . . . . . . .
B. Statisztikai táblázatok
427
Irodalomjegyzék
437
Példák listája
439
Tárgymutató
443
Előszó Könyvünk megírásához mind a motivációt, mind a tematikát a Szent István Egyetem Állatorvos-tudományi Karán tartott, közösen kidolgozott kurzusaink adták. Az anyag zöme a zoológia szakos hallgatóknak tartott Biomatematika II és Számítógépes statisztika kurzusainkon alapul, de felhasználtuk benne Kísérlettervezés, Regressziószámítás és Bevezetés az R-be PhD tanfolyamaink anyagát is. A könyvet elsősorban a bevezető statisztika kurzusok hallgatóinak szánjuk, hogy segítse őket az alapfogalmak és a legszükségesebb módszerek elsajátításában, valamint a statisztikai szemléletmód kialakításában. Mivel magunk is az élettudományok területén dolgozunk és oktatunk, példáinkat is főleg ilyen területekről vettük, ezért könyvünket valószínűleg a biológus, orvos, állatorvos és agrár szakos hallgatók forgathatják legtöbb haszonnal. A statisztika vizsgára készülő hallgatókon kívül jó szívvel ajánljuk a könyvet azoknak is, akiknek munkájukhoz szükségük van a statisztika alkalmazására, de bizonytalannak érzik magukat ezen a területen, vagy a statisztika logikáját a hétköznapi gondolkodástól idegennek érzik. Reméljük, hogy sikerül bebizonyítanunk, hogy a statisztikai gondolkodásmódban igenis van logika, s a hétköznapi életben a Kedves Olvasó is gyakran így gondolkodik, csak esetleg nem veszi észre. Arról is szeretnénk meggyőzni az olvasót, hogy a statisztika nem csupán szükséges rossz, hanem hasznos segítség annak megítélésében, hogy mennyire bízhatunk (vagy mennyire kell kételkednünk) egy kapott eredményben. Végül azt is szeretnénk bebizonyítani, hogy a statisztika nem „varázslás”, hanem bárki számára – igaz, némi erőfeszítés árán – elsajátítható. Könyvünk hasznos lehet azoknak a statisztikát jól ismerő és munkájukban rendszeresen használó kutatóknak is, akik szeretnének közelebbről megismerkedni az R programcsomaggal. Az R egy ingyenes, de ennek ellenére tökéletesen professzionális statisztikai programcsomag, amelyet mi magunk is egyre növekvő lelkesedéssel használunk mindennapi munkánkban. Az R nemcsak ingyenes volta miatt vonzó, hanem azért is, mert a statisztikai
1
2
Reiczigel – Harnos – Solymosi: Biostatisztika
módszerek szinte végtelen választékát kínálja, és nagyon friss, tehát komoly esély van arra, hogy egy-egy vadonatúj statisztikai eljárás leghamarabb Rben válik elérhetővé. A könyv írása során igyekeztünk megtalálni az egyensúlyt két véglet között: az egyik a „receptkönyv”, amely elmondja, hogy mit hogyan kell csinálni, de arról hallgat, hogy miért; a másik az elméleti matematikai statisztika tankönyv, amely gyakorlati problémák megoldásával egyáltalán nem foglalkozik. Egyensúlyt találni sohasem könnyű feladat, bizonyára helyenként nekünk sem sikerült, amiért előre elnézést kérünk az olvasótól. Egy olyan alkalmazott statisztika tankönyvet szándékoztunk írni, amely igyekszik a miérteket is megválaszolni, de ahol csak lehet szemléletesen, a matematikai részletek tárgyalása nélkül, lehetőleg minél kevesebb elvont definícióval és képlettel terhelve az olvasót. Inkább azt próbáljuk elmondani, hogy mi az a szemléletes tartalom, ami a definíciók és képletek mögött van, ami miatt ezek ilyen – néha barátságtalan – formát kell, hogy öltsenek. Az elméleti részeket pedig igyekeztünk minél több példával érthetővé tenni. Törekedtünk arra is, hogy a könyv megértéséhez elegendő legyen a középiskolai matematika anyag ismerete. Egyedül a mátrixokkal és vektorokkal kapcsolatos alapismereteket kell az olvasónak máshonnan elsajátítani: ezekre a könyv utolsó fejezeteinek megértéséhez lesz szükség. Ajánljuk például Freud Róbert: Lineáris algebra című könyvét (Eötvös Kiadó, 2005). Könyvünk honlapjáról (www.biostatkonyv.hu) is letölthető egy rövid összefoglaló a szükséges ismeretekről. Azoknak, akik a középiskolában nem tanultak valószínűségszámítást, vagy nehézségeik voltak vele, hasznos lehet egy bevezető valószínűségszámítási könyv előzetes tanulmányozása is (például Solt György: Valószínűségszámítás, Bolyai Könyvek sorozat, Műszaki Könyvkiadó, 2005). Van néhány dolog, amit – bár nem lett volna ellenünkre – mégsem tudtunk felvállalni. Tehát mit ne várjon a Kedves Olvasó a könyvünktől: • Terjedelmi okokból lemondtunk a valószínűségszámítás részletes tárgyalásáról, csak egy néhány oldalas összefoglalóban ismertetjük a legszükségesebb fogalmakat. Mentségünkre szolgál, hogy a magyar szakkönyvpiacon valószínűségszámításból nagyobb a választék mint statisztikából, R-es bevezető statisztika könyv pedig egyáltalán nincsen; mi elsősorban ezt a hiányt szerettük volna pótolni. • A matematikai precizitásból a legtöbb helyen engedtünk, amiért a matematikusoktól elnézést kérünk. Több definíción – a könnyebb érthetőség kedvéért – egyszerűsítettünk, vagy csak szemléletes definíciót adtunk. Ilyenkor megjegyzésben vagy apró betűs részben utalunk arra, hogy eltértünk a matematikai statisztikában szokásos definíciótól.
Előszó
3
• Egy-egy mondatnyi megjegyzéstől eltekintve egyáltalán nem foglalkozunk a bayesi statisztikával. Egyrészt terjedelmi okokból, másrészt azért, mert a statisztikával most először ismerkedők helyzetét nem akartuk azzal nehezíteni, hogy egyszerre két különböző szemléletmódot tárunk eléjük. Mentségünkre szolgál, hogy bayesi statisztika a bevezető kurzusok legtöbbjében egyáltalán nem, vagy legfeljebb csak az említés szintjén szerepel. • Az R szinte végtelenül gazdag lehetőségeinek bemutatása is meghaladja e könyv lehetőségeit. Ha a Kedves Olvasó az R-et már valamennyire tudja használni, akkor speciális problémáira – a túléléselemzéstől kezdve a genomikáig – az interneten nagyon sok kész R csomagot (értsd: kész programokat) találhat, amelyekhez készítőik részletes leírást is mellékeltek. Teljességre törekedni már csak azért is lehetetlen volna, mert az R-es közösség tagjainak munkája révén nap mint nap új R-csomagok készülnek. (A kézirat lezárásakor az elérhető csomagok száma meghaladja a 900-at!) Lehet, hogy az R lelkes felhasználójává válván, egyszer majd a Kedves Olvasó is közzétesz egy saját fejlesztésű csomagot. • Könyvünk a kézi számoláshoz szükséges képletek közül csak a legalapvetőbbeket tartalmazza, lényegében csak azokat, amelyek a bevezető kurzusokon a feladatok megoldásához kellenek. Ma már a számítógépes programok alkalmazása mentesít a képletekkel való számolástól. A mai felhasználónak inkább azzal kell tisztában lennie, hogy mikor melyik módszert alkalmazhatja, mik a módszer alkalmazhatósági feltételei, és hogy hogyan értelmezze az eredményeket, mintsem a számítások részleteivel. Mégis, elsősorban a bevezető kurzusok hallgatóira gondolva, a legfontosabb képletek alkalmazására bemutatunk néhány kézi számolásos példát is. Hasonló a helyzet egyes klasszikus módszerekkel: a gyakorlatban már sohasem használjuk őket, mert ma már vannak sokkal hatékonyabb módszerek is, de a könyvből nem akartuk kihagyni, mert a bevezető kurzusokon – elsősorban didaktikai okokból – mégis ezeket tanítjuk. • Az eljárásokat ismertető eredeti közleményekre nem hivatkozunk, csak azt az R-függvényt adjuk meg, amellyel az eljárást végrehajthatjuk. Ha valakit az eljárások elméleti háttere érdekel, akkor azt ajánljuk, hogy az R-függvény leírásában (súgó) szereplő hivatkozásból induljon ki. Ezenkívül az irodalomjegyzékben megadunk néhány „alapművet”, amelyekben sok módszer részletes leírása megtalálható. A könyv kézirata a TEX szövegszerkesztő rendszer MiKTeX 2.5 implementációjában készült (http://www.miktex.org). Felhasználtuk Fritz Leisch
4
Reiczigel – Harnos – Solymosi: Biostatisztika
Sweave rendszerét (http://www.ci.tuwien.ac.at/∼leisch/Sweave), amellyel a TEX és R-kódokat együtt tudtuk kezelni. Könyvünk honlapjának címe: www.biostatkonyv.hu, ahol a Kedves Olvasó a könyvben szereplő példák R-kódjait, további segédanyagokat és programokat találhat. Olvasóink visszajelzéseit is szívesen fogadjuk a honlapon megadott e-mail címen. Kérjük, hogy ha hibát találnak, mielőbb írják meg, mert a honlapon egy on-line hibajegyzék is elérhető!
Köszönetnyilvánítás Ezen könyv megszületése – bár csak három szerző jegyzi – nagyon sokak munkájának, biztatásának, lelkesedésének köszönhető. Hálánk jeléül felsoroljuk azokat, akik tevőlegesen hozzájárultak a könyv létrejöttéhez, tudva azt, hogy rajtuk kívül még sokakat felsorolhatnánk. A könyv lektorálásában részt vettek: Lang Zsolt, Kis János, Kiss Alexa, Abonyi-Tóth Zsolt, Lőkös László, Valcz Gábor, Maróti-Agóts Ákos, Szőke Dominika, Speiser Ferenc, Lakos András. Akiknek az adatait felhasználhattuk a példákhoz: Takács Erzsébet, Székely Tamás, Kis János, Peregovits László, Kőrösi Ádám, Mándoki Míra, Nagy Péter, Kabai Péter. Sokan támogatták erőfeszítéseinket azzal, hogy olyan körülményeket teremtettek nekünk, amelyek lehetővé tették a könyv megírását: Fodor János, Fodor László, Harnos Zsolt, Kövér Szilvia, Demeter Márton, Szabó Gabriella. Akik biztattak minket: Kis János, Varga Zoltán, Izsák János, Papp Péter László, Rózsa Lajos, Barta Zoltán, Pénzes Zsolt, Miklósi Ádám, Boda Krisztina és még sokan mások. És természetesen hálával tartozunk családtagjainknak – Szekeres Zsuzsának, Dala Sárának, Vattay Gábornak, Enikőnek, Gergőnek és Daninak – azért, hogy elviselték a könyvírás nehéz időszakát. Könyvünk az Oktatási és Kulturális Minisztérium támogatásával, a Felsőoktatási Tankönyv- és Szakkönyvtámogatási Pályázat keretében jelent meg, és a T049157 számú OTKA pályázat támogatásával készült. SZIE ÁOTK Biomatematika Tanszék és BCE-MTA „Alkalmazkodás a klímaváltozáshoz” kutatócsoport, Budapest, 2007. június 20. Reiczigel Jenő Harnos Andrea Solymosi Norbert
Hogyan olvassuk ezt a könyvet?
5
Hogyan olvassuk ezt a könyvet? Könyvünk minden fejezetének hasonló a szerkezete. Valamennyi témát egy általános bevezetővel kezdünk, majd az elmélet ismertetésével és példákkal való illusztrálásával folytatjuk. Az elméleti magyarázatok néha apró betűs részeket is tartalmaznak. Ezek olyan megjegyzések vagy kiegészítések, amelyek a téma megértéséhez nem elengedhetetlenek, valamiért mégis fontosnak tartottuk megemlíteni őket. Az apró betűs részeket az olvasó akár át is ugorhatja, ez a megértést nem gátolja. A példáknak három fajtája van: • Csupán az elmélet illusztrálását szolgáló példák, ezekkel az olvasónak nincs más teendője, csak az, hogy igyekezzék megérteni őket. E példák célja, hogy segítségükkel az elméleti definíciókat szemléletes tartalommal töltsük meg. Érdemes ezeken úgy végigmenni, hogy pontról pontra megnézzük, hogy az előzőekben definiált fogalmak minek felelnek meg a példában. • Kézi számolással megoldható példák, amelyeket hasznos lenne, ha az olvasó maga is végigszámolna. Sokszor csak így derül ki ugyanis, hogy a módszer egyes részleteit is jól érti-e. A bevezető kurzusok hallgatóinak a példák végigszámolása a statisztika dolgozatra való felkészülés részeként mindenképpen ajánlatos. • R-es példák, amelyeket – ha a Kedves Olvasó járatos az R-ben, vagy meg szeretné tanulni a használatát – mindenképpen hasznos lenne, ha kipróbálna. Az R telepítéséhez szükséges tudnivalókat lásd „Az Rnyelv és -környezet” (12.) fejezetben. A példák kipróbálásához segítség a könyv honlapja, ahonnan a könyvben szereplő R-kódok (= utasítások, programok) letölthetők. Azt ajánljuk azonban, hogy a Kedves Olvasó sajátkezűleg is írjon R-kódokat, mert ha csak a könyv honlapján találtakat másolja le és futtatja, akkor egyes fontos részletek (zárójelek, határoló jelek, matematikai műveleti jelek, kis- és nagybetűk használata stb.) könnyen elkerülhetik a figyelmét. A könnyebb visszakereshetőség kedvéért a példáknak nevet adtunk, és ha ugyanaz a példa különböző összefüggésekben többször is előkerül, a név eleje megegyezik (például „Elléstől az ovulációig eltelt idő – előjelpróba” és „Elléstől az ovulációig eltelt idő – Mood-féle mediánpróba”). A példák listáját megadjuk a könyv végén (439. oldal). A példákban szereplő R-függvényeknek mindig csak azokat a paramétereit ismertetjük, amelyeknek a szóban forgó példában szerepük van. A függvényeknek általában sokkal több paramétere van, amelyeknek az R súgójában lehet utánanézni. Ha egy példában valaminek a jelentése vagy hasz-
6
Reiczigel – Harnos – Solymosi: Biostatisztika
nálatának módja nem derül ki egyértelműen, akkor is az R súgóját ajánljuk, ahol általában további bemutató példákat találhatunk. Az ábrákhoz tartozó R-kódokat nyomdatechnikai és tördelési követelmények miatt esetenként meg kellett változtatnunk. Az ilyenkor alkalmazott különleges beállítások kezdők számára érdektelenek, és valószínűleg értelmezhetetlenné tennék a kódokat, ezért ezek ismertetésétől eltekintünk. Természetesen csak formai különbségekről van szó, az ábrák tartalma megegyezik a közölt R-kódokból előállítható ábrákéval. A hagyományos számoláshoz a Függelékben eloszlástáblázatokat (standard normális, Student-féle t, khi-négyzet és F ) és egy véletlenszám-táblázatot is közlünk.
Szükséges előismeretek A teljes középiskolai matematika anyag ismeretét feltételezzük, de néhány fejezetet külön is kiemelünk, mert ezek ismeretét különösen fontosnak tartjuk. Egyik ilyen fejezet a logika. Érteni kell, hogy mit jelent az, hogy egy állításból logikailag következik egy másik állítás. Tisztában kell lenni azzal, hogy mit jelentenek – és mikor igazak – az „és”-sel, illetve „vagy”-gyal képzett összetett állítások és a „ha-akkor” típusú kijelentések. Azt is tudni kell, hogy hogyan képezhetjük az ilyen összetett állítások tagadását. Ismerni kell a halmazműveleteket: a metszetet, egyesítést és a komplementer halmaz képzését. Ismerni kell a kombinatorika alapfogalmait, de legalább a faktoriális jelölést: 5! = 1 · 2 · 3 · 4 · 5, k! = 1 · 2 · · · · · k és a binomiális együtthatókat: n! 8 n , = . 3 k k! · (n − k)! Tudni kell hatványokkal és logaritmussal számolni, ismerni kell a természetes alapú („e” alapú: ln) logaritmust is. Reméljük, hogy valószínűségszámításból a középiskolás anyag – kiegészítve a könyv valószínűségszámítás fejezetével – elegendő a további részek megértéséhez. Az utolsó fejezetekhez szükség lesz a mátrixokkal kapcsolatos alapismeretekre is, ezek azonban nem haladják meg a biológus, állatorvos stb. szakosok bevezető matematika előadásaiban foglaltakat.
2.2. Leíró és induktív statisztika
2.2.
27
Leíró és induktív statisztika
A leíró statisztika (descriptive statistics) a statisztikának az az ága, amelyik az adatokban rejlő információ emészthető formában való tálalásával foglalkozik. Ez jelentheti az adatok rendezését, csoportosítását (táblázatok), megjelenítését (grafikonok, diagramok, piktogramok), illetve statisztikai mérőszámokkal való jellemzését (minimum, maximum, átlag, szórás stb). A leíró statisztika azért fontos, mert nagy adatmennyiségek – több ezer adat – esetén hiába tennénk közzé az összes számot, közönséges halandó úgysem tudna mit kezdeni vele. A leíró statisztika eszközei a különféle táblázatok (table), diagramok (chart, plot, diagram) és statisztikai mérőszámok (statistic). Az első kettőre példa a 2.1. táblázat és a 2.1. ábra, a statisztikai mérőszámokat pedig egyszerűen a szövegben szokás közölni, például így: „A mintában a testmagasság és a testtömeg között szoros összefüggést találtunk (Pearsonféle korrelációs együttható: r = 0.53)”. Az ábrák információgazdagságának szép példája a népességtudományban használatos „korfa”, amely nem és kor szerinti bontásban szemlélteti a populáció összetételét (2.2. ábra). Tipikus a leíró statisztika használata akkor, amikor teljeskörű adatfelvétel történik, például népszámlálási vagy választási adatok, bejelentési kötelezettséggel járó fertőző betegségek esetén, vagy ha egy vizsgált állattartó telepen valamennyi állat adatai rendelkezésre állnak stb. Már említettük azonban, hogy legtöbbször nincs módunk a teljes populációt megvizsgálni, ezért kénytelenek vagyunk csupán egy minta vizsgálatából levonni a populációra érvényes következtetéseket. Ekkor lép színre az induktív statisztika (statistical inference) az induktív szónak az „általánosító” értelmében (mint az egyediből az általánosra való következtetés). Természetes, hogy egy ilyen következtetéstől nem várjuk el, hogy 100% biztonsággal helyes legyen, csak azt, hogy „nagy valószínűséggel”, ami általában – szakterülettől függően – 90, 95 vagy 99%-os megbízhatóságot, azaz 10, 5 vagy 1% tévedési valószínűséget jelent. A megbízhatóság, illetve a tévedési valószínűség pontos jelentését nem könnyű megérteni. A legegyszerűbb, ha úgy gondolunk rá, hogy „ha sokszor alkalmazzuk a szóban forgó módszert, akkor várhatóan az esetek hány százalékában kapunk helyes, illetve téves eredményt”. Az induktív statisztika két legjellemzőbb feladata a becslés (estimation) és a hipotézisvizsgálat (hypothesis testing). A becslés a „Mennyi? Mekkora? Hány százalék? stb.” kérdésekre vár választ, mégpedig egy (vagy néhány) számot. A hipotézisvizsgálatban ezzel szemben „Igen/Nem” választ
28
Reiczigel – Harnos – Solymosi: Biostatisztika
2.1. táblázat. Testmagasság és testtömeg összefüggésének ábrázolása táblázattal
Testtömeg Testmagasság
< 80 kg
≥ 80 kg
243 267
75 415
< 175 cm ≥ 175 cm
●
110
Testtömeg (kg)
90 80 70
● ● ●
●
60 50
160
●
● ●●●
●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●●● ●● ● ● ● ●● ●●● ●● ●● ●●● ● ● ● ● ●●● ●● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●●● ● ●● ● ●● ●● ● ●● ● ● ● ● ●● ●●●●●● ● ●●● ● ●●● ● ● ● ● ● ● ●●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ●● ●● ● ●●●● ● ●●●●● ●● ● ●● ● ●● ● ● ● ● ● ●● ● ● ●●● ● ● ●● ● ●●● ●● ● ● ●● ● ● ● ●● ● ● ●● ●● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ●● ●●● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ●● ●● ● ● ● ● ● ●●● ● ● ● ●● ●● ● ● ● ● ●● ● ●●● ● ● ● ● ● ●● ● ● ●●● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●●● ●● ● ●● ●● ●●● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●●●●● ●● ●● ● ● ●● ●●● ● ● ●● ● ●● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ●●● ●● ● ●● ● ● ● ● ● ● ● ● ●●● ● ● ● ●●●● ● ●● ● ● ●● ● ● ● ● ●●● ●● ● ●● ● ●●● ● ●● ● ● ● ●● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ● ●● ●● ● ●● ● ● ● ●● ●● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ●● ●●● ●● ● ● ●● ●●●● ● ● ●● ● ●●● ● ● ● ● ● ●●●●● ● ● ● ● ●● ● ● ●● ● ●●●● ● ●● ● ● ● ●● ●● ●● ● ● ● ●● ● ● ●● ●● ● ●● ● ●● ●● ●● ●●● ●● ● ● ● ● ●● ●● ● ●●● ●●● ●● ● ● ●● ●● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ●●● ● ●●● ● ●● ● ●● ● ●●●● ● ●● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●●● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ●● ● ● ● ● ● ●●
100
170
●
180
●
●
●
●
190
Magasság (cm)
2.1. ábra. Testmagasság és testtömeg összefüggésének ábrázolása szórásdiagrammal
várunk az „Igaz-e? Fennáll-e? Van-e összefüggés. . . ? Van-e hatása. . . ? Van-e különbség. . . ? stb.” kérdésekre. A leíró és induktív statisztika nem mindig választható szét élesen. Amikor több ezres mintákkal dolgozunk, akkor már a minta jellemzéséhez is szükség van a leíró statisztika módszereire, bár a fő cél ilyenkor is a populációra érvényes következtetések levonása, amelyhez az induktív statisztika szükséges. Másfelől kis minták esetén is előnyös a leíró statisztika módszereinek – különösen a grafikus megjelenítésnek – az alkalmazása azért, hogy az információkat szemléletesebben, illetve hatásosabban tudjuk közölni. Az induktív statisztikai vizsgálatokban azért is fontosak a leíró statisztika módszerei, mert segítségükkel jobban átláthatjuk adatainkat, észrevehetjük olyan tulajdonságaikat, amelyek döntően befolyásolják az elemzésükhöz legmegfelelőbb módszerek kiválasztását.
2.4. Az adatok
2.4.
33
Az adatok
Egy kutatási kérdés felvetődésétől általában több lépésen – és nagyon sok fáradságon – keresztül vezet el az út addig, amíg a vizsgálat adatai összeállnak. Ilyen lépések a kutatási kérdés pontosítása, operacionalizálása (= mérhető formában való megfogalmazása), a megválaszolásához szükséges mérési módszerek megválasztása vagy kidolgozása, a vizsgálat részleteinek megtervezése, a megfigyelési egységek kiválasztása, esetleges előkísérletek stb. Ezekkel a kérdésekkel most nem kívánunk foglalkozni, csak annyit jegyzünk meg, hogy ezek mind a kísérlettervezés (experimental design, study design) vagy a kutatásmódszertan, illetve kutatástervezés (research methodology, research planning) témakörébe tartoznak. A vizsgálat elvégzése után az összegyűlt adatokat hagyományosan papíron tárolták, manapság pedig a számítógépen, általában valamilyen táblázatkezelő program segítségével (Lotus, Excel, Calc stb.). Mivel a táblázatkezelő programok a kockás papírt utánozzák, az emberek a számítógépes tárolásra is ugyanolyan formát szoktak választani, mint ha papírra írnának, azaz amely a legkevesebb írásmunkával jár, és a szemnek is a legáttekinthetőbb. Általában több kisebb, jól áttekinthető táblázatba csoportosítják az adatokat, kerülik az ismétlést, ismétlődő adatokat inkább fejlécbe tesznek, fontos adatokat színekkel, kiemelésekkel, magyarázó szövegekkel jeleznek. Sajnos a statisztikai programok másképp – sokkal egyszerűbben, mondhatni egészen bután – gondolkodnak, számukra az egyetlen érthető forma a legegyszerűbb, csoportosítás és kiemelések nélküli elrendezés, egyetlen fejléccel, egyes adatokat akár ezerszer is megismételve: ez az úgynevezett adatmátrix (2.2. táblázat).
2.4.1.
Adatmátrix
Az adatmátrix (data matrix) – az R-ben „data frame” a neve – egy olyan táblázat, amelynek minden sora egy megfigyelési egységnek (személy, állat, vérminta stb.), oszlopai pedig az egyes mért vagy megfigyelt adatoknak (kor, nem, testtömeg stb.) felelnek meg. A sorokat eseteknek (case), az oszlopokat változóknak (variable) nevezzük. Ezt a szokásos elrendezést és elnevezéseket azért kell ismernünk, mert a statisztikai programok legtöbbje – így az R is – az elemzendő adatokat ilyen formában várja, az eredmények kiírásakor pedig rendszerint a „case” és „variable” elnevezéseket használja. A továbbiakban a „megfigyelési egység” helyett mi is legtöbbször a rövidebb „eset” elnevezést fogjuk használni, a „megfigyelési egységeken mért adat” helyett pedig „változó”-t mondunk. Célszerű az
34
Reiczigel – Harnos – Solymosi: Biostatisztika
2.2. táblázat. Táblázat ugyanazokról a kísérleti adatokról, ahogy a táblázatkezelőben saját magunk számára elrendeznénk (a), és ahogy a statisztikai programok várják (b). Az ID az állat egyedi azonosítója (identifier) (a)
(b)
adatmátrixot úgy elkészíteni, hogy első sora a változók nevét tartalmazza, mert az R ezeket a neveket át tudja venni, és később a változókra az R-ben is ezekkel a nevekkel hivatkozhatunk. Arra is van mód, hogy az adatmátrix valamelyik oszlopa az esetek nevét vagy azonosítóját tartalmazza. Adatok adatmátrix formában való elrendezésére példát mutat a 2.2. (b) ábra. Az adatok lehetnek akár számértékek, akár szöveges adatok, akár kódok. A kódok olyan értékek, amelyek csak azonosításra szolgálnak: legyenek bár számok, akkor sem számolhatunk velük: ilyen például a 2.2. (b) ábrán az ID nevű változó. Ha az adatbevitelt táblázatkezelő programmal végeztük, és az adatokat már a fenti – az adatmátrixnak megfelelő – formában rendeztük el, akkor csak az a kérdés, hogy hogyan tudjuk ezt az R-nek átadni. Erre egy egyszerű
6.1. A statisztikai hipotézisvizsgálat alapgondolata
161
A p-értéket szignifikanciaszintnek (significance level) is nevezik, sokszor a számítógépes programok is ezen a néven közlik. Akkor mondjuk, hogy egy mintában megfigyelt tulajdonság (különbség, összefüggés stb.) statisztikailag szignifikáns, ha túlmegy azon a mértéken, amit még nyugodt lélekkel a véletlen számlájára írhatnánk. Egy szignifikáns eredmény arra enged következtetni, hogy a mintában megfigyelt különbség, összefüggés stb. nemcsak a mintában, hanem a populációban is fennáll. A p-érték definíciójából következik, hogy azok az eredmények szignifikánsak, amelyekhez kis p-érték tartozik. Hagyományosan a határ 5%, azaz ha p ≤ 0.05, akkor szokás azt mondani, hogy az eredmény szignifikáns. Ha ezt a szabályt követjük, vagyis a H0 -t akkor vetjük el, ha p ≤ 0.05, akkor a döntésünk elsőfajú hibájának valószínűsége 5% lesz: az igaz nullhipotézisek 5%-át fogjuk tévesen elvetni. De el is szabad térni az 5%-tól: egyes területeken az 1%-os határ a szokásos. Hogy semmiképp ne legyen félreérthető, fogalmazhatunk úgy is, hogy „az eredmény 5%-os szinten szignifikáns”.
6.6. példa. Sertések hizlalása – hipotézisvizsgálatok Egy kísérletben sertések hizlalásához új táplálék-kiegészítőt próbáltak ki. Húsz állat kapta a táplálék-kiegészítőt, átlagos testtömeg-növekedésüket húsz kontroll állatéval hasonlították össze. A kérdés az volt, hogy nagyobb-e a testtömeg növekedése a kísérleti csoportban. A hipotéziseket az átlagos testtömeg-növekedéssel fogalmazták meg. H0 : a testtömeg-növekedés átlaga a két csoportban azonos, H1 : a testtömeg-növekedés átlaga a táplálékkiegészítővel kezelt csoportban nagyobb. Az átlagok összehasonlítását R-rel, a t-próba Welch-féle változatával végezték, amely nem követeli meg a két csoportban a varianciák egyenlőségét. A próba részleteiről lásd a 7.1.2. fejezetet; most csak annyit szeretnénk bemutatni, hogyan döntünk a H0 -ról a p-érték alapján egy R-es elemzésben. A két csoportban mért testtömeg-növekedés értékeket a tt.kiserleti és a tt.hagyomanyos változók tartalmazzák. A megfelelő R-kód és output: > t.test(tt.kiserleti, tt.hagyomanyos, alternative = "greater") Welch Two Sample t-test data: tt.kiserleti and tt.hagyomanyos t = 2.3834, df = 37.223, p-value = 0.01118 alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval: 3.025102 Inf sample estimates: mean of x mean of y 84.6067 74.2559
232
Reiczigel – Harnos – Solymosi: Biostatisztika
Nulleloszlás: Saját neve nincsen, de kis mintaelemszámokra kiszámolták, és a kritikus értékeket táblázatba foglalták. Figyelem, az ilyen táblázatok csak akkor használhatók, ha nincsenek kapcsolt rangok! Ebben a könyvben nem közöljük a táblázatokat, inkább az egzakt tesztet végző Rfüggvényeket ajánljuk, mert akkor a kapcsolt rangoktól függetlenül mindig pontos eredményt kapunk. q
A nulleloszlást hagyományosan a µ = n(n+1) , σ = n(n+1)(2n+1) paramé4 24 terű normális eloszlással szokták közelíteni nagyobb mintákra, a kritikus értékeket ebből számolják.
7.16. példa. Vásárlások egy boltban – Wilcoxon-féle előjeles rangpróba Egy boltban egy óra alatt 10 vevő vásárolt, mégpedig az alábbi értékben (az értékek ezer forintban). Vizsgáljuk meg a Wilcoxon-féle előjeles rangpróbával, vajon az adatok ellentmondanak-e annak a hipotézisnek, hogy az összegek eloszlásának középértéke eléri a 9 ezer forintot! H0 : med = 9 H1 : med < 9 Összegek Eltérések Rangok
1.4 3.3 5.0 5.0 6.2 7.5 10.1 10.5 13.0 18.1 -7.6 -5.7 -4.0 -4.0 -2.8 -1.5 1.1 1.5 4.0 9.1 9 8 6* 6* 4 2.5§ 1 2.5§ 6 * 10
* § Egyenlőség esetén mindegyik érték az összesen rájuk jutó rangok átlagát kapja (kapcsolt rangok). A pozitív eltérésekhez tartozó rangok összege 19.5. (Vegyük észre, hogy a pozitív és negatív eltérésekhez tartozó rangösszegek együtt éppen 1 + 2 + ... + n = n(n + 1)/2-t kell hogy kiadjanak, ahol n a mintaelemszám: jelen esetben 19.5 + 35.5 = 55!) Ha papíron számolunk, akkor a kapcsolt rangok miatt a normális közelítést p kell alkalmaznunk, vagyis a 19.5-öt a µ = 10·11/4 = 27.5 várható értékű és σ = 10 · 11 · 21/24 = 9.81 szórású normális eloszláshoz kell hasonlítanunk. Egyoldali ellenhipotézisünk van, és a statisztika az ellenhipotézis irányába mutat, tehát a döntéshez a statisztikát a nulleloszláshoz kell viszonyítanunk. A p-érték meghatározásához a standard normális eloszlás táblázatából a |19.5 − 27.5|/9.8 = 8/9.81 = 0.82 értékhez tartozó valószínűségre van szükségünk: innen p = 0.2061. Szokás úgynevezett folytonossági korrekciót is alkalmazni, ami azt jelenti, hogy a statisztika számlálóját 0.5-tel csökkentjük. Ennek hátterében az áll, hogy nem akarjuk, hogy az elvártnál nagyobb valószínűséggel vessük el a nullhipotézist csupán azért, mert a statisztika diszkrét, mégis egy folytonos eloszláshoz viszonyítjuk. A korrekcióval tehát mindig konzervatívabbá tesszük a próbát, mint amilyen anélkül volna (vö. a Yates-féle korrekcióval a khi-négyzet-próbáknál, 216. oldal) A példában folytonossági korrekció alkalmazása esetén a standard normális táblázatból a 7.5/9.81 = 0.76 értékhez tartozó valószínűséggel számolunk, ahonnan p = 0.2236. Az R-es megoldás:
9.6. Egyszerű lineáris regresszió: II-es modell 115
●
Jobb szárnyhossz (mm)
●●●
●
110
● ● ●
●
●
● ●
● ●
●
●
●
●
● ●
●
● ●● ● ● ● ● ● ●● ● ●● ● ●●●● ● ● ● ●● ●● ● ● ●
105
265
● ●
● ●● ●●● ●
●●
●
●
●
●●
● ● ●●● ● ●●● ●● ● ●● ● ● ●
●●
●
●
●
● ● ● ●
● ●
●
● ●
●
●
OLS MA SMA
●
● ●
100 ●
27
28
29
30
31
Jobb csüdhossz (mm)
9.6. ábra. Széki lilék jobb szárny- és csüdhossz adataira különböző módszerekkel illesztett egyenesek
> (MAreg <- line.cis(jszarny, jcsud, data = lile, method = "MA")) coef(MA) lower limit upper limit elevation -189.38816 -368.363733 -10.41260 slope 10.30333 6.409992 25.79555 > (SMAreg <- line.cis(jszarny, jcsud, data = lile, method = "SMA")) coef(SMA) lower limit upper limit elevation 18.483593 3.819370 33.14782 slope 3.099800 2.633388 3.64882 Jól látható, hogy mekkora az eltérés az együtthatók becslései között. Még látványosabb a különbség, ha ábrázoljuk az illesztett egyeneseket (11.13 ábra). Az abline() függvény argumentumába be kell írni a regressziók eredmény objektumainak (amelyek listák) megfelelő elemeit (y tengelymetszet és meredekség). A legend() függvénnyel adott pozícióba (első két argumentum) cimkéket helyeztünk el az ábrán. > + + > > > >
with(lile, plot(jcsud, jszarny, main = "", xlab = "Jobb csüdhossz (mm)", ylab = "Jobb szárnyhossz (mm)")) abline(OLSreg[[1]][1], OLSreg[[1]][2], lty = 1) abline(MAreg[[1]][1], MAreg[[1]][2], lty = 2) abline(SMAreg[[1]][1], SMAreg[[1]][2], lty = 3) legend(30, 102, lty = 1:3, legend = c("OLS", "MA", "SMA"), bty = "n")
Ha feltehetjük, hogy a csüd- és szárnyhossz relatív szórása (szórás/átlag) azonos, akkor az SMA-módszert válasszuk!
362
Reiczigel – Harnos – Solymosi: Biostatisztika
Nézzük meg a reziduum-becsült érték szórásdiagramot (11.12. (a) ábra)! > plot(ozmod, 1, pch = 20) Az ábra alapján lehetnek kétségeink a linearitást illetően. Készítsünk a TESTH kovariánsból egy nominális változót (faktort) a cut() függvény segítségével! Argumentumként meg kell adni a folytonos változót, azt, hogy hol legyenek a kategóriák határai (breaks), majd azt, hogy a kategóriákat hogyan címkézzük (opcionális). Most összesen három kategóriát képezünk (a kicsi, közepes és nagy őzeknek megfelelően). > oz$TESTHfaktor <- cut(oz$TESTH, breaks = c(50, 80, 110, 130), + labels = c("kicsi", "közepes", "nagy")) > ozmodkat <- lm(TOMEG ~ SEX + TESTH + TESTHfaktor, data = oz) > anova(ozmodkat) Analysis of Variance Table Response: TOMEG Df Sum Sq Mean Sq F value Pr(>F) SEX 1 162 162 32.76 9.8e-08 *** TESTH 1 5120 5120 1036.71 < 2e-16 *** TESTHfaktor 2 74 37 7.49 9e-04 *** Residuals 106 524 5 --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Az új faktor hatása szignifikáns, ami igazolta azt a gyanúnkat, hogy linearitási problémáról van szó. Nézzük meg a reziduum-becsült érték szórásdiagramot (11.12. (b) ábra): > plot(ozmodkat, 1, pch = 20) Láthatóan megszűnt a linearitási probléma.
11.6.2.
Kiugró és torzító pontok
Általánosságban elmondhatjuk, hogy ugyanazok érvényesek itt is, mint a regressziószámításban (9.10. fejezet). A hatóerő számítása a vetítő mátrixból (H) történik. Bebizonyítható, hogy az i-edik megfigyelés hatóereje éppen egyenlő a vetítő mátrix főátlójában álló i-edik értékkel. A hatóerőt (hat value) – hi – a hatvalues() függvénnyel számíthatjuk ki R-ben. Tulajdonságai: ¯ = p/n, ahol p a paraméterek, n a megfigyelések • Az átlagos hatóerő: h száma. • A hatóerők 1/n és 1 közé esnek.
11.7. Modellválasztás (a)
363
(b)
8 ●
6
●
●
● ●● ●
0 −2 −4
● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ●●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ●
●
●● ● ●
● ●
●
−6 0
5
10
15
4
70
●
5883 ●
2
●
● ●● ●
●
●● ●
●
25
0
Fitted values
5
●
●
●● ● ● ●● ● ● ● ●
−4
55
● ●
● ●● ●● ●
●
● ●● ● ● ● ● ● ●
●●
0 −2
●
20
●
6 Residuals
Residuals
4 2
8
70
83 ● ●
10
● ● ●
● ● ●
●
● ● ● ●● ● ● ● ● ● ● ●●
●
●
● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●
15
20
25
30
Fitted values
11.12. ábra. A reziduumok a becsült értékek függvényében a testhossz-kategóriák nélkül (a), és a testhossz-kategóriákkal (b) illesztett modellek esetén
• Egyszerű lineáris regresszió esetén a hatóerő az X értékek átlagától mért távolságot méri (ld. 283. oldal): hi =
1 (xi − x ¯)2 . + Pn ¯)2 n j=1 (xj − x
• Többszörös regresszió esetén az X-ek átlagvektorától való távolságot méri. Arra nézve, hogy mikor tekinthetünk egy hatóerőt jelentősnek, nincs egzakt szabály. Általában azt mondhatjuk, hogy akkor kell odafigyelni, ha értéke meghaladja az átlagos hatóerő kétszeresét, azaz hi > 2 · p/n. Sajnos nagy minták esetén ez a szabály nem igazán működik. Torzító pont esetén vele és nélküle is tanácsos illeszteni a modellt – publikáció esetén ez általában elvárás. Így egyszerűen követhető a torzító pont hatása.
11.7.
Modellválasztás
Előfordulhat – exploratív, előkészítő elemzés (vagy rosszul tervezett vizsgálat!) esetén –, hogy bizonytalanok vagyunk abban, hogy mely változókat vonjuk be a modellbe. A következőkben felsorolt eljárások és kritériumok ilyen esetekben segíthetnek. Mindig van egy „legbővebb” (keret- vagy referencia-) modell, amelyik az összes reménybeli magyarázó változót tartalmazza (beleértve a szóba jöhető hatványaikat és interakcióikat is). Így minden potenciális modell úgy tekinthető, mint ennek a legbővebb modellnek a leszűkítése.
Példák listája 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. 3.8. 3.9. 3.10. 4.1. 4.2. 4.3. 4.4. 4.5. 4.6. 4.7. 4.8. 4.9. 4.10. 4.11. 4.12.
Véletlen számok mintavételhez . . . . . . . . . . . . . . . . . Matek osztályzatok – gyakorisági táblázat . . . . . . . . . . Testtömeg-index kiszámítása R-rel . . . . . . . . . . . . . . Studentizált értékek kiszámítása R-rel . . . . . . . . . . . . Rangok kiszámítása R-rel . . . . . . . . . . . . . . . . . . . Elsőéves hallgatók testmagassága – kiugró értékek . . . . . Relatív kockázat és esélyhányados kapcsolata . . . . . . . . Kockadobás . . . . . . . . . . . . . . . . . . . . . . . . . . . Hányadik dobásra jön ki először fej . . . . . . . . . . . . . . Balkezesek száma – hipergeometrikus eloszlás . . . . . . . . Balkezesek száma – hipergeometrikus eloszlás, dhyper() függvény . . . . . . . . . . . . . . . . . . . . . . . Balkezesek száma – binomiális eloszlás . . . . . . . . . . . . Balkezesek száma – binomiális eloszlás, dbinom() függvény Hipergeometrikus eloszlás közelítése binomiálissal . . . . . . Percenkénti hívásszámok a mentőknél – Poisson-eloszlás . . Számolás eloszlásfüggvényekkel . . . . . . . . . . . . . . . . Kocák alomszáma – gyakoriságtáblázat és oszlopdiagram . . Inszeminálások száma – gyakoriságtáblázatok és diagramok Kontingencia tábla . . . . . . . . . . . . . . . . . . . . . . . Regressziós kurzus hallgatóinak adatai – szórásdiagramok . Regressziós kurzus hallgatóinak adatai – boxplot és átlag ± szórás . . . . . . . . . . . . . . . . . . . . . . . . Átlagszámítás . . . . . . . . . . . . . . . . . . . . . . . . . . Súlyozott átlag kiszámítása . . . . . . . . . . . . . . . . . . Trimmelt átlag kiszámítása . . . . . . . . . . . . . . . . . . Variancia kiszámítása . . . . . . . . . . . . . . . . . . . . . . Medián abszolút eltérés (MAD) kiszámítása . . . . . . . . . Szarvasmarhák testtömege – szórás és relatív szórás . . . . . Elsőéves hallgatók testmagassága – kvartilisek . . . . . . . . 439
. . . . . . . . . .
. . . . . . . . . .
30 36 40 44 45 49 59 61 62 69
. . . . . . . . . .
. . . . . . . . . .
70 71 73 73 76 81 88 89 98 100
. . . . . . . .
. . . . . . . .
102 105 106 108 110 112 113 114
Irodalomjegyzék 7.7. 7.8. 7.9. 7.10. 7.11. 7.12. 7.13. 7.14. 7.15. 7.16. 7.17. 7.18. 7.19. 8.1. 8.2. 8.3. 8.4. 9.1. 9.2. 9.3. 9.4. 9.5. 9.6. 9.7. 9.8. 9.9. 9.10. 9.11. 9.12. 9.13. 9.14. 9.15. 9.16. 9.17. 9.18. 9.19. 9.20.
Kutyák daganatai – függetlenség esetén várt gyakoriságok Kutyák daganatai – khi-négyzet-próba R-rel . . . . . . . . Kutyák daganatai – khi-négyzet-próba papíron számolva . Kutyák daganatai – Fisher-féle egzakt próba R-rel . . . . Szabályos-e az érme – próbák R-rel . . . . . . . . . . . . . Valószínűségek összehasonlítása . . . . . . . . . . . . . . . Elnökjelöltek televíziós vitája – McNemar-próba . . . . . . Elléstől az ovulációig eltelt idő – előjelpróba . . . . . . . . Elléstől az ovulációig eltelt idő – Mood-féle mediánpróba . Vásárlások egy boltban – Wilcoxon-féle előjeles rangpróba Reakcióidő megnövekedése – Wilcoxon-próba . . . . . . . Vérszegénység kezelése – Mann–Whitney-próba . . . . . . Pipacsok számlálása – Kruskal–Wallis-próba . . . . . . . . Regressziós kurzus – szórásdiagram és korrelációs együttható . . . . . . . . . . . . . . . . . . . Regressziós kurzus – a korrelációs együtthatóra vontakozó próba . . . . . . . . . . . . . . . . . . . . . . . . Elsőéves hallgatók – monoton, nemlineáris korreláció . . . Regressziós kurzus – monoton, nemlineáris korreláció tesztelése . . . . . . . . . . . . . . . . . . . . . . Mérési módszerek összehasonlítása . . . . . . . . . . . . . Regressziós kurzus – egyszerű lineáris regresszió . . . . . . Regressziós kurzus – summary() . . . . . . . . . . . . . . . Regressziós kurzus – konfidencia- és predikciós sáv . . . . Regressziós kurzus – origón átmenő regresszió . . . . . . . Széki lilék – II-es modell regreszió . . . . . . . . . . . . . . Regressziós kurzus – szórásdiagram-mátrix . . . . . . . . . Regressziós kurzus – többszörös lineáris regresszió 1 . . . . Regressziós kurzus – többszörös lineáris regresszió 2 . . . . Őzek – parciális korreláció . . . . . . . . . . . . . . . . . . Őzek – multikollinearitás . . . . . . . . . . . . . . . . . . . Súlyozott regresszió . . . . . . . . . . . . . . . . . . . . . . Standardizált jackknife-reziduumok . . . . . . . . . . . . . Torzító pontok detektálása . . . . . . . . . . . . . . . . . . Logaritmikus összefüggés . . . . . . . . . . . . . . . . . . . Csibék – exponenciális összefüggés . . . . . . . . . . . . . Csibék – korrelált exponenciális illesztés . . . . . . . . . . Őzek – hatványfüggvény-összefüggés . . . . . . . . . . . . Őzek – telítődési görbe illesztés . . . . . . . . . . . . . . . Csibék – logisztikus görbe . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . .
441 . . . . . . . . . . . . .
. . . . . . . . . . . . .
215 215 216 217 221 223 226 228 229 232 234 236 239
. . . 243 . . . 245 . . . 246 . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
247 252 255 258 260 262 264 266 268 271 273 275 279 286 288 294 295 297 298 303 306
Tárgymutató I-es modell 251 I. típusú négyzetösszeg 370 II-es modell 251, 252, 263 II. típusú négyzetösszeg 370
aov() 314, 316, 323, 369 apropos() 394 arány- (abszolút) skála 35, 37 array() 403 as.factor() 38, 341 as.matrix() 400 assign() 390 asszociáció 117 asszociációs együttható 117 aszimptotikus (tulajdonság) 137 aszimptotikus normalitás 131, 140, 144, 145 aszimptotikus pivot 143 aszimptotikus próba 170 aszimptotikus torzítatlanság 137, 139, 140, 144 átlag 17, 19, 49, 67, 77, 97, 105, 113, 123, 145, 157 geometriai 108 súlyozott 105 trimmelt 107, 135 átlagbecslés 346 átlagmodell 342, 345 átlagok közötti különbség 310 átlagos abszolút eltérés (MAD) 111, 133 átlagos négyzetes eltérés 133, 135 átlagra való hatás 310
A, Á abline() 255, 264 abszolút (arány) skála 90 abszolút (arány-) skála 35, 38 abszolút eltérés 110 adatmátrix 33, 116 adatpótlás (imputálás) 47 adatstruktúra csoportos 281 ismételt méréses 281 aggregált eloszlás 50 AIC 365, 366, 369 Akaike-kritérium 365 állandó hiba variancia 360 alsó határ 178 alsó kvartilis 109, 114 általános lineáris hipotézis 375 általános lineáris modell 339 általánosíthatóság 338 alternatív hipotézis 151, 156 ANCOVA 323, 339, 347 ANOVA 202, 339, 355, 374 Anova() 370 anova() 257, 355, 356, 365, 368 ANOVA-modell 370 ANOVA-tábla 315, 316
B Bartlett-próba 206, 315 443