LINEÁRIS REGRESSZIÓ (I. MODELL) ÉS KORRELÁCIÓ FELADATOK 2004 november 29. 1.) Lisztbogarak súlyvesztése 9 lisztbogár-csapat súlyát megmérték, (mindegyik 25 bogárból állt, mert egyenként túl kis súlyúak lettek volna a bogarak). 6 napig éheztették őket a kísérletező által beállított különböző páratartalmú dobozokban, majd újból lemérték őket. (A súlyveszteség jó közelítéssel normál-eloszlású és azonos varianciájú az adott páratartalomtartományban.)
Vizsgáljuk a súlyveszteség és a páratartalom közötti kapcsolatot! Páratart 0 12 29,5 43 53 62,5 75,5 85 93
Súlyveszt 8,98 8,14 6,67 6,08 5,90 5,83 4,68 4,20 3,72
2.) Intrinsic hart rate és az életkor kapcsolata 40 különböző korú személyt választottak ki a kísérlet céljára, úgy hogy 17-től 69 évesig nagyjából egyenletesen legyen mindenféle életkorú. Mérték az „intrinsic hart rate”-et vagyis a pulzust szimultán szimpatikus és paraszimpatikus blokád mellett. (Az IHR jó közelítéssel normáleloszlású és azonos varianciájú az adott életkor-tartományban.) Milyen az IHR és az életkor kapcsolata?
életkor
IHR 17 17 17 17 18 18 19 19 22 23 25 26 26 27 30 31 32 33 34 35 36 39 40 40 41 42 42 43 44 45 46 47 52 54 57 58 61 68 69 69
120 120 100 118 100 120 106 98 107 100 115 108 102 105 100 100 102 103 102 90 90 109 90 102 89 90 95 100 103 106 116 115 100 90 78 84 72 78 72 92
3.) Szérum transzferrin és coeruloplasmin-szint összefüggése Se. tran. 22 30 60 66 109 133 138 150 158 158 160 175 196 203 218 240 245 246 254 254 287 290 302 318 321 336 360 371 392 413 420 452 459 498
Se. cor. 10 60 11 22 22 14 20 34 30 83 42 38 60 71 41 47 108 38 59 70 52 66 31 50 81 92 47 85 80 96 120 100 149 128
34 random kiválasztott újszülöttön mérték a szérum transzferrin és a coeruloplasminszintet (g/cl). (Mindkét változó normál elo.) Mit mondhatunk a két változó összefüggéséről?
4.) Drozi tömeg vs denzitás Dosophila persimilisen vizsgálták a lárvakori denzitás és a felnőttkori testtömeg kapcsolatát. (A lárvakori denzitást a kísérletező állította be, a testtömeg normálelo. a vizsgált denzitástartományban.) Dens. 1 3 5 6 10 20 40
Tömeg 1,356 1,356 1,284 1,252 0,989 0,664 0,475
5.) Lárvaperiódus hossza (napok) vs hőmérséklet (Farenheit) (A hőmérsékletet a kísérletező állította be, a lárvaperiódus hossza normálelo. a vizsgált hőmérséklet -tartományban.) T
E 0 4 10 18 26 43
24,9 23,4 24,2 18,7 15,2 13,7
6.) Heritabilitás Zab 8 zabnövényt véletlenszerűen poroztak be, majd mérték a „fül” hosszát az anyanövényen illetve az utódnövények átlagos fülhosszát mm-ben. Becsüljük a heritabilitást! Milyen bizonyossággal állíthatjuk, hogy van a populációban (additív) genetikai változatosság a fülhosszra nézve? Anyanövény Utódok átl. 60 91 79 98 82 108 85 104 88 99 95 102 96 96 99 111
7.) Kétféle szérum-kalcium meghatározás kapcsolata 30 vérszérumból 2-2 mintát vettek és kétféle módszerrel meghatározták a kalciumtartalmat. (atomabsz. spektrofotom. és komplexom.) Milyen a kétféle mérési módszer által adott koncentrációadatok közötti kapcsolat? AAS 2,15 2,20 2,30 2,53 2,15 2,43 2,43 2,73 3,03 2,75 1,95 2,00 2,30 2,53 2,55 2,83 2,45 2,40 2,30 2,68 2,13 2,28 2,78 2,23 2,08 2,33 2,55 2,75 2,58 2,23
Kompl 2,18 2,20 2,30 2,45 2,20 2,40 2,43 2,75 2,98 2,80 2,00 2,00 2,28 2,50 2,55 2,83 2,48 2,38 2,30 2,70 2,13 2,35 2,75 2,25 2,08 2,33 2,55 2,70 2,60 2,23
8.) Heritabilitás bábsúly Egy rovarfaj 6 hímjének mérték a bábállapotbeli súlyát, majd véletlenszerűen kiválasztott nőstényekkel párosítva őket az utódok átlagos bábsúlyát is mérték (mg). Becsüljük a heritabilitást! Milyen bizonyossággal állíthatjuk, hogy van a populációban (additív) genetikai változatosság a bábsúlyra nézve?
Apa 2,0 2,3 2,4 2,5 2,5 2,2
Utód átl. 2,2 2,1 2,3 2,4 2,2 2,2
9.) Ikrek IQ 10-10 egypetéjű ill kétpetéjű ikerpárt választottak véletlenszerűen és IQ tesztet készítettek velük. Interpretáljuk az eredményeket! Kétpetéjű Kétpetéjű 96 100 103 110 120 115 91 88 98 92 103 102 107 98 112 105 102 99 101 94 Egypetéjű Egypetéjű 110 98 110 106 100 91 97 90 112 105 121 110 101 88 96 86 104 95 107 98
Megoldások: 1.) Mivel a páratartalom a kísérletező által kontrollált, gyakorlatilag hiba nélkül mért és beállított, nem normális eloszlású független változó a két változó kapcsolatának vizsgálatára a lineáris regresszió I. modellje a megfelelő. H0: β = 0 (A regressziós egyenes meredeksége nem tér el szignifikánsan a 0-tól, a minta egy olyan alapsokaságból származik, ahol nincs lineáris kapcsolat a két változó között. A mintából becsült b csupán a mintavételi hiba, a véletlen ingadozás miatt tér el 0-tól.) A Graphpad Instat program segítségével a regresszió-számítás és a hipotézisvizsgálat: b = -0,05322; a = 8,704;
95% os konf int: [-0,06092, -0,04552] a meredekség 95% os konf int: [8,251, 9,157] a tengelymetszet
Az regresszió ANOVÁ-ja szerint: P<0.0001; ez azt jelenti, hogy H0 fennállása esetén a mintavételi hiba kevesebb mint az esetek tízezred részében okozná, hogy a mintából becsült b ennyire vagy ennél jobban eltérjen a 0-tól. A függő változó (súlyveszt.) varianciájának jelentős része a regresszióból adódik Tehát az egyenes meredeksége extrém szignifikánsan eltér 0-tól, (ilyen nagy eltérést csupán a véletlen nagyon ritkán okozna) H0-t elvetjük, a két változó között erős negatív irányú lineáris kapcsolatot találtunk. 2.) Mivel az életkor a kísérletező által kontrollált, gyakorlatilag hiba nélkül mért és beállított, nem normális eloszlású független változó a két változó kapcsolatának vizsgálatára a lineáris regresszió I. modellje a megfelelő. H0: β = 0 (A regressziós egyenes meredeksége nem tér el szignifikánsan a 0-tól, a minta egy olyan alapsokaságból származik, ahol nincs lineáris kapcsolat a két változó között. A mintából becsült b csupán a mintavételi hiba, a véletlen ingadozás miatt tér el 0-tól.) A Graphpad Instat program segítségével a regresszió-számítás és a hipotézisvizsgálat: b = -0,5621; a = 120,46;
95% os konf int: [-0,7508, -0,3733] 95% os konf int: [112,90, 128,01]
a meredekség a tengelymetszet
Az regresszió ANOVÁ-ja szerint: P<0.0001; ez azt jelenti, hogy H0 fennállása esetén a mintavételi hiba kevesebb mint az esetek tízezred részében okozná, hogy a mintából becsült b ennyire vagy ennél jobban eltérjen a 0-tól. A függő változó (IHR) varianciájának jelentős része a regresszióból adódik. Tehát az egyenes meredeksége extrém szignifikánsan eltér 0-tól, (ilyen nagy eltérést csupán a véletlen nagyon ritkán okozna) H0-t elvetjük, a két változó között erős negatív irányú lineáris kapcsolatot találtunk. 3.) Mivel mindkét változó normális eloszlású független változó, nem állnak ok-okozat viszonyban a két változó kapcsolatának vizsgálatára a korrelációszámítás a megfelelő.
H0: ρ = 0 (A minta egy olyan alapsokaságból származik, ahol nincs lineáris korreláció a két változó között. r, a korreláció becsült értéke, csupán a mintavételi hiba, a véletlen ingadozás miatt tér el 0 -tól.) A Graphpad Instat program segítségével a korreláció-számítás és a hipotézisvizsgálat: r = 0,7841, 95%-os konf. int. : [0,6067, 0,8871] P<0,0001 A becsült r szignifikánsan eltér a 0-tól, ez azt jelenti, hogy H0 fennállása esetén a mintavételi hiba kevesebb mint az esetek tízezred részében okozná, hogy a mintából becsült r ennyire vagy ennél jobban eltérjen a 0-tól. Az, hogy a konf. int. alsó határa messze van a 0-tól, szintén azt mutatja r nem csak a véletlen miatt tér el a 0-tól. Tehát r nagyon szignifikánsan eltér a 0-tól (ilyen nagy eltérést csupán a véletlen nagyon ritkán okozna), H0-t elvetjük. A két változó között erős pozitív irányú lineáris korrelációt találtunk. 4.) Mivel a denzitás a kísérletező által kontrollált, gyakorlatilag hiba nélkül mért és beállított, nem normális eloszlású független változó a két változó kapcsolatának vizsgálatára a lineáris regresszió I. modellje a megfelelő. H0: β = 0 (A regressziós egyenes meredeksége nem tér el szignifikánsan a 0-tól, a minta egy olyan alapsokaságból származik, ahol nincs lineáris kapcsolat a két változó között. A mintából becsült b csupán a mintavételi hiba, a véletlen ingadozás miatt tér el 0-tól.) A Graphpad Instat program segítségével a regresszió-számítás és a hipotézisvizsgálat: b = -0,02462; a = 1,353;
95% os konf int: [-0,03400, -0,01525] a meredekség 95% os konf int: [1,188, 1,518] a tengelymetszet
Az regresszió ANOVÁ-ja szerint: P<0.0011; ez azt jelenti, hogy H0 fennállása esetén a mintavételi hiba kevesebb mint az esetek kb. ezred részében okozná, hogy a mintából becsült b ennyire vagy ennél jobban eltérjen a 0-tól. A függő változó (testtömeg) varianciájának jelentős része a regresszióból adódik. Tehát az egyenes meredeksége nagyon szignifikánsan eltér 0-tól, (ilyen nagy eltérést csupán a véletlen nagyon ritkán okozna) H0-t elvetjük, a két változó között erős negatív irányú lineáris kapcsolatot találtunk.
5.) Mivel a hőmérséklet a kísérletező által kontrollált, gyakorlatilag hiba nélkül mért és beállított, nem normális eloszlású független változó a két változó kapcsolatának vizsgálatára a lineáris regresszió I. modellje a megfelelő. H0: β = 0 (A regressziós egyenes meredeksége nem tér el szignifikánsan a 0-tól, a minta egy olyan alapsokaságból származik, ahol nincs lineáris kapcsolat a két változó között. A mintából becsült b csupán a mintavételi hiba, a véletlen ingadozás miatt tér el 0-tól.) A Graphpad Instat program segítségével a regresszió-számítás és a hipotézisvizsgálat: b = -0,2887; a = 24,877;
95% os konf int: [-0,4250, -0,1524] 95% os konf int: [21,847, 27,906]
a meredekség a tengelymetszet
Az regresszió ANOVÁ-ja szerint: P<0.0042; ez azt jelenti, hogy H0 fennállása esetén a mintavételi hiba kevesebb mint az esetek fél százalékában okozná, hogy a mintából becsült b ennyire vagy ennél jobban eltérjen a 0-tól. A függő változó (lárvaperiódus hossza) varianciájának jelentős része a regresszióból adódik. Tehát az egyenes meredeksége nagyon szignifikánsan eltér 0-tól, (ilyen nagy eltérést csupán a véletlen nagyon ritkán okozna) H0-t elvetjük, a két változó között erős negatív irányú lineáris kapcsolatot találtunk. 6.) A heritabilitás becslésére kiszámítjuk az utódok átlagának regresszióját az egyik szülőn majd szorozzuk 2-vel. H0: β = 0 (A regressziós egyenes meredeksége nem tér el szignifikánsan a 0-tól, a minta egy olyan alapsokaságból származik, ahol nincs lineáris kapcsolat a két változó között. A mintából becsült b csupán a mintavételi hiba, a véletlen ingadozás miatt tér el 0-tól.) A Graphpad Instat program segítségével a regresszió-számítás és a hipotézisvizsgálat: b = 0,3067; a = 74.904;
95% os konf int: [-0,1140, 0,7273] 95% os konf int: [38,603, 111,21]
a meredekség a tengelymetszet
Az regresszió ANOVÁ-ja szerint: P = 0.1247; ez azt jelenti, hogy H0 fennállása esetén a mintavételi hiba gyakran, kb. esetek 12%-ban okozná a mintából becsült b ekkora vagy nagyobb eltérését a 0-tól. A függő változó (utódok átlaga) varianciájának jelentéktelen része adódik csak a regresszióból. Tehát az egyenes meredeksége nem tér el 0-tól szignifikánsan, (a szóráshoz képest ilyen kicsi eltérést csupán a véletlen is gyakran okoz) H0-t megtartjuk, a két változó között nem találtunk lineáris kapcsolatra utaló evidenciát. (Nem állíthatjuk, hogy biztosan nincs lineáris kapcsolat, csak azt, hogy az adott mintából becsült statisztikák nincsenek ellentmondásban H0-lal, nem szolgálnak bizonyítékul arra, hogy van lineáris kapcsolat.) Az hogy a b-re vonatkozó konf. int. magában foglalja a 0-t, ugyanezt jelenti. A heritabilitásra kapott becslés: h2 = 2 bOP = 0,6, de ez egy nagyon bizonytalan (pontatlan) becslés, a konf. int. [-0,3, 1,5] magában foglalja h2 egész biológiai szempontból értelmes tartatományát, a [0,1]-et. Mivel bOP nem különbözött szignifikánsan a 0-tól, természetesen h2–
re ugyanez igaz, tehát nem találtunk arra nézve semmilyen bizonyítékot, hogy a populációban van genetikai változatosság. H0-t elfogadjuk, vagyis azt, hogy a populáció egyedei közötti különbség a „fülhossz”-ban csak környezeti okokra vezethető vissza, nincsenek genetikai különbségek e jelleg tekintetében. Pontosabb becsléshez csak nagyobb mintából juthatunk. 7.) Mivel mindkét változó normális eloszlású független változó, nem állnak ok-okozat viszonyban a két változó kapcsolatának vizsgálatára a korrelációszámítás a megfelelő. H0: ρ = 0 (A minta egy olyan alapsokaságból származik, ahol nincs lineáris korreláció a két változó között. r, a korreláció becsült értéke, csupán a mintavételi hiba, a véletlen ingadozás miatt tér el 0 -tól.) A Graphpad Instat program segítségével a korreláció-számítás és a hipotézisvizsgálat: r = 0,9931, 95%-os konf. int. : [0,9854, 0,9967] P<0,0001 A becsült r extrém szignifikánsan eltér a 0-tól, ez azt jelenti, hogy H0 fennállása esetén a mintavételi hiba kevesebb mint az esetek tízezred részében okozná, hogy a mintából becsült r ennyire vagy ennél jobban eltérjen a 0-tól. Az, hogy a konf. int. alsó határa messze van a 0-tól, szintén azt mutatja r nem csak a véletlen miatt tér el a 0-tól. Tehát r nagyon szignifikánsan eltér a 0-tól (ilyen nagy eltérést csupán a véletlen nagyon ritkán okozna), H0-t elvetjük. A két változó között erős pozitív irányú lineáris korrelációt találtunk. (Ez el is várható kétféle mérési módszer esetén.) 8.) A heritabilitás becslésére kiszámítjuk az utódok átlagának regresszióját az egyik szülőn majd szorozzuk 2-vel. H0: β = 0 (A regressziós egyenes meredeksége nem tér el szignifikánsan a 0-tól, a minta egy olyan alapsokaságból származik, ahol nincs lineáris kapcsolat a két változó között. A mintából becsült b csupán a mintavételi hiba, a véletlen ingadozás miatt tér el 0-tól.) A Graphpad Instat program segítségével a regresszió-számítás és a hipotézisvizsgálat: b = 0,2478; a = 1,659;
95% os konf int: [-0,4059, 0,9015] 95% os konf int: [0,1405, 3,178]
a meredekség a tengelymetszet
Az regresszió ANOVÁ-ja szerint: P = 0,3520; ez azt jelenti, hogy H0 fennállása esetén a mintavételi hiba gyakran, kb. esetek 35%-ban okozná a mintából becsült b ekkora vagy nagyobb eltérését a 0-tól. A függő változó (utódok átlaga) varianciájának jelentéktelen része adódik csak a regresszióból. Tehát az egyenes meredeksége nem tér el 0-tól szignifikánsan, (a szóráshoz képest ilyen kicsi eltérést csupán a véletlen is gyakran okoz) H0-t megtartjuk, a két változó között nem találtunk lineáris kapcsolatra utaló evidenciát. (Nem állíthatjuk, hogy biztosan nincs lineáris kapcsolat, csak azt, hogy az adott mintából becsült statisztikák nincsenek
ellentmondásban H0-lal, nem szolgálnak bizonyítékul arra, hogy van lineáris kapcsolat.) Az hogy a b-re vonatkozó konf. int. magában foglalja a 0-t, ugyanezt jelenti. A heritabilitásra kapott becslés: h2 = 2 bOP = 0,5, de ez egy nagyon bizonytalan (pontatlan) becslés, a konf. int. [-0,8, 1,8] magában foglalja h2 egész biológiai szempontból értelmes tartatományát, a [0,1]-et. Mivel bOP nem különbözött szignifikánsan a 0-tól, természetesen h2– re ugyanez igaz, tehát nem találtunk arra nézve semmilyen bizonyítékot, hogy a populációban van genetikai változatosság. H0-t elfogadjuk, vagyis azt, hogy a populáció egyedei közötti különbség a bábsúlyban csak környezeti okokra vezethető vissza, nincsenek genetikai különbségek e jelleg tekintetében. Pontosabb becsléshez csak nagyobb mintából juthatunk. 9.) Mivel mindkét változó normális eloszlású független változó, nem állnak ok-okozat viszonyban a két változó kapcsolatának vizsgálatára a korrelációszámítás a megfelelő. (Megj: az ikerpár 2 tagja megkülönböztethetetlen, nem egyértelmű melyiküket írjuk a bal- ill. jobboldali oszlopba, ezért a feladat nem teljesen analóg a szokásos korrelációszámítással, mert nincs két világosan megkülönböztethető változónk. De ez nem baj, az ikerpárok teljesítményének asszociáltságát, átlagtól való eltérésének egyirányúságát jól méri a korreláció.) H0: ρ = 0 (A minta egy olyan alapsokaságból származik, ahol nincs lineáris korreláció a két változó között. r, a korreláció becsült értéke, csupán a mintavételi hiba, a véletlen ingadozás miatt tér el 0 -tól.) A Graphpad Instat program segítségével a korreláció-számítás és a hipotézisvizsgálat: A kétpetéjűekre: r = 0,8067, 95%-os konf. int. : [0,3596, 0,9525]
P = 0,0048
Az egypetéjűekre: r = 0,9467, 95%-os konf. int. : [0,7849, 0,9876]
P < 0,0001
Mindkét esetben a becsült r nagyon szignifikánsan eltér a 0-tól, ez azt jelenti, hogy H0 fennállása esetén a mintavételi hiba kevesebb mint az esetek fél százalékában ill. tízezred részében okozná, hogy a mintából becsült r ennyire vagy ennél jobban eltérjen a 0-tól. Az, hogy a konf. int. alsó határa messze van a 0-tól, szintén azt mutatja r nem csak a véletlen miatt tér el a 0-tól. Mindkét esetben r nagyon szignifikánsan eltér a 0-tól (ilyen nagy eltérést csupán a véletlen nagyon ritkán okozna), H0-t elvetjük. A két változó között erős pozitív irányú lineáris korrelációt találtunk. Az egypetéjűek közötti erősebb korreláció azt mutatja, hogy a közös környezeten (neveltetésen) kívül öröklött tényezők is befolyásolják az IQ-t.