Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió ´ Werner Agnes ´ oki ¨ es ´ Informaci ´ os ´ Rendszerek Tanszek ´ Villamosmern
e-mail:
[email protected]
SZDT-08 – p. 1/31
Korrelációszámítás
SZDT-08 – p. 2/31
Alapok • többváltozó mérése ugyanazokon a mintavételi egységeken • felmerülo˝ kérdések: ◦ van-e valamilyen összefüggés, kapcsolat a változók ◦ ◦ ◦ ◦
között? ha van, akkor hogyan lehet leírni azt a kapcsolatot? meg lehet-e jósolni egyik változó ismeretében egy másik valószínu˝ értékét? hogyan lehet kiválogatni azokat a változókat, amelyek segítségével az adathalmazban rejlo˝ információ nagy része leírható? stb.
SZDT-08 – p. 3/31
Alapok Korrelációszámítás: két vagy több változó szimmetrikus kapcsolatával foglalkozik. ˝ A változók közötti kapcsolat erosségét vizsgálja A számítások mindig mennyiségi (vérnyomás, vércukor stb.) és ˝ nem minoségi adatokra vonatkoznak Szóródási diagramok (scatterplot):
SZDT-08 – p. 4/31
´ korrelaci ´ os ´ vagy Pearson-fele ´ egyutthat Linearis o´ ¨ PN
i=1 (xi
− x) × (yi − y) r = qP PN N 2 2 (x − x) × (y − y) i i i=1 i=1
r tulajdonságai:
• értéke a −1,1 intervallumban helyezkedik el
• −1 esetén negatív, +1 esetén pozitív korrelációról
beszélünk
• ha az r = 0, akkor a vizsgált 2 változó kapcsolatát
korrelálatlannak nevezzük
SZDT-08 – p. 5/31
Feladat Egy véletlen mintát tekintünk egy populációból. Számítsuk ki a korrelációs együttható értékét a csoport ˝ résztvevoinek testtömege és születéskori testtömege között! Készítsünk szóródásdiagramot az összefüggések tanulmányozására! Kiindulási adatok (korrelacio1.sta):
SZDT-08 – p. 6/31
Feladat ˝ Felnottkori testömeg-születéskori testtömeg szórásdiagram. Egy pont egy megfigyelési egység (egy személy).
SZDT-08 – p. 7/31
Feladat Korrelációs együttható számítása:
SZDT-08 – p. 8/31
´ os ´ egyutthat ´ Korrelaci o´ szignifikanciaja ¨ A korrelációs együttható számításánál is vegyük figyelembe, hogy a számítást egy minta alapján végezzük, de az eredményt az egész populációra akarjuk érvényesíteni. Ha vesszük az X és Y változók összes populációbeli N számú mintáját (kétváltozós sokaság), feltételezzük róla a kétváltozós normális eloszlást. A normális eloszlás korrelációját az elméleti korrelációs együttható méri (p ∈ [−1, 1]). A mintából mehatározott r ennek a p-nek a becslése. Az r eloszlása nem szimmetrikus eloszlás, a p-t a −1,0,1 értékek kivételével csak jól közelíti.
SZDT-08 – p. 9/31
´ os ´ egyutthat ´ Korrelaci o´ szignifikanciaja ¨ ˝ Az r szignifikanciaszintjének ellenorzéséhez t-statisztikát használunk: q N −2 t = r × 1−r 2 Szignifikáns eltérés esetén a H0 : p = 0 hipotézist elvetjük, és az r értékét valós kapcsolatnak tekintjük. A p 6= 0 hipotézis tesztelésénél az r eloszlása asszimmetrikus, használhatjuk a Fischer-féle z transzformációt, amivel normális eloszlást kapunk: z = 21 ln( 1+r 1−r )
SZDT-08 – p. 10/31
´ os ´ egyutthat Korrelaci o´ konfidenciaintervalluma ¨ A z értékét a korrelációs együttható konfidenciaintervallumának a meghatározására is felhasználhatjuk, amely 5%-os szignifikanciaszinten: √1,96 z = z + zA = z − √1,96 F N −3 N −3 Az adatokat visszatranszformálva kapjuk az rA és rB értékeket: e2×ZF −1 e2×ZA −1 rF = e2×ZF +1 rA = e2×ZA +1 ˝ Feladat: A 40-70 év közötti lakosság szur ˝ ovizsgálata során a systolés vérnyomást is mérték, amelynek adati rendelkezésre állanak (lásd systoles1.sta fájl). Vizsgáljuk meg a kor és a systolés érték kapcsolatát, határozzuk meg a változók között az r értékét (a mintából meghatározott korrelációs együtthatót)!
SZDT-08 – p. 11/31
Feladathoz 1
Az Excel tábla kezelheto˝ a Statistics programon belül. Egészítsük ki a táblázatot és végezzük el a szükséges számításokat! SZDT-08 – p. 12/31
Feladathoz 2
Határozzuk meg a korrelációs együtthatót és a t eloszlás értékét! SZDT-08 – p. 13/31
Feladathoz 3
Az 5%-os szinten a hozzá tartozó kritikus érték 2, 2281. Mivel a t érték nagyobb a kritikus értéknél, ezért a korreláció szignifikáns, értékét elfogadjuk.
SZDT-08 – p. 14/31
Feladathoz 4 A korrelációs együttható 95%-os konfidenciaintervalluma: ˝ 1. Eloször meghatározzuk a z értéket. 2. Meghatározzuk az intervallumhatárokat. 3. Visszatranszformálva az alsó és felso˝ értéket kapjuk az r konfidenciaintervallumot.
SZDT-08 – p. 15/31
Feladathoz 5
Tehát az r konfidenciaintervalluma (0,305;0,925). SZDT-08 – p. 16/31
Feladathoz 6 Használjuk a Statistics program Statistics → P robabilityCalculator → Correlations menüpontját
SZDT-08 – p. 17/31
´ korrelaci ´ os ´ egyutthat ´ Ket o´ vizsgalata ¨ Tegyük fel, hogy a vizsgálatot N1 = 22 személlyel is elvégeztük, és r1 = 0, 85 korrelációs értéket kaptunk. Vizsgáljuk meg, hogy a két korrelációs együttható között 5%-os szignifikanciaérték mellett van-e szignifikáns eltérés! • Mindkét értékre kiszámoljuk a Fischer-féle z értéket: z1 z2
SZDT-08 – p. 18/31
´ korrelaci ´ os ´ egyutthat ´ Ket o´ vizsgalata 2 ¨ • A szórások eltérése: q 1 N1 −3
σz1 −z2 =
+
1 N2 −3
=
q
1 22−3
+
1 12−3
= 0, 405
• Megvizsgáljuk , hogy a két minta átlagai nem térnek el
szignifikánsan egymástól: 1,256−1,03 2 z = σzz1 −z = = 0, 56 0,405 −z 1
2
Mivel a z -re igaz a −1, 96 ≤ z ≤ 1, 96 reláció, ezért a H0 hipotézist megtartjuk: az r1 = 0, 85 és r2 = 0, 744 korrelációs együtthatók szignifikánsan nem térnek el.
SZDT-08 – p. 19/31
Regressziószámítás
SZDT-08 – p. 20/31
´ regresszio´ Alapok, Linearis • a változók közötti sztochasztikus kapcsolatban lévo˝
törvényszeruségeket, ˝ tendenciát igyekszik kifejezni függvények formájában
• cél: a kapcsolatot leíró függvény megadása • pl. a szívinfarktus hogyan magyarázható a testsúly, magas
vérnyomás, dohányzás stb. rizikófaktorok mellett
• felmerülo˝ kérdések: ◦ Van-e bizonyos változók között kapcsolat? ◦ Milyen függvénnyel (lineáris, exponenciális, hatvány
stb.) írható le az összefüggés? ◦ Mi a függo˝ változó várható értéke a független változó egy bizonyos értékéhez?
SZDT-08 – p. 21/31
´ ´ linearis ´ regresszio´ Egyvaltoz os A mérési adatokra az y = a ∗ x + b elméleti regressziós függvényt (egyenest) illesztjük a legkisebb négyzetek módszerével. y a függo˝ változó, x a független változó A pontokra legjobban illeszkedo˝ egyenes megkeresésekor azt az egyenest kell választani, amelynek esetében a megfigyelési ˝ mért átlagos eltérése a adatoknak a regressziós egyenestol legkisebb (yD , a rezidum) ˝ Mérési pontok eltérése a regressziós egyenestol:
SZDT-08 – p. 22/31
´ ´ linearis ´ regresszio´ Egyvaltoz os A független változó (x) értéke pontosan beállítható A függo˝ változó (y ) értéke a méréskor elkövetett hiba (ε) miatt ˝ különbözik a valódi értéktol
SZDT-08 – p. 23/31
´ ´ linearis ´ regresszio´ Egyvaltoz os
SZDT-08 – p. 24/31
´ ´ linearis ´ regresszio´ Egyvaltoz os
SZDT-08 – p. 25/31
´ ´ linearis ´ regresszio´ Egyvaltoz os
SZDT-08 – p. 26/31
´ ´ linearis ´ regresszio´ Egyvaltoz os
SZDT-08 – p. 27/31
´ ´ linearis ´ regresszio´ Egyvaltoz os
SZDT-08 – p. 28/31
´ ´ linearis ´ regresszio´ Egyvaltoz os
SZDT-08 – p. 29/31
´ konfidenciaintervalluma Egyutthat ok ¨ A regressziós együtthatók mintáról mintára változnak. A populáció paraméterei legyenek A és B , ekkor a regressziós együtthatók változó értékeire igaz, hogy M (a) = A M (b) = B Az együtthatók standard hibája: r PN x2i i=1 sa = Re × N ×P N (x −x)2 i=1
és sb = √P N Re
i=1 (xi −x)
i
2
ahol q PN bi )2 i=1 (yi −y Re = N −2 A regressziós együtthatók normális eloszlásúak.
SZDT-08 – p. 30/31
´ konfidenciaintervalluma Egyutthat ok ¨ Az együtthatók konfidenciaintervallumai: b ± tN −2,α × sb és a ± tN −2,α × sa A regressziós együttható b értékének szignifikanciájára vonatkozó statisztika: t = sbb amely N − 2 szabadságfokú t-eloszlást követ. A t statisztikával azt teszteljük, hogy H0 : b = 0
(H1 : b 6= 0).
SZDT-08 – p. 31/31