Lineáris regresszió Életkor (Age) és szisztolés vérnyomás (SBP) Age
SBP
Age
SBP
Age
SBP
22 23 24 27 28 29 30 32 33 35 40
131 128 116 106 114 123 117 122 99 121 147
41 41 46 47 48 49 49 50 51 51 51
139 171 137 111 115 133 128 183 130 133 144
52 54 56 57 58 59 63 67 71 77 81
128 105 145 141 153 157 155 176 172 178 217
• SBP (mm Hg)
SBP = 81.54 + 1.222 ⋅ Age
220
200
180
160
140
120
100
80 20
30
40
50
60
70
80
90
Két folytonos változó kapcsolata (SBP és Age) y y=β0+β1x
x •
A β1 regressziós együttható : – Az x és y közötti kapcsolatot fejezi ki – Mekkora a válozás y értékében, ha x 1 egységnyit változik – Legkisebb négyzetek módszerével becsül
Többszörös lineáris regresszió Egy folytonos változó és folytonos magyarázó változók csoportjának kapcsolata Y = β0 + β1 X1 + β2 X2 + ... + βkXk+ε A βi parciális regressziós együttható: - az a mennyiség, amivel Y változik, ha Xi 1 egységnyit változik, miközben a többi Xi értékét rögzítjük Példa: SBP vs. kor, testsúly, magasság, stb.
Logisztikus regresszió (Logistic regression) Hasznos, ha egy tulajdonság, vagy kimenetel meglétét vagy hiányát szeretnénk „megjósolni” magyarázó változók egy csoportja segítségével. Ekkor a függő változó dichotom. A magyarázó változók Xi csoportja lehet – dichotom (igen/nem) – kategóriális, –folytonos (kor, tömeg, stb...) Az egyváltozós elemzés nem mindig ad helyes kockázat becslést. Az epidemiológiai vizsgálatokban általában több kockázati tényezőt és interakcióit kell figyelembe venni. Ilyen esetekben lehet a logisztikus regressziót használni.
Életkor (kor) és szívkoszorúér (CD) megbetegedésre utaló szimptómák kor
CD
kor
CD
kor
CD
22 23 24 27 28 30 30 32 33 35 38
0 0 0 0 0 0 0 0 0 1 0
40 41 46 47 48 49 49 50 51 51 52
0 1 0 0 0 1 0 1 0 1 0
54 55 58 60 60 62 65 67 71 77 81
0 1 1 1 0 1 1 1 1 1 1
Hogyan lehet ezeket az adatokat elemezni? A beteg és nem beteg nők átlagos életkorának összehasonlítása: Nem beteg: Beteg:
38.6 év 58.7 év (p<0.0001)
Lineáris regresszió?
1,2
1,0
,8
,6
,4
,2
CD
0,0 -,2 20
KOR
30
40
50
60
70
80
90
Miért ne használjunk lineáris regressziót? Sérülnek a feltételek: A hiba tagok varianciái különbözők. Nem normális eloszlásúak. A prediktált valószínűségek nem 0 és 1 közé esnek. A szívoszorúér betegség prevalenciája (%) korcsoportonként Beteg Csoport méret 5
korcsoport 20 -29
száma
%
0
0
30 - 39
6
1
17
40 - 49
7
2
29
50 - 59
7
4
57
60 - 69
5
4
80
70 - 79
2
2
100
80 - 89
1
1
100
A logisztikus függvény valószínűség
11
prevalencia (%)
P ( y x) =
0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0 010
e a + bx 1 + e a + bx
30
50 kor
70
90
A logisztikus regresszió modellje a eZ 1 P(esemény) = = , Z = b0 + b1 X Z 1+ e 1 + e− Z
kifejezésből ered.
Az esemény esetünkben a megbetegedés. Az esemény esélye (odds): P (esemény ) P (esemény) = = eZ P ( nem esemény) 1 − P (esemény)
logit(Y)= ln(odds) =
, így
Y ln = Z = b0 + b1 X . 1− Y
Megjegyzés: Az általános lineáris regresszió: Y = b0 + b1X1 + b2X2 + ... + bkXk+e Az általánosított lineáris modell: Y = g(b0 + b1X1 + b2X2 + ... + bkXk)+e, azaz E(Y) = g(b0 + b1X1 + b2X2 + ... + bkXk) Ha f = g-1 – ezt hívjuk link függvénynek, akkor f(E(Y)) =b0 + b1X1 + b2X2 + ... + bkXk Különböző link függvények lehetségesek.
A logit transzformáció előnyei: • hasonló tulajdonságok, mint lineáris regresszió esetén • a logit ∈ [ − ∞ , ∞ ] • a valószínűség: 0 ≤ P ≤ 1 • Közvetlenül kapcsolatba hozható a betegség esélyével: P ln = β 0 + β 1X 1− P
P = eβ 1− P
0
+ β 1X
β interpretációja: Rizikó faktor (X) Igen nem Igen
P(Y|X=1)
P(Y|X=0)
nem
1-P(Y|X=1)
1-P(Y|1=0)
Betegség (Y)
P = eβ 1− P
0
odds B | F = e
+ β 1X
oddsB| F = e β • •
β 0+ β1
0
eβ + β OR = β = e β e 0
1
0
ln(OR ) = β 1
β1 – az ln(OR) változása, ha X egységnyit változik A H0 : β1 = 0 hipotézis tesztelése (Wald teszt) β χ = df = 1 var(β ) Konfidencia intervallum: e β ± 1.96 SE ( β ) 2
2
•
1
1
1
Logisztikus regresszió esetén a paramétereket az ún. maximum likelihood módszerrel becsüljük (Úgy határozzuk meg az együtthatókat, hogy a megfigyelt értékek valószínűsége maximális legyen.) Az együtthatókra vonatkozó output: Variables in the Equation
Step a 1
kor Constant
B ,132 -6,708
S.E. ,046 2,354
Wald 8,053 8,121
df 1 1
Sig. ,005 ,004
Exp(B) 1,141 ,001
95,0% C.I.for EXP(B) Lower Upper 1,042 1,249
a. Variable(s) entered on step 1: kor.
Ezek szerint: logit(CD)=Z =-6,708 + 0,132 * kor OR = 1.141 Konfidencia intervallum az OR-re : (1.042; 1.249) Ha azt szeretnénk megmondani, hogy egy 55 éves nő esetén mekkora a szívkoszorúér megbetegedés valószínűsége, akkor Z = =-6,708 + 0,132 * 55 = 0,552, azaz 1 P (CD ) = = 0,63 , azaz 63%. 1 + e− Z
Ha az életkor szerint csinálunk két kategóriát, és úgy végezzük el az elemzést (kor_kat = 0, ha Age<=50, kor_kat =1, ha Age>50): Variable KOR_KAT(1) Constant
B
S.E.
Wald
df
Sig
R
Exp(B)
2,2380 -1,3217
,8165 ,5627
7,5132 5,5169
1 1
,0061 ,0188
,3501
9,3749
Logisztikus regresszió nélkül: Age <=50 >50 CD + 10 4 - 4 15 Összes 14 19
Összes 14 19 33
OR = 9.375 Többszörös logisztikus regresszió Több mint 1 magyarázó változó. Lehetnek: dichotóm, ordinális, nominális, folytonos, … P ln = β 0 + β 1 X 1 + β 2 X 2 + ... + β n X n 1− P
βi –k interpretációja:
az ln(odds) változása, ha Xi egységnyit változik miközben a többi X rögzített Az e b jelentése jobban érthető, ha még egy magyarázó változót beveszünk a modellbe. Az új változó (dohányos) értéke 1, ha a beteg dohányzik, vagy hosszabb ideig dohányzott a múltban, egyébként pedig 0. 1
Ekkor az output: Variables in the Equation
Step a 1
kor dohányos Constant
B ,128 2,471 -7,599
S.E. ,051 1,110 2,728
Wald 6,337 4,960 7,757
df 1 1 1
Sig. ,012 ,026 ,005
Exp(B) 1,137 11,840 ,001
95,0% C.I.for EXP(B) Lower Upper 1,029 1,256 1,345 104,218
a. Variable(s) entered on step 1: kor, dohányos.
Az előző példában lévő 55 éves nem dohányos nő odds-a (esélye) a szívkoszorúér megbetegedésre: log(oddsnem dohányos)=-7,599 + 2,471*0 +0,128* kor =-,559 Ha dohányos lenne, akkor log(oddsdohányos)=-7,599 + 2,471*1+0,128* kor =1,912. A kettő közti változás 2,471. Az esélyhányados: OR = oddsdohányos/ oddsnem dohányos = exp(2,471)=11,84. Az outputban még az OR-re vonatkozó konfidencia intervallumot is megtalálhatjuk. A két modellben az Age együtthatói: 0.128 és 0.132, azaz nincs lényeges különbség. A dohányzás nem confounder az életkorra nézve.