Wat gaan we doen?
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.
- beoordeling van lineariteit met behulp van grafieken in SPSS
Doel: Informeren over statistiek in klinisch onderzoek.
- aanpassen van lineaire en polynomiale modellen in SPSS
Derde woensdag in de maand, 12-13 uur
Tijd:
- aanpassen van modellen met splines
19 december: “Hoe bepaal ik of een verband lineair is?” 16 januari: “Overeenstemming” 20 februari: “Herhaalde metingen” Sprekers:
Václav Fidler, Hans Burgerhof, Wendy Post DG Epidemiologie 2
De rechte-lijn-vergelijking: Y = a + b·X
Wat is een lineaire relatie? - Y = a + b·X Y is lineair in X en ook in de parameters a en b
Y
- Y = a + b·X +c·X2 Y is niet-lineair in X, wel lineair in a, b en c b - Y = a·e-b·X Y is niet-lineair in X en ook niet in b, maar ln(Y) = ln(a) - b·X is wel lineair in X en in ln(a) en b
a = intercept a
b = helling (slope) - Y = a ·Xb / (1 + Xc) Y is niet lineair in X en ook niet in b en c
0 0
X
3
4
1
Relatie tussen gewicht en lengte
Wat is een lineaire relatie? - Multipele lineaire regressie model: De verwachte waarde van Y , EY, is lineair in parameters - Gegeneraliseerde multipele lineaire regressie model: Na een geschikte transformatie f is f(EY) lineair in parameters. Voorbeelden: logistische-, Poisson, Cox-regressie
We laten SPSS grafieken van verschillende functies maken …
Ik ga het hebben over (niet-)lineariteit van Y als functie van X in context van multipele gegeneraliseerde lineaire regressie. 5
6
1
Relatie tussen gewicht en lengte
Relatie tussen gewicht en lengte
7
Relatie tussen gewicht en lengte
8
Relatie tussen gewicht en lengte
Loess = locally weighted scatterplot smoothing 9
Relatie tussen gewicht en lengte
10
Relatie tussen gewicht en lengte
11
12
2
Andere mogelijkheden?
Categoriseren van lengte in quintielen
We willen de “fit” van de verschillende functies wat formeler evalueren.
We gaan de data in een klein aantal, bijvoorbeeld vijf, ongeveer even grote groepen naar lengte groeperen.
We gaan de parameters met behulp van lineaire regressie analyse schatten zodat we de regressievergelijking kunnen opschrijven.
Per groep bepalen we gemiddelden van gewicht en lengte en zetten deze tegen elkaar uit. Door het middelen raken we een deel van het “ruis” kwijt en dit helpt bij het beoordelen van de onderzochte relatie.
We beginnen met een eenvoudige methode die geen veronderstellingen maakt over de aard van de relatie tussen Y en X.
LEN5 : quintiel-groep van LENGTE (1,2,…,5) GLEN5: gemiddelde lengte per quintiel-groep 13
Categoriseren van lengte in quintielen (2)
14
Categoriseren van lengte in quintielen (3)
In SPSS 15 : met behulp van Visual Binning, In SPSS 14 : Visual Binder of, alle versies: via Transform / Compute etc.
15
Categoriseren van lengte in quintielen (4)
16
Categoriseren van lengte in quintielen (5)
4 cutpoints = 5 groepen
17
18
3
Relatie tussen gewicht en lengte-quintielen
Relatie tussen gewicht en lengte-quintielen
De afstanden tussen de gemiddelden van de lengte zijn niet helemaal gelijk. Daarom gebruiken we Glen5 en niet Len5. Let op: de x-schaal is categorisch! 19
20
Relatie tussen gewicht en lengtequintielen
Lineair, kwadratisch, kubisch?
Model met quintiel-groepen (Q1,…,Q5 zijn dummy var.) Vergelijk de “fit” van verschillende modellen.
gewicht = β0+ β1·Q2 + β2·Q3 + β3·Q4 + β4·Q5
1. gewicht = β0+ β1·lengte + β2·lengte2 + β3·lengte3
Model Summary
R .526a
Adjusted R Square .256
Unstandardized Coefficients
Std. Error of the Estimate 10.982
a. Predictors: (Constant), q5, q4, q3, q2
2. gewicht = β0+ β1·lengte + β2·lengte2
B 80.774
Std. Error 1.883
t 42.886
Sig. .000
1.650
2.684
.615
.540
q3
5.797
2.803
2.068
.040
q4
10.666
2.893
3.686
.000
q5
18.826
2.893
6.506
.000
(Constant) q2
3. gewicht = β0+ β1·lengte
21
22
Lineair, kwadratisch, kubisch?
Lineair, kwadratisch, kubisch? Coefficients
1. gewicht = β0+ β1·lengte + β2·lengte2 + β3·lengte3 Variables Entered/Removedb
Model 1
Variables Variables Entered Removed lengte3,a . lengte
Unstandardized Coefficients B 85.688
Std. Error 1.096
t 78.218
Sig. .000
.895
.199
4.496
.000
len2
.012
.012
1.022
.309
len3
-6.23E-005
.001
-.071
.944
(Constant)
Wat is er aan de hand?
len1
Probleem: collineariteit tussen de drie variablelen
Method Enter
Mogelijke oplossing: “centreren”: vervang LENGTE door LENGTE-175
a. Tolerance = .000 limits reached. b. Dependent Variable: gewicht
(Constant)
85.696
1.085
78.951
.000
len1
.884
.131
6.773
.000
len2
.012
.012
1.029
.305
86.287
.921
93.638
.000
.914
.127
7.186
.000
Model Summary
R .520
.520
Adjusted R Square .255
Std. Error of the Estimate 10.988
.260
10.949
.260
10.951
Coefficientsa Unstandardized Coefficients Model 1
(Constant) lengte lengte3
(Constant)
Standardized Coefficients
Std. Error 241.679
.717
Sig. .474
-1.191
2.055
-.671
-.580
.563
2.25E-005
.000
1.189
1.027
.306
a. Dependent Variable: gewicht
Beta
len1
B 173.369
t
.515
gewicht = 86,3 + 0,91· (lengte-175) = -73,7 + 0,91· lengte 23
24
4
Residuele plot van kubische model
PP-plot kubische model
“Standaard” bij regressie in SPSS. Ik gebruik bij voorkeur de QQ-plot… 25
QQ-plot kubische model
26
QQ-plot kubische model voor ln(gewicht)
De gebogen vorm is karakteristiek voor log-normale verdeling. Laten we de loggewichten proberen…
Dit is duidelijk beter.
27
Meer flexibele modellen
28
Meer flexibele modellen
Gebruik van polynomiale regressie met termen (X, X2, X3, …) is handig, maar het is niet de enige mogelijkheid. Ook termen als X1/2, X1/4, kunnen gebruikt worden (“fractionele polynomen”). Of log(X), sin(X)… Een andere mogelijkheid is het toestaan dat de coefficienten van het gebruikte polynoom in verschillende intervallen van X-waarden verschillend zijn. Dit leidt tot b.v. een stuksgewijze (“piecewise”) lineaire of polynomiale regressie modellen.
29
Aansluiting in knooppunten (“knots”, ) is niet vloeiend.
30
5
Splines
Splines
Splines zijn opgebouwd uit polynomen die wel vloeiend op elkaar aansluiten. Meest populair zijn de kubische splines. De oorspronkelijke betekenis van spline is een lang dun, en dus flexibel, reepje hout. Het werd gebruikt onder andere in scheepsbouw, b.v. om spanten te ontwerpen.
Kubische splines zien er “mooi” uit omdat de op elkaar aansluitende stukjes in de knooppunt a) een gelijke functiewaarde hebben b) een gelijke eerste afgeleide (raaklijn) hebben c) een gelijke tweede afgeleide hebben. Een kubische spline met k knopen wordt bepaald door k+4 parameters. (Een kubische polynoom heeft 4 parameters; per knoop zijn 3 voorwaarden - zie boven. Er zijn dus 4(k+1)-3k = k+4 parameters.)
vloer van de scheepwef
31
Lineaire spline met twee knopen a en b
32
Kubische spline met drie knopen a, b en c
y = β 0 + β1 ⋅ x + β 2 ⋅ ( x − a ) ⋅ ( X > a ) + β 3 ⋅ ( x − b ) ⋅ ( X > b )
f ( X ) = β 0 + β1 ⋅ X + β 2 ⋅ X 2 + β 3 ⋅ X 3 + β 4 ⋅ ( X − a ) + + β 5 ⋅ ( X − b) + + β 6 ⋅ ( X − c ) + 3
β2 ⋅ ( x − a) ⋅ ( X > a)
b
3
( X − a)+ = ( X − a) ⋅ ( X > a)
β 0 + β1 ⋅ x
a
3
Dit kan je in SPSS gebruiken door de zes X-termen via COMPUTE te laten berekenen. Daarna voer je de gewone regressie-analyse uit. Andere pakketten zijn handiger. Met name R of S-plus.
β 3 ⋅ ( x − b ) ⋅ ( X > b) 33
Er is nog meer te vertellen …
34
Voorbeeld: Kyfose en logistische regressie
De zo net beschreven splines gedragen zich soms niet helemaal netjes in de staarten. Daarom kiest men ervoor om de eindstukken niet kubisch maar lineair te modeleren. Het resultaat heet restricted spline, of natuurlijke spline. Deze spline heeft k parameters.
Data van 81 geopereerde kinderen. Vraag: Is er een relatie tussen enerzijds het aanwezig zijn van de postoperatieve kyfose en anderzijds de leeftijd (in maanden) en het volgorde-nummer (“start”) van de geopereerde wervel
De keuze van het aantal en de positie van de knopen is een verhaal apart. Naast de geschetste regressie-splines bestaan er ook (niet-parametrische) smoothing splines.
35
36
6
Data kyfose 200
Logistische regressie
10
Start
100
eb0 + f1 ( age ) + f2 ( start ) 1 + eb0 + f1 ( age ) + f2 ( start )
Zoeken naar passende functies f1 en f2 : gebruik splines…
0
5
50
Age
150
15
P(kyfose) =
absent
present
absent
present
37 Kyphosis
38
Kyphosis
Age in quintiel groepen
Logistische regressie met kubische splines f1
0.6
f2
2
0.5
0
0.3
s(Start)
0.4
s(Age)
propotion with kyphosis
0
-2
-5
-4
0.2
-6 -10
0.1 0
50
100
150
200
5
10
Age
15
Start
0.0 0
50
100
150
200
39
age
Vereenvoudiging …
Kies op basis hiervan een eenvoudige parametrische vorm… 40
Het uiteindelijke model
4 2
I((Start - 12) * (Start > 12))
2
poly(Age, 2)
0
-2
-4
(Intercept) I((Age - 100)/100) I(((Age - 100)/100)^2) I((Start - 12) * (Start > 12))
0
-2
0
50
100 Age
age + age2
150
200
Std. Error t value 0.496 1.402 0.972 -0.028 1.846 -2.081 0.513 -2.631
-4
-6
age − 100 age − 100 − 3.843 ⋅ 100 100 − 1.351 ⋅ ( Start − 12) ⋅ ( Start > 12)
2
logit( p) = 0.695 − 0.027 ⋅
-8
-6
Value 0.695 -0.027 -3.843 -1.351
5
10
15
Start
( start − 12) *( start > 12)41
42
7
Conclusie
Volgende Help! Statistiek! lezing:
• “Eerst tekenen dan rekenen” • Begin met niet-parametrische modellen (deze leveren geen model-formule op): verdelen in b.v. quintielgroepen loess- of smoothing splines • fit daarna parametrische modellen: regressie-splines (fractionele-) polynomen • software: SPSS (beperkte mogelijkheden) S-plus (campus licentie) of R (vrij: GNU) …
woensdag 16 januari 2008, 12-13 uur
“Overeenstemming”
Handouts van deze presentatie komen te staan in Download Area op http://www.rug.nl/umcg/faculteit/disciplinegroepen/epidemiologie 43
44
8