mlw stroom 2.1: Statistisch modelleren College 5: Regressie en correlatie (2) Rosner 11.5-11.8
Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht 2 nov 2005
µσ
Methodologie en Statistiek | Universiteit Maastricht
Inhoud 1. (11.5) Intervalschatting van regressieco¨effici¨enten 2. Voorspellingsinterval 3. (11.6) Modelvoorwaarden en controle 4. (11.7) Correlatie, berekening 5. (11.8) Toetsen v.d. correlatieco¨effici¨ent 6. Betrouwbaarheidsinterval voor de correlatieco¨effici¨ent 7. Vergelijken van twee onafhankelijke correlaties
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 1
Arnold Kester 25 oktober 2005
Estriol voorbeeld: SPSS uitvoer Model Summary Model R R Square Adjusted R Square 1 .610(a) .372 .350 a) Predictors: (Constant), ESTRIOL
Std. Error of the Estimate 3.821
ANOVA(b) Model Sum of Squares df Mean Square 1 Regression 250.574 1 250.574 Residual 423.426 29 14.601 Total 674.000 30 a) Predictors: (Constant), ESTRIOL b) Dependent Variable: BIRTHWGT Coefficients(a) Unstand. Coefs Stand. Coefs Model B Std. Error Beta 1 (Constant) 21.523 2.620 ESTRIOL .608 .147 .610 a) Dependent Variable: BIRTHWGT
µσ
Methodologie en Statistiek | Universiteit Maastricht
F 17.162
Sig. .000(a)
t
Sig.
8.214 4.143
.000 .000
College 5: Regressie en correlatie (2): 2
Arnold Kester 25 oktober 2005
SPSS uitvoer, commentaar • Eerste tabel: Correlatie tussen X en Y ; kwadraat van de correlatie; idem gecorrigeerd voor aantal verklarende variabelen; schatting van modelparameter σ • Tweede tabel: Variantie-analyse met kwadratensommen, vrijheidsgraden, gemiddelde kwadraten en F -toets • Derde tabel: Geschatte regressieco¨effici¨enten, standaardfouten en t-toetsen. De kolom genaamd Beta geeft de z.g. gestandaardiseerde co¨effici¨enten, dat zijn de regressieco¨effici¨enten die verkregen worden na standaardisatie van de variabelen X en Y : ¯ SD(X), YZ = (Y − Y¯ )/ SD(Y ) XZ = (X − X)/
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 3
Arnold Kester 25 oktober 2005
Recapitulatie: voorbeeld estriol.
30
• x = 10 geeft yˆ = 21.5 + 0.608 ∗ 10 = 27.58
20
a=21.5
b=0.608 is stijging per eenheid estriol
0
10
birthweight
40
• Beschrijf verband met regressielijn: y = 21.5 + 0.608 ∗ x
0
5
10
15
estriol
µσ
Methodologie en Statistiek | Universiteit Maastricht
20
25
30
• x = 20 geeft yˆ = 21.5 + 0.608 ∗ 20 = 33.66 • verschil = 6.08 = b ∗ 10
College 5: Regressie en correlatie (2): 4
Arnold Kester 25 oktober 2005
Recapitulatie: residuen. 40 30 20
• lijn gedefinieerd door P mina,b (yi − yˆi)2
residu yi − y^i 10
birthweight
• Residu: di = yi − yˆi
voorspelling bij x = 24: y^ = 36.12
• minimum d2i is SS Res = 423.426 P
0
punt i: (xi = 24, yi = 28)
0
5
10
15
estriol
• Voorspelde waarde yˆi = a + bxi
µσ
Methodologie en Statistiek | Universiteit Maastricht
20
25
30
• Geschatte σ 2 is s2y·x = MS Res = SS Res/(n − 2) = 14.601
College 5: Regressie en correlatie (2): 5
Arnold Kester 25 oktober 2005
Recapitulatie: Standaardfouten van co¨ effici¨ enten s
s.e.(b) =
s.e.(a) =
s
s2y·x
s2y·x Lxx
sy·x sy·x = √ =√ Lxx sx n − 1
1 x ¯2 + n Lxx
= sy·x
s
1 x ¯2 + n Lxx
Estriol:
p √ s.e.(b) = 14.601/677.42 = 0.02155 = 0.147 p √ s.e.(a) = 14.601(1/31 + 17.2262/677.42) = 6.867 = 2.620
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 6
Arnold Kester 25 oktober 2005
Intervalschatting van regressieparameters (11.5) • Betrouwbaarheidsinterval voor helling. – Uitgaande van (b − β)/ s.e.(b) ∼ tn−2 : – betrouwbaarheidsinterval voor β wordt gegeven door (b − tn−2, 1−α/2 s.e.(b); b − tn−2, 1−α/2 s.e.(b)). – Vb.: Estriol; betrouwbaarheidsinterval voor helling is 0.608±t29,0.975(0.147) = 0.608±2.045(0.147) = (0.308, 0.908) – helling zou ook zowat half zo groot of 50% groter kunnen zijn! • Betrouwbaarheidsinterval voor intercept. – betrouwbaarheidsinterval voor α wordt gegeven door a ± tn−2, 1−α/2 s.e.(a). = 21.5 ± 2.045(2.62) = (16.14; 26.86) – Maarrrr . . . Wat betekent dit eigenlijk?
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 7
Arnold Kester 25 oktober 2005
30 20
Grenzen b.i. voor intercept
0
10
birthweight
40
Vb. Estriol en Geboortegewicht
0
5
10
15
20
25
30
estriol
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 8
Arnold Kester 25 oktober 2005
Geldigheid betrouwbaarheidsinterval v.h. intercept • Estriol = 0 komt niet voor, dus wat betekent α eigenlijk? • Is de relatie wel lineair buiten het data-gebied? • Extreem voorbeeld: X is lichaamstemperatuur bij binnenkomst op intensive care, Y is verblijfsduur op intensive care . . . • W´el zinnig: s.e. voor a + bx als x binnen de data-range ligt. • Eigenlijk is het doel van het onderzoek: Hoe groot is het geboortegewicht bij gegeven waarde van estriol?
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 9
Arnold Kester 25 oktober 2005
Betr. int. voor gemiddelde y bij gegeven x • s.e.2(ˆ y ) = s.e.2(a + bx) =
s
s2y·x
2
1 (x − x ¯) + n Lxx
• betrouwbaarheidsinterval: yˆ ± t29,0.975 s.e.2(ˆ y) • Vb. estriol = 25, wat is gemiddelde y (geboortegewicht)? • yˆ = 21.523 + 0.6082 ∗ 25 = 36.73, q • s.e.2(ˆ y ) = 14.60 1/31 + (25 − 17.23)2/677.42 = 1.33 • interval: yˆ ± t29,0.975 s.e.2 = 36.73 ± 2.045(1.33) = (34.01; 39.45)
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 10 Arnold Kester 25 oktober 2005
35 30 20
25
birthweight
40
45
Betrouwbaarheidsinterval voor gemiddelde
10
15
20
25
estriol
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 11
Arnold Kester 25 oktober 2005
Voorspellingsinterval voor nieuwe data • Veronderstel nieuwe zwangere heeft estriol x∗ = 25. Wat kunnen we voorspellen over het geboortegewicht y ∗ van haar baby? • y ∗ = α + βx∗ + e = (α + βx∗) + e • Schat α + βx∗ met yˆ∗ = a + bx∗, s ∗ 2 1 (x − x ¯) ∗ 2 s.e.2(ˆ y ) = sy·x + n Lxx • e ∼ N (0, σ 2), schat σ 2 met s2y·x, dus samen: s q ∗ 2 1 (x − x ¯) ∗ ∗ 2 2 2 • s.e.1(y ) = s.e.2(ˆ y ) + sy·x = sy·x + +1 n Lxx
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 12
Arnold Kester 25 oktober 2005
Voorbeeld: geboortegewicht bij estriol=25 • Predictie-interval: yˆ∗ ± tn−2,1−α/2 s.e.1(y ∗) • In estriol voorbeeld: a + b ∗ 25 = 36.73 (3673 gram) • s.e.1 =
√
14.60
p
1 + 1/31 + (25 − 17.23)2/677.42 = 4.05
• Interval is dus (28.48, 44.98). • Opm. Interval alleen correct als residuen zeer goed normaal verdeeld zijn.
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 13 Arnold Kester 25 oktober 2005
35 30 20
25
birthweight
40
45
Voorspellingsinterval voor nieuwe data
10
15
20
25
estriol
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 14
Arnold Kester 25 oktober 2005
Conclusies voorspellingsinterval Als aan de voorwaarden voldaan is, dan: • Bij estriol groter dan ongeveer 19 weet je vrij zeker dat birthweight groter is dan 2500 gram. • Bij alle andere waarden kan het geboortegewicht zowel groter als kleiner zijn dan 2500 gram. • De waarde van de estriol bepaling is dus vrij beperkt.
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 15
Arnold Kester 25 oktober 2005
Fout voorbeeld in Rosner (example 11.18) Voorspellingsinterval gebaseerd op FEV data (table 11.4):
3.0
• sy·x =
√
0.0145 = 0.12,
2.5
• predictie-interval voor individu met x = 160 is (2.62, 3.18) John H., FEV=2.5
2.0
FEV
3.5
• 655 jongens 10-15 jaar oud
• Waarom is dit fout? 140
150
160
height
µσ
Methodologie en Statistiek | Universiteit Maastricht
170
• Model? (zie een v.d. volgende sheets)
College 5: Regressie en correlatie (2): 16
Arnold Kester 25 oktober 2005
Modelvoorwaarden (11.6) 1. (Lineariteit) De verdeling van y heeft gemiddelde α + βx 2. (Normale verdeling) y ∼ N (α + βx, σ 2); waarbij σ 2 niet afhankelijk is van x 3. (Onafhankelijkheid) Voor elk paar (x1, y1), (x2, y2) zijn de fouttermen e1 en e2 onafhankelijk
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 17
Arnold Kester 25 oktober 2005
5 −5
0
residual
35 30
−10
25
birthweight
40
10
Residuenplot, opbouw
10
15
20
25
10
15
30
35
predicted
µσ
Methodologie en Statistiek | Universiteit Maastricht
40
2 1 0 −1 −2
studentized residual
5 0 −10
−5
residual
25
25
estriol
10
estriol
20
−2
−1
0
1
2
standardized prediction
College 5: Regressie en correlatie (2): 18 Arnold Kester 25 oktober 2005
10
• Lineariteit
5
• Constante variantie
0
• Normale verdeling • Als je “niets” ziet is het goed
−10
−5
residual
Modelvoorwaarden, controleren
25
30
35
40
• Wat is hier het geval?
predicted
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 19
Arnold Kester 25 oktober 2005
2
Modelvoorwaarden, voorbeelden
−2
−1
−1
0
0
1
1
a) Alles OK (normaliteit?)
(a) −3
10
b) Lineariteit?
(b) 20
30
40
10
20
30
40
−2
−1
0
1
residual −0.1 0.0 0.1
2
c) Constante variantie?
(c) 10
µσ
20
30
Methodologie en Statistiek | Universiteit Maastricht
40
d) Wat zie je hier? (d) 140
150 160 height
170
En wat zie je nu in het estriol voorbeeld?
College 5: Regressie en correlatie (2): 20
Arnold Kester 25 oktober 2005
Modelvoorwaarden, remedies Kwaal Niet onafhankelijk Niet constante variantie
Remedies Andere methode
Opmerking komt in stroom 2.2
Transformeer y, √ bijv. y of log(y).
Dit be¨ınvloedt ook de verdeling en de lineariteit bijv. als punten gemiddelden van verschillende aantallen subjecten zijn
Gewogen regressie
Niet normaal Niet lineair
µσ
Methodologie en Statistiek | Universiteit Maastricht
Transformeer y Andere methode
bijv. rangcorrelatie
Transformeer x of y
College 5: Regressie en correlatie (2): 21
Arnold Kester 25 oktober 2005
Correlatie, definitie en berekening (11.7) Lxy r(x, y) = p LxxLyy P (xi − x ¯)(yi − y¯) = pP P 2 (xi − x ¯) (yi − y¯)2 • −1 ≤ r ≤ 1
• r is positief: stijgend verband
• Dimensieloos
• r is negatief: dalend verband
• Schaal-invariant
• r is nul: geen verband
• Plaats-invariant
• voorbeelden p 137
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 22
Arnold Kester 25 oktober 2005
Vervolg correlatie • Voorbeeld: Estriol: √ p r = Lxy / LxxLyy = 412/ 677.42 ∗ 674 = 0.61 sxy • r= sxsy sy • b=r sx
µσ
(covariantie sxy = Lxy /(n − 1)) (verband met regressie)
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 23
Arnold Kester 25 oktober 2005
Voorbeeld: FEV versus lengte (table 11.4)
3.0
• data in plaatje: r = 0.988 • Z´e´er sterk verband
2.5
FEV
3.5
• 655 jongens 10 – 15 jaar oud
2.0
• Waarom is dit misleidend?
140
150
160
170
height
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 24
Arnold Kester 25 oktober 2005
Correlatie, toets H0 : ρ = 0 (11.8) • Verband tussen cholesterol v. echtgenoten: • x = cholesterol (man), y = cholesterol (vrouw). • H0 : ρ = 0, alternatief H1 : ρ 6= 0. • Waargenomen: r = 0.25 in n = 100 paren. r n−2 • Toets: t = r heeft onder H0 een Student verdeling met 2 1−r n − 2 vrijheidsgraden. p • Bereken t = 0.25 98/(1 − 0.252) = 2.56. Conclusie?
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 25
Arnold Kester 25 oktober 2005
Toets voor H0 : ρ = ρ0 met ρ0 6= 0, Fisher’s z-transformatie • Probleem: −1 ≤ r ≤ 1 • Vb. H0 : ρ = 0.5, meer “ruimte” voor afwijking naar onder dan naar boven, dus r is niet symmetrisch (dus niet ∼ N en niet ∼ t) 1 1+r • Oplossing: definieer z = ln , dan is −∞ < z < ∞ 2 1−r Let op: Natuurlijke logaritme! • Wiskundige statistiek: z is ongeveer normaal met gemiddelde 1 1 + ρ0 z0 = ln en variantie 1/(n − 3). 2 1 − ρ0
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 26
Arnold Kester 25 oktober 2005
• dus p
z − z0 1/(n − 3)
∼ N (0, 1).
• (Voorbeeld 11.31) H0 : ρ = 0.5, waargenomen r = 0.38 (n = 100). • De waargenomen z = 21 ln(1.38/0.62) = 0.400, de nulhypothese-waarde z0 = 21 ln(1.5/0.5) = 0.549 (Gebruik tabel 13 of rekenmachine) • z is normaal verdeeld met variantie 1/(100 − 3), dus p • λ = (0.400 − 0.549)/ 1/97 = −1.47 is standaard normaal. • p = 2(1 − Φ(1.47)) = 0.142. Conclusie?
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 27
Arnold Kester 25 oktober 2005
Correlatie, betrouwbaarheidsinterval voor ρ
1+r 1 1+ρ 1 • z = ln , en laat z0 = ln 2 1−r 2 1−ρ
• Dan is z ∼ N (z0, 1/(n − 3)), dus √ • betrouwbaarheidsinterval voor z0 is (z1, z2) = z ± z1−α/2 / n − 3 • betrouwbaarheidsinterval voor ρ = (ρ1, ρ2): “terugtransformeren” e2z1 − 1 e2z2 − 1 • ρ1 = 2z , ρ2 = 2z 1 e +1 e 2+1
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 28
Arnold Kester 25 oktober 2005
2
Opbouw betrouwbaarheidsinterval, r = 0.718, n = 33
−1
3 b.i. voor ρ
−2
Z−waarde
0
1
2 betrouwbaarheidsinterval voor Z
−1.0
−0.5
0.0
Correlatie, r
µσ
Methodologie en Statistiek | Universiteit Maastricht
0.5
1
1.0
r=0.718
College 5: Regressie en correlatie (2): 29
Arnold Kester 25 oktober 2005
Hoe groot moet het onderzoek zijn voor H0 : ρ = 0 N´ og een toepassing van de z-transformatie! • Tweezijdige toets, onbetrouwbaarheid α. • Bij het alternatief H1 : ρ = ρ1 is een power 1 − β gewenst. 1 1 + ρ1 • Bereken z1 = ln . Let op de notatie! 2 1 − ρ1 (z1−α/2 + z1−β )2 • n= +3 2 z1
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 30
Arnold Kester 25 oktober 2005
Vergelijken van twee onafhankelijke correlatieco¨ effici¨ enten • Dit is een “z-toets” op z-getransformeerde correlaties: • Toetsingsgrootheid: z1 − z2 ∼ N (0, 1) λ=r 1 1 + n1 − 3 n2 − 3 • De nulhypothese wordt verworpen als |λ| > z1−α/2 . • De p-waarde is 2Φ(−|λ|).
µσ
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 31
Arnold Kester 25 oktober 2005
Samenvatting • Regressie – – – –
Intervalschatting voor helling en intercept Interval voor α + βx als x gegeven is Predictie-interval voor y als x gegeven is Modelvoorwaarden en controle
• Correlatie – – – –
µσ
Definitie en berekening Toetsen voor ρ = 0 en voor ρ = ρ0 6= 0 Intervalschatting voor ρ Toets voor ρ1 = ρ2 uit twee steekproeven
Methodologie en Statistiek | Universiteit Maastricht
College 5: Regressie en correlatie (2): 32 Arnold Kester 25 oktober 2005