Regresní analýza Eva Jarošová
1
Obsah 1.
Regresní přímka
2.
Možnosti zlepšení modelu
3.
Testy v regresním modelu
4.
Regresní diagnostika
5.
Speciální využití Lineární model 2
1. Regresní přímka 3
Jednoduchá regrese Studium závislosti jedné numerické veličiny (měřitelné na spojité stupnici) na jiné numerické veličině Scatterplot of nosnost vs průměr 1300 1200 1100
Zkoumání existence vztahu
Popis vztahu pomocí modelu
nosnost
1000 900 800
Odhad (předpověď )
700 600
Kalibrace
Hledání optimálních podmínek
190
200
210
220
230 průměr
240
250
260
270
4
Původ pojmu regrese Francis Galton zkoumání závislosti výšky synů na výšce otců
y … výška syna x … výška otce
y i = 74 + 0,58 x i y i - 170,8 = 0,58 ( x i - 166 )
x = 176
y = 176,6
x = 156
y = 165 5
Regresní model yi i i střední hodnota proměnné Y v bodě x i funkce proměnné X
chyba (náhodná složka) projev vlivů v modelu neuvažovaných
Model regresní přímky
yi 0 1 xi i 6
Interpretace parametrů
0 1 ( x 1)
1
0 1 x 0 0
x
x 1
7
Odhad parametrů Fitted Line Plot nosnost = - 569,5 + 6,898 průměr 1300 1200
vyrovnaná hodnota nosnost
pozorovaná hodnota
1100 1000 900 800 700 600 190
200
210
220
230 průměr
240
250
260
270
pozorovaná hodnota - vyrovnaná hodnota = reziduum minimum reziduálního součtu čtverců
8
Metoda nejmenších čtverců Reziduální součet čtverců (část variability závisle proměnné, která není vysvětlena modelem) n
SR
i1
ei2
n
n
(yi Yi ) (yi b0 b1xi )2 i1
2
i1
Hledání b0 a b1 tak, aby SR byl minimální SR 0 b0
SR 0 b1
Normální rovnice
yi nb0 b1 xi xiyi b0 xi b1 xi2
9
Odhad parametrů b1
n xiyi xi yi n
S
xi2
xi
b0
2
yi xi b n
xi
yi
xi yi
xi2
190
680
129200
36100
200 209 215
800 780 885
160000 163020 190275
40000 43681 46225
215 215 230
975 1025 1100
209625 220375 253000
46225 46225 52900
250 265
1030 1175
257500 311375
62500 70225
250
1300
325000
62500
2239
9750
2219370
506581
1
n
10
Výstup v Minitabu
průměr
11
Graf regresní přímky Fitted Line Plot nosnost = - 569,5 + 6,898 průměr S R-Sq R-Sq(adj)
1300
99,9008 75,8% 72,8%
1200
nosnost
1100 1000 900 800 700 600 190
200
210
220
230 průměr
240
250
260
270
Nosnost svaru v závislosti na průměru, Duncan (1965) 12
Přímka procházející počátkem Plot of Fitted Model 100
pruhyb
80 60 40 20 0 0
2
4
6 síla
8
10
12
Určení modulu pružnosti plastické hmoty, Hátle, Likeš (1972)
13
Kvalita modelu, koeficient determinace celková variabilita proměnné Y (celkový součet čtverců)
n
S y (yi y)2 i1
variabilita proměnné Y vysvětlená modelem (teoretický součet čtverců) n
ST (Yi y)2 i1
nevysvětlená část variability reziduální součet čtverců Platí koeficient determinace (model s konstantou)
Sy ST SR
R2
ST Sy
n
SR (yi Yi )2 i1
hodnoty z intervalu < 0 ; 1 > 14
Výstup v Minitabu
průměr
15
Kvalita modelu, směrodatná chyba odhadu
průměr
SR s n p
16
Odhad, předpověď Bodový odhad pro průměr 220 Y = -569,5 + 6,898 220 = 948,1 odhad střední hodnoty nosnosti při průměru 220
odhad nosnosti při průměru 220
17
Intervalový odhad Fitted Line Plot nosnost = - 569,5 + 6,898 průměr Regression 95% CI 95% PI
1500
S R-Sq R-Sq(adj)
nosnost
1250
99,9008 75,8% 72,8%
1000
750
500 190
200
210
220
230 průměr
240
250
260
270
18
2. Možnosti zlepšení modelu 19
Příčiny nízké hodnoty koeficientu determinace
Nevhodně zvolená vysvětlující proměnná (závislost neexistuje nebo je slabá)
Nevhodně zvolený tvar modelu (závislost existuje, ale není lineární)
Nejsou zařazeny všechny důležité vysvětlující proměnné (je třeba hledat další proměnné, které mají vliv na Y) 20
Neexistující závislost Cena notebooku vs hmotnost
Y = 16 315 + 210 x
R2 = 0,0004
21
Nevhodný tvar modelu Fitted Line Plot dráha = - 20,13 + 3,142 rychlost 140
S R-Sq R-Sq(adj)
120
11,7687 87,8% 87,6%
dráha
100 80 60 40 20 0 0
10
20 rychlost
30
40
22
Další modely lineární z hlediska parametrů 0 1 ln x 0 1
1 x
0 1 x 2 x2
0 1 x 2 x2 3 x3 Modely po transformaci, např.
ln ln 0 x ln 1
0 1x 23
Regresní parabola 0 1x 2 x 2
jedna vysvětlující proměnná v lineárním a kvadratickém tvaru speciální případ regresního polynomu
ačkoli regresní funkce obsahuje kvadratický člen, je lineární v parametrech odhad parametrů metodou nejmenších čtverců 24
Regresní parabola 2 = 1,580 + 0,4161 rychlost Y dráha 1,580 0,4161x 0,06556x + 0,06556 rychlost**2 Fitted Line Plot
140
S R-Sq R-Sq(adj)
120
zlepšení R2 z 87,8 % na 91,4 %
100 dráha
9,92696 91,4% 91,2%
80 60 40 20 0 0
10
20 rychlost
30
40
Y b 0 b 1x b 2 x2 25
Nejsou zařazeny důležité vysvětlující proměnné
Y 6,9595 0,2429x1 R2 17,5 %
Y 0,7559 0,20013 x1 0,0039693 x 2 R2 86,9 % 26
Porovnání modelů s různým počtem parametrů Upravený koeficient determinace 2 Radj
x1:
R2 adj = 14,4 %
x1, x2
R2 adj = 85,9 %
n 1 1 (1 R ) np 2
p… počet parametrů modelu
27
3. Testy v regresním modelu 28
Ověření existence závislosti model
yi 0 1 xi i
t-test Testovaná hypotéza H0:
1 0
(Y nezávisí na X) Alternativní hypotéza H1:
1 0
(Y závisí na X) 29
Postup při t-testu Testová statistika
t
bj s(b j )
směrodatná chyba odhadu, vyjadřuje přesnost odhadu Kritický obor
Platí-li
W { t : | t | t1 / 2 }
| t | t1 / 2 , zamítneme H0.
t1 / 2 kvantil t-rozdělení s (n – p) stupni volnosti,
n je rozsah výběrového souboru p je počet parametrů modelu (u přímky p = 2) 30
Využití p-hodnoty P-hodnota … pravděpodobnost, že při platnosti testované hypotézy H 0 nabude testová statistika hodnoty svědčící ještě více v neprospěch H 0 než vypočtená hodnota testové statistiky
Je-li p-hodnota menší než , H0 zamítneme na hladině významnosti . Výhoda používání p-hodnoty: Ihned vidíme, jak silný „důkaz“ proti platnosti H0 máme.
0, 01 p 0, 05 0,001 p 0, 01 p 0, 001
slabší důkaz silnější důkaz silný důkaz 31
Výstup v Minitabu
průměr
32
Ověření existence závislosti model
yi 0 1 xi1 2 xi 2 i
F-test Testovaná hypotéza H0:
1 2 0
(Y nezávisí na žádné z vysvětlujících proměnných)
Alternativní hypotéza H1: non H0 (Y závisí alespoň na jedné z vysvětlujících proměnných) 33
Postup při F-testu Testová statistika
ST p 1 F SR np
p – počet parametrů (zde p = 3 ) n – rozsah výběrového souboru) Kritický obor Platí-li
W { F : F F1 }
F F1 , zamítneme H0.
F1 - kvantil F rozdělení s (p – 1) a (n – p) stupni volnosti
34
Výstup v Minitabu
35
4. Regresní diagnostika 36
Zkoumání vhodnosti tvaru regresní funkce Fitted Line Plot proud_o = - 105,7 + 17,44 prasnost_o 120
S R-Sq R-Sq(adj)
100
5,43780 98,2% 98,1%
proud_o
80 60 40 20 0 6
7
8
9 prasnost_o
10
11
12
Odlučovač popílku, opakovaná data 37
Graf rezidua vs vysvětlující proměnná Residual Plot proud = -105,708 + 17,4394*prasnost 8
residual
4
0
-4
-8 6
7
8
9 prasnost
10
11
12
38
Rezidua vs vysvětlující proměnná Residual Plot proud = -96,0775 + 16,5851*prasnost 8
residual
5 2 -1 -4 -7 6
7
8
9 prasnost
10
11
12
39
Zkoumání vhodnosti tvaru regresní funkce Fitted Line Plot proud = - 96,08 + 16,59 prasnost 100
S R-Sq R-Sq(adj)
3,31370 99,2% 99,1%
proud
80
60
40
20
0 6
7
8
9 prasnost
10
11
12
Kalibrace filtru v odlučovači popílku, Vaněk 40
Volba jiné regresní funkce Fitted Line Plot proud = - 28,95 - 0,363 prasnost + 1,006 prasnost**2 100
S R-Sq R-Sq(adj)
2,22604 99,7% 99,6%
proud
80
60
40
20
0 6
7
8
9 prasnost
10
11
12
41
Rezidua vs vysvětlující proměnná Residual Plot 4,3
residual
2,3
0,3
-1,7
-3,7 6
7
8
9 prasnost
10
11
12
42
Ověření předpokladů o náhodné složce
Konstantní rozptyl (homoskedasticita)
Nezávislost
Normalita
Důsledky zanedbání předpokladů vliv na • přesnost odhadů • na spolehlivost intervalového odhadu
• závěry t-testů a F-testu 43
Heteroskedasticita Residual Plot proud = -105,708 + 17,4394*prasnost 8
residual
4
0
-4
-8 6
7
8
9 prasnost
10
11
12
44
Heteroskedasticita
Zjišťování heteroskedasticity • Grafy reziduí
• Testy (Bartlett, Levene, Glejser, Goldfeld-Quandt, Breusch-Pagan, …)
Opatření • Transformace, např. logaritmická • Vážená metoda nejmenších čtverců
45
Autokorelace Fitted Line Plot ztráty = 50,44 + 4,249 rok + 0,2311 rok**2 450
S R-Sq R-Sq(adj)
400
10,4268 99,1% 99,1%
Graf reziduí
350
Residuals Versus the Order of the Data
250
(response is ztráty)
200
50
150
40 30
100
20
50
10
0
5
10
15
20
25
30
35
rok
Residual
ztráty
300
0 -10 -20
Ztráty při výrobě vody v letech 1953 – 1983, Zvára (1989)
-30 -40 2
4
6
8
10
12 14 16 18 20 Observation Order
22
24
26
28
30
Durbin-Watsonův test
46
Autokorelace Fitted Line Plot výroba = 327,7 + 20,31 rok + 0,7519 rok**2 1750
S R-Sq R-Sq(adj)
1500
15,1551 99,9% 99,9%
Residuals Versus the Order of the Data (response is výroba)
100
50
1000
Residual
výroba
1250
750
0
-50
500
0
5
10
15
20 rok
25
30
35
-100 2
4
6
8
10
12 14 16 18 20 Observation Order
22
24
26
28
30
47
Autokorelace Fitted Line Plot ztráty = - 42,34 + 0,2633 výroba 400
S R-Sq R-Sq(adj)
Residuals Versus the Order of the Data
9,26088 99,3% 99,3%
(response is ztráty) 20
300
Residual
ztráty
10
200
0
-10
100 -20 2
0 500
750
1000 výroba
1250
1500
4
6
8
10
12 14 16 18 20 Observation Order
22
24
26
28
30
1750
Závislost ztrát na výrobě vody, Zvára (1989)
Opatření: transformace (Cochran – Orcutt) 48
Longitudinální data Speciální případ závislosti (kromě autokorelace ještě závislost pozorování náležejících stejné jednotce) 5
ISC
4
3
2 1
2
3
čas
Degradace solárních článků, Kenett, Zacks (1998)
Lineární model s náhodnými efekty 49
Nesplněný předpoklad normálního rozdělení Normal Probability Plot of the Residuals (response is ztráty) 99
95 90
Percent
80 70 60 50 40 30 20 10 5
1
-20
-10
0 Residual
10
20
Testy normality: např. Shapiro-Wilk Opatření: Transformace Zobecněný lineární model (gama model, logistická regrese) 50
Odlehlá a vlivná pozorování Fitted Line Plot nosnost = 285,5 + 2,958 průměr S R-Sq R-Sq(adj)
1300
164,489 27,5% 19,4%
1200
nosnost
1100 1000 900 800 700 600 200
220
240 260 průměr
280
300
Nosnost svaru, přidáno (300;900) 51
Důsledky přítomnosti vlivného pozorování
Fitted Line Plot
Fitted Line Plot
y = 0,1962 + 0,000811 body_wt
y = 0,1330 + 0,2346 dose S R-Sq R-Sq(adj)
0,6
0,0899863 2,3% 0,0%
0,5
0,5
0,4
0,4
y
y
0,6
0,3
S R-Sq R-Sq(adj)
0,0886433 5,2% 0,0%
0,3
0,2
0,2 140
150
160
170 180 body_wt
190
200
0,70
0,75
0,80
0,85 dose
0,90
0,95
1,00
52
53
54
55
56
5. Speciální využití 57
DOE – Odezvové plochy hledání optimálních podmínek
y 0 1 x1 2 x2 12 x1 x2 x x 2 11 1
2 22 2
Surface Plot of y vs x2; x1
8
y
6
360
4 32
350 34 x1
36
x2
340 38
Chutnost koláče v závislosti na době a teplotě pečení, Weisberg (2005)
58
Kalibrace Plot of Fitted Model 80 = (-6,0889 + 1,42606*prasnost)^2 100 80
80,0
Y
60 40 20 10,5418 (9,94168;11,1846)
0 6
7
8
9 X
10
11
12
59