1(229)
regrese metoda nejm. čtverců testy dva regresory
Regrese
Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008
◮
na rozdíl od korelace (síla závislosti) hledáme tvar (způsob) závislosti, zajímá nás také průkaznost závislosti
◮
snažíme se z daných hodnot regresorů (nezávisle proměnných) předpovědět hodnoty závisle proměnné (odezvy, vysvětlované proměnné)
[email protected] http://www.karlin.mff.cuni.cz/∼zvara
◮
snažíme se variabilitu (kolísání hodnot) odezvy vysvětlit kolísáním regresorů
(naposledy upraveno 3. prosince 2007)
◮
prvně v tomto smyslu F. Galton (1886) při vyšetřování závislosti výšky potomků na průměrné výšce rodičů
◮
Pearson, Lee (1903): potomci otců o dva palce vyšších než průměr všech otců byli v průměru jen o palec vyšší než průměr synů; dvoupalcová odchylka se nereprodukovala celá, byl patrný návrat (regres) k průměru
Karel Zvára
Statistika
(MD360P03Z, MD360P03U) ak. rok 2007/2008
regrese metoda nejm. čtverců testy dva regresory
200(229)
příklad: souvisí úmrtnost se zeměpisnou šířkou?
100 120 140 160 180 200 220
úmrtnost
úmrtnost na melanom na 10 000 000 obyvatel v státech USA
10. přednáška
3. prosince
Statistika
201(229)
regresní přímka ◮
chování Y (úmrtnost, mortality) co nejlépe (nejvíce) vysvětlit lineární závislostí na x (zeměpisná šířka, latitude)
◮
(naše představa, předpoklad:) každé zem. šířce odpovídá jakási střední úmrtnost, ta závisí na zeměpisné šířce lineárně
◮
β0 ,β1 40
45
zem. šířka 3. prosince
Statistika
(MD360P03Z, MD360P03U) ak. rok 2007/2008
◮
i = 1, . . . , n
parametry β0 , β1 odhadneme metodou nejmenších čtverců minimalizací přes β0 , β1 součtu čtverců „svislýchÿ odchylek min
35
(MD360P03Z, MD360P03U) ak. rok 2007/2008
regrese metoda nejm. čtverců testy dva regresory
E Yi = β0 + β1 xi ,
30
10. přednáška
199(229)
n X i=1
(Yi − β0 − β1 xi )2
výsledné minimum (pro β0 = b0 , β1 =Pb1 ) nazveme reziduální součet čtverců, tj. Se = ni=1 (Yi − b0 − b1 xi )2 10. přednáška
3. prosince
Statistika
(MD360P03Z, MD360P03U) ak. rok 2007/2008
regrese metoda nejm. čtverců testy dva regresory
202(229)
metoda nejmenších čtverců y = β0 + β1 · x y = b0 + b1 · x P Se = ni=1 (Yi − b0 − b1 xi )2
(populace) (výběr) (výběr)
1.5
y = b0 + b1x
[summary(lm(mortality∼latitude))] koef. abs. člen latitude ◮
0.5 0.0 10. přednáška
3. prosince
1.5
2.0
Statistika
2.5
závislost je průkazná, neboť v řádku pro x (latitude) je p <0,001
(MD360P03Z, MD360P03U) ak. rok 2007/2008
204(229)
obecně ◮ ◮
◮
◮
10. přednáška
3. prosince
Statistika
(MD360P03Z, MD360P03U) ak. rok 2007/2008
regrese metoda nejm. čtverců testy dva regresory
205(229)
náš příklad a tabulka analýzy rozptylu odhadovaná závislost y = β0 + β1 x, odhadnutá y = b0 + b1 x závislost na x prokazujeme testováním hypotézy H0 : β1 = 0 (pak je y pro všechna x stejné, tedy y = β0 ) pomocí v u n X b1 u b1 = t (xi − x¯)2 T = S.E.(b1 ) s i=1
◮
\ = 389,19 – 5,98 latitude odhad závislosti: mortality
◮ 3.0
regrese metoda nejm. čtverců testy dva regresory
p <0,001 <0,001
na rovníku by úmrtnost měla být 389 jednotek, ale je to extrapolace mimo rozmezí známých hodnot – sotva použitelné
b0
1.0
t-stat. 16,34 – 9,99
◮ [xi;Yi]
0.5
stř. chyba 23,81 0,60
s každým stupněm sev. šířky klesá úmrtnost v průměru téměř o 6 osob na 10 000 000 obyvatel
b1 1
odhad 389,19 – 5,98
◮
1.0
^ [xi;Y i]
0.0
203(229)
náš příklad
2.0
odhadovaná závislost: odhad závislosti: celková plocha čtverců:
regrese metoda nejm. čtverců testy dva regresory
zamítáme H0 proti oboustr. alternativě, když |T | ≥ tn−2 (α) reziduální P součet čtverců – nevysvětlená variabilita Y Se = ni=1 (Yi − (b0 + b1 xi ))2 reziduální součet čtverců s 2 = Se /(n − 2) reziduální rozptyl koeficient determinace ukazuje, jaký díl variability odezvy P (tj. ni=1 (Yi − Y¯ )2 ) jsme závislostí vysvětlili
[anova(lm(mortality∼latitude))]
variabilita model reziduální celkem ◮
st. vol. f 1 47 48
součet čtverců SS 36 464,20 17 173,07 53 637,27
prům. čtverec MS 36 464,20 365,38
F 99,797
p <0,001
kolísání úmrtnosti vysvětlíme závislostí z 68 %, neboť je R2 = 1 −
17173,07 36464,20 = = 0,680 53637,27 53637,27
Se ¯ 2 i=1 (Yi − Y )
R 2 = 1 − Pn 10. přednáška
3. prosince
Statistika
(MD360P03Z, MD360P03U) ak. rok 2007/2008
10. přednáška
3. prosince
Statistika
(MD360P03Z, MD360P03U) ak. rok 2007/2008
regrese metoda nejm. čtverců testy dva regresory
206(229)
interpretace
◮ ◮
◮
◮
◮
regrese metoda nejm. čtverců testy dva regresory
dva regresory koef. abs. člen latitude longitude
\ odhad byl: úmrtnost=389,19-5,98· šířka na 30. stupni očekáváme úmrtnost: 389,19 – 5,98 · 30 = 209,86 na 40. stupni očekáváme úmrtnost: 389,19 – 5,98 · 40 = 150,08
přechod z 30. stupně na 40. stupeň znamená v průměru pokles o 10 · 5,98 = 59,8 úmrtí na 10 000 000 obyvatel
3. prosince
Statistika
208(229)
podrobnější rozbor – vliv oceánu
◮
◮ ◮
odhad 360,55 – 5,485
stř. chyba 36,70 0,904
t-stat. 9,82 – 6,07
není průkazné, že by koeficient u longitude byl nenulový (nezamítneme hypotézu, že koeficient je nulový)
◮
longitude nepřináší další informaci o mortality, kterou bychom už neměli ze známé hodnoty latitude
◮
⇒ není vhodné přidávat do modelu s latitude také longitude
koef. odhad stř. chyba t-stat. abs. člen 381,20 24,83 15,35 latitude – 5,491 0,640 – 8,58 směrnice jsou téměř stejné, abs. členy rozdílné
Statistika
3. prosince
Statistika
(MD360P03Z, MD360P03U) ak. rok 2007/2008
regrese metoda nejm. čtverců testy dva regresory
209(229)
[summary(lm(mortality∼Ocean+latitude))] koef. abs. člen ocean latitude ◮
p <0,001 <0,001
v obou případech s každým stupněm sev. šířky klesá úmrtnost v průměru téměř o 5,5 osob na 10 000 000 obyvatel 3. prosince
koeficient determinace R 2 =0,684 (původně 0,680)
10. přednáška
p <0,001 <0,001
závislost jen pro přímořské státy (R 2 = 78,6 %): [lm(mortality∼latitude,subset=Ocean==1)]
10. přednáška
p <0,001 <0,001 0,418
společně vnitrozemské i přímořské státy
závislost jen pro vnitrozemské státy (R 2 = 59,6 %): [lm(mortality∼latitude,subset=Ocean==0)] koef. abs. člen latitude
t-stat. 14,31 – 9,82 0,82
◮
(MD360P03Z, MD360P03U) ak. rok 2007/2008
regrese metoda nejm. čtverců testy dva regresory
stř. chyba 28,04 0,60 0,19
pokusíme se přidat zeměpisnou délku
pokusíme se predikci zlepšit přidáním další nezávisle proměnné
10. přednáška
odhad 401,17 – 5,93 0,15
◮
◮
◮
207(229)
(MD360P03Z, MD360P03U) ak. rok 2007/2008
odhad 360,69 20,43 – 5,49
stř. chyba 21,50 4,83 0,53
t-stat. 16,78 4,23 – 10,44
p <0,001 <0,001 <0,001
koeficient determinace R2 =0,770
◮
při „stěhováníÿ z vnitrozemí k oceánu po rovnoběžce roste úmrtnost v průměru o 20 osob na 10 milionů obyvatel
◮
je to ekvivalentní vnitrozemskému stěhování o 20,43/5,49 = 3,72 stupňů na jih
◮
na každý stupeň stěhování na sever klesá úmrtnost o 5,5, pokud se nezmění vztah k oceánu 10. přednáška
3. prosince
Statistika
(MD360P03Z, MD360P03U) ak. rok 2007/2008
regrese metoda nejm. čtverců testy dva regresory
210(229)
◮
závisí procento tuku dospělého muže na jeho výšce? pokud ano, tak s výškou roste nebo klesá?
◮
◮
závisí na tom, jak se na úlohu díváme, co bereme v úvahu c = – 47,68 + 0,341 height fat R2 = 11,8 % c = 16,55 – 0,244 height + 0,504 weight R2 = 71,4 % fat
◮
rozdíl je v kvalitě vyrovnání, ale zejména v interpretaci
◮
průměrná změna procenta tuku při jednotkové změně výšky (a nezměněné hmotnosti pro druhý model)
◮
35
40
45
zem. šířka
◮
◮
◮
30
vnitrozemské státy: y=360,69–5,49 x přímořské státy: y=(360,69+20,43)–5,49 x =381,12–5,49 x lze ověřit, že přímky mohou být rovnoběžné (p =99,6 %) 10. přednáška
3. prosince
Statistika
(MD360P03Z, MD360P03U) ak. rok 2007/2008
regrese metoda nejm. čtverců testy dva regresory
212(229)
regrese v MS Excelu 2000, 2003
absolutní člen odhad střední chyba odhadu koeficient (mnohonásobné) korelace koeficient determinace adjustovaný koef. det. resid. směr. odchylka počet pozorování počet st. volnosti
10. přednáška
3. prosince
ve všech případech jsou koeficienty u regresorů na 5% hladině průkazně nenulové
10. přednáška
3. prosince
Statistika
(MD360P03Z, MD360P03U) ak. rok 2007/2008
regrese metoda nejm. čtverců testy dva regresory
213(229)
regrese v MS Excelu 2000, 2003
Excel 2000 Hranice Koeficienty Chyba střední hodnoty Násobné R Hodnota spolehlivosti R Nastavená hodnota spol. R Chyba střední hodnoty Pozorování Rozdíl
Statistika
211(229)
pozor na interpretaci odhadů (na dalším příkladu)
100 120 140 160 180 200 220
úmrtnost
příklad: souvisí úmrtnost s polohou?
regrese metoda nejm. čtverců testy dva regresory
označení b0 bi S.E.(b √ j) R2 R2 2 Radj s n
(MD360P03Z, MD360P03U) ak. rok 2007/2008
◮
Pozor na nabízený graf „Graf s rozdělením pravděpodobnostiÿ: obecně nevypovídá o normálním rozdělení, jak by asi chtěl, bylo by třeba použít místo vysvětlované veličiny některá z reziduí
◮
Nabízená „Normovaná reziduaÿ jsou v regresi zcela nestandardní (z-skóry běžných reziduí)
10. přednáška
3. prosince
Statistika
(MD360P03Z, MD360P03U) ak. rok 2007/2008
regrese metoda nejm. čtverců testy dva regresory
214(229)
praktické problémy: transformace
regrese metoda nejm. čtverců testy dva regresory
215(229)
praktické problémy: zdánlivá závislost
střední délka života ∼ HDP (rok 1992, 33 skupin zemí z celého světa)
počet letišť ∼ délka železnic v Evropě
6.5 600 6
75
75
70
70
55 50
65 60 55
300
log(airports)
60
log(airports)
65
6.0 5
400
airports
Stø. délka ˛ivota
Stø. délka ˛ivota
500
China 4
3
5.5
5.0
50
200
Indonesia
2
0
5000
15000
7.0
8.0
9.0
100
10.0
4.5 1
HDP
log(HDP)
0 0
10000
30000
6
railways
7
8
9
10
8.0
8.5
log(railways)
9.0
9.5
10.5
log(railways)
◮
v původním měřítku závislost nelineární
◮
logaritmování HDP hodně pomohlo, ale ještě jistě jiné vlivy
v původním měřítku: R 2 = 78 %, p = 0,2 %
◮
◮
log(HDP) vysvětlí téměř 79 % variability střední délky života
v logaritmickém měřítku: R 2 = 66 %, p = 0,02 %
◮
logaritmické měřítko, bez Lucemburska: R 2 = 69 %, p = 1 %
◮
lze identifikovat státy, které se zvlášť vymykají 10. přednáška
3. prosince
Statistika
(MD360P03Z, MD360P03U) ak. rok 2007/2008
regrese metoda nejm. čtverců testy dva regresory
216(229)
praktické problémy: zdánlivá závislost
3. prosince
Statistika
regrese metoda nejm. čtverců testy dva regresory
0.0025
10
3
log(airports/area)
log(railways)
5 4
9 8 7
2
8
9
10
11
12
13
0.0015
−7.0
0.0010
0.0005 8
log(area)
0.0020
−6.5
−7.5
6
1
217(229)
počet letišť a délka železnic ∼ plocha
−6.0
6
(MD360P03Z, MD360P03U) ak. rok 2007/2008
praktické problémy: zdánlivá závislost
počet letišť ∼ délka železnic v Evropě
log(airports)
10. přednáška
airports/area
◮
9
10
11
12
13
−4.0
log(area)
−3.5
−3.0
−2.5
0.02
log(railways/area)
0.06
0.10
a <− railways/area
◮
počet letišť i délka železnic souvisí s velikostí země
◮
závislost v logaritmech: R 2 = 28 %, p = 14 %
◮
u letišť: R 2 = 86 %, p = 0,03 %
◮
závislost v původním měřítku: R 2 = 12 %, p = 36 %
◮
u železnic: R 2 = 64 %, p = 0,03 %
◮
relativní počet letišť nesouvisí s relativní délkou železnic
10. přednáška
3. prosince
Statistika
(MD360P03Z, MD360P03U) ak. rok 2007/2008
10. přednáška
3. prosince
Statistika
(MD360P03Z, MD360P03U) ak. rok 2007/2008
regrese metoda nejm. čtverců testy dva regresory
218(229)
praktické problémy: časová řada
vývoj HDP v ČR – pozorování tvoří časovou řadu 700 30
30
20
20
10
10
500
400
resid(a)
hdpM
resid(a)
600
0
−10
−10
−20
−20
−30
1996
2000
2004
obdobi
−30
1996
2000
2004
obdobi
po sobě jsoucí pozorování nejsou nezávislá
◮
je patrný vliv čtvrtletí (rezidua vpravo)
◮
na pravém grafu patrný vliv „balíčkuÿ 3. prosince
Statistika
1996
2000
2004
obdobi
◮
10. přednáška
0
(MD360P03Z, MD360P03U) ak. rok 2007/2008