Bodove´ a intervalove´ odhady parametru˚ v regresnı´m modelu 1 1.1
Odhady parametru˚ Bodove´ odhady
Meˇjme linea´rnı´ regresnı´ model (LRM) Y = Xβ + e, kde
Y=
y1 y2 .. .
e1 e2 .. .
, e =
yn
en
x11 · · · .. .. , X = . . xn1 · · ·
x1k .. , β = . xnk
β1 β2 .. .
.
βk
Odhady nezna´my´ch parametru˚ metodou nejmensˇ´ıch cˇtvercu˚ jsou da´ny b = X0 X β
−1
X0 Y,
rezidua´lnı´ soucˇet cˇtvercu˚ je b 0 (Y − Xβ) b = Y0 Y − β b 0 X0 Y. Se = (Y − Xβ) b jsou nevychy´lene´, Odhady parametru˚ β ˆ = E X0 X Eβ
−1
X0 Y = X0 X
−1
X0 EY = X0 X
−1
X0 Xβ = β,
rezidua´lnı´ soucˇet cˇtvercu˚ normovany´ konstantou n − k nevychy´leny´m odhadem rozptylu σ 2 c2 = s2 = σ
n 1 1 X Se2 = (yi − ybi )2 . n−k n−k i=1
Za prˇedpokladu˚ normality lze prova´deˇt testy hypote´z o parametrech uvazˇovane´ho modelu Da´le lze na za´kladeˇ uvedeny´ch vy´sledku˚ konstruovat intervaly spolehlivosti pro nezna´me´ parametry a take´ konstruovat intervaly spolehlivosti pro predikovane´ hodnoty odezvy Y prˇi dany´ch hodnota´ch regresoru˚. Prˇedpokla´dejme nynı´, zˇe na´hodne´ chyby ei , i = 1 . . . , n v linea´rnı´m regresnı´m modelu majı´ norma´lnı´ rozdeˇlenı´ s nulovou strˇednı´ hodnotou a rozptylem σ 2 . Potom majı´ odhady βbj , j = 1, . . . , k regresnı´ koeficientu˚ βj norma´lnı´ rozdeˇlenı´, tedy platı´ βbj ∼ N (βj , D(βbj )), kde rozptyly D(βbj ) jsou da´ny: D(βb1 ) = σ 2 h11 , D(βb2 ) = σ 2 h22 , . . . , D(βbk ) = σ 2 hkk , prˇicˇemzˇ h11 , h22 , . . . , hkk jsou prvky na hlavnı´ diagona´le matice H = (X0 X)−1 . Rozptyly odhadu˚ regresnı´ch b βbj ) = s2 hjj , druhe´ odmocniny teˇchto odhadu˚ parametru˚ odhadneme D( q s(βbj ) = s2 hjj se nazy´vajı´ smeˇrodatne´ chyby odhadu˚ regresnı´ch parametru˚. Operacˇnı´ program Vzdeˇla´va´nı´ pro konkurenceschopnost Na´zev projektu: Inovace magisterske´ho studijnı´ho programu Fakulty ekonomiky a managementu Registracˇnı´ cˇı´slo projektu: CZ.1.07/2.2.00/28.0326 ˇ TEM C ˇ ESKE´ REPUBLIKY. ´ LNI´M FONDEM A STA´TNI´M ROZPOC PROJEKT JE SPOLUFINANCOVA´N EVROPSKY´M SOCIA
1.2
Intervalove´ odhady
Vy´chodiskem pro konstrukci intervalu˚ spolehlivosti pro parametry βj linea´rnı´ho regresnı´ho modelu jsou statistiky T = (βbj − βj )/s(βbj ), ktere´ majı´ Studentovo rozdeˇlenı´ s n − k stupni volnosti. Oboustranny´ interval spolehlivosti prˇi riziku odhadu α ma´ potom tvar βbj − t1−α/2 (n − k) · s(βbj ) < βj < βbj + t1−α/2 (n − k) · s(βbj ), kde t1−α/2 (n − k) oznacˇuje kvantil Studentova rozdeˇlenı´. Prˇ´ıklad. Na´sledujı´cı´ tabulka uda´va´ informaci o teploteˇ (ve stupnı´ch Celsia) v jednom meˇsteˇ a mnozˇstvı´ zmrzliny (v kilogramech) prodany´ch v osmi na´hodneˇ vybrany´ch cukra´rna´ch. teplota 34 30 25 32 37 39 31 26 zmrzlina 94 79 56 90 105 126 72 53 Odhad regresnı´ prˇ´ımky je yb = −71,789 + 4,918x, s(βb1 ) = 14,4079, s(βb2 ) = 0,4492, pro α = 0, 05 je t1−α/2 (n − k) = t0,975 (8 − 2) = 2,44691, potom 95% intervaly spolehlivosti odhady pro parametry regresnı´ prˇ´ımky jsou −107,02355 < β1 < −36,51376, 3,81888 < β2 < 6,01695. Prˇ´ıklad. U automobilu Trabant se meˇrˇila spotrˇeba paliva v litrech na 100 km (Y ) v za´vislosti na jeho rychlosti (X). Rychlost Spotrˇeba
40 6,1
50 5,8
60 6,0
70 6,5
80 6,8
90 8,1
100 10,0
Odhadnuta´ parabolicka´ regresnı´ funkce ma´ tvar yb = 11,392857 − 0,207262x + 0,001917x2 . s(βb1 ) = 1,1630215, s(βb2 ) = 0,0351065, s(βb3 ) = 0,0002489 pro α = 0, 05 je t1−α/2 (n − k) = t0,975 (7 − 3) = 2,776445, potom 95% intervaly spolehlivosti odhady pro parametry parabolicke´ regresnı´ funkce jsou 8,163792 < β1 < 14,6219225, −0,304733 < β2 < −0,1097905, 0,001226 < β3 < 0,0026076. Prˇ´ıklad. Vy´robce nealkoholicky´ch na´poju˚ ma´ za´jem analyzovat potrˇebny´ cˇas k servisu (doplneˇnı´ lahvı´ prˇ´ıpadneˇ maly´ servis zarˇ´ızenı´) automatu˚ na vy´dej lahvı´ s teˇmito na´poji. Celkovou dobu doplneˇnı´ lahvı´ je trˇeba predikovat pomocı´ dvou dostupny´ch promeˇnny´ch: pocˇet lahvı´, ktere´ je trˇeba doplnit do automatu, a vzda´lenost, kterou musı´ u´drzˇba´rˇ ujı´t. Vysveˇtlovanou promeˇnnou je v tomto prˇ´ıpadeˇ celkovy´ cˇas, vysveˇtlujı´cı´ promeˇnne´ jsou pocˇet doplneˇny´ch lahvı´ a vzda´lenost.
2
cˇas 16,68 11,5 12,03 14,88 13,75 18,11 8 17,83 79,24 21,5 pocˇet lahvı´ 7 3 3 4 6 7 2 7 30 5 vzda´lenost 560 220 340 80 150 330 110 210 1460 605 cˇas 40,33 21 13,5 19,75 24 29 15,35 19 9,5 35,1 pocˇet lahvı´ 16 10 4 6 9 10 6 7 3 17 vzda´lenost 688 215 255 462 448 776 200 132 36 770 cˇas 17,9 52,32 18,75 19,83 10,75 pocˇet lahvı´ 10 26 9 8 4 vzda´lenost 140 810 450 635 150 Metodou nejmensˇ´ıch cˇtvercu˚ zı´ska´me odhad regresnı´ funkce yb = 2, 34123 + 1,61591x + 0,01438z. s(βb1 ) = 1,096730, s(βb2 ) = 0,170735, s(βb3 ) = 0,003613 pro α = 0,05 je t1−α/2 (n − k) = t0,975 (25 − 3) = = 2,073873, potom 95% intervaly spolehlivosti odhady pro parametry parabolicke´ regresnı´ funkce jsou 0,066752 < β1 < 4,615710, 1,261825 < β2 < 1,969990, 0,006892 < β3 < 0,021878.
2
Predikce
Hlavnı´ vyuzˇitı´ regresnı´ho modelu je odhad hodnoty vysveˇtlovane´ promeˇnne´ (resp. jejı´ pru˚meˇrne´ hodnoty) pro danou hodnotu vysveˇtlujı´cı´ promeˇnne´, prˇ´ıp. promeˇnny´ch. Oznacˇ´ıme x0 = (x01 , x02 , . . . , x0k ) vektor hodnot vysveˇtlujı´cı´ch promeˇnny´ch, pro neˇzˇ chceme odhadnout pru˚meˇrnou (strˇednı´) hodnotu vysveˇtlovane´ promeˇnne´ Y (jedna´ se o tzv. podmı´neˇnou strˇednı´ hodnotu E(Y |x0 ). Budeme ji da´le znacˇit µY |x0 . Tedy µY |x0 = E(Y |x0 ). Nestranny´m odhadem µY |x0 je µ bY |x0 = βb1 x01 + βb2 x02 + · · · + βbk x0k . Pro konstrukci intervalu spolehlivosti pro regresnı´ funkci se pouzˇije statistika t=
µ bY |x0 − µY |x0 , s(b µY |x0 )
p ktera´ ma´ Studentovo rozdeˇlenı´ s n − k stupni volnosti, s(b µY |x0 ) = s x00 Hx0 je smeˇrodatna´ chyba (odchylka) bodove´ho odhadu µ bY |x0 . Odtud lze odvodit vztah pro oboustranny´ intervalovy´ odhad. µ bY |x0 − t1−α/2 (n − k) · s(b µY |x0 ) < µY |x0 < µ bY |x0 + t1−α/2 (n − k) · s(b µY |x0 ). Zajı´ma´-li na´s interval spolehlivosti pro predikci velicˇiny Y v bodeˇ x0 = (x01 , x02 , . . . , x0k ), tedy interval spolehlivosti pro pozorova´nı´ Y0 = µY |x0 +e0 , kde e0 je na´hodna´ chyba tohoto pozorova´nı´ v bodeˇ x0 , dostaneme s vyuzˇitı´m uvedene´ho modelu Yb0 − t1−α/2 (n − k) · s(Yb0 ) < Y0 < Yb0 + t1−α/2 (n − k) · s(Yb0 ), 3
kde Yb0 = βb1 x01 + βb2 x02 + · · · + βbk x0k a smeˇrodatna´ chyba odhadu Yb0 je rovna q s(Yb0 ) = s 1 + x00 Hx0 Urcˇ´ıme mnozˇstvı´ prodane´ zmrzliny pro teplotu 33 ◦ , ktere´ lze ocˇeka´vat na za´kladeˇ spocˇ´ıtane´ prˇ´ımkove´ regresnı´ funkce yb = −71,789 + 4,918x. Bodovy´ odhad je yb(30) = −71,789 + 4,918 · 33 = 90,522. Oznacˇme
1 1 1 1 1 x0 = ,X = 1 33 1 1 1 0
−1
H = (X X)
=
34 30 25 32 . 37 39 31 26
6,1432836 −0,189552239 , s = 5,813007. −0,1895522 0,005970149
Smeˇrodatna´ chyba bodove´ho odhadu regresnı´ funkce je q s(b µY |x0 ) = s x00 Hx0 = 2, 130515 Intervalovy´ odhad je 85,30920 < µY |x0 < 95,73557, t0,975 (6) = 2,446912. Smeˇrodatna´ chyba pro jedno pozorova´nı´ Y0 je q s(b µY |x0 ) = s 1 + x00 Hx0 = 6,191134 Intervalovy´ odhad je 75,37323 < Y0 < 105,67155.
4
Prˇ´ıklady k procvicˇenı´ 1. Byla zjisˇteˇna vy´sˇka otcu˚ a vy´sˇka jejich nejstarsˇ´ıch synu˚ [v cm]. otec 165 178 158 170 180 160 170 167 185 165 173 175 syn 162 184 163 170 189 165 177 170 187 176 171 183 a) Urcˇete bodove´ odhady parametru˚ regresnı´ prˇ´ımky, rezidua´lnı´ rozptyl, smeˇrodatne´ chyby teˇchto odhadu˚ a zkonstruujte 95% intervaly spolehlivosti pro parametry regresnı´ prˇ´ımky. b) Odhadneˇte vy´sˇku syna prˇi vy´sˇce otce 180 cm, urcˇete interval 95% interval spolehlivosti pro regresnı´ funkci i pro predikci v tomto bodeˇ. [Datovy´ soubor: vyska otec syn.txt] 2. O 7 vybrany´ch strojı´ch v urcˇite´m podniku ma´me informace o jejich sta´rˇ´ı (v letech) a ty´dennı´ch na´kladech na jejich u´drzˇbu (v Kcˇ): sta´rˇ´ı stroje na´klady
1 35
1 52
3 81
3 105
5 100
6 125
7 120
a) Urcˇete bodove´ odhady parametru˚ regresnı´ prˇ´ımky, rezidua´lnı´ rozptyl, smeˇrodatne´ chyby teˇchto odhadu˚ a zkonstruujte 95% intervaly spolehlivosti pro parametry regresnı´ prˇ´ımky. b) Urcˇete bodove´ odhady regresnı´ logaritmicke´ krˇivky, rezidua´lnı´ rozptyl, smeˇrodatne´ chyby teˇchto odhadu˚ a zkonstruujte 95% intervaly spolehlivosti pro parametry regresnı´ prˇ´ımky. c) Pro oba modely urcˇete interval 95% interval spolehlivosti pro regresnı´ funkci i pro predikci pro sta´rˇ´ı stroje 4 roky. [Datovy´ soubor: stari stroje naklady.txt] 3. Zajı´ma´me se o brzdnou dra´hu 63 automobilu˚ v za´vislosti na vy´chozı´ rychlosti. K dispozici je celkem n = 63 meˇrˇenı´. Promeˇnna´ rychlost uda´va´ vy´chozı´ rychlost (mı´le/hod.) prˇed zacˇa´tkem brzdeˇnı´, promeˇnna´ dra´ha pak uda´va´ odpovı´dajı´cı´ brzdnou dra´hu uvedenou ve stopa´ch. Rychlost Dra´ha Rychlost Dra´ha Rychlost Dra´ha Rychlost Dra´ha Rychlost Dra´ha Rychlost Dra´ha Rychlost Dra´ha
4 4 8 11 13 18 17 22 24 56 28 84 39 138
5 2 9 5 13 27 18 47 25 33 29 68 40 110
5 8 9 13 13 15 18 29 25 59 29 54 40 134
5 8 9 5 14 14 18 34 25 48 30 60
5 4 10 8 14 16 19 30 25 56 30 101
7 6 10 17 15 16 20 48 26 39 30 67
7 7 10 14 16 19 21 55 26 41 31 77
8 9 12 11 16 14 21 39 27 78 35 85
8 8 12 21 16 34 21 42 27 57 35 107
8 13 12 19 17 29 22 35 28 64 36 79
5
a) Urcˇete bodove´ odhady parametru˚ regresnı´ prˇ´ımky, rezidua´lnı´ rozptyl, smeˇrodatne´ chyby teˇchto odhadu˚ a zkonstruujte 95% intervaly spolehlivosti pro parametry regresnı´ prˇ´ımky. b) Urcˇete bodove´ odhady parametru˚ kvadraticke´ regresnı´ funkce, rezidua´lnı´ rozptyl, smeˇrodatne´ chyby teˇchto odhadu˚ a zkonstruujte 95% intervaly spolehlivosti pro parametry te´to regresnı´ funkce. c) Odhadneˇte brzdnou dra´hu pro rychlost 20 mil/hod pomocı´ obou modelu˚. Pro oba modely urcˇete interval 95% interval spolehlivosti pro regresnı´ funkci i pro predikci pro rychlost 20 mil/hod. [Datovy´ soubor: brzdna draha.txt] 4. V padesa´ty´ch letech dosˇlo k u´niku radioaktivnı´ho odpadu ze skla´dky v Hanfordu ve sta´teˇ Washington do rˇeky Columbia River. V devı´ti okrscı´ch nı´zˇe po proudu ve sta´teˇ Oregon bylo pocˇ´ıta´no vystavenı´ radioaktiviteˇ X (na za´kladeˇ vzda´lenosti od Hanfordu a vzda´lenosti pru˚meˇrne´ho obyvatele od rˇeky apod.). Soucˇasneˇ se sledovala u´mrtnost na rakovinu Y (u´mrtnost na 100 000 lidı´ za rok v letech 1959–64). Zı´skane´ u´daje jsou shrnuty v na´sledujı´cı´ tabulce. okrsek Clatsop Columbia Cilliam Hood River Morrow Portland Sherman Umatilla Wasco
radioaktivnı´ vystavenı´ X 8,3 6,4 3,4 3,8 2,6 11,6 1,2 2,5 1,6
u´mrtnost na rakovinu Y 210 180 130 170 130 210 120 150 140
Pro dany´ datovy´ soubor odhadneˇte parametry teˇchto modelu˚: Yi = β0 + β1 xi + i , i = 1, . . . , n Yi = β0 + β1 ln xi + i , i = 1, . . . , n. a) Pro regresnı´ prˇ´ımku urcˇete rezidua´lnı´ rozptyl, smeˇrodatne´ chyby odhadu˚ regresnı´ch parametru˚ a zkonstruujte 95% intervaly spolehlivosti pro tyto parametry. b) Pro logaritmickou regresnı´ krˇivku urcˇete rezidua´lnı´ rozptyl, smeˇrodatne´ chyby odhadu˚ regresnı´ch parametru˚ a zkonstruujte 95% intervaly spolehlivosti pro tyto parametry. c) Odhadneˇte u´mrtnost pro hodnotu radioaktivnı´ vystavenı´ 8 pomocı´ obou modelu˚. Pro oba modely urcˇete interval 95% interval spolehlivosti pro regresnı´ funkci i pro predikci pro hodnotu radioaktivnı´ vystavenı´ 8. d) Pro oba modely zkonstruujte pa´sy spolehlivosti pro regresnı´ funkce a predikovane´ hodnoty, vy´sledky zobrazte graficky. [Datovy´ soubor: radiace umrtnost.txt] 5. Cı´lem studie bylo nale´zt za´vislost mezi teˇlesny´m tukem lehky´ch atletu˚-beˇzˇcu˚ y, kterˇ´ı tre´nujı´ asi 12 hodin, a zkonzumovany´m tukem v jejich kazˇdodennı´ straveˇ x. U na´hodne´ho vzorku 18 beˇzˇcu˚ byl meˇrˇen jejich teˇlesny´ podkozˇnı´ tuk y [%] a sledova´n v za´vislosti na zkonzumovane´m tuku ve straveˇ x [%]. 6
x y x y
22,0 9,80 21,0 9,70
30,0 9,70 35,0 11,20
24,0 12,00 37,0 10,80
22,0 11,70 32,0 10,90
21,0 11,60 35,0 12,30
36,0 11,60 35,0 11,50
14,0 8,00 26,0 7,80
17,0 8,60 24,0 10,20
20,0 10,40 14,0 7,90
Pro dany´ datovy´ soubor odhadneˇte parametry teˇchto modelu˚: Yi = β0 + β1 xi + i , i = 1, . . . , n Yi = β0 + βx1i + i , i = 1, . . . , n. a) Pro regresnı´ prˇ´ımku urcˇete rezidua´lnı´ rozptyl, smeˇrodatne´ chyby odhadu˚ regresnı´ch parametru˚ a zkonstruujte 95% intervaly spolehlivosti pro tyto parametry. b) Pro hyperbolickou regresnı´ krˇivku urcˇete rezidua´lnı´ rozptyl, smeˇrodatne´ chyby odhadu˚ regresnı´ch parametru˚ a zkonstruujte 95% intervaly spolehlivosti pro tyto parametry. c) Odhadneˇte mnozˇstvı´ podkozˇnı´ho tuku pro hodnotu tuku ve straveˇ 30 % pomocı´ obou modelu˚. Pro oba modely urcˇete interval 95% interval spolehlivosti pro regresnı´ funkci i pro predikci hodnotu tuku ve straveˇ 30 %. d) Pro oba modely zkonstruujte pa´sy spolehlivosti pro regresnı´ funkce a predikovane´ hodnoty, vy´sledky zobrazte graficky. [Datovy´ soubor: tuk sportovci.txt] ´ daje jsou v tabulce 6. U automobilu byla zmeˇrˇena spotrˇeba Y v za´vislosti na rychlosti X. U Rychlost [km/hod.] Spotrˇeba [l/100 km]
40 5,7
50 5,4
60 5,2
70 5,2
80 5,8
90 6,0
100 7,5
110 8,1
Pro dany´ datovy´ soubor odhadneˇte parametry teˇchto modelu˚: Yi = β0 + β1 xi + i , i = 1, . . . , n Yi = β0 + β1 ln xi + β2 x2i + i , i = 1, . . . , n. a) Pro regresnı´ prˇ´ımku urcˇete rezidua´lnı´ rozptyl, smeˇrodatne´ chyby odhadu˚ regresnı´ch parametru˚ a zkonstruujte 95% intervaly spolehlivosti pro tyto parametry. b) Pro logaritmickou regresnı´ krˇivku urcˇete rezidua´lnı´ rozptyl, smeˇrodatne´ chyby odhadu˚ regresnı´ch parametru˚ a zkonstruujte 95% intervaly spolehlivosti pro tyto parametry. c) Odhadneˇte spotrˇebu pro hodnotu rychlosti 75 km/hod. pomocı´ obou modelu˚. Pro oba modely urcˇete interval 95% interval spolehlivosti pro regresnı´ funkci i pro predikci pro hodnotu rychlosti 75 km/hod. d) Pro oba modely zkonstruujte pa´sy spolehlivosti pro regresnı´ funkce a predikovane´ hodnoty, vy´sledky zobrazte graficky. [Datovy´ soubor: rychlost spotreba.txt] 7. Data popisujı´ vy´sledky vstupnı´ch zdravotnı´ch testu˚ uchazecˇu˚ o sluzˇbu u policie.
7
Tlak Hmotnost Tuk Tlak Hmotnost Tuk Tlak Hmotnost Tuk Tlak Hmotnost Tuk Tlak Hmotnost Tuk
66 87,36 16,98 74 56,2 3,44 77 87,16 17,72 81 78,74 16,26 68 89 18,83
87 117,6 27,6 68 81,75 20,31 67 82,42 9,55 61 86,83 9,72 71 95,17 19,16
85 82,85 6,61 72 80,24 12,96 78 64,11 9,54 65 70,48 6,29 84 84,19 15,83
59 62,32 3,26 76 74,81 12,42 78 81,57 13,1 69 72,67 4,37 81 63,12 8,77
76 82 19 94 61,98 3,58 80 99,85 17,75 66 85,86 14,43 74 70,01 6,61
77 102 27 63 95,23 12,91 95 78,49 9,57 75 84,86 17 79 82,11 22,22
70 70,12 6,88 80 72,48 11,34 76 87,13 18,52 72 66,97 5,8 89 71 8,29
66 88,07 18,8 67 92,45 17,5 78 65,64 6,4 66 68,33 8,14 79 94,56 26,82
75 77,96 18,87 77 104,56 18,93 73 51,76 2,86 93 63,34 3,63 80 70,91 9,32
66 74,33 8,15 78 66,2 10,94 80 67,14 4,31 77 85,72 23,61 67 79,19 19,9
Popisˇte vhodny´m regresnı´m modelem (pokud to lze) za´vislost tlaku na hmotnosti a procenta tuku v teˇle. Najdeˇte vhodny´ model pro popis za´vislosti hmotnosti na procentech tuku v teˇle. a) Urcˇete rezidua´lnı´ rozptyl, smeˇrodatne´ chyby odhadu˚ regresnı´ch parametru˚ a zkonstruujte 95% intervaly spolehlivosti pro oba modely. b) Pro model popisujı´cı´ za´vislost hmotnosti na procentu tuku v teˇle odhadneˇ hmotnost pro hodnotu tuku 20 %. Spocˇtete 95% intervaly spolehlivosti pro hodnotu regresnı´ funkce i predikovanou hodnotu v tomto bodeˇ. [Datovy´ soubor: vstupni testy.txt
8