Regrese – cvicˇenı´
Regresnı´ analy´za 1. Byla zjisˇteˇna vy´sˇka otcu˚ a vy´sˇka jejich nejstarsˇ´ıch synu˚ [v cm]. otec 165 178 158 170 180 160 170 167 185 165 173 175 syn 162 184 163 170 189 165 177 170 187 176 171 183 a) Sestrojte bodovy´ graf. b) Urcˇete regresnı´ prˇ´ımku a nakreslete jejı´ graf. c) Odhadneˇte pru˚meˇrnou vy´sˇku syna prˇi vy´sˇce otce 178 cm. d) Urcˇete rezidua´lnı´ rozptyl, smeˇrodatne´ chyby teˇchto odhadu˚ regresnı´ch parametru˚ a zkonstruujte 95% intervaly spolehlivosti pro parametry regresnı´ prˇ´ımky. e) Odhadneˇte vy´sˇku syna prˇi vy´sˇce otce 180 cm, urcˇete interval 95% interval spolehlivosti pro regresnı´ funkci i pro predikci v tomto bodeˇ. f) Testujte vy´znamnost regresnı´ch parametru˚ na hladineˇ vy´znamnosti 0,05. g) Proved’te test vy´znamnosti regresnı´ho modelu, urcˇete koeficient determinace. [Datovy´ soubor: vyska otec syn.txt] 2. O 7 vybrany´ch strojı´ch v urcˇite´m podniku ma´me informace o jejich sta´rˇ´ı (v letech) a ty´dennı´ch na´kladech na jejich u´drzˇbu (v Kcˇ): sta´rˇ´ı stroje na´klady
1 35
1 52
3 81
3 105
5 100
6 125
7 120
a) Sestrojte bodovy´ graf. b) Urcˇete regresnı´ prˇ´ımku a nakreslete jejı´ graf. c) Urcˇete regresnı´ logaritmickou krˇivku a nakreslete jejı´ graf. d) Urcˇete bodove´ odhady parametru˚ regresnı´ prˇ´ımky, rezidua´lnı´ rozptyl, smeˇrodatne´ chyby teˇchto odhadu˚ a zkonstruujte 95% intervaly spolehlivosti pro parametry regresnı´ prˇ´ımky. e) Urcˇete bodove´ odhady regresnı´ logaritmicke´ krˇivky, rezidua´lnı´ rozptyl, smeˇrodatne´ chyby teˇchto odhadu˚ a zkonstruujte 95% intervaly spolehlivosti pro parametry regresnı´ prˇ´ımky. f) Pro oba modely urcˇete interval 95% interval spolehlivosti pro regresnı´ funkci i pro predikci pro sta´rˇ´ı stroje 4 roky. g) Testujte vy´znamnost parametru˚ regresnı´ prˇ´ımky a regresnı´ logaritmicke´ krˇivky na hladineˇ vy´znamnosti 0,05. h) Pro oba modely proved’te test vy´znamnosti regresnı´ho modelu, urcˇete koeficienty determinace. Rozhodneˇte, ktery´ z uvedeny´ch modelu˚ je pro popis studovane´ za´vislosti vhodneˇjsˇ´ı, zdu˚vodneˇte. [Datovy´ soubor: stari stroje naklady.txt] 3. Zajı´ma´me se o brzdnou dra´hu 63 automobilu˚ v za´vislosti na vy´chozı´ rychlosti. K dispozici je celkem n = 63 meˇrˇenı´. Promeˇnna´ rychlost uda´va´ vy´chozı´ rychlost (mı´le/hod.) prˇed zacˇa´tkem brzdeˇnı´, promeˇnna´ dra´ha pak uda´va´ odpovı´dajı´cı´ brzdnou dra´hu uvedenou ve stopa´ch. 1
Regrese – cvicˇenı´ Rychlost Dra´ha Rychlost Dra´ha Rychlost Dra´ha Rychlost Dra´ha Rychlost Dra´ha Rychlost Dra´ha Rychlost Dra´ha
4 4 8 11 13 18 17 22 24 56 28 84 39 138
5 2 9 5 13 27 18 47 25 33 29 68 40 110
5 8 9 13 13 15 18 29 25 59 29 54 40 134
5 8 9 5 14 14 18 34 25 48 30 60
5 4 10 8 14 16 19 30 25 56 30 101
7 6 10 17 15 16 20 48 26 39 30 67
7 7 10 14 16 19 21 55 26 41 31 77
8 9 12 11 16 14 21 39 27 78 35 85
8 8 12 21 16 34 21 42 27 57 35 107
8 13 12 19 17 29 22 35 28 64 36 79
a) Sestrojte bodovy´ graf. b) Urcˇete regresnı´ prˇ´ımku a nakreslete jejı´ graf. c) Urcˇete regresnı´ parabolu a nakreslete jejı´ graf. d) Odhadneˇte brzdnou dra´hu pro rychlost 25 mil/hod. e) Urcˇete bodove´ odhady parametru˚ regresnı´ prˇ´ımky, rezidua´lnı´ rozptyl, smeˇrodatne´ chyby teˇchto odhadu˚ a zkonstruujte 95% intervaly spolehlivosti pro parametry regresnı´ prˇ´ımky. f) Urcˇete bodove´ odhady parametru˚ kvadraticke´ regresnı´ funkce, rezidua´lnı´ rozptyl, smeˇrodatne´ chyby teˇchto odhadu˚ a zkonstruujte 95% intervaly spolehlivosti pro parametry te´to regresnı´ funkce. g) Odhadneˇte brzdnou dra´hu pro rychlost 20 mil/hod pomocı´ obou modelu˚. Pro oba modely urcˇete interval 95% interval spolehlivosti pro regresnı´ funkci i pro predikci pro rychlost 20 mil/hod. h) Testujte vy´znamnost teˇchto parametru˚ obou modelu˚ na hladineˇ vy´znamnosti 0,05. ch) Pro oba modely proved’te test vy´znamnosti regresnı´ho modelu, urcˇete koeficienty determinace. Rozhodneˇte, ktery´ z uvedeny´ch modelu˚ je pro popis studovane´ za´vislosti vhodneˇjsˇ´ı, zdu˚vodneˇte. [Datovy´ soubor: brzdna draha.txt] 4. V padesa´ty´ch letech dosˇlo k u´niku radioaktivnı´ho odpadu ze skla´dky v Hanfordu ve sta´teˇ Washington do rˇeky Columbia River. V devı´ti okrscı´ch nı´zˇe po proudu ve sta´teˇ Oregon bylo pocˇ´ıta´no vystavenı´ radioaktiviteˇ X (na za´kladeˇ vzda´lenosti od Hanfordu a vzda´lenosti pru˚meˇrne´ho obyvatele od rˇeky apod.). Soucˇasneˇ se sledovala u´mrtnost na rakovinu Y (u´mrtnost na 100 000 lidı´ za rok v letech 1959–64). Zı´skane´ u´daje jsou shrnuty v na´sledujı´cı´ tabulce. Pro dany´ datovy´ soubor odhadneˇte parametry teˇchto modelu˚: Yi = β0 + β1 xi + i , i = 1, . . . , n Yi = β0 + β1 ln xi + i , i = 1, . . . , n.
2
Regrese – cvicˇenı´ okrsek Clatsop Columbia Cilliam Hood River Morrow Portland Sherman Umatilla Wasco
radioaktivnı´ vystavenı´ X 8,3 6,4 3,4 3,8 2,6 11,6 1,2 2,5 1,6
u´mrtnost na rakovinu Y 210 180 130 170 130 210 120 150 140
a) Pro regresnı´ prˇ´ımku urcˇete rezidua´lnı´ rozptyl, smeˇrodatne´ chyby odhadu˚ regresnı´ch parametru˚ a zkonstruujte 95% intervaly spolehlivosti pro tyto parametry. b) Pro logaritmickou regresnı´ krˇivku urcˇete rezidua´lnı´ rozptyl, smeˇrodatne´ chyby odhadu˚ regresnı´ch parametru˚ a zkonstruujte 95% intervaly spolehlivosti pro tyto parametry. c) Odhadneˇte u´mrtnost pro hodnotu radioaktivnı´ vystavenı´ 8 pomocı´ obou modelu˚. Pro oba modely urcˇete interval 95% interval spolehlivosti pro regresnı´ funkci i pro predikci pro hodnotu radioaktivnı´ vystavenı´ 8. d) Pro oba modely zkonstruujte pa´sy spolehlivosti pro regresnı´ funkce a predikovane´ hodnoty, vy´sledky zobrazte graficky. e) Testujte vy´znamnost parametru˚ teˇchto modelu˚ na hladineˇ vy´znamnosti 0,05. f) Pro oba modely proved’te test vy´znamnosti regresnı´ho modelu, urcˇete koeficienty determinace. Rozhodneˇte, ktery´ z uvedeny´ch modelu˚ je pro popis studovane´ za´vislosti vhodneˇjsˇ´ı, zdu˚vodneˇte. [Datovy´ soubor: radiace umrtnost.txt] 5. Cı´lem studie bylo nale´zt za´vislost mezi teˇlesny´m tukem lehky´ch atletu˚-beˇzˇcu˚ y, kterˇ´ı tre´nujı´ asi 12 hodin, a zkonzumovany´m tukem v jejich kazˇdodennı´ straveˇ x. U na´hodne´ho vzorku 18 beˇzˇcu˚ byl meˇrˇen jejich teˇlesny´ podkozˇnı´ tuk y [%] a sledova´n v za´vislosti na zkonzumovane´m tuku ve straveˇ x [%]. x y x y
22,0 9,80 21,0 9,70
30,0 9,70 35,0 11,20
24,0 12,00 37,0 10,80
22,0 11,70 32,0 10,90
21,0 11,60 35,0 12,30
36,0 11,60 35,0 11,50
14,0 8,00 26,0 7,80
17,0 8,60 24,0 10,20
20,0 10,40 14,0 7,90
Pro dany´ datovy´ soubor odhadneˇte parametry teˇchto modelu˚: Yi = β0 + β1 xi + i , i = 1, . . . , n Yi = β0 + βx1i + i , i = 1, . . . , n. a) Pro regresnı´ prˇ´ımku urcˇete rezidua´lnı´ rozptyl, smeˇrodatne´ chyby odhadu˚ regresnı´ch parametru˚ a zkonstruujte 95% intervaly spolehlivosti pro tyto parametry. b) Pro hyperbolickou regresnı´ krˇivku urcˇete rezidua´lnı´ rozptyl, smeˇrodatne´ chyby odhadu˚ regresnı´ch parametru˚ a zkonstruujte 95% intervaly spolehlivosti pro tyto parametry. c) Odhadneˇte mnozˇstvı´ podkozˇnı´ho tuku pro hodnotu tuku ve straveˇ 30 % pomocı´ obou modelu˚. Pro oba modely urcˇete interval 95% interval spolehlivosti pro regresnı´ funkci i pro predikci hodnotu tuku ve straveˇ 30 %. 3
Regrese – cvicˇenı´ d) Pro oba modely zkonstruujte pa´sy spolehlivosti pro regresnı´ funkce a predikovane´ hodnoty, vy´sledky zobrazte graficky. e) Pro regresnı´ prˇ´ımku testujte vy´znamnost regresnı´ch parametru˚ na hladineˇ vy´znamnosti 0,05 a 0,01. f) Pro hyperbolickou regresnı´ krˇivku testujte vy´znamnost regresnı´ch parametru˚ na hladineˇ vy´znamnosti 0,05 a 0,01. g) Pro oba modely proved’te test vy´znamnosti regresnı´ho modelu, urcˇete koeficienty determinace. Rozhodneˇte, ktery´ z uvedeny´ch modelu˚ je pro popis studovane´ za´vislosti vhodneˇjsˇ´ı, zdu˚vodneˇte. [Datovy´ soubor: tuk sportovci.txt] ´ daje jsou v tabulce 6. U automobilu byla zmeˇrˇena spotrˇeba Y v za´vislosti na rychlosti X. U Rychlost [km/hod.] Spotrˇeba [l/100 km]
40 5,7
50 5,4
60 5,2
70 5,2
80 5,8
90 6,0
100 7,5
110 8,1
Pro dany´ datovy´ soubor odhadneˇte parametry teˇchto modelu˚: Yi = β0 + β1 xi + i , i = 1, . . . , n Yi = β0 + β1 xi + β2 x2i + i , i = 1, . . . , n. a) Pro regresnı´ prˇ´ımku urcˇete rezidua´lnı´ rozptyl, smeˇrodatne´ chyby odhadu˚ regresnı´ch parametru˚ a zkonstruujte 95% intervaly spolehlivosti pro tyto parametry. b) Pro parabolickou regresnı´ krˇivku urcˇete rezidua´lnı´ rozptyl, smeˇrodatne´ chyby odhadu˚ regresnı´ch parametru˚ a zkonstruujte 95% intervaly spolehlivosti pro tyto parametry. c) Odhadneˇte spotrˇebu pro hodnotu rychlosti 75 km/hod. pomocı´ obou modelu˚. Pro oba modely urcˇete interval 95% interval spolehlivosti pro regresnı´ funkci i pro predikci pro hodnotu rychlosti 75 km/hod. d) Pro oba modely zkonstruujte pa´sy spolehlivosti pro regresnı´ funkce a predikovane´ hodnoty, vy´sledky zobrazte graficky. e) Pro regresnı´ prˇ´ımku testujte vy´znamnost regresnı´ch parametru˚ na hladineˇ vy´znamnosti 0,05 a 0,01. f) Pro parabolickou regresnı´ krˇivku testujte vy´znamnost regresnı´ch parametru˚ na hladineˇ vy´znamnosti 0,05 a 0,01. g) Pro oba modely proved’te test vy´znamnosti regresnı´ho modelu, urcˇete koeficienty determinace. Rozhodneˇte, ktery´ z uvedeny´ch modelu˚ je pro popis studovane´ za´vislosti vhodneˇjsˇ´ı, zdu˚vodneˇte. [Datovy´ soubor: rychlost spotreba.txt] 7. Data popisujı´ vy´sledky vstupnı´ch zdravotnı´ch testu˚ uchazecˇu˚ o sluzˇbu u policie. Tlak Hmotnost Tuk Tlak Hmotnost Tuk Tlak Hmotnost Tuk
66 87,36 16,98 74 56,2 3,44 77 87,16 17,72
87 117,6 27,6 68 81,75 20,31 67 82,42 9,55
85 82,85 6,61 72 80,24 12,96 78 64,11 9,54
59 62,32 3,26 76 74,81 12,42 78 81,57 13,1
76 82 19 94 61,98 3,58 80 99,85 17,75
77 102 27 63 95,23 12,91 95 78,49 9,57
70 70,12 6,88 80 72,48 11,34 76 87,13 18,52
66 88,07 18,8 67 92,45 17,5 78 65,64 6,4
75 77,96 18,87 77 104,56 18,93 73 51,76 2,86
66 74,33 8,15 78 66,2 10,94 80 67,14 4,31 4
Regrese – cvicˇenı´ Tlak 81 61 65 69 Hmotnost 78,74 86,83 70,48 72,67 Tuk 16,26 9,72 6,29 4,37 Tlak 68 71 84 81 Hmotnost 89 95,17 84,19 63,12 Tuk 18,83 19,16 15,83 8,77
66 75 72 85,86 84,86 66,97 14,43 17 5,8 74 79 89 70,01 82,11 71 6,61 22,22 8,29
66 68,33 8,14 79 94,56 26,82
93 63,34 3,63 80 70,91 9,32
77 85,72 23,61 67 79,19 19,9
Popisˇte vhodny´m regresnı´m modelem (pokud to lze) za´vislost tlaku na hmotnosti a procentech tuku v teˇle. Najdeˇte vhodny´ model pro popis za´vislosti hmotnosti na procentech tuku v teˇle. a) Urcˇete rezidua´lnı´ rozptyl, smeˇrodatne´ chyby odhadu˚ regresnı´ch parametru˚ a zkonstruujte 95% intervaly spolehlivosti pro oba modely. b) Pro model popisujı´cı´ za´vislost hmotnosti na procentu tuku v teˇle odhadneˇ hmotnost pro hodnotu tuku 20 %. Spocˇtete 95% intervaly spolehlivosti pro hodnotu regresnı´ funkce i predikovanou hodnotu v tomto bodeˇ. c) Testujte vy´znamnost regresnı´ch parametru˚ pro oba modely na hladineˇ vy´znamnosti 0,05. d) Pro oba modely proved’te test vy´znamnosti regresnı´ho modelu, urcˇete koeficienty determinace. Rozhodneˇte, ktery´ z uvedeny´ch modelu˚ je pro popis studovane´ za´vislosti vhodny´, prˇ´ıpadneˇ ktery´ nikoli. Sve´ za´veˇry zdu˚vodneˇte. [Datovy´ soubor: vstupni testy.txt]
5