1. Příklad V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů). Náklady 835 63 240 1005 184 213 313 658 195 545 Cena
136 24 52 143 42 43 67 106 61 99
a.)
Modelujte závislost nákladů na údržbu na ceně regresní přímkou.
b.)
Ověřte pomocí testu, zda se jedná o významnou závislost (α = 0,05).
c.)
Zhodnoťte kvalitu modelu pomocí koeficientu determinace.
d.)
Interpretujte věcně hodnotu regresního koeficientu b 1.
e.)
Odhadněte střední hodnotu nákladů u domů za 80 tis. dolarů.
File – New – Data – (Finish) a.) y = - 160,35 + 7,5737x b.) Pr > F = <.0001; tedy je menší než 0,05 – model jako celek má smysl (alespoň jedna proměnná je významně odlišná od nuly) Pr > t = 0,0045 resp. <.0001; tedy je menší než 0,05 – jak proměnná b0, tak b1 jsou významně odlišné od nuly a mají v modelu smysl. c.) Koeficient determinace = R2 = R-square = 0,9697. 96,97% celkové variability je vysvětleno tímto modelem. d.) S každým tisícem dolarů, o který je dům dražší, stoupají roční náklady na údržbu o 7,5737 dolarů e.) Doplněním: y = -160,35 + 7,5737*80 = 445, 56 dolarů.
2. Příklad Máte tento výstup ze SAS modelující závislost mezi mediánem ceny domu v Bostonu (v tis. dolarech) a počtem pokojů: Analysis of Variance Source
DF
Sum Squares
of Mean F Value Pr > F Square
Model
1
Error
504
Corrected Total
505 42716
Root MSE
6.61616
R-Square
0.4835
Dependent Mean
22.53281
Adj R-Sq
0.4825
Coeff Var
29.36234
Parameter Estimates Variable
DF Parameter Standard t Value Pr > |t| Estimate Error
Intercept
1
-34.67062 2.64980
Rooms
1
9.10211
0.41903
a.) Dopočítejte teoretický a reziduální součet čtverců. b.) Vypočítejte hodnoty testových kritérií pro celkový F-test a jednotlivé t-testy, proveďte dané testy na 1% hladině významnosti. c.) Vypočítejte mediánovou cenu domu s 5 pokoji. a.) Teoretický součet čtverců – Model SoS. = R2*Total SoS = 0,4835*42716 = 20653 Reziduální součet čtverců – Error SoS = Total SoS – Model SoS = 42716 – 20653 = 22063 b.) F – test – F =
471,79
F0,99[1;504] = 6,635
Spadá do kritického oboru, zamítáme nulovou hypotézu, že se všechny proměnné rovnají nule. Prokázali jsme, že alespoň jedna proměnná v modelu je statisticky významně odlišná od nuly. t-testy – t = t0,99 [504] = 2,457 (přibližně, hodnota pro t[30])
Obě hodnoty padají do kritického oboru, tedy zamítáme pro oba parametry nulovou hypotézu, že se jeho hodnota rovná nule. Prokázali jsme, že na hladině významnosti 0,1 jsou parametry b0 a b1 statisticky významně odlišné od nuly. c.) y = -34,67062 + 9,10211*5 = 10,84. Mediánová cena domu s pěti pokoji v Bostonu je 10 840 dolarů. Za pozornost stojí nesmyslnost tohoto modelu – ceny domů se třemi a méně pokoji by dle něj měly být záporné. Tudíž ani vyhovující výsledky t-testů nezajišťují smysluplnost modelu (!).
3. Příklad U automobilu byla měřena spotřeba benzínu v závislosti na rychlosti. (Ke stažení – Auta) Rychlost (km/h)
40 50 60 70 80 90 100 110
Spotřeba (l/100 km) 5,7 5,4 5,2 5,2 5,8 6 6,8 8,1 a.)
Vyrovnejte data regresní přímkou a regresní parabolou.
b.)
Ověřte kvalitu modelů na hladině významnosti 0,05 a porovnejte je.
c.)
Ověřte význam kvadratického členu v modelu paraboly na hladině významnosti 0,01.
d.)
Proveďte odhad spotřeby při rychlosti 80km/h.
a.) přímka: y = 3,63 + 0,0319x parabola: y = 9,76 – 0,14845x + 0,00120x2 Pro vytvoření paraboly je potřeba vytvořit kromě proměnných y a x ještě proměnnou x 2, jejíž hodnoty získáme umocněním hodnot x. Následně do modelu zařadíme jako vysvětlující proměnné x i x2. b.) Pro porovnávaní kvality modelů užíváme upravený koeficient determinace, který najdeme v řádku Adj R-Sq. Pouze pokud bychom jej neměli, užívali bychom čistý koeficient determinace (R-Square) Přímka: 0,5652 Parabola: 0,9772 Model paraboly vysvětluje mnohem více z celkové variability vzhledem k množství užitých proměnných (tj. upravený koeficient determinace je vyšší) než model přímky, je tudíž považován za užitečnější.
c.) t-test pro proměnnou x2 vychází příznivě (Pr > t = 0,0001, což je méně než 0,01) d.) y = 9,76 – 0,14846*80 + 0,00120*802 = 5,5632
4. Příklad Sestrojte regresní model závislosti pracovní neschopnosti (v procentech pracovních dní za rok) na průměrném věku zaměstnanců a podílu žen (v procentech) na celkovém počtu zaměstnanců v podnicích určitého odvětví. Neschopnost Průměrný věk Podíl žen 3.1
35
40
4.0
33
44
3.5
42
40
3.0
34
38
1.9
40
30
2.0
36
32
2.5
40
35
3.0
38
36
3.5
32
40
2.5
40
35
a.)
Ověřte vhodnost zařazení proměnných do modelu na hladině významnosti 0,05.
b.)
Odhadněte parametry lineární regresní funkce a tuto zapište.
c.)
Posuďte kvalitu modelu.
d.)
Odhadněte roční procento pracovní neschopnosti v podniku s průměrným věkem zaměstnanců 39 let, kde pracuje 42% žen.
Do vysvětlujících proměnných se zařadí obě dvě uvažované proměnné. Vzniká model: y = -3,40695 + 0,01006x1 + 0,16040x2. Dle t-testů do modelu nepatří proměnná x1. Adj. R-Sq = 0,9358. Upravíme model tak, že proměnnou x1 vyřadíme. y = -2,88125 + 0,15625x2
T-testy i F-test vychází v pořádku. Adj. R-Sq = 0,9416. Model je dokonce možno považovat za kvalitnější z hlediska vysvětlené variability v poměru k počtu zařazených proměnných. R-Square = 0,9481. Tento model vysvětluje celkem 94,81% celkové variability, testy parametrů taky vycházejí v pořádku. Předchozí model vysvětloval 95,01% celkové variability, ale jednalo se o statisticky neprůkazný model, větší podíl vysvětlené variability je způsoben zařazením dalších proměnných. Teoreticky lze zařazením libovolných (!) dodatečných proměnných nakonec vysvětlit 100% variability (stačí mít tolik proměnných, kolik je pozorování), ale kvalita takovéhoto modelu by zjevně byla nulová. Proto se pro hodnocení užívá Adj R-Sq. d.) y = -2,88125 + 0,15625*42 = 3,68125. Opět je potřeba být opatrný při hodnocení schopnosti modelu předvídat, protože tvrdí, že při nulovém podílu žen by průměrná pracovní neschopnost byla záporná, což je logický nesmysl.