Neparametricke testy (motto: „An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.“ Andrew Lang)
1. Příklad V následující tabulce jsou vybrané údaje z provedené analýzy rozptylu. Jednalo se o test, zda-li se liší spotřeba automobilu při použití různých typů benzínu. Doplňte tabulku a zjistěte z ní následující údaje: Počet celkových pokusů (testovacích jízd) Počet testovaných typů benzínu Množství variability vysvětlené modelem Liší se statisticky významně (na hladině významnosti 0,05) spotřeba automobilu v závislosti na typu benzínu?
Source
DF Sum of Squares Mean Square F Value Pr > F
Model Error
12
Corrected Total
15
0,27900000
R-Square Coeff Var Root MSE 0,587276
Source
1,623170
B Mean
0,097958 6,035000
DF Sum of Squares Mean Square F Value Pr > F
Model
3
0,16385
0,0546
Error
12
0,11515
0,0096
Corrected Total
15
0,27900000
R-Square Coeff Var Root MSE 0,587276
1,623170
Model DF = CT DF – Error DF = 15 – 12 = 3 Model SoS = CT SoS * R-Square = 0,279*0,587276 = 0,16385 Error SoS = CT SoS – Model SoS = 0,279 – 0,16385 = 0,11515 Model MS = 0,16385/3 = 0,0546 Error MS = 0,11515/12 = 0,0096 F Value = Model MS/Error MS = 0,0546/0,0096 = 5,69 CT DF = n – 1 = 15….. n =16 Model DF = k – 1 = 3 …. k = 4
B Mean
0,097958 6,035000
5,69
R-Square = 0,587276 Kritický obor testu je dán kritickou hodnotou F1-α[k-1; n-k] = F0,95[3; 12] = 3,59. Testové kritérium překračuje kritickou hodnotu.
Regrese 2. Příklad Odhadněte parametry lineární regresní funkce (přímky) popisující závislost y na x (ručně, SAS) a zapište pro dané hodnoty x vyrovnané hodnoty y.
X
1
1
2
2
3
3
4
4
5
5
6
6
Y
3
5
8 10 12 9 15 14 17 19 25 14
y = 1,733 + 3,1x
x
y
y
1
4
4,833
2
9
7,933
3
10,5
11,033
4
14,5
14,133
5
18
17,233
6
19,5
20,333
První sloupec udává průběh podmíněných průměrů (vždy průměr těch y, které byly naměřené při dané hodnotě x). Druhý sloupec udává průběh funkce y = b0 + b1x. Ruční výpočet: ̅
̅
̅̅̅
̅̅̅
3. Příklad V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů).
Náklady 835 63 240 1005 184 213 313 658 195 545 Cena a. b. c. d. e.
136 24 52 143 42 43 67 106 61 99
Modelujte závislost nákladů na údržbu na ceně regresní přímkou. Ověřte pomocí testu, zda se jedná o významnou závislost (α = 0,05). Zhodnoťte kvalitu modelu pomocí koeficientu determinace. Interpretujte věcně hodnotu regresního koeficientu b1. Odhadněte střední hodnotu nákladů u domů za 80 tis. dolarů.
File – New – Data – (Finish) y = - 160,35 + 7,5737x Pr > F = <.0001; tedy je menší než 0,05 – model jako celek má smysl (alespoň jedna proměnná je významně odlišná od nuly) Pr > t = 0,0045 resp. <.0001; tedy je menší než 0,05 – jak proměnná b0, tak b1 jsou významně odlišné od nuly a mají v modelu smysl. Koeficient determinace = R2 = R-square = 0,9697. 96,97% celkové variability je vysvětleno tímto modelem. S každým tisícem dolarů, o který je dům dražší, stoupají roční náklady na údržbu o 7,5737 dolarů Doplněním: y = -160,35 + 7,5737*80 = 445, 56 dolarů.
4. Příklad Máte tento výstup ze SAS modelující závislost mezi mediánem ceny domu v Bostonu (v tis. dolarech) a počtem pokojů:
Analysis of Variance Source
DF
Sum
of Mean F Value Pr > F
Squares Model
1
Error
504
Corrected Total
505 42716
Square
Root MSE
6.61616
R-Square
0.4835
Dependent Mean
22.53281
Adj R-Sq
0.4825
Coeff Var
29.36234
Parameter Estimates Variable
DF Parameter Standard t Value Pr > |t| Estimate Error
a. b. c.
Intercept
1
-34.67062 2.64980
Rooms
1
9.10211
0.41903
Dopočítejte teoretický a reziduální součet čtverců. Vypočítejte hodnoty testových kritérií pro celkový F-test a jednotlivé t-testy, proveďte dané testy na 1% hladině významnosti. Vypočítejte mediánovou cenu domu s 5 pokoji.
Teoretický součet čtverců – Model SoS. = R2*Total SoS = 0,4835*42716 = 20653 Reziduální součet čtverců – Error SoS = Total SoS – Model SoS = 42716 – 20653 = 22063 F – test – F =
471,79
F0,99[1;504] = 6,635 {
}
Spadá do kritického oboru, zamítáme nulovou hypotézu, že se všechny proměnné rovnají nule. Prokázali jsme, že alespoň jedna proměnná v modelu je statisticky významně odlišná od nuly. t-testy – t = t0,99 [504] = 2,457 (přibližně, hodnota pro t[30]) {| |
}
Obě hodnoty padají do kritického oboru, tedy zamítáme pro oba parametry nulovou hypotézu, že se jeho hodnota rovná nule. Prokázali jsme, že na hladině významnosti 0,1 jsou parametry b0 a b1 statisticky významně odlišné od nuly. y = -34,67062 + 9,10211*5 = 10,84. Mediánová cena domu s pěti pokoji v Bostonu je 10 840 dolarů.
5. Příklad U automobilu byla měřena spotřeba benzínu v závislosti na rychlosti. (Stahovani – Auta)
Rychlost (km/h)
40 50 60 70 80 90 100 110
Spotřeba (l/100 km) 5,7 5,4 5,2 5,2 5,8 6 6,8 8,1 a. b. c. d.
Vyrovnejte data regresní přímkou a regresní parabolou. Ověřte kvalitu modelů na hladině významnosti 0,05 a porovnejte je. Ověřte význam kvadratického členu v modelu paraboly na hladině významnosti 0,01. Proveďte odhad spotřeby při rychlosti 80km/h.
přímka: y = 3,63 + 0,0319x parabola: y = 9,76 – 0,14845x + 0,00120x2 Pro vytvoření paraboly je potřeba vytvořit kromě proměnných y a x ještě proměnnou x 2, jejíž hodnoty získáme umocněním hodnot x. Následně do modelu zařadíme jako vysvětlující proměnné x i x2. Pro porovnávání kvality modelů užíváme upravený koeficient determinace, který najdeme v řádku Adj R-Sq. Pouze pokud bychom jej neměli, užívali bychom čistý koeficient determinace (R-Square) Přímka: 0,5652 Parabola: 0,9772 Model paraboly vysvětluje mnohem více z celkové variability vzhledem k množství užitých proměnných (tj. upravený koeficient determinace je vyšší) než model přímky, je tudíž považován za užitečnější. t-test pro proměnnou x2 vychází příznivě (Pr > t = 0,0001, což je méně než 0,01) y = 9,76 – 0,14846*80 + 0,00120*802 = 5,5632
6. Příklad Sestrojte regresní model závislosti pracovní neschopnosti (v procentech pracovních dní za rok) na průměrném věku zaměstnanců a podílu žen (v procentech) na celkovém počtu zaměstnanců v podnicích určitého odvětví.
Neschopnost Průměrný věk Podíl žen
a. b. c. d.
3.1
35
40
4.0
33
44
3.5
42
40
3.0
34
38
1.9
40
30
2.0
36
32
2.5
40
35
3.0
38
36
3.5
32
40
2.5
40
35
Ověřte vhodnost zařazení proměnných do modelu na hladině významnosti 0,05. Odhadněte parametry lineární regresní funkce a tuto zapište. Posuďte kvalitu modelu. Odhadněte roční procento pracovní neschopnosti v podniku s průměrným věkem zaměstnanců 39 let, kde pracuje 42% žen.
Do vysvětlujících proměnných se zařadí obě dvě uvažované proměnné. Vzniká model: y = -3,40695 + 0,01006x1 + 0,16040x2. Dle t-testů do modelu nepatří proměnná x1. Adj. R-Sq = 0,9358. Upravíme model tak, že proměnnou x1 vyřadíme. y = -2,88125 + 0,15625x2 T-testy i F-test vychází v pořádku. Adj. R-Sq = 0,9416. Model je dokonce možno považovat za kvalitnější z hlediska vysvětlené variability v poměru k počtu zařazených proměnných. R-Square = 0,9481. Tento model vysvětluje celkem 94,81% celkové variability, testy parametrů taky vycházejí v pořádku. Předchozí model vysvětloval 95,01% celkové variability, ale jednalo se o statisticky neprůkazný model, větší podíl vysvětlené variability je způsoben zařazením dalších proměnných. Teoreticky lze zařazením libovolných (!) dodatečných proměnných nakonec vysvětlit 100% variability (stačí mít tolik proměnných, kolik je pozorování), ale kvalita takovéhoto modelu by zjevně byla nulová. Proto se pro hodnocení užívá Adj R-Sq. d.) y = -2,88125 + 0,15625*42 = 3,68125. Opět je potřeba být opatrný při hodnocení schopnosti modelu předvídat, protože tvrdí, že při nulovém podílu žen by průměrná pracovní neschopnost byla záporná, což je logický nesmysl.
7. Příklad Máme k dispozici měření hmotnosti dětí a počtu jejich bodů za diktát.
a. b.
Student
1 2 3 4 5 6 7 8 9 10
Hmotnost
20 24 31 35 39 43 45 48 52 53
Počet bodů
34 36 38 42 45 48 51 55 58 62
Změřte těsnost lineární závislosti mezi počtem bodů za diktát a hmotností dětí. Otestujte na 5% hladině významnosti, zde je tato závislost statisticky významná.
Uvažujte nad tím, zda-li můžeme určit směr závislosti a použít případně regresní funkci. Ručně: ̅
̅
̅̅̅
̅̅̅
̅̅̅
√
√
V SAS: Analyze – Multivariate – Correlations… Jedna proměnná jako Analysis Variables, druhá jako Correlate with. Potom Run. Vidíme hodnotu koeficientu (0,97546) i příslušného testu (<.0001), tedy se jedná o statisticky významnou lineární závislost. Ručně: t =
√ √
; proti t0,975[8] = 2,306. Spadá do kritického oboru, tudíž zamítáme nulovou hypotézu, která tvrdí, že korelační
koeficient je roven nule. Prokázali jsme, že je statisticky významně odlišný od nuly. Je logicky nesmyslné, aby počet bodů z diktátu závisel na hmotnosti. Jedná se ve skutečnosti o tzv. falešnou korelaci, kdy obě proměnné závisí na proměnné třetí, zde neuvažované, a tou je věk testovaných dětí. Ne každá korelace je tudíž důkazem závislosti (!) a už vůbec nic neříká o směru této závislosti.