Uitwerkingen tentamen Statistiek 2 voor TeMa Maandag 08-03-2004. Opgave 1 a. Model: Y = β 0 + β1 * x + ε met ε ~ Nid (0, σ 2 ) Y is het energieverbruik, x is de omgevingstemperatuur. . Volgens het scatterplot in de bijlage lijkt er sprake te zijn van een lineair verband tussen Y en x. De puntenwolk vertoont echter een uitwaaierend patroon wat er op wijst dat mogelijk de varianties niet constant zijn. b. βˆ = 255.419 βˆ = 1.676 σ 2 = MS = 295.506 e
1
0
De geschatte regressielijn is dus: y = 255.419 + 1.676 x Is het model significant? H 0 : β1 = 0 (model is significant) H 1 : β1 ≠ 0
Toetsingsgrootheid: F =
MS reg
onder H 0 : F ∼ F101 MSe De p-value van de toets bedraagt 0.005 dus H 0 wordt verworpen. βˆ1 − 0 Alternatief: Toetsingsgrootheid: T = onder H 0 : T ∼ t10 MS E S xx De p-value van de toets bedraagt 0.005 dus H 0 wordt verworpen. n
c. sxx = ∑ ( xi − x ) 2 = (n − 1) sx2 = 11*119.720=1316.92 i =1
MS E 95% betrouwbaarheidsinterval: voor β1: βˆ1 ± t10, 0.025 S xx 1.676 ± 2.228*0.474 oftewel 1.676 ± 1.056 < 0.62 ; 2.732 >
1 (25 − x ) d. 95% predictie-interval: βˆ0 + 25βˆ1 ± t10, 0.025 MS E (1 + + ) n S xx 2
297.319 ± 2.228* 295.506(1 +
1 (25 − 13.92) 2 + ) oftewel 297.319 ± 41.54 12 1316.92
< 255.78 ; 338.87 > Een 95% predictie-interval is een interval waarbinnen een toekomstige individuele waarde met een vertrouwen van 95% ligt. Een 95% betrouwbaarheidsinterval is een interval waarbinnen een verwachte waarde met een vertrouwen van 95% ligt. Een 95% predictie-interval is dus breder dan een 95% betrouwbaarheidsinterval. SS 3701.19 e. R 2 = reg = = 0.56 SStot 6656.25 56% van de variatie wordt verklaard door het model: dit is aan de krappe kant.. Het lijkt op grond van deze waarde zinvol om op zoek te gaan naar meerdere factoren.
1
Onjuist: een model kan zeer significant zijn (wanneer het bijvoorbeeld slechts een deel van de relevante variabelen bevat), terwijl de fit onvoldoende is (kleine R2). f. Model 1 ---(verwijder Pactief) ÆModel2 ---(verwijder Zuiverh) ÆModel5
2
Opgave2 a. H0: er is geen verband tussen botontkalking en behandeling. H1: er is een verband. (obsij − expij ) 2 Toetsingsgrootheid: V = ∑ expij i, j
Onder H0: V ~ χ 42 2 Beslissingscriterium: verwerp H0 als v > χ 4,0.05 2 v = 28.126 χ 4,0.05 = 9.49
Dus H0 wordt verworpen. Voorwaarde voor de toets is dat alle expij groter of gelijk aan 5 zijn; hieraan is voldaan. GROEP * Calciumgehalte Crosstabulation
GROEP
Controle
Fysiotherapie
Gymnastiek
Total
(obs3,1 − exp3,1 ) 2
exp3,1
=
Count Expected Count Adjusted Residual Count Expected Count Adjusted Residual Count Expected Count Adjusted Residual Count Expected Count
(15 − 26.25) 2 26.3
Afname 38 22,5 4,9 22 26,3 -1,3 15 26,3 -3,4 75 75,0
Calciumgehalte Overanderd Toename 15 7 23,1 14,4 -2,6 -2,7 32 16 27,0 16,8 1,5 -,3 30 25 27,0 16,8 ,9 2,8 77 48 77,0 48,0
Total 60 60,0 70 70,0 70 70,0 200 200,0
= 4.78
obs (3,1) − exp(3,1) exp(3,1)(1 − kolprop )(1 − rijprop) 15 − 26.3 = ≈ −3.45 70 75 26.3*(1 − )(1 − ) 200 200 Opvallend: (controle,afname) veel hoger dan verwacht bij onafhankelijkheid (controle,toename) veel lager dan verwacht bij onafhankelijkheid (gymnastiek,afname) veel lager dan verwacht bij onafhankelijkheid (gymnastiek,toename) veel hoger dan verwacht bij onafhankelijkheid c. Significantie geeft de mate van vertrouwen aan in het bestaan van een verband tussen de twee variabelen, terwijl een associatiemaat de kracht (en soms de richting) van deze relatie uitdrukt. Associatiematen voor ordinale variabelen zijn niet van toepassing. Van toepassing zijn Phi, Cramer’s V en de Contingency coefficient met waarden resp. 0.375, 0.265, 0.351. Deze waarden duiden op een gematigd sterke associatie.
* b. r3,1 =
3
Opgave 3
a. Model Yij = µ + τ i + ε ij
i = 1..3,
j = 1..4
met ε ij ~ Nid (0, σ 2 ) , Yij is de verbetering van apparaat i bij test j 4
∑ τ i = 0 , τi is het effect van apparaat i. i =1
ANOVA resultaat
Between Groups Within Groups Total
Sum of Squares 90,500 297,500 388,000
df 2 9 11
Mean Square 45,250 33,056
F 1,369
Sig. > 0.05
Zij τ i , i = 1, 2,3 het verwachte effect van apparaat i. Dan: H 0 : τ 1 = τ 2 = τ 3 (geen verschil tussen de apparaten) H1 : niet H 0 MSbetween Toetsingsgrootheid: F = onder H 0 : F ∼ F92 MSe Verwerp H 0 als f > f9,2 0.05
f = 1.369
f 9,2 0.05 = 4.26
Dus wordt H 0 niet verworpen. Er zijn dus geen significante verschillen tussen de apparaten. b. σ 2 = MSe = 33.056 95%-betrouwbaarheidsinterval voor µ1 − µ 2 is (x1 − x2 ) ± t9;0.025 MSe ( 14 + 14 ) (19.25 − 24) ± 2.262* 4.065 oftewel −4.75 ± 9.197 <-13.947, 4.446> Conclusie: geen significant verschil tussen apparaat 1 en 2. c. Het opnemen van de blokfactor Persoon elimineert de variatie in de data t.g.v. de verschillen tussen de proefpersonen. Een nadeel is dat blocking minder (6) vrijheidsgraden overlaat voor de error-kwadratensom (9 zonder blocking). Model: Yijk = µ + τ i + β j + ε ij i = 1..3, j = 1..4
met ε ij ~ Nid (0, σ 2 ) , Yij is de verbetering van apparaat i bij proefpersoon j.
τ i is het effect van apparaat i, β j is het blokeffect van proefpersoon j. 3
4
i =1
j =1
∑ τ i = ∑ β j =0
4
d. Tests of Between-Subjects Effects Dependent Variable: resultaat Source PERSOON TYPE Error Corrected Total
Type III Sum of Squares 260,667 90,500 36,833 388,000
df
Mean Square 86,889 45,250 6,139
3 2 6 11
F 14,154 7,371
Sig. < 0.05 < 0.05
H 0 : τ 1 = τ 2 = τ 3 (geen verschil tussen de apparaten) H1 : τ i ≠ 0 minstens één i. MStype onder H 0 : F ∼ F62 Toetsingsgrootheid: F = MSe Verwerp H 0 als f > f 6,2 0.05
f = 7.371 f 6,2 0.05 = 5.14 Dus wordt H 0 verworpen. Er zijn dus nu wel significante verschillen tussen de apparaten. Verder is het blokeffect ook significant. Blijkbaar heeft blocking zin gehad. e. De toets van Friedman kan hier worden gebruikt. proefpersoon 1 2 3 4
type A 16 16 17 28
type B 26 20 21 29
type C 22 23 22 36
Rangnummers i.p.v. waarnemingen proefpersoon 1 2 3 4 Rangsommen
type A 1 1 1 1 4
type B 3 2 2 2 9
type C 2 3 3 3 11
H 0 : µ1 = µ 2 = µ3 (geen verschil tussen de apparaten) H1 : niet H 0 3
1
i =1
2
Toetsingsgrootheid: S F = ∑ ( Ri. − * 4(3 + 1)) 2 Verwerp H 0 als sF ≥ 26 (compendium)
sF = (4 − 8) 2 + (9 − 8) 2 + (11 − 8) 2 = 26 Dus wordt H 0 (net) verworpen. De apparaten verschillen dus significant.
5
Opgave 4 Uit de grafische uitvoer blijkt dat de verschillen waarschijnlijk niet afkomstig zijn uit een normale verdeling. Het vermoeden voor een afwijking van normaliteit wordt nog eens bevestigd door de Normal Probability plot. In formele zin wordt de nulhypothese van normaliteit verworpen door de toetsen van Shapiro-Wilks en Kolmogorov-Smirnov. Verder is door de kleine steekproefomvang de Centrale Limietstelling niet van toepassing Het gebruik van de gepaarde t-toets is dus niet verantwoord. Blijven over de Rangtekentoets van Wilcoxon en de Tekentoets. Vanwege het hogere onderscheidings vermogen van de Rangtekentoets kiezen we dus voor de Rangtekentoets. verschillen rangen
-0.90 10
0.60 6
0.15 2.5
0.15 2.5
0.10 1
-1.80 9
0.75 8
0.20 4.5
0.20 4.5
0.65 7
H0 : µ A = µB H1 : µ A > µ B Toetsingsgrootheid: W + de rangsom van de positieve verschillen. Verwerp H 0 als w+ ≥ wR , 0.05 w+ = 36 1
wR + wL = *10 *11 = 55 2
wL , 0.05 = wL , 0.1 (tweezijdig ) = 13 (compendium) Dus wR = 55 − 13 = 42 Conclusie: H 0 wordt niet verworpen.
6