TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur. UITWERKINGEN —————————————————————————— 1. Methoden om schatters te vinden a) De aannemelijkheidsfunctie is gelijk aan L(λ) =
3 1 (λ)2 (x1 x2 x3 )e−λx1 e−λx2 e−λx3 . 8
Voor de logaritme geldt ln L(λ) = ln
1 + 6 ln λ + ln(x1 x2 x3 ) − λ(x1 + x2 + x3 ). 8
Differenti¨eren naar λ en gelijkstellen aan 0 levert 6 − (x1 + x2 + x3 ) = 0 . λ Hieruit volgt b= λ
6 2 = . x1 + x2 + x3 x
De aannemelijkheidsfunctie neemt een maximum (zie tekenverloop afgeleide) aan voor deze waarde. De meest aannemelijke schatter voor θ wordt b= 2 . λ x De meest aannemelijke schatting is 6/26. b) De verwachting van deze Erlang verdeelde grootheid is 2/λ. 2 b = 2/X . Oplossen van de vergelijking = X levert λ λ De momentenschatting wordt 6/26. 2. Eigenschappen schatters a) Voor de MSE geldt
2
MSE = (bias) + V (M ) = =
1 − θ 5
2 +
4 θ−θ 5
2 2 1 θ = θ2 . 75 15
1
2 +
2 2 θ 75
b) Er geldt V (aM ) = a2 V (M ) en dus 2 4 2 a θ − θ + a2 θ2 5 75 # " 2 4 2 θ2 . = 1 − a + a2 5 75
MSE =
Minimaliseren van deze uitdrukking (differentieer naar a) levert 4 4 4 −2(1 − a) + a = 0 5 5 75 en dus a = 6/5. 3. Betrouwbaarheidsinterval voor fractie. a) Het betrouwbaarheidsinterval is gelijk aan r r pˆ(1 − pˆ) 150 150 50 = ± 1.96 /200 = 0.75 ± 0.06 . pˆ ± 1.96 n 200 200 200 b) De normale verdeling. Deze mag gebruikt worden op grond van de centrale limietstelling. De som van een aantal onderling onafhankelijk en identiek verdeelde stochasten is bij benadering P normaal verdeeld. Het aantal mensen dat ja antwoordt kan geschreven worden als Xi , waarbij Xi = 1 indien persoon i ja antwoordt en 0 anders. De kans dat een ASELECT gekozen persoon ’ja’ antwoordt is gelijk aan p, de onbekende fractie. De grootheid Xi is dus Bernoulli verdeeld. Omdat ASELECT gekozen wordt uit een grote populatie mag aangenomen worden dat de Xi onderling onafhankelijk en identiek verdeeld zijn. c) De breedte van het betrouwbaarheidsinterval is gelijk aan p 2 ∗ 1.96 pˆ(1 − pˆ)/n . p Omdat de minstens 0.70 is, is dit hoogstens gelijk aan 2∗1.96 0.7 ∗ 0.3/n = √ fractie √ √ 2∗1.96∗ 0.21/ n . Omdat dit hoogstens gelijk mag zijn aan 0.1 volgt n > 17.96, en dus n ≥ 323 . 4. Toetsen a) Men wil aantonen dat het kruispunt veiliger is geworden. Daarvoor is een sterke uitspraak nodig en moet dus in de alternatieve hypothese staan dat het verwachte aantal ongelukken kleiner is. Daarom is een geschikte toets H0 : µ = 2 H1 : µ < 2. Opmerking: de nulhypothese mag ook H0 : µ ≥ 2 zijn. b) Laat X het aantal ongelukken in 5 maanden zijn. Dan is X Poisson-verdeeld met parameter 10 als de nulhypothese waar is. De p-waarde is gelijk aan de overschrijdingskans P (X ≤ 6) = 0.1301. 2
c) Als het verwachte aantal ongelukken 1 per maand is, is X Poisson-verdeeld met parameter 5. De kans dat H0 wordt verworpen is dus gelijk aan P (X ≤ 5) = 0.6160. d) Met (o.a) de Centrale Limiet Stelling volgt dat een 95%-betrouwbaarheidsinterval voor µ gelijk is aan µ b ± 1.645b σµb . De schatter µ b is gelijk aan Y /36, waarbij Y het aantal ongelukken in 36 maanden is. De verwachting van Y is 36µ. De schatting is 40/36. De variantie van Y /36 is gelijk aan 36µ/(362 ) = µ/36. Er geldt dus σµb = µ/36. De schatting hiervoor is 40/(362 ). De bovengrens van het betrouwbaarheidsinterval wordt √ 40 40 µ b + 1.645b σµb = + 1.645 = 1.111 + 0.289. 36 36 Opmerking: het gaat sneller om een betrouwbaarheidsinterval te maken voor het verwachte aantal in 36 maanden. Dit is ogv CLS gelijk aan √ 40 + 1.645 40. Het betrouwbaarheidsinterval voor het verwachte aantal in een maand wordt nu gevonden door door 36 te delen. 5. Kruistabel a) Als de fractie die herbewerkt moet worden niet gewijzigd is is een schatting voor de fractie gelijk (26 + 12)/400 = 0.095. De verwachte aantallen worden
voor na
herbewerking ja nee 19 181 19 181
som 200 200
De waarde 19 kan ook gevonden worden met de formule zoals die bij een kruistabel altijd gebruikt wordt e11 =
38 ∗ 200 = 19. 400
b) Er zijn twee (equivalente) methoden (a) Een geschikte toetsingsgrootheid is χ2 =
Deze is χ2 -verdeeld met (2 − 1)(2 − 1) = 1 vrijheidsgraad.
3
(b) Ook kan de toetsingsgrootheid gebruikt worden om te toetsen of twee fracties van elkaar verschillen z=q
pb1 − pb2 pb(1 − pb)
1 200
0.13 − 0.06 =q 1 1 + 200 + 0.095 ∗ 0.905 200
1 200
= 2.39.
Merk op dat 2.392 = 5.70. 6. Afvallen a) Het gaat om gepaarde waarnemingen. Er zijn niet twee aselecte steeproeven (dan zouden er 16 personen zijn). Daarom moet de analyse met methode 2 gedaan worden. Het gegeven eenzijdig betrouwbaarheidsinterval bevat niet de waarde 3. Daarom moet de nulhypothese worden verworpen bij een eenzijdige toets (en eenzijdig toetsen ligt hier het meest voor de hand). b) Het 95% eenzijdig betrouwbaarheidsinterval (dat gegeven is in de uitvoer) is 4.125 − t0.05;7 sd , waarbij sd de geschatte standaardafwijking van het gemiddeld verschil is. Hieruit volgt sd =
0.8349 0.8349 = 0.4406. = t0.05;7 1.895
Het tweezijdig 99% betrouwbaarheidsinterval is 4.125 ± t0.005;7 sd = 4.125 ± 3.499 ∗ 0.4406 = 4.125 ± 1.542. Dit kan ook rechtstreeks uit de waarnemingen berekend worden. c) Het gaat om gepaarde waarnemingen en dus de verschillen. Omdat de nulhypothese is dat men 3 pond afvalt moet het verschil ten opzicht van 3 genomen worden. Nummer persoon Gewicht aan het begin Gewicht na een maand Verschil ten opzicht van 3 Rangnummers met teken
1 165 161 1 2.5
2 201 195 3 7
3 195 192 0
4 198 193 2 5.5
5 155 150 2 5.5
6 143 141 −1 −2.5
7 150 146 1 2.5
8 187 183 1 2.5
Er is een ’tie’. Deze wordt weggelaten. Er zijn twee mogelijke toetsen. 1) Tekentoets: Het aantal getallen kleiner dan nul (X) is onder de nulhypothese binomiaal verdeeld met p = 0.5. Er geldt P (X ≤ 1) = 0.065. De nulhypothese wordt niet verworpen. 2) Bij de rangtekentoets is de waarde van de toetsingsgrootheid gelijk aan de som van de rangnummers van de positieve verschillen. Deze som is 25.5. De linker kritieke waarde bij tweezijdig toetsen (α = 0.05) is 2, bij eenzijdig toetsen is hij 3. De rechter kritieke waarde is dus 26, respectievelijk 25. Bij eenzijdig toetsen wordt de nulhypothese verworpen, bij tweezijdig toetsen niet. 7. Regressie a) Het 95%-betrouwbaarheidsinterval voor β0 is βb0 ± tα/2;13 σ bβb0 = 126.249 ± 2.16 ∗ 2.25442 = 126.249 ± 4.8695. Het interval is (121.38, 131.12). 4
b) De schatting voor de variantie is gelijk aan SST − SSR 454.169 − 341.726 = = 8.65. n−2 13 c) De toetsingsgrootheid is βb1 p
σ b2 /S
xx
−0.917622
=p
8.65/405.836
= −6.285.
De kritieke waarde is tα/2;13 = 2.16. De nulhypothese wordt verworpen d) De schatting voor de response bij x = 10 is 126.429 − 0.917622 ∗ 10 = 117.07. Het voorspellingsinterval is gelijk aan s (10 − 14.54)2 1 = 117.07 ± 6.72 117.07 ± 2.16 8.65 1 + + 15 405.836 Het interval is (110.35, 123.79).