TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamenopgaven Statistiek (2DD71): UITWERKINGEN 1. Stroopwafels a) De som S van de 12 gewichten is X1 + X2 + · · · + X12 . Deze is normaal verdeeld met verwachting 12µ en variantie 12 · 22 . Er moet gelden 360 − 12µ √ P (S < 360) = P Z < < 0.03. 2 12 √ √ Hieruit volgt 360−12µ < −1.88 en dus 12µ > 360 + 1.88 · 2 12 = 373. De 2 12 waarde van µ moet dus minstens 31.1 zijn. b) Dat aantal is negatief binomiaal verdeeld met parameters p = 0.03 en r = 10. De verwachting r/p = 333.33 c) De som S van de 12 gewichten is X1 + X2 + · · · + X12 . Deze is normaal verdeeld met verwachting 366 en variantie 12 · σ 2 . Er moet gelden 360 − 366 √ P (S < 360) = P Z < < 0.03. σ 12 Hieruit volgt
360−366 √ σ 12
< −1.88 en dus σ < 0.92.
1
2. Hits op website a) Op grond van geheugenloosheid is deze kans gelijk aan e−15 1510 = 0.0486. 10! De kans kan ook opgezocht worden in het Stat. Comp : 0.1185 − 0.0699 = 0.0486. b) Het aantal hits N (208) in 208 uur volgt een Poisson verdeling met verwachting 208 ∗ 15 = 3120. De kans is gelijk aan 2999.5 − 3120 √ P (N (208) < 3000) = P Z < = P (Z < −2.16) = 0.0154. 3120 Opmerking 2: het kan ook op een andere manier. De tijd T tot de 3000e hit volgt een Erlang-verdeling (zie c). Deze heeft verwachting 200 en variantie 3000/152 . Deze kan ook normaal benaderd worden. dan vinden we 208 − 200 P (T > 208) = P Z > √ = P (Z > 2.19) = 0.0143. 13.333 c) Het aantal hits N (104) in 208 uur volgt een Poisson verdeling met verwachting 104 ∗ 15 = 1560. Er geldt 1499.5 − 1560 √ = P (Z < −1.53) = 0.063. P (N (104) < 1500) = P Z < 1560
2
3. Brood a) Er moet gelden Z 6 f (x) = 1. 0
Op grond van symmetrie volgt Z 3 f (x) = 0.5. 0
Omdat Z 0
3
3 1 1 2 cxdx = cx = c · 9 = 0.5, 2 2 0
volgt dat c = 1/9. b) Op grond van symmetrie geldt P (X > 3) = 0.5. Voor de andere kans geldt Z 3 3 9 3 P (1.5 < X < 4.5) = 2P (1.5 < X < 3) = 2 cxdx = cx2 1.5 = 9c − c = . 4 4 1.5 De kans op de doorsnede van de gebeurtenissen is gelijk aan 3 P (3 < X < 4.5) = P (1.5 < X < 3) = . 8 Omdat dit het product is van de twee kansen uit b) zijn de gebeurtenissen onafhankelijk.
3
4. Twee dimensionale stochasten. a) Allereerst: de som van de kansen moet 1 zijn. Dus a = 1/10. Voor X geldt. P (X = −1) = 4/10,
P (X = 0) = 2/10
P (X = 1) = 4/10.
De verwachting van X is dus gelijk aan 0. Voor de variantie geldt dus Var(X) = E(X 2 ) = (−1)2 P (X = −1)+02 P (X = 0)+12 P (X = 1) = 8/10. b) Er geldt P (X = −1|Y = 1) = 1/4,
P (X = 0|Y = 1) = 1/4
P (X = 1|Y = 1) = 2/4.
Er geldt dus E(X|Y = 1) = −1 ∗ (1/4) + 0 ∗ (1/4) + 1 ∗ (2/4) = 1/4. c) Omdat de verwachte waarde van X niet gelijk is aan de verwachte waarde van (X|Y = 1) zijn X en Y niet onafhankelijk. Of: P (X = 0, Y = 0) = 0, maar P (X = 0)P (Y = 0) 6= 0. 5. Gips. a) De oppervlakte is gelijk aan X(2600 − X). Dit is een functie van X. De verwachte waarde hiervan is dus Z 60 Z +∞ x(260 − x) · 1dx = x(2600 − x) ∗ fX (x)dx = −∞
59
60 35789 x3 10621 2 = = 11929.667. 130x − = 130 · 119 − 3 59 3 3 b) De covariantie is gelijk aan Cov(X, 260−X) =Cov(X, −X) = −Cov(X, X) = −V (X) = −1/3 want de variantie van een stochast die uniform verdeeld is op het interval (59, 60) is gelijk aan (60 − 59)2 /12=1/12. Of, gebruik makend, van a) Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 6. Er geldt 5 5 C = F − 32. 9 9 Hieruit volgt 5 5 5 5 20 C = F − 32 = 44 − 32 = = 6.67. 9 9 9 9 3 en s2C
52 2 25 100 = 2 sF = 4 = = 1.23. 9 81 81 4
35789 1 − 59.5 · 200.5 = − . 3 12
7. Eigenschappen van schatters a) Er geldt E(X) = 1/λ en 1 1 11 1 31 E(W ) = E(X1 + X2 + X3 + X4 ) + E(X5 ) = + = . 8 4 2 λ 4λ 4λ 1 De schatter W is onzuiver met onzuiverheid − 4λ .
b) Er geldt V (X) = 1/λ2 en V (W ) =
1 1 4 1 1 V (X1 + X2 + X3 + X4 ) + V (X5 ) = + = 2. 2 2 64 16 64λ 16λ 8λ
De MSE van W is gelijk aan V (W ) + (bias)2 =
1 1 3 + = . 2 2 8λ 16λ 16λ2
5
8. Tijd a)Er zijn 5 waarnemingen groter dan 13. De schatting voor de kans wordt 5/20 = 0.25. b) De schatting voor µ is 12. De schatting voor σ 2 is gelijk aan ! n X 1 33.18 = 1.74631 . x2i − 20x2 = 20 − 1 i=1 19 De schatting voor σ is 1.32148. De schatting voor de kans wordt nu X − 12 13 − 12 P (X > 13) = P > = P (Z > 0.76). 1.32 1.32 Met het SC volgt dat deze kans gelijk is aan 0.2236. c) Een schatting voor deze kosten is P 2 xi 2913.8 5· =5· = 728.5. 20 20 d) Het interval is gelijk aan s 12 ± t0.025;19 · √ = 12 ± 2.093 · 0.296 = 12 ± 0.618. 20 e) Omdat het BI de waarde 13 niet bevat wordt de nulhypothese verworpen. Of: √ = −3.38. De kritieke waarde de waarde van de toetsingsgrootheid is 12−13 s/ n is −2.093. De nulhypothese wordt verworpen. f) Nu kan de rangtekentoets gebruikt worden. Voor het gemak zetten we de waarnemingen op volgorde Waarnemingen 9.8 Abs verschil met 13 3.2 Rangnummers 20
10 3.0 19
10.1 10.7 2.9 2.3 18 16.5
10.7 2.3 16.5
Waarnemingen 12.3 12.4 12.4 12.4 12.7 Abs verschil met 13 0.7 0.6 0.6 0.6 0.3 Rangnummers 6 4 4 4 2
10.9 2.1 15 13.1 0.1 1
11.3 11.8 1.7 1.2 14 13 13.8 0.8 8
12 12.1 1.0 0.9 12 10.5
13.8 13.8 13.9 0.8 0.8 0.9 8 8 10.5
Er geldt w− = 174.5 en w+ = 35.5. De kritieke waarden zijn 52 en 158. Omdat 35.5 kleiner is dan 52 wordt de nulhypothese verworpen g) Dat kan getoetst worden met de tekentoets. Er zijn 5 waarnemingen groter dan 13. De overschrijdingskans is P (X ≤ 5) waarbij X binomiaal verdeeld is met n = 20 en p = 0.5. Deze kans is gelijk aan 0.0207. Omdat dit kleiner is dan 0.025 wordt de nulhypothese verworpen. h) Het voorspellingsinterval is gelijk aan r 1 12 ± t0.025;19 · s · 1 + = 12 ± 2.093 · 1.32148 · 1.025 = 12 ± 2.83. 20 6
9. Levensduur a) De kans op verwerpen als µ = 10 is gelijk aan P (X ≤ 8.9) + P (X ≥ 11.1) = 8.9 − 10 11.1 − 10 √ √ P Z≤ +P Z ≥ = 2 · P (Z ≤ −1.83) = 2 · 0.0336 = 0.0672. 3/ 25 3/ 25 b) De p-waarde is 2 · P (X ≥ 10.9) = 10.9 − 10 √ 2·P Z ≥ = 2 · P (Z ≥ 1.5) = 2 · 0.0668 = 0.1336. 3/ 25 De nulhypothese wordt niet verworpen. c) Het acceptatiegebied heeft de vorm σ σ (10.00 − zα/2 √ , 10.00 + zα/2 √ ). n n Hieruit volgt zα/2 √σn = 1.1. Het betrouwbaarheidsinterval heeft de vorm σ σ (10.90 − zα/2 √ , 10.90 + zα/2 √ ), n n en daarom is het gevraagde betrouwbaarheidsinterval gelijk aan (10.9 − 1.1, 10.9 + 1.1) = (9.8, 12.0) d) Dat aantal volgt uit de formule (zα/2 + zβ )2 σ 2 (3.24)2 ∗ 32 = = 94.48. δ2 11 Het aantal moet dus minstens 95 zijn.
7
10. Genetica a) De verwachte aantallen zijn 100 voor type 1 en telkens 50 voor type 2 en 3. Als toetsingsgrootheid wordt genomen 3 X (Oi − Ei )2 i=1
Ei
.
Deze is χ2 -verdeeld met 2 vrijheidsgraden. b) De waarde van de toetsingsgrootheid is 112 52 62 243 + + = = 2.43. 100 50 50 100 De kritieke waarde is 5.99. De nulhypothese wordt niet verworpen. 11. Pillen a) De schatting voor σ 2 is 7 ∗ (2.81577)2 + 9 ∗ (2.72641)2 = 7.650. 16 Het 95 % tweezijdig betrouwbaarheidsinterval is s √ 1 1 332.25 − 334.9 ± 2.120 7.650 + . 8 10 Dit is gelijk aan 2.65 ± 2.12 · 2.7659 · 0.474 = −2.65 ± 2.78 12. Enkelvoudige regressie a) Er geldt βb1 = Sxy /Sxx =
12.2 28
= 0.436.
b) We hebben SSR = βb1 · Sxy = (12.2)2 /28 = 5.3157, en dus R2 =
SSR 5.3157 = = 0.8178. SST 6.5
√ c) De correlatieco¨effici¨ent is gelijk aan ± R2 , waarbij de + gekozen moet worden als de schatting voor β1 positief is en de √ − als de schatting negatief is. De correlatieco¨effici¨ent is daarom gelijk aan 0.8178 = 0.904. Opmerking: dit kan uiteraard ook gevonden worden met de formule 12.2 Sxy ρb = p =√ = 0.904. Sxx · Syy 28 · 6.5
8
13. Enkelvoudige regressie a) Er geldt Sxy = Sxx =
n X i=1 n X i=1
Pn xi yi − x2i
i=1
P xi ni=1 yi 685 · 3345 = 194890 − = 3946.25. n 12
P ( ni=1 xi )2 (685)2 − = 43245 − = 4142.91667. n 12
De schatting voor β1 wordt Sxy 3946.25 βb1 = = = 0.9525. Sxx 4142.91667 b)Manier 1 met de t-toets. De waarde van de toetsingsgrootheid is gelijk aan de schatting gedeeld door de ’standard error’ die gegeven is in de tabel en is dus gelijk aan 0.9525/0.264451 = 3.60. De relevante kritieke waarde van een t-verdeling met 10 vrijheidsgraden is gelijk aan 2.228. De nulhypothese wordt verworpen. Manier 2 met de F -toets. F =
3758.92/1 M SR = = 12.97. M SE (6656.25 − 3758.92)/10
De relevante kritieke waarde van een F -verdeling met 1 vrijheidsgraad voor de teller en 10 voor de noemer is 4.96. De nulhypothese wordt verworpen.
9
14. Regressie a) SST is gelijk aan 166712 − (5462.4)2 /188 = 8000.22. Sxy = 413772 − 5462.4 · 14115/188 = 3656.17. SSE = 8000, 22 − 0.195791 · 3656.175 = 7284.4 De schatting wordt 7284.4/186 = 39.2 b) De waarde van de toetsingsgrootheid bij Model 1 is 0.195791/0.0457962 = 4.28. Bij Model 2 is die 4.60674/0.86624 = 5.32. Daarom wordt de PHwaarde als eerste toegevoegd. c) Het nadeel is dat R2 bij het toevoegen van een variabele altijd toeneemt. De aangepaste determinatieco¨effici¨ent heeft dat nadeel niet. De R2 is gelijk aan (8000.42 − 6206.6)/8000.42 = 0.2242. De aangepaste R2 is gelijk aan 1−
188 − 1 (1 − 0.2242) = 0.2158. 188 − 3
d) Men kan toetsen of het kruisproduct significant is door de afname in de restkwadratensom (of toename van de SSR ) vergelijken met de schatting voor de variantie in Model 4. De waarde van de toetsingsgrootheid is (6206.6 − 6203.1)/33.7125 = 0.1038. Deze komt uit een F -verdeling met 1 vrijheidsgraad voor de teller en 184 voor de noemer. Omdat de waarde van de toetsingsgrootheid kleiner is dan 1 wordt de nulhypothese niet verworpen. Een precieze kritieke waarde opzoeken is niet nodig (maar is ongeveer gelijk aan 3.94). e) Het interval is 0.19799 ± t183 0.0421133 = 0.19799 ± 1.97 ∗ 0.0421133 = 0.19799 ± 0.083. Het interval is (0.115, 0.281). f) De waarde van de toetsingsgrootheid (uit een F -verdeling met 2 vrijheidsgraden voor de teller en 183 voor de noemer) is (6206.6 − 6058.93)/2 = 2.23. 33.1089 De nulhypothese wordt niet verworpen. g) De twee dummy variabelen kunnen geen onderling product hebben. Er komen 5 producten van twee factoren bij. Het aantal vrijheidsgraden wordt 178. h) Het plaatje van de residuen tegen de PH-waarde geeft aan dat een kwadratisch effect mogelijk van belang is. Dat blijkt ook uit de vraagstelling omdat vermeld wordt dat het minste chloor nodig is bij een PH-waarde van 7.5. Dat suggereert ook een kwadratisch verband.
10