Technische Universiteit Eindhoven
Faculteit Wiskunde en Informatica
Tentamenbundel Statistiek voor T (2S070)
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Examen Statistiek voor T (2S070) op zaterdag 11 maart 1995, 9.00-12.00 uur. De uitwerkingen van de opgaven dienen duidelijk geformuleerd en overzichtelijk opgeschreven te worden. Het gebruik van een onbeschreven Statistisch Compendium en een rekenmachine is toegestaan. Dit examen bestaat uit 15 onderdelen verdeeld over 7 vragen. Elk onderdeel telt even zwaar.
1. Bij een chemisch experiment worden de volgende concentraties gemeten: 1,2 2,8 1,7 1,7 2,1 . We veronderstellen dat alle metingen normaal verdeeld zijn met dezelfde parameters µ en σ 2 . a) Stel een 90%-betrouwbaarheidsinterval op voor µ. b) Toets aan de hand van het bij a) gevonden 90%-betrouwbaarheidsinterval de hypothese H0 : µ =2,0 tegen H1 : µ 6= 2,0. Indien U geen antwoord hebt gevonden bij a), mag U (1,9; 2,4) gebruiken als 90%-betrouwbaarheidsinterval. 2. De consumentenbond wil onderzoeken of een pak suiker inderdaad 1 kilo suiker bevat zoals de fabrikant beweert. Om dit te onderzoeken weegt de consumentenbond 10 pakken suiker. Men besluit de fabrikant aan te klagen als het gemiddelde gewicht van de pakken suiker minder dan 980 gram is. Uit eerdere onderzoeken is gebleken dat men aan mag nemen dat het gewicht van een pak suiker normaal verdeeld is met een onbekende µ en met σ 2 = 550. a) Wat is de kans op een fout van de eerste soort? b) Als µ = 990 gram, wat is dan de kans op een fout van de tweede soort? 3. Laat X1 , X2 , X3 onderling onafhankelijke stochasten zijn die ieder Poisson(λ) verdeeld zijn. Beschouw de volgende schatters voor λ:
en
c1 = λ c2 = λ
X1 + X2 + X3 3
X1 + 2X2 + X3 . 4
c1 en λ c2 zuivere schatters voor λ? a) Zijn λ
b) Welke van de twee schatters verdient de voorkeur? 4. Zij X1 , . . . , Xn een rij onderling onafhankelijke stochasten die ieder volgens een Weibull(α,2)-verdeling verdeeld zijn (α > 0). De dichtheid van een Weibull(α,2)-verdeling wordt gegeven door 2 2αxe−αx voor x > 0. Bepaal de Maximum-Likelihoodschatter voor α.
5. Tijdens haar afstudeerfase vindt een studente een nieuwe katalysator voor een belangrijk chemisch proces. Zij beweert dat met de door haar gevonden katalysator dit proces significant sneller verloopt dan met de tot nu toe gebruikte katalysator. De door de studente gemeten reactietijden (in seconden) zijn: 35,2 34,5 35,3 34,6 35,3 34,9 . Uit de literatuur zijn de volgende reactietijden bekend met de tot nu toe gebruikte katalysator: 34,4 35,3 33,7 35,7 35,1 . a) Toets met α = 0,05 of de studente gelijk heeft. Formuleer de alternatieve hypothese. Neem aan dat de metingen in beide steekproeven normaal verdeeld zijn met dezelfde variantie. b) Toets of het terecht was om aan te nemen dat de varianties in beide steekproeven gelijk zijn. Neem α = 0,05. 6. Een onderzoek naar het verband tussen druk (in Pa) en korrelgrootte (in mm) bij het maken van aluminiumoxidepoeder levert de volgende gegevens op: druk (x) korrelgrootte (Y )
1 1
2 1
3 2
4 2
5 4
We gaan uit van het lineaire model Yi = β0 + β1 xi + εi , waarbij Y de korrelgrootte is, x de druk en εi ∼ N (0, σ 2 ). c0 en β c1 . a) Bereken β
b) Bereken s2 .
c) Als we een nieuwe waarneming gaan doen bij x = 2,5, tussen welke grenzen zal dan met 90% zekerheid de korrelgrootte liggen? 7. Van een bepaald chemisch proces wil men graag weten welke van de volgende factoren van belang zijn: concentratie toevoeging 1, concentratie toevoeging 2, temperatuur en druk. Daartoe worden experimenten uitgevoerd waarin deze factoren gevarieerd worden. Eerst wordt onderzocht wat de invloed is van de concentraties van de toevoegingen. zie volgende pagina
Model fitting results independent variable coefficient std. error constant -0,343 0,376 toevoeging 1 0,735 0,043 toevoeging 2 -0,638 0,082 R-squared = 0,7260 30 observations fitted
Source value Model (Regression) Error Total
t-value -0,912 17,082 -7,805
SE = 1,0075
Analysis of Variance Sum of Squares DF Mean Square 72,596 2 36,298 27,404 27 1,015 100,000 29
F-Ratio 35,762
a) Toets aan de hand van de bovenstaande gegevens of het model significant is. Neem α = 0,05. b) Toets de hypothese H0 : β2 = 0 tegen H1 : β2 < 0 (β2 is de coeffici¨ent van toevoeging 2). Neem α = 0,1. Omdat men vermoedt dat ook temperatuur en druk van belang zijn, wordt ook een model berekend waarin deze factoren zijn meegenomen. Model fitting results independent variable coefficient std. error constant 1,186 0,205 toevoeging 1 -0,112 0,058 toevoeging 2 -0,040 0,060 temperatuur 0,610 0,094 druk 0,229 0,057 R-squared = 0,9304 30 observations fitted
Source value Model (Regression) Error Total
t-value 5,792 -1,941 -0,672 6,450 4,022
SE = 0,5273
Analysis of Variance Sum of Squares DF Mean Square 93,039 4 23,260 6,961 25 0,278 100,000 29
F-Ratio 83,538
c) Toets of het model waarin de factoren temperatuur en druk meegenomen worden significant beter is dan het model zonder de factoren temperatuur en druk. Neem α = 0,05.
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Examen Statistiek voor T (2S070) op maandag 19 juni 1995, 9.00 - 12.00 uur. De uitwerkingen van de opgaven dienen duidelijk geformuleerd en overzichtelijk opgeschreven te worden. Het gebruik van een onbeschreven Statistisch Compendium en een rekenmachine is toegestaan. Dit examen bestaat uit 15 onderdelen verdeeld over 7 vragen. Elk onderdeel telt even zwaar.
1. Een produktierun van polymeren levert de volgende viscositeitsmeting op: 724 718 776 760 745 759. Uit ervaring is bekend dat viscositeiten normaal verdeeld zijn met dezelfde onbekende parameter µ en σ 2 = 400. a) Stel een 90%-betrouwbaarheidsinterval op voor µ. b) Neem aan dat de viscositeiten inderdaad normaal verdeeld zijn. Toets of het ervaringsfeit σ 2 = 400 in overeenstemming is met de waarnemingen uit de produktierun. Neem α = 0,05. 2. Een chemische stof heeft in zuivere toestand een koolstofgehalte van 27%. Een laboratoriumexperiment met deze stof leverde de volgende percentages koolstofgehalte op: 26,8 27,9 27,5 27,8 27,9 a) Toets aan de hand van bovenstaande gegevens of de stof zuiver is. Neem α = 0,05 en neem aan dat de percentages normaal verdeeld zijn. Dezelfde chemische stof bevat in zuivere toestand 12% zwavel. Het bovenstaande laboratoriumexperiment werd herhaald en leverde de volgende percentages zwavelgehalte op: 11,6 12,2 10,9 10,4 10,9. b) Toets aan de hand van de bovenstaande zwavelgehaltes of de stof zuiver is. Neem α = 0,05 en neem aan dat de percentages normaal verdeeld zijn. De bovenstaande toetsen geven (als U het goed gedaan hebt) een tegengesteld resultaat. Een statisticus die geconsulteerd werd om dit probleem op te lossen, stelde voor om zuiverheid te toetsen door beide gehaltes tegelijk te gebruiken via de toetsingsgrootheid: x ¯koolstof − 27 √ skoolstof / nkoolstof
!2
+
x ¯zwavel − 12 √ szwavel / nzwavel
!2
.
De statisticus vertelde erbij dat deze toetsingsgrootheid bij benadering χ2 verdeeld is met 2 vrijheidsgraden.
c) Toets m.b.v deze toetsingsgrootheid of de chemische stof zuiver is. Geef duidelijk aan wat het kritieke gebied is. Neem α = 0,05. 3. Zij X1 , . . . , Xn een rij onderling onafhankelijke stochasten die ieder uniform verdeeld zijn op het interval [0, θ] waarbij θ een onbekende positieve parameter is. We beschouwen de schatter θb = max(X1 , . . . , Xn ). a) Laat zien dat E θb =
n θ. n+1
U mag hierbij gebruiken dat P (max(X1 , . . . , Xn ) ≤ t) =
tn voor 0 ≤ t ≤ θ. θn
b b) Bereken E(θb − θ)2 , d.w.z. bereken MSE(θ).
c) Bepaal een zuivere schatter voor θ. Laat door een berekening zien dat de door U gevonden schatter inderdaad zuiver is.
4. Zij X1 , . . . , Xn een rij onderling onafhankelijke gelijkverdeelde stochasten met dichtheid (α + 1) xα voor 0 ≤ x ≤ 1. Bepaal de Maximum Likelihoodschatter voor α (α > 0). 5. Een vakgroep wil een oud apparaat vervangen en test daarom twee nieuwe apparaten. De gegevens van deze test zijn als volgt: Dag 1 2 3 4 5 6 7 8
Rendement apparaat A 89,3 87,5 91,4 88,1 88,2 91,7 83,9 87,3
Rendement apparaat B 92,6 90,3 91,2 92,6 85,8 95,8 82,6 91,6
Toets of er verschil in rendement bestaat tussen de apparaten (α = 0,1). Neem aan dat de rendementen normaal verdeeld zijn. 6. Een onderzoek naar het verband tussen reactiesnelheid van een bepaalde chemische reactie en de hoeveelheid katalysator levert de volgende gegevens op: hoeveelheid katalysator (x)
1
1,1
1,2
1,3
1,4
reactiesnelheid (Y )
2,72
3,32
3
3,67
4,06
Zonder na te denken gaat een student ervan uit dat het verband tussen reactiesnelheid en hoeveelheid katalysator gegeven wordt door het lineaire model Yi = β0 + β1 xi + εi , waarbij Y de reactiesnelheid is, x de hoeveelheid katalysator en εi ∼ N (0, σ 2 ). a) Bepaal β0 en β1 . b) Toets m.b.v de correlatieco¨effici¨ent ρ of de student inderdaad aan mocht nemen dat het verband tussen reactiesnelheid en hoeveelheid katalysator gegeven wordt door een lineair model. Neem α = 0,05.
7. Een statistische analyse van een onderzoek naar de invloed van temperatuur op de opbrengst van een chemische reactie leverde de volgende computeruitdraai op: Model fitting results independent variable constant temperatuur
coefficient 1,6967 0,2586
std. error 0,4730 0,1002
R-squared = 0,3225 16 observations fitted
t-value 3,5869 2,5816
SE = 1,0075
Analysis of Variance Source value Model (Regression) Error Lack of fit Pure Error Total
Sum of Squares 3,4930 7,3372 4,3005 3,0366 10,8300
DF 1 14 7 7 15
Mean Square 3,4930 0,5241 0,6144 0,4338
F-Ratio 6,6600 1,4200
a) Toets of er sprake is van een lineair verband tussen temperatuur en opbrengst. Neem α = 0,05. b) Bepaal een 95%-betrouwbaarheidsinterval voor β1 , de co¨effici¨ent van temperatuur. Op grond van intu¨ıtie wordt vermoed dat toevoegen van een kwadratische term het model verbetert. Model fitting results independent variable constant temperatuur temperatuur∧2 R-squared = 0,4394 16 observations fitted
coefficient 2,7430 -0,4457 -0,0909
std. error 0,7768 0,4382 0,0552
t-value 3,5313 -1,0171 1,6462
SE = 0,4670
c) Toets of het toevoegen van een kwadratische term inderdaad het model significant verbetert. Neem α = 0,05.
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Examen Statistiek voor T (2S070) op vrijdag 8 maart 1996, 9.00-12.00 uur. De uitwerkingen van de opgaven dienen duidelijk geformuleerd en overzichtelijk opgeschreven te worden. Het gebruik van een onbeschreven Statistisch Compendium en een rekenmachine is toegestaan. Dit examen bestaat uit 15 onderdelen verdeeld over 7 vragen. Elk onderdeel telt even zwaar.
1. De verdeling van de piekhoogte van een bepaald chromatogram volgt een normale verdeling met parameters µ = 0, 1 en σ = 0, 02. Als de detectiegrens van de apparatuur 0, 03 is, wat is dan de kans dat er geen piek wordt waargenomen? 2. Het zwavelgehalte van tien monsters wordt zowel met een referentiemethode (R) als met een testmethode (T) bepaald. Monster R T
1 114 116
2 110 111
3 100 95
4 120 110
5 110 114
6 106 100
7 100 106
8 105 102
9 106 105
10 110 104
Toets of beide methoden hetzelfde resultaat opleveren. Gebruik α = 0, 05 en neem aan dat de zwavelgehalten normaal verdeeld zijn. 3. Een analyse van standaardmateriaal met een bekend loodgehalte van 0, 340 µg g−1 door middel van een nieuwe methode levert de volgende meetgegevens op: 0, 380; 0.346; 0, 291; 0, 278; 0, 404; 0, 331; 0, 409 Neem aan dat de waarnemingen normaal verdeeld zijn. a) Bereken een 90%-betrouwbaarheidsinterval voor µ. b) Bereken een 90%-betrouwbaarheidsinterval voor σ. c) Bereken de overschrijdingskans bij het toetsen van H0 : µ = 0, 340 tegen H1 : µ 6= 0, 340 als σ = 0, 08. 4. De verblijftijd in cascades van chemische reactoren wordt vaak beschreven met een Erlangverdeling. De dichtheid van een Erlang(3)-verdeling wordt voor x > 0 gegeven door x2 λ3 e− λ x x2 e−x/β = 2 2 β3 Neem aan dat X1 , . . . , Xn een steekproef is uit bovengenoemde Erlangverdeling. a) Laat zien dat de Maximum Likelihoodschatter voor β = 1/λ gegeven wordt door 1 3 X. b) Is de Maximum Likelihoodschatter voor β = 1/λ uit a) zuiver? c) Bereken de MSE (verwachte kwadratische afwijking) van de Maximum Likelihoodschatter voor β = 1/λ uit a).
5. Een veelgebruikte toets om te onderzoeken of het maximum een uitbijter is, is de toets van Dixon. De bijbehorende toetsingsgrootheid Q wordt gegeven door max −D max − min waarbij D de op ´e´en na grootste waarneming is, min de kleinste en max de grootste. Een experiment levert de volgende meetgegevens op: Q :=
10, 0
9, 6
10, 2
11, 1
Toets met α = 0, 10 of binnen deze reeks waarnemingen de waarde 11,1 een uitbijter is. Geef aan wat het kritieke gebied is en motiveer Uw antwoord. Gebruik dat de toetsingsgrootheid Q onder de nulhypothese de volgende verdeling bezit: P(Q > x) x
0, 95 0, 033
0, 90 0, 065
0, 80 0, 130
0, 20 0, 560
0, 10 0, 679
0, 05 0, 765
6. Omdat de concentratie van MnO− 4 niet direct gemeten kan worden, wordt die indirect bepaald via fotometrie. Volgens de wet van Beer wordt het verband tussen concentratie en intensiteit gegeven door I = I0 10ε b C waarbij I0 de intensiteit van de lichtbron is, ε de molaire absorptie, b de lengte van de lichtweg en C de concentratie MnO− 4 . Geef aan hoe I en/of C getransformeerd moeten worden om tot een lineair verband tussen I en C te komen. Geef duidelijk aan hoe U aan de transformatie komt en wat het uiteindelijke lineaire verband is. 7. De viscositeit van een chemische stof (Y ) kan volgens een onderzoeker afhangen van de procesduur (X1 ), de temperatuur van het proces (X2 ) en de concentratie van de gebruikte katalysator (X3 ). Een analyse van het model Y = β0 + β1 X1 + ε leverde de volgende computeruitdraai op: Analysis of Variance Source value Model (Regression) Error Lack of fit Pure Error Total
Sum of Squares 2414, 02 297, 58 286, 51 11, 07 2711, 60
DF 1 22 16 6 23
Mean Square 2414, 02 13, 53 17, 91 1, 85
F-Ratio 178, 42 9, 70
a) Toets uitgaande van een lineair verband of het model significant is. Neem α = 0, 05. b) Was het terecht om bij a) aan te nemen dat er een lineair verband is? Motiveer Uw antwoord door middel van een berekening. Neem α = 0, 05. Besloten wordt het model uit te breiden tot Y = β0 + β1 X1 + β2 X1 X2 + β3 X3 + ε: Analysis of Variance Source value Model (Regression) Error Lack of fit Pure Error Total
Sum of Squares 2641, 59 70, 01 58, 49 11, 07 2711, 60
DF 3 20 14 6 23
Mean Square 880, 53 3, 50 4, 21 1, 85
F-Ratio 251, 55 2, 28
c) Toets of deze modeluitbreiding een significante verbetering is ten opzichte van het vorige model. Neem α = 0, 05. d) De onderzoeker besloot het laatstgenoemde (uitgebreide) model te gebruiken. Geef twee redenen die dit besluit ondersteunen. Motiveer Uw antwoorden via berekeningen. Neem α = 0, 05. e) Van het laatstgenoemde (uitgebreide) model wordt nog een verdere analyse uitgevoerd. Dit leverde o.a. op dat de schatting voor β1 (de co¨effici¨ent van X1 ) 0, 112 bedroeg met een standaardafwijking van 0, 00479. Bereken met deze gegevens een 95%-betrouwbaarheidsinterval voor β1 .
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Examen Statistiek voor T (2S070) op maandag 17 juni 1996, 9.00 - 12.00 uur. De uitwerkingen van de opgaven dienen duidelijk geformuleerd en overzichtelijk opgeschreven te worden. Antwoorden zonder motivering worden fout gerekend. Het gebruik van een onbeschreven Statistisch Compendium en een rekenmachine is toegestaan. Dit examen bestaat uit 15 onderdelen verdeeld over 7 vragen. Elk onderdeel telt even zwaar.
1. De levensduur in uren van een spectrometer is normaal verdeeld met µ = 5000 en σ = 600. a) Wat is de kans dat de spectrograaf korter dan 3000 uur functioneert? b) Als in een laboratorium drie van zulke spectrografen gebruikt onafhankelijk van elkaar gebruikt worden, wat is dan de kans dat tenminste ´e´en van de spectrometers langer dan 7000 uur functioneert? c) Hoe lang zal met 95 % kans een spectrometer minimaal functioneren? 2. Bij het gebruik van meerdimensionale normale verdelingen in poolco¨ordinaten komt de zogenaamde Rayleighverdeling voor (dit is niet van belang voor de opgave). De dichtheid 2 van de Rayleighverdeling met parameter r (r > 0) wordt gegeven door x e−x /(2 r) voor r
x ≥ 0. Beschouw nu een steekproef X1 , . . . , Xn uit een Rayleighverdeling met parameter r. Pn
Xi2 de Maximum Likelihoodschatter is voor r. 2n b) Laat via een berekening zien of de schatter uit a) een zuivere schatter is voor r. a) Laat zien dat
i=1
3. Bij halfgeleiders is de dikte van oxidelagen van groot belang. De dikte van de oxidelagen geschiedt door etsing met gasmengsels. Voor een goed verloop van het verdere produktieproces is het van belang dat de variatie in dikte zo klein mogelijk is. Twee gasmengsels worden uitgeprobeerd op ieder elk 20 halfgeleiders (dus 40 verschillende halfgeleiders in totaal). De steekproeven leverden de volgende standaardafwijkingen op: s1 = 1, 96 en s2 = 2, 13. Toets met α = 0, 05 of er verschil is tussen beide gasmengsels. Neem aan dat de dikten normaal verdeeld zijn. 4. In de theorie van Mendel wordt de kleur van bonen bepaald door genencombinaties. We beschouwen nu het eenvoudige geval waarin er drie genencombinaties zijn, nl. GG, GR en RR. De kans dat volgens de theorie van Mendel een willekeurige boon ´e´en van deze drie genencombinaties bezit is 1/9 voor GG, 4/9 voor GR en 4/9 voor RR. Elke boon bezit precies ´e´en genencombinatie. Via een experiment willen we deze theorie nu onderzoeken. Een steekproef van 50 bonen uit de volkstuin van een ijverige statisticus leverde het volgende resultaat: GG 8
GR 17
RR 25
totaal 50
Om te toetsen of de theorie van Mendel overeenkomt met de praktijk wordt gebruik gemaakt van de volgende toetsingsgrootheid: (GG − 50/9)2 (GR − 200/9)2 (RR − 200/9)2 + + 50/9 200/9 200/9 a) Beredeneer wat de vorm van het kritieke gebied is met deze toetsingsgrootheid (tweezijdig, links eenzijdig of rechts eenzijdig). N.B.: antwoorden zonder motivatie worden fout gerekend. b) Voer de toets uit met α = 0, 05. Gebruik dat de toetsingsgrootheid χ2 verdeeld is met 2 vrijheidsgraden. 5. Van negen monsters wasmiddel wordt de concentratie actief ingredi¨ent bepaald met als resultaat: 66.2 65.4 65.4 65.2 62.6 67.6 63.7 71.0 67.2 Neem aan dat de waarnemingen normaal verdeeld zijn met onbekende verwachting µ en dat op grond van eerdere experimenten bekend is dat σ = 3 a) Geef een 90%-betrouwbaarheidsinterval voor de gemiddelde concentratie actief ingredi¨ent. b) Hoe groot moet de steekproef omvang zijn om te garanderen dat het 90%-betrouwbaarheidsinterval een lengte van hoogstens 1,5 heeft? 6. De concentratie van een bepaald gas in de atmosfeer van de Zuidpool is gedurende een aantal jaren gemeten met als resultaat (de jaren zijn als volgt gecodeerd: 0 = 1976, 1 = 1977 enz.; voor de berekening dient U echter uit te gaan van de gecodeerde jaren): Tijd Concentratie
0 195
1 216
2 244
3 260
4 284
Onderzoek met α = 0, 05 of de hoeveelheid gas lineair toeneemt met de tijd. 7. Voor een bepaalde chemische reactie wordt algemeen aangenomen dat de opbrengst een lineaire functie is van de beginconcentratie. Een student onderzoekt dit en laat de computer een regressie-analyse uitvoeren met het volgende resultaat Model fitting results independent variable constant beginconcentratie R-squared = 0.3239 (Adj. for df) 54 observations fitted
coefficient -108.716 3.967
std. error 61.719 0.772 SE = 119.471
t-value -1.762 5.138
Analysis of Variance Source value Model (Regression) Error Total R-squared = 0.3239 (Adj. for df)
Sum of Squares 376725 742206 1118932
DF 1 52 53 SE = 119.471
Mean Square 376725 14273.2
F-Ratio 26.394
a) Toets of het regressiemodel significant is. Neem α = 0,05. b) Bepaal een 95%-betrouwbaarheidsinterval voor β, de co¨effici¨ent van de beginconcentratie. c) Wat is op grond van dit model de schatting voor σ 2 , de variantie van de foutterm in het lineaire regressiemodel? De student meent dat toevoegen van temperatuur en druk het model verbetert en laat de computer het volgende regressiemodel doorrekenen: Model fitting results independent variable constant beginconcentratie temperatuur druk R-squared =0.7481 (Adj. for df) 54 observations fitted
coefficient -402.099 2.930 3.616 52.773
std. error 53.975 0.530 0.652 11.324 SE = 72.929
t-value -7.450 5.522 5.544 4.660
Analysis of Variance Source value Model (Regression) Error Total R-squared = 0.7481 (Adj. for df)
Sum of Squares 853001 265931 1118932
DF 3 50 53 SE = 72.929
Mean Square 284334 5318.62
d) Toets of het uitgebreide model inderdaad een significante verbetering is t.o.v. het oorspronkelijke model. Neem α = 0,05.
F-Ratio 53.460
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op zaterdag 8 maart 1997, 9.00-12.00 uur. De uitwerkingen van de opgaven dienen duidelijk geformuleerd en overzichtelijk opgeschreven te worden. Het gebruik van een onbeschreven Statistisch Compendium en een rekenmachine is toegestaan. Dit examen bestaat uit 15 onderdelen verdeeld over 5 vragen. Elk onderdeel telt even zwaar. De numerieke waarden zijn weergegeven in de Nederlandse decimale notatie. 1. In de procesindustrie gebruikt men regelkaarten om de voortgang van chemische reacties te bewaken. Men meet dan een parameter (bijv. temperatuur of concentratie) en zet de gevonden meetwaarden uit tegen de tijd. Er wordt alarm geslagen als een waarneming buiten het gebied (µ0 − 3σ, µ0 + 3σ) valt. s
C
µ0 + 3σ s
µ0
s
@ @s
J J s Js
C
C
C
C
C
C
Cs @ @s
µ0 − 3σ
Neem aan dat alle waarnemingen onderling onafhankelijk zijn. a) Wat is de kans op alarm voor ´e´en enkele waarneming X als X normaal verdeeld is met verwachting µ0 en variantie σ 2 ? b) Wat is de kans dat 2 van 3 opeenvolgende waarnemingen zich in het gebied (µ0 − 2σ, µ0 +2σ) bevinden, als de waarnemingen normaal verdeeld zijn met verwachting µ0 en variantie σ 2 ? c) Wat is de kans op alarm voor ´e´en enkele waarneming X als X normaal verdeeld is met verwachting µ0 + σ en variantie σ 2 ? d) We willen de regelgrenzen µ0 ± 3σ veranderen in µ0 ± kσ. Welke waarde dient men voor k te kiezen, opdat de kans dat ´e´en enkele waarneming X buiten de regelgrenzen valt gelijk is aan 0, 01? Hierbij is X normaal verdeeld is met verwachting µ0 en variantie σ 2 . 2. In de praktijk komt men regelmatige asymmetrische kansverdelingen tegen. De normale verdeling is dan niet van toepassing. Een asymmetrische versie van q de normale verdeling 2 is de zogenaamde gevouwen normale verdeling. De kansdichtheid 2 e−(x − µ) /2 voor π
x ≥ µ is een voorbeeld van een kansdichtheid van een gevouwen normale verdeling.
Bepaal de Maximum-Likelihoodschatter voor µ gebaseerd op een steekproef X1 , . . . , Xn met de hierboven gegeven kansdichtheid.
3. We willen de verwachte opbrengst (in procenten) bepalen van een experimentele reactor. Het is voor verdere experimenten van belang dat deze verwachte opbrengst met een marge van ten hoogste 1, 2% bepaald wordt. Neem aan dat de opbrengstmetingen normaal verdeeld zijn en dat uit eerdere metingen bekend is dat σ 2 = 8,6. a) Hoeveel (onafhankelijke) opbrengstmetingen moeten we minimaal uitvoeren om met 95% zekerheid te kunnen zeggen dat de opbrengst binnen de gegeven marge ligt? Metingen leveren de volgende opbrengsten op: 85,7 89,6 86,6 93,2 b) Toets met α = 0, 05 H0 : µ = 90 tegen H1 : µ < 90. c) Toets met α = 0, 05 of deze opbrengstmetingen in overeenstemming zijn met de uit eerdere metingen bepaalde waarde van σ 2 . 4. Radioactief goud (195 Au) wordt in de medische wereld gebruikt als tracer. De volgende tabel geeft het verval weer van radioactief goud (in procenten van de beginhoeveelheid) tegen het aantal dagen na injectie. Op sommige dagen zijn meerdere metingen verricht.
dagen
1
conc.
1
2
2
2
3
5
6
6
7
94,5 86,4 71 80,5 81,4 67,4 49,3 46,8 42,3 36,6
Zoals bekend heeft radioactief verval een exponenti¨eel verloop. Bepaal m.b.v. lineaire regressie schattingen voor de parameters a en b in het model Y = aebx ε met ln ε ∼ N (0, σ 2 ) (en onafhankelijke fouten). 5. Experimenten leveren de volgende gegevens op voor de specifieke warmte van CO2 als functie van de temperatuur (in graden Fahrenheit):
temperatuur specifieke warmte
0
30
60
80
100
150
200
300
400
1000
0,193 0,198 0,202 0,204 0,207 0,213 0,219 0,230 0,239 0,280
We gaan eerst uit van een eerste orde model Cp = β0 + β1 T + ε met ε ∼ N (0, σ 2 ) (en onafhankelijke fouten). a) Bepaal schattingen voor de parameters β0 en β1 . b) Bepaal een schatting voor de variantie σ 2 . c) Geef een 95%-predictie-interval voor een nieuwe waarneming bij T = 250 o F . d) Toets met α = 0, 05 of het eerste orde model significant is. We gaan nu een kwadratisch model Cp = β0 + β1 T + β2 T 2 + ε met ε ∼ N (0, σ 2 ) (en onafhankelijke fouten) proberen. Een computeruitdraai geeft de volgende resultaten:
Model fitting results Parameter constant temp
coefficient
std. error T -statistic
0,193794 2,78973 E-4
694,67
1,33997 E-4 2,02889 E-6
66,0444
temp*temp -4,78612 E-8
1,953 E-9
-24,5065
Analysis of Variance Source value Model (Regression)
Sum of Squares DF Mean Square 6,0488 E-3
2
Error
1,70243 E-6
7
Total
6,0505 E-3
9
F-Ratio
3,0244 E-3 12435,66 2,432 E-7
R-squared = 0,999719 Standard Error of Est.
= 4,93157 E-3
e) Bepaal een 95%-betrouwbaarheidsinterval voor β2 in het kwadratische model. f) Toets of het nieuwe model significant beter is dan het oude. Neem α = 0,05.
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op dinsdag 24 juni 1997, 14.00-17.00 uur. De uitwerkingen van de opgaven dienen duidelijk geformuleerd en overzichtelijk opgeschreven te worden. Het gebruik van een onbeschreven Statistisch Compendium en een rekenmachine is toegestaan. Dit examen bestaat uit 15 onderdelen verdeeld over 6 vragen. Elk onderdeel telt even zwaar. De numerieke waarden zijn weergegeven in de Nederlandse decimale notatie.
1. In de chemische procesindustrie is het belangrijk om binnen specificaties te produceren. Om aan te geven in welke mate een chemisch proces in staat is om binnen specificaties te produceren, worden zogenaamde capability indices gebruikt. We nemen aan dat de specificatie ´e´en bepaalde parameter betreft, die normaal verdeeld is met verwachting µ en variantie σ 2 . De specificatiegrenzen worden aangeduid met U SL (upper specification limit) en LSL (lower specification limit). De capability index Cp van een proces is gedefinieerd als Cp := (U SL − LSL)/ (6 σ). Neem aan dat een proces een Cp heeft van van 1,2. a) Hoeveel foutuitval is er gemiddeld als het proces gecentreerd (d.w.z. als µ = (U SL + LSL)/2 ) is? b) Hoeveel foutuitval is er gemiddeld als µ = (2 U SL + LSL)/3? 2. Een chemisch proces is onlangs gewijzigd om te pogen de gemiddelde (chemische) onzuiverheid van het eindproduct te verlagen. Voor de wijziging werd doorgevoerd was het gemiddelde niveau van de onzuiverheid 5,4. Er wordt een steekproef van omvang 10 genomen uit het productieproces na de wijziging met het volgende resultaat: 4,0 4,6 4,4 2,5 4,8 5,9 3,0 6,1 5,3 4,4 a) Toets of het proces verbeterd is door de wijziging. Neem α = 0,05 en geef duidelijk aan wat de nulhypothese en de alternatieve hypothese is. b) Bereken een tweezijdig 95%-betrouwbaarheidsinterval voor de gemiddelde onzuiverheid. c) Als we aannemen dat de standaardafwijking van het proces na de wijziging 1,5 bedraagt, hoeveel waarnemingen moeten we dan doen om met 95% betrouwbaarheid de gemiddelde onzuiverheid met een onnauwkeurigheid van maximaal ± 0,15 te kunnen bepalen? 3. Een weerbestendige laklaag wordt in een oven via verhitting aangebracht op metalen platen. Als de oven optimaal werkt, is uit jarenlange ervaring bekend dat 10% van de platen die uit de oven komt een laklaag heeft met zodanige gebreken dat die plaat niet aan klanten geleverd kan worden. Alle platen worden ge¨ınspecteerd nadat ze uit de oven komen. a) Op een dag keuren de kwaliteitsinspecteurs 31 van de 200 platen af. Toets of de oven optimaal functioneert. Neem α = 0,05. b) Bereken een tweezijdig 95%-betrouwbaarheidsinterval voor het percentage afgekeurde platen.
Op een dag wordt besloten de kwaliteit van de geproduceerde laklagen steeksproefgewijs te controleren i.p.v. inspectie van alle platen. Er wordt een steekproef van 10 platen genomen uit de productie van een hele dag. Als deze steekproef 0 of 1 platen bevat die afgekeurd worden, dan wordt geconcludeerd dat de oven optimaal werkt. Als er 2 of meer platen afgekeurd worden, dan besluit men dat de oven bijgesteld moet worden. c) Wat is de kans dat er ten onrechte geconcludeerd wordt dat de oven bijgesteld moet worden? d) Wat is de kans dat men concludeert dat de oven optimaal functioneert, terwijl het echte percentage platen met een laklaag die afgekeurd moet worden 20% is? 4. Een chemicus onderzoekt het verband tussen de dichtheid van azijnzuur-watermengsels als functie van het gewichtspercentage azijnzuur bij 25 o C. Een experiment levert de volgende data op: % azijnzuur
50
60
70
80
90
100
dichtheid g/ml 1,053 1,060 1,064 1,065 1,061 1,044 a) Laat via het uitvoeren van een statistische toets zien dat op grond van deze data de hypothese H0 : ρ = 0 niet verworpen mag worden bij α = 0,05. b) Mag uit de toets van a) met 95% betrouwbaarheid geconcludeerd worden dat er geen verband is tussen tussen de dichtheid van azijnzuur-watermengsels en het gewichtspercentage azijnzuur bij 25 0 C ? Geef een korte maar duidelijke argumentatie voor Uw antwoord. 5. Twee procestechnologen (Ir. A en Ir. B) doen onafhankelijk van elkaar onderzoek naar het rendement van een chemische reactor als functie van de temperatuur. Uit praktisch oogpunt zijn alleen reactortemperaturen rond de 250 0 C interessant. Helaas is het moeilijk bij deze temperatuur de reactor nauwkeurig in te stellen. In het temperatuurbereik van 150 0 C tot 200 0 C kan men veel nauwkeuriger experimenteren. Ir. A besluit experimenten uit te voeren bij de temperaturen 150 0 C, 160 0 C, 170 0 C, 180 0 C en 190 0 C . Daarentegen voert Ir. B experimenten uit bij de temperaturen 246 0 C, 248 0 C, 250 0 C, 252 0 C en 254 0 C. Beiden voeren in totaal 25 experimenten uit die gelijkelijk verdeeld zijn over de door hen gekozen temperaturen. Geef een mogelijk bezwaar van de manier waarop Ir. A zijn experimenten uitvoert. Doe hetzelfde voor de manier waarop Ir. B haar experimenten uitvoert. 6. Voor een bepaalde chemische reactie wordt algemeen aangenomen dat de opbrengst een lineaire functie is van de beginconcentratie. Een student onderzoekt dit en laat de computer een regressie-analyse uitvoeren met het volgende resultaat:
Regression Analysis - Linear model: Parameter constant beginconcentratie
Estimate 49,3382 3,93137
Y = a + b*X
Std. error 4,21705 0,632163
T-statistic 11,6997 6,21892
Analysis of Variance Source Model Residual Total (Corr.)
Sum of Squares 3152,96 1793,54 4946,5
DF 1 22 23
Mean Square 3152,96 81,5245
F-Ratio 38,68
R-squared = 63,7412 percent Standard Error of Est. = 9,02909 a) Toets of het regressiemodel significant is. Neem α = 0,05. b) Bepaal een 95%-betrouwbaarheidsinterval voor β, de co¨effici¨ent van de beginconcentratie. De afstudeerbegeleider meent dat toevoegen van temperatuur en druk het model verbetert. De student laat daarom de computer het volgende regressiemodel doorrekenen: Multiple Regression Analysis Parameter constant beginconcentratie temperatuur druk
Estimate 53,3752 3,70345 -0,252693 7,21645
Std.
error 6,90537 0,623801 0,139422 8,85452
T-statistic 7,72952 5,93691 -1,81243 0,815002
Analysis of Variance Source Model Residual Total (Corr.)
Sum of Squares 853001 1523,12 4946,3
DF 3 20 23
Mean Square 1141,13 76,1561
F-Ratio 14,90
R-squared (adjusted for d.f.) = 64,5893 percent Standard Error of Est. = 8,72675 c) Toets of het uitgebreide model inderdaad een significante verbetering is t.o.v. het oorspronkelijke model. Neem α = 0,05.
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 10 oktober 1997, 14.00-17.00 uur. De uitwerkingen van de opgaven dienen duidelijk geformuleerd en overzichtelijk opgeschreven te worden. Het gebruik van een onbeschreven Statistisch Compendium en een rekenmachine is toegestaan. Dit examen bestaat uit 15 onderdelen verdeeld over 6 vragen. Elk onderdeel telt even zwaar. De numerieke waarden zijn weergegeven in de Nederlandse decimale notatie.
1. In de chemische procesindustrie is het belangrijk om binnen specificaties te produceren. Om aan te geven in welke mate een chemisch proces in staat is om binnen specificaties te produceren, worden zogenaamde capability indices gebruikt. We nemen aan dat de specificatie ´e´en bepaalde parameter betreft, die normaal verdeeld is met verwachting µ en variantie σ 2 . De specificatiegrenzen worden aangeduid met U SL (upper specification limit) en LSL (lower specification limit). De capability index Cp van een proces is gedefinieerd als Cp := (U SL − LSL)/ (6 σ). Neem aan dat een proces een Cp heeft van van 1,2. a) Hoeveel foutuitval is er gemiddeld als het proces gecentreerd (d.w.z. als µ = (U SL + LSL)/2 ) is? b) Hoeveel foutuitval is er gemiddeld als µ = (2 U SL + LSL)/3? 2. Een chemisch proces is onlangs gewijzigd om te pogen de gemiddelde (chemische) onzuiverheid van het eindproduct te verlagen. Voor de wijziging werd doorgevoerd was het gemiddelde niveau van de onzuiverheid 5,4. Er wordt een steekproef van omvang 10 genomen uit het productieproces na de wijziging met het volgende resultaat: 4,0 4,6 4,4 2,5 4,8 5,9 3,0 6,1 5,3 4,4 a) Toets of het proces verbeterd is door de wijziging. Neem α = 0,05 en geef duidelijk aan wat de nulhypothese en de alternatieve hypothese is. b) Bereken een tweezijdig 95%-betrouwbaarheidsinterval voor de gemiddelde onzuiverheid. c) Als we aannemen dat de standaardafwijking van het proces na de wijziging 1,5 bedraagt, hoeveel waarnemingen moeten we dan doen om met 95% betrouwbaarheid de gemiddelde onzuiverheid met een onnauwkeurigheid van maximaal ± 0,15 te kunnen bepalen? 3. Een weerbestendige laklaag wordt in een oven via verhitting aangebracht op metalen platen. Als de oven optimaal werkt, is uit jarenlange ervaring bekend dat 10% van de platen die uit de oven komt een laklaag heeft met zodanige gebreken dat die plaat niet aan klanten geleverd kan worden. Alle platen worden ge¨ınspecteerd nadat ze uit de oven komen. a) Op een dag keuren de kwaliteitsinspecteurs 31 van de 200 platen af. Toets of de oven optimaal functioneert. Neem α = 0,05. b) Bereken een tweezijdig 95%-betrouwbaarheidsinterval voor het percentage afgekeurde platen.
Op een dag wordt besloten de kwaliteit van de geproduceerde laklagen steeksproefgewijs te controleren i.p.v. inspectie van alle platen. Er wordt een steekproef van 10 platen genomen uit de productie van een hele dag. Als deze steekproef 0 of 1 platen bevat die afgekeurd worden, dan wordt geconcludeerd dat de oven optimaal werkt. Als er 2 of meer platen afgekeurd worden, dan besluit men dat de oven bijgesteld moet worden. c) Wat is de kans dat er ten onrechte geconcludeerd wordt dat de oven bijgesteld moet worden? d) Wat is de kans dat men concludeert dat de oven optimaal functioneert, terwijl het echte percentage platen met een laklaag die afgekeurd moet worden 20% is? 4. Een chemicus onderzoekt het verband tussen de dichtheid van azijnzuur-watermengsels als functie van het gewichtspercentage azijnzuur bij 25 o C. Een experiment levert de volgende data op: % azijnzuur
50
60
70
80
90
100
dichtheid g/ml 1,053 1,060 1,064 1,065 1,061 1,044 a) Laat via het uitvoeren van een statistische toets zien dat op grond van deze data de hypothese H0 : ρ = 0 niet verworpen mag worden bij α = 0,05. b) Mag uit de toets van a) met 95% betrouwbaarheid geconcludeerd worden dat er geen verband is tussen tussen de dichtheid van azijnzuur-watermengsels en het gewichtspercentage azijnzuur bij 25 0 C ? Geef een korte maar duidelijke argumentatie voor Uw antwoord. 5. Twee procestechnologen (Ir. A en Ir. B) doen onafhankelijk van elkaar onderzoek naar het rendement van een chemische reactor als functie van de temperatuur. Uit praktisch oogpunt zijn alleen reactortemperaturen rond de 250 0 C interessant. Helaas is het moeilijk bij deze temperatuur de reactor nauwkeurig in te stellen. In het temperatuurbereik van 150 0 C tot 200 0 C kan men veel nauwkeuriger experimenteren. Ir. A besluit experimenten uit te voeren bij de temperaturen 150 0 C, 160 0 C, 170 0 C, 180 0 C en 190 0 C . Daarentegen voert Ir. B experimenten uit bij de temperaturen 246 0 C, 248 0 C, 250 0 C, 252 0 C en 254 0 C. Beiden voeren in totaal 25 experimenten uit die gelijkelijk verdeeld zijn over de door hen gekozen temperaturen. Geef een mogelijk bezwaar van de manier waarop Ir. A zijn experimenten uitvoert. Doe hetzelfde voor de manier waarop Ir. B haar experimenten uitvoert. 6. Voor een bepaalde chemische reactie wordt algemeen aangenomen dat de opbrengst een lineaire functie is van de beginconcentratie. Een student onderzoekt dit en laat de computer een regressie-analyse uitvoeren met het volgende resultaat:
Regression Analysis - Linear model: Parameter constant beginconcentratie
Estimate 49,3382 3,93137
Y = a + b*X
Std. error 4,21705 0,632163
T-statistic 11,6997 6,21892
Analysis of Variance Source Model Residual Total (Corr.)
Sum of Squares 3152,96 1793,54 4946,5
DF 1 22 23
Mean Square 3152,96 81,5245
F-Ratio 38,68
R-squared = 63,7412 percent Standard Error of Est. = 9,02909 a) Toets of het regressiemodel significant is. Neem α = 0,05. b) Bepaal een 95%-betrouwbaarheidsinterval voor β, de co¨effici¨ent van de beginconcentratie. De afstudeerbegeleider meent dat toevoegen van temperatuur en druk het model verbetert. De student laat daarom de computer het volgende regressiemodel doorrekenen: Multiple Regression Analysis Parameter constant beginconcentratie temperatuur druk
Estimate 53,3752 3,70345 -0,252693 7,21645
Std.
error 6,90537 0,623801 0,139422 8,85452
T-statistic 7,72952 5,93691 -1,81243 0,815002
Analysis of Variance Source Model Residual Total (Corr.)
Sum of Squares 853001 1523,12 4946,3
DF 3 20 23
Mean Square 1141,13 76,1561
F-Ratio 14,90
R-squared (adjusted for d.f.) = 64,5893 percent Standard Error of Est. = 8,72675 c) Toets of het uitgebreide model inderdaad een significante verbetering is t.o.v. het oorspronkelijke model. Neem α = 0,05.