Uitwerking tentamen 2DS01 11 mei 2004 Opgave 1 Een uitwerking geven is hier niet mogelijk. Het is van belang het iteratieve optimaliseringsproces goed uit te voeren (zie ook de PowerPoint sheets): • screening design (incl. centrumpunten) uitvoeren om steilste helling te bepalen • indien uitkomsten niet meer stijgen/dalen, weer screening design uitvoeren met centrumpunten en lack-of-fit controleren of we bij een optimum zijn o indien kromming, CCD design uitvoeren om stationair punt te bepalen. Indien stationair punt goed is, accepteren. Indien niet, steilste helling gebruiken om verder te optimaliseren o indien geen kromming, steilste helling opnieuw bepalen en verder optimaliseren enz enz • denk voortdurend aan standaardprincipes van proefopzetten zoals randomiseren • controleer of het stationaire punt een gewenst optimum is en of het niet te ver weg is van de instellingen waarvoor metingen zijn verricht.
Opgave 2 a) Uit het strooidiagram zien we dat er methode C de hoogste waarden oplevert en dat er verschillen lijken te zijn in de gemiddelden, terwijl de spreiding constant lijkt te zijn. Om te onderzoek of deze verschillen significant zijn, voeren we een ANVOA uit. Er dient een multifactor ANOVA uitgevoerd te worden om de blokfactor dag mee te nemen. De interactie tussen dag en methode dient meegenomen te worden, omdat interacties met een blokfactor geen betekenis hebben. Scatterplot by Level Code
Strength
170 160 150 140 130 A
B
C
Method
Multifactor ANOVA - Strength Analysis Summary Dependent variable: Strength Factors: Day Method Number of complete cases: 60
Analysis of Variance for Strength - Type III Sums of Squares -------------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value -------------------------------------------------------------------------------MAIN EFFECTS A:Day 609.291 1 609.291 23.07 0.0000 B:Method 205.722 2 102.861 3.89 0.0261 RESIDUAL 1479.08 56 26.4121 -------------------------------------------------------------------------------TOTAL (CORRECTED) 2294.09 59 -------------------------------------------------------------------------------All F-ratios are based on the residual mean square error.
De p-waarde voor methode is kleiner dan 0,05, dus er is een significant verschil tussen de methoden. We zien ook dat er een significant verschil tussen de dagen is. Het was dus onterecht geweest aan te nemen dat alle proeven onder gelijke omstandigheden uitgevoerd werden. 1
Om na te gaan welke methoden van elkaar verschillen, wordt een multiple range test uitgevoerd. De standaardkeuze in Statgraphics (LSD) is niet optimaal; de methoden van Tukey, Duncan, NewmanKeuls en Scheffé zijn duidelijk beter en verschillen niet veel van elkaar. We zien dat methoden A en B niet significant van elkaar verschillen, en methoden B en C ook niet. Multiple Range Tests for Strength by Method -------------------------------------------------------------------------------Method: 95,0 percent Tukey HSD Method Count LS Mean LS Sigma Homogeneous Groups -------------------------------------------------------------------------------A 20 150,085 1,14918 X B 20 151,575 1,14918 XX C 20 154,54 1,14918 X -------------------------------------------------------------------------------Contrast Difference +/- Limits -------------------------------------------------------------------------------A - B -1,49 3,91306 A - C *-4,455 3,91306 B - C -2,965 3,91306 -------------------------------------------------------------------------------* denotes a statistically significant difference.
Tenslotte voeren we een modelcontrole uit via residuenanalyse.
Residual Plot for Strength
residual
21 11 1 -9 -19 130
140
150
160
170
predicted Strength
Residual Plot for Strength
Density Trace for RESIDUALS
21
0,08 0,06
density
residual
11 1
0,04
-9
0,02 -19 A
B
C
0
Method
-14
-4
6
16
RESIDUALS
2
26
SnapStat: One Sample Analysis
Histogram
Data variable: RESIDUALS Count = 60 Average = 1.E-7 Median = 0.233333 Standard deviation = 5.00691 Minimum = -13.0617 Maximum = 18.6467 Stnd. skewness = 1.85688 Stnd. kurtosis = 4.00335
frequency
40 30 20 10 0 -15
-5
5
15
25
RESIDUALS Box-and-Whisker Plot
95% confidence intervals Mean: 1.E-7 +/- 1.29343 [-1.29343,1.29343] Sigma: [4.24403,6.10674] Diagnostics Shapiro-Wilks P-value = 0.4871 Lag 1 autocorrelation = 0.0766095 +/- 0.253031
-14
-4
6
16
26
RESIDUALS Time Sequence Plot
Normal Probability Plot 99.9 99 95 80 50 20 5 1 0.1 -14
percentage
RESIDUALS
26 16 6 -4 -14 0
10 20 30 40 50 60
Row
-4
6
16
26
RESIDUALS
Uit de residuenanalyse blijkt dat de data normaal verdeeld zijn en dat de varianties van de meetmethoden niet verschillen. Er zijn wel twee uitbijters (1 in methode B en 1 in methode C) die nader onderzocht dienen te worden b) De uitvoering van de experimenten kan op meerdere manieren verbeterd worden: • randomiseren van de metingen: nu wordt steeds met A begonnen, daarna B en tenslotte C. Hierdoor kunnen opwarmproblemen of vermoeidheidsproblemen bij het personeel leiden tot meetverschillen die geïnterpreteerd gaan worden als verschillen tussen de metingen • om de meetvariantie te reduceren zou de 3 methoden op dezelfde stukken plaat toegepast dienen te worden. In de huidige opzet kunnen we verschillen tussen platen niet onderscheiden en kunnen ze leiden tot meetverschillen die als verschil tussen de methoden wordt aangezien, maar eigenlijk te wijten zijn aan verschillen tussen platen. 3
Opgave 3 a) De proefopzet is een volledige 24 proefopzet met 4 centrumpunten. Door de 4 centrumpunten is het mogelijk een lack-of-fit toets uit te voeren (via rechtermuisknop optie kiezen binnen veld van de ANOVA tabel). Er blijkt dat het model significant is en dat er geen lack-of-fit is. Alle factoren behalve kleur zijn significant. De interacties zijn alle significant, behalve de interacties met kleur. Analyze Experiment - Aroma Analysis of Variance for Aroma -------------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value -------------------------------------------------------------------------------A:Kleur 1,75563 1 1,75563 3,97 0,1404 B:Koffie 13543,1 1 13543,1 30605,97 0,0000 C:SG 2027,25 1 2027,25 4581,36 0,0000 D:Diam 724,956 1 724,956 1638,32 0,0000 AB 2,48063 1 2,48063 5,61 0,0987 AC 0,000625 1 0,000625 0,00 0,9724 AD 0,275625 1 0,275625 0,62 0,4876 BC 3234,77 1 3234,77 7310,20 0,0000 BD 1359,77 1 1359,77 3072,92 0,0000 CD 3229,08 1 3229,08 7297,36 0,0000 Lack-of-fit 7,43925 6 1,23988 2,80 0,2135 Pure error 1,3275 3 0,4425 -------------------------------------------------------------------------------Total (corr.) 24132,2 19 R-squared = 99,9637 percent R-squared (adjusted for d.f.) = 99,9233 percent Standard Error of Est. = 0,665207 Mean absolute error = 0,542 Durbin-Watson statistic = 2,22276 (P=0,4202) Lag 1 residual autocorrelation = -0,168706
Het model gaat uit van onafhankelijke waarnemingen die normaal verdeeld zijn en allen dezelfde variantie hebben. Normaliteit onderzoeken we via de gestudentiseerde residuen middels een normal probability plot, een density trace en de toets van Shapiro-Wilks.
Density Trace for SRESIDUALS
Normal Probability Plot for Residuals
0,4
percentage
99,9 99 95 80 50 20 5 1 0,1 -1,1 -0,6 -0,1 0,4 0,9 1,4 1,9
density
0,3 0,2 0,1 0 -2,3 -1,3 -0,3
0,7
1,7
2,7
residuals
SRESIDUALS
Shapiro-Wilks W statistic = 0,953395 P-Value = 0,431789
Uit het bovenstaande volgt dat er slechts een geringe afwijking van normaliteit is (met name bij de negatieve residuen). Tenslotte bekijken we de residuen om overige afwijkingen op te sporen (met name ongelijke varianties):
4
Residual Plot for Aroma
2,4
2,4
1,4
1,4
residual
residual
Residual Plot for Aroma
0,4
0,4 -0,6
-0,6
-1,6
-1,6
6,3
40
43
46
49
52
55
6,6
58
7,2
7,5
7,8
Koffie
Kleur
Residual Plot for Aroma
Residual Plot for Aroma
2,4
2,4
1,4
1,4
residual
residual
6,9
0,4
-0,6
0,4
-0,6
-1,6 630 650 670 690 710 730
-1,6 420
SG
460
500
540
580
Diam
Residual Plot for Aroma
residual
2,4 1,4 0,4
-0,6 -1,6 0
40
80
120
160
predicted
Er lijkt een lichte kromming te zijn; de lack-of-fit toets geeft echter aan dat dit niet significant is. b) Aangezien er geen lack-of-fit is, is het niet zinvol om deze proef uit te breiden om ook kwadratische termen te kunnen schatten. Het is zinvoller om eerst m.b.v. de methode van de steilste helling via afzonderlijke metingen het aromagehalte met grote stappen te verhogen.
Opgave 4 a) De proefopzet is een mengselexperiment en wel een simplex-centroid proefopzet met 3 toegevoegde mengsels (waarnemingen 8, 9 en 10) in het inwendige van het experimenteergebied. b) Uit de ANOVA tabel is af te lezen dat het Special Cubic model goed voldoet en dat de kleinere modellen niet voldoen. In deze residualplot (studentized residuals) kunnen we zien dat het gekozen Speci5
al Cubic model de meetdata adequaat beschrijft. We zien een random patroon met 1 potentiële uitbijter bij waarneming 8. Ook een density trace en een normal probability plot van de residuen geven hetzelfde aan. Aangezien de data set klein is moeten we niet teveel waarde hechten aan de afwijkingen van normaliteit.
Normal Distribution cumulative probability
Density Trace for SRESIDUALS 0.4
1
0.8
density
0.3
0.6
0.2
0.4
0.1
0.2
0 -2
-1
0
1
2
3
0 -2
0
1
2
3
SRESIDUALS
SRESIDUALS
Residual Plot for solubility
Residual Plot for solubility 8
8
5
residual
5
residual
-1
2 -1
2 -1 -4
-4
-7 0
-7 120
140
160
180
200
0.2
0.4
0.6
0.8
1
MEK
220
predicted
Residual Plot for solubility
8
8
5
5
residual
residual
Residual Plot for solubility
2 -1 -4
2 -1 -4
-7 0
0.2
0.4
0.6
0.8
1
-7
toluene
0
0.2
0.4
0.6
0.8
hexane
Shapiro-Wilks W statistic = 0.924642 P-Value = 0.382056 Het gefitte model heet “derde-orde”, maar bevat geen termen A2, B2 en/of C2 noodzakelijk om het echte optimum te berekenen. Om de echte optimale condities te leren kennen is deze proefopzet niet voldoende en moet uitgebreid worden met extra metingen. We vinden een goede eerste schatting voor de optimale oplosbaarheid van 207,9 bij instellingen MEK=0.34, tolueen=0 en hexaan=0.66. De contourplot laat zien dat deze gegevens met het gegeven model een globaal maximum is. Om de echte optimale condities te leren kennen moet deze proefopzet uitgebreid worden met extra metingen om het model uit te kunnen breiden met de kwadraattermen van MEK, tolueen en hexaan. 6
1
Optimize Response ----------------Goal: maximize solubility Optimum value = 207.939 Factor Low High Optimum ---------------------------------------------------------------------MEK 0.0 1.0 0.25486 toluene 0.0 1.0 0.281713 hexane 0.0 1.0 0.463427
Estimated Response Surface solubility 120.0 130.0 140.0 150.0 160.0 170.0 180.0 190.0 200.0 hexane=1.0 210.0
Contours of Estimated Response Surface MEK=1.0
MEK=1.0
solubility
220 200 180 160 140 120 toluene=1.0
7
hexane=0.0
toluene=1.0
MEK=0.0
solubility 120.0 130.0 140.0 150.0 toluene=0.0 160.0 170.0 180.0 190.0 200.0 210.0 hexane=1.0