Faculteit der Wiskunde en Informatica
2DM71: Eindtoets Biostatistiek, op dinsdag 20 Januari 2015, 13.30-16.30
Opgave 1: (5 x 6 = 30 punten) (Bij deze opgave is gebruik van resultaten uit bijlage 1 noodzakelijk) Is voor twee verschillende typen metalen, metaal A en metaal B, de corrosiesnelheid van salpeterzuur gelijk? Om dit te bepalen voert men een experiment uit waarbij voor samples van elk van de typen metalen de corrosiesnelheid onder gecontroleerde omstandigheden bepaald is. De gemeten waarden, opgeslagen in het bestand 'Exercise1' met variabelen 'Rate' voor de corrosiesnelheid en 'Metal' voor het gebruikte type metaal zijn statistisch geanalyseerd, de resultaten opgenomen in bijlage 1. Hiervan kan bij het beantwoorden van de volgende vragen gebruik gemaakt worden!
a.
Beargumenteer dat hier sprake is van een experiment met onafhankelijke groepen. Voer een Exploratieve Data Analyse uit. Vermeld relevante kentallen, beschrijf opvallende zaken en bespreek in hoeverre er sprake is van een symmetrische verdeling danwel van een Normale verdeling van de resultaten.
b.
Bereken een 99%-betrouwbaarheidsinterval voor de verwachtingswaarde, A, van de corrosiesnelheid van metaal van type A. Hint: gebruik de kanstabellen uit de bijlagen!
c.
Voer een toets uit om te bepalen of er een significant verschil is in de varianties van de corrosiesnelheden van beide metalen, A2 en B2 . Vermeld duidelijk details, p-waarde en conclusie van de toets.
d.
Voer een parametrische toets uit om te bepalen of de verwachte corrosiesnelheid van metaal A, A, kleiner is dan de verwachte corrosiesnelheid van metaal B, B. Vermeld duidelijk details, p-waarde en conclusie van de toets. Indien meerdere toetsen van toepassing zijn, beargumenteer dan welke toets de voorkeur verdient.
e.
Voer een parametervrije toets uit om te bepalen of de verwachte corrosiesnelheid van metaal A, A, verschilt van de verwachte corrosiesnelheid van metaal B, B. Omschrijf naam en principe van de geselecteerde toets en vermeld duidelijk details, p-waarde en conclusie. Indien meerdere toetsen van toepassing zijn, beargumenteer dan welke toets de voorkeur verdient.
Opgave 2
2DM71: 20-1-2015
1
Opgave 2: (4 x 5 = 20 punten) (Bij deze opgave is gebruik van resultaten uit bijlage 2 noodzakelijk) Hoe beïnvloedt de concentratie van een specifieke reactie component de opbrengst van een chemisch proces? Om dit te onderzoeken bepaalt men experimenteel bij een aantal concentraties van deze component (variabele: 'X') de opbrengst van het chemisch proces (variabele: 'Y'). Men vermoedt, op basis van een theoretische reactie-analyse, dat het verband tussen deze opbrengst en de betreffende concentratie te beschrijven is met een model, dat niet lineair is in de parameters α en β:
Y
X
X
Door echter de gebruikte variabelen te transformeren volgens:
Ytrafo
1 1 en X trafo X Y
is het oorspronkelijke model te lineariseren, dat wil zeggen dat het omgeschreven kan worden in een model dat lineair is in de parameters, β0 en β1:
Ytrafo 0 1 X trafo Voor dit gelineariseerde model is een regressie-analyse uitgevoerd op basis van de beschikbare experimentele data. Resultaten staan in bijlage 2. Gebruikte variabelen zijn 'Xtrafo' en 'Ytrafo'. a.
Voer een Exploratieve Data Analyse uit op de getransformeerde variabelen, 'Ytrafo' en 'Xtrafo'. Geef expliciet de vergelijking van de gevonden regressielijn en gebruik het resultaat om de parameters, α en β, in het niet-lineaire model te schatten..
b.
Voer een toets uit om te bepalen of de richtingscoëfficiënt in het gelineariseerde model significant van 0 verschilt. Vermeld duidelijk details, p-waarde en conclusie van de toets.
c.
Welke aannames gelden voor dit gelineariseerde regressiemodel? Voer op basis van de beschikbare resultaten een modelcontrole uit en beargumenteer of aan deze modelaannames voldaan lijkt te zijn.
Ook voor het oorspronkelijke niet-lineaire model is een regressie-analyse uitgevoerd op basis van de beschikbare experimentele data. Resultaten zijn:
Nonlinear Model NonLinModel.1 <- nls(Y~X/(a+b*X),data=c(Exercise2),start=list(a=0.2,b=0.4)) summary(NonLinModel.1) Parameters: Estimate Std. Error t value Pr(>|t|) a 0.2740468 0.0202928 13.51 5.01e-09 b 0.3449726 0.0008033 429.45 < 2e-16 Residual standard error: 0.0138 on 13 degrees of freedom Number of iterations to convergence: 4 Achieved convergence tolerance: 1.696e-07
d.
Beargumenteer of er convergentie opgetreden is en geef expliciet de vergelijking van het gefitte niet-lineaire model. Welke startwaardes zijn in dit geval gebruikt voor de parameters α en β?
2DM71: 20-1-2015
2
Opgave 3: (5 x 6 = 30 points) (Bij deze opgave is gebruik van resultaten uit de bijlagen 3a en 3b noodzakelijk) Van drie typen medicijnen, type A, type B and type C (variabele: "Medication"), wil men nagaan in hoe verre ze een allergische reactie veroorzaken. Men voert daartoe een experiment uit, waarbij gezonde proefpersonen één van de drie medicijnen toegediend krijgen. Na afloop van het experiment wordt voor elk van de proefpersonen een zogenaamde 'severity-index' bepaald (variable: "Severity"), die maatgevend is voor de mate waarin een allergische reactie optreedt: hoe hoger de waarde hoe heftiger de allergische reactie. Op basis van deze gegevens zijn een aantal analyses uitgevoerd. Resultaten zijn opgenomen in bijlage 3a. Hiervan kan bij het beantwoorden van de volgende vragen gebruik gemaakt worden! a.
Voer op basis van de resultaten in bijlage 3a een Exploratieve Data Analyse uit. Beschrijf opvallende zaken en bespreek in hoe verre er sprake is van een gebalanceerde opzet van het experiment.
b.
Voer een parametrische toets uit om te bepalen of het type medicijn van invloed is op de mate waarin een allergische reactie optreedt. Vermeld duidelijk details, p-waarde en conclusie van de gebruikte toets.
c.
Voer een post-hoc test uit om te bepalen welke typen medicijnen onderling significant verschillen. Vermeld naam, relevante details en het onderliggend principe van de gebruikte toets.
d.
Voer een parametervrije toets uit om te bepalen of het type medicijn van invloed is op de mate waarin een allergische reactie optreedt. Omschrijf naam en principe van de geselecteerde toets en vermeld duidelijk details, p-waarde en conclusie.
Van de deelnemende proefpersonen is ook het geslacht bijgehouden in een variabele “Gender“: men, women. In een vervolganalyse is deze informatie meegenomen. Resultaten van deze aanvullende analyses zijn opgenomen in bijlage 3b. Hiervan kan bij het beantwoorden van de volgende vraag gebruik gemaakt worden! e.
Voer een adequate Analysis of Variance (ANOVA) uit om mogelijke hoofd- en interactieeffecten van de factoren “Medication” and “Gender“ vast te kunnen stellen. Vermeld duidelijk details, p-waarden en conclusies van de gebruikte toetsen en besteed aandacht aan de praktische interpretatie van significante hoofdeffecten en interacties!
Opgave 4
2DM71: 20-1-2015
3
Opgave 4: (4 x 5 = 20 punten) a.
De analyse van een lineair regressiemodel levert de volgende ANOVA tabel (Analysis of Variance table) op: Analysis of Variance Source Sum of Squares Model 816,32 Residual 78,99 Total (Corr.) 895,31
Df Mean Square 3 272.11 16 4.94 19
F-Ratio P-Value 55.08 0,0000
Bepaal op basis hiervan:
het aantal waarnemingen dat voor het berekenen van het regressiemodel gebruikt is, het aantal parameters in het model (inclusief de constante, 0), 2 de coefficient of determination, R , de standaardafwijking van de residuën (standard error of estimate).
b.
Beschrijf de essentiële stappen in een procedure om op basis van experimentele data een adequaat regressiemodel te fitten.
c.
Op basis van experimentele data zijn de parameters, 0 en 1, van een lineair regressiemodel: Y 0 1 x geschat. De resultaten gebruikt men om een schatting te doen van de afhankelijke variabele, y, in het punt x=xp : op basis van de formule:
x x x x 2
1 yˆ p b0 b1 x p t n 2; /2 s n
p
2
i
Geef een toelichting op deze formule en beargumenteer of hier sprake is van een voorspelinterval (prediction interval) of van een betrouwbaarheidsinterval (confidence interval) voor de geschatte respons. d.
Beschrijf details en principe van de toets van Friedman. Geef aan in welke situaties deze toets gebruikt kan worden!
2DM71: 20-1-2015
4
Bijlage 1: Opgave 1 Boxplot of Rate (order: A, B)
80 60
Rate
80
0
20
20
40
40
60
Rate
100
100
120
120
140
140
Stripchart of Rate (order: A, B)
0
A
A
B
B
Metal
Quantile comparison plot of Rate (metal B only) 140
60
Quantile comparison plot of Rate (metal A only)
80
Rate
20
10
40
20
60
30
Rate
40
100
50
120
5
2 -1.5
-1.0
-0.5
0.0
0.5
1.0
-1.5
1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
norm quantiles
norm quantiles
> numSummary(Exercise1[,"Rate"], groups=Exercise1$Metal, statistics=c("mean", "sd", + "IQR", "quantiles"), quantiles=c(0,.25,.5,.75,1)) mean sd IQR 0% 25% 50% 75% 100% data:n A 25.54545 16.69349 21 5 11.5 26 32.5 60 11 B 62.69231 36.71372 51 10 35.0 68 86.0 140 13 > t.test(Rate~Metal, alternative='two.sided', conf.level=.95, var.equal=TRUE, + data=Exercise1) data: Rate by Metal t = -3.0886, df = 22, p-value = 0.005366 alternative hypothesis: true difference in means is not equal to 0 > t.test(Rate~Metal, alternative='two.sided', conf.level=.95, var.equal=FALSE, + data=Exercise1) data: Rate by Metal t = -3.2704, df = 17.338, p-value = 0.004418 alternative hypothesis: true difference in means is not equal to 0 > var.test(Rate ~ Metal, alternative='two.sided', conf.level=.95, data=Exercise1) data: Rate by Metal F = 0.2067, num df = 10, denom df = 12, p-value = 0.01809 alternative hypothesis: true ratio of variances is not equal to 1 > with(Exercise1, shapiro.test(Rate)) data: Rate W = 0.9103, p-value = 0.03584 > wilcox.test(Rate ~ Metal, + alternative="two.sided", + data=Exercise1)
> wilcox.test(metaal.A, metaal.B, + alternative='two.sided', paired=TRUE, + data=Exercise1))
Wilcoxon rank sum test data: Rate by Metal W = 25, p-value = 0.007644
2DM71: 20-1-2015
Wilcoxon signed rank test data: metaal.A and metaal.B V = 4, p-value = 0.006836
5
Bijlage 2: Opgave 2, onderdelen a t/m c Linearized Model > numSummary(Exercise2[,c("Xtrafo", "Ytrafo")], statistics=c("mean", "sd", "IQR", + "quantiles"), quantiles=c(0,.25,.5,.75,1)) mean sd IQR 0% 25% 50% 75% 100% n 0.0344 0.0236 0.0274 0.0118 0.0161 0.0227 0.0435 0.0833 15 0.3544 0.0067 0.0084 0.3466 0.3492 0.3524 0.3576 0.3671 15
Xtrafo Ytrafo
0.365
x-axis: Xtrafo, y-axis: Ytrafo > cor(Exercise2[,c("Xtrafo","Ytrafo")])
0.350
0.355
Ytrafo
0.360
Xtrafo Ytrafo Xtrafo 1.0000000 0.9680544 Ytrafo 0.9680544 1.0000000
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
> Confint(LinearModel.1, level=0.95) Estimate 2.5 % 97.5 % (Intercept) 0.3450102 0.3432598 0.3467606 Xtrafo 0.2731528 0.2307606 0.3155450
Xtrafo
> LinearModel.1 <- lm(Ytrafo ~ Xtrafo, data=Exercise2) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.3450102 0.0008102 425.82 < 2e-16 Xtrafo 0.2731528 0.0196227 13.92 3.46e-09 Residual standard error: 0.001732 on 13 degrees of freedom Multiple R-squared: 0.9371, Adjusted R-squared: 0.9323 F-statistic: 193.8 on 1 and 13 DF, p-value: 3.457e-09
Residual vs. Fitted:
0.355
0.360
0.365
0.4
1.0 0.5 0.0 -0.5
Studentized Residuals(LinearModel.1)
-1.0
1.2
1
5
0.8
6
5
-1.5
0.0
0.000
1
5
Standardized residuals
Scale-Location
6
-0.002
Residuals
0.002
Residuals vs Fitted
0.350
qqPlot(LinearModel.1)
Scale - Location:
0.350
0.355
0.360
0.365
1 -2
Fitted values
2DM71: 20-1-2015
Fitted values
6
-1
0 t Quantiles
1
2
Bijlage 3a: Opgave 3, onderdelen a t/m d > numSummary(Exercise3[,"Severity"], groups=Exercise3$Medication, statistics=c("mean", + "sd", "IQR", "quantiles"), quantiles=c(0,.25,.5,.75,1)) mean 46.25417 62.77083 27.00833
Type_A Type_B Type_C
sd 26.96104 30.14027 13.91221
IQR 39.0625 31.8625 8.7500
0% 25% 50% 75% 100% 22.55 24.4875 33.525 63.550 102.45 31.70 42.8625 50.475 74.725 138.60 15.40 19.3500 22.150 28.100 66.70
data:n 12 12 12
140
Boxplot: {Type_A, Type_B, Type_C}
120
21
Estimate 2.5 % 97.5 % (Intercept) 46.25 31.75 60.76 Medication[T.Type_B] 16.52 -3.99 37.02 Medication[T.Type_C] -19.25 -39.75 1.26
80
Severity
100
> Confint(AnovaModel.1, level=0.95)
20
40
60
36
Type_A
Type_B
Type_C
Medication
> AnovaModel.1 <- aov(Severity ~ Medication, data=Exercise3) Df Sum Sq Mean Sq F value Pr(>F) Medication 2 7689 3844 6.306 0.00479 Residuals 33 20118 610 > kruskal.test(Severity ~ Medication, data=Exercise3) chi-squared = 14.6449, df = 2, p-value = 0.0006605 > leveneTest(Exercise3$Severity, Exercise3$Medication, center=mean) Df F value Pr(>F) 2 3.8542 0.03131 33 > plot(AnovaModel.1) # Residuals vs. Fitted values > qqPlot(AnovaModel.1, simulate=TRUE) group
80
4
Residuals vs Fitted
2 1
20
36
-40
-1
-20
0
Studentized Residuals(AnovaModel.1)
11
0
Residuals
40
60
3
21
30
35
40
45
50
55
60
-2
Fitted values aov(Severity ~ Medication)
-1
0
1
2
t Quantiles
Multiple Comparisons of Means: Tukey Contrasts Linear Hypotheses: Type_B - Type_A Type_C - Type_A Type_C - Type_B > cld(.Pairs) #
Estimate Std. Error t value Pr(>|t|) == 0 16.52 10.08 1.639 0.24396 == 0 -19.25 10.08 -1.909 0.15194 == 0 -35.76 10.08 -3.548 0.00327 compact letter display
Type_A
Type_B
Type_C
"ab"
"b"
"a"
Appendix 3b 2DM71: 20-1-2015
7
Bijlage 3b: Opgave 3, onderdeel e tapply(Exercise3$Severity, list(Medication=Exercise3$Medication), mean, na.rm=TRUE) Medication Type_A Type_B Type_C 46.25417 62.77083 27.00833 tapply(Exercise3$Severity, list(Gender=Exercise3$Gender), mean, na.rm=TRUE) Gender Men 45.15000
Women 45.53889 order: {Men, Women}
order: {Type_A, Type_B, Type_C} Plot of Means
50 45 30
45.2
35
40
mean of Problem_5$Severity
45.4 45.3
mean of Problem_5$Severity
55
45.5
60
Plot of Means
Men
Type_A
Women
Type_B
Type_C
Problem_5$Medication
Problem_5$Gender
tapply(Exercise3$Severity,list(Gender=Exercise3$Gender,Mediction=Exercise3$Medication), + mean, na.rm=TRUE)
Gender Men Women
Type_A 68.19167 24.31667
Medication Type_B 45.06667 80.47500
Type_C 22.19167 31.82500
order: {Men, Women}
order: {Type_A, Type_B, Type_C}
Plot of Means
Problem_5$Gender
Type_C
60
70
Men Women
Women
50
mean of Problem_5$Severity
40
50
60
70
Type_A Type_B Type_C
30
30
mean of Problem_5$Severity
80
Problem_5$Medication
40
80
Type_B
Plot of Means
Type_A
Men 20
20 Men
Women
Type_A
Problem_5$Gender
Type_B
Type_C
Problem_5$Medication
> Anova(AnovaModel.2) Anova Table (Type II tests) Response: Severity Sum Sq Gender 1.4 Medication 7688.6 Gender:Medication 9813.3 Residuals 10303.0
2DM71: 20-1-2015
Df 1 2 2 30
F value 0.004 11.194 14.287
8
Pr(>F) 0.9502205 0.0002336 4.377e-05
Tabel Standard normal distribution
Tabel Student t-verdeling
2DM71: 20-1-2015
9