2DM71: Eindtoets Biostatistiek, op dinsdag 20 Januari 2015,

Faculteit der Wiskunde en Informatica

2DM71: Eindtoets Biostatistiek, op dinsdag 20 Januari 2015, 13.30-16.30

Opgave 1: (5 x 6 = 30 punten) (Bij deze opgave is gebruik van resultaten uit bijlage 1 noodzakelijk) Is voor twee verschillende typen metalen, metaal A en metaal B, de corrosiesnelheid van salpeterzuur gelijk? Om dit te bepalen voert men een experiment uit waarbij voor samples van elk van de typen metalen de corrosiesnelheid onder gecontroleerde omstandigheden bepaald is. De gemeten waarden, opgeslagen in het bestand 'Exercise1' met variabelen 'Rate' voor de corrosiesnelheid en 'Metal' voor het gebruikte type metaal zijn statistisch geanalyseerd, de resultaten opgenomen in bijlage 1. Hiervan kan bij het beantwoorden van de volgende vragen gebruik gemaakt worden!

a.

Beargumenteer dat hier sprake is van een experiment met onafhankelijke groepen. Voer een Exploratieve Data Analyse uit. Vermeld relevante kentallen, beschrijf opvallende zaken en bespreek in hoeverre er sprake is van een symmetrische verdeling danwel van een Normale verdeling van de resultaten.

b.

Bereken een 99%-betrouwbaarheidsinterval voor de verwachtingswaarde, A, van de corrosiesnelheid van metaal van type A. Hint: gebruik de kanstabellen uit de bijlagen!

c.

Voer een toets uit om te bepalen of er een significant verschil is in de varianties van de corrosiesnelheden van beide metalen,  A2 en  B2 . Vermeld duidelijk details, p-waarde en conclusie van de toets.

d.

Voer een parametrische toets uit om te bepalen of de verwachte corrosiesnelheid van metaal A, A, kleiner is dan de verwachte corrosiesnelheid van metaal B, B. Vermeld duidelijk details, p-waarde en conclusie van de toets. Indien meerdere toetsen van toepassing zijn, beargumenteer dan welke toets de voorkeur verdient.

e.

Voer een parametervrije toets uit om te bepalen of de verwachte corrosiesnelheid van metaal A, A, verschilt van de verwachte corrosiesnelheid van metaal B, B. Omschrijf naam en principe van de geselecteerde toets en vermeld duidelijk details, p-waarde en conclusie. Indien meerdere toetsen van toepassing zijn, beargumenteer dan welke toets de voorkeur verdient.

Opgave 2 

2DM71: 20-1-2015

1

Opgave 2: (4 x 5 = 20 punten) (Bij deze opgave is gebruik van resultaten uit bijlage 2 noodzakelijk) Hoe beïnvloedt de concentratie van een specifieke reactie component de opbrengst van een chemisch proces? Om dit te onderzoeken bepaalt men experimenteel bij een aantal concentraties van deze component (variabele: 'X') de opbrengst van het chemisch proces (variabele: 'Y'). Men vermoedt, op basis van een theoretische reactie-analyse, dat het verband tussen deze opbrengst en de betreffende concentratie te beschrijven is met een model, dat niet lineair is in de parameters α en β:

Y

X

 X

Door echter de gebruikte variabelen te transformeren volgens:

Ytrafo 

1 1 en X trafo  X Y

is het oorspronkelijke model te lineariseren, dat wil zeggen dat het omgeschreven kan worden in een model dat lineair is in de parameters, β0 en β1:

Ytrafo  0  1 X trafo Voor dit gelineariseerde model is een regressie-analyse uitgevoerd op basis van de beschikbare experimentele data. Resultaten staan in bijlage 2. Gebruikte variabelen zijn 'Xtrafo' en 'Ytrafo'. a.

Voer een Exploratieve Data Analyse uit op de getransformeerde variabelen, 'Ytrafo' en 'Xtrafo'. Geef expliciet de vergelijking van de gevonden regressielijn en gebruik het resultaat om de parameters, α en β, in het niet-lineaire model te schatten..

b.

Voer een toets uit om te bepalen of de richtingscoëfficiënt in het gelineariseerde model significant van 0 verschilt. Vermeld duidelijk details, p-waarde en conclusie van de toets.

c.

Welke aannames gelden voor dit gelineariseerde regressiemodel? Voer op basis van de beschikbare resultaten een modelcontrole uit en beargumenteer of aan deze modelaannames voldaan lijkt te zijn.

Ook voor het oorspronkelijke niet-lineaire model is een regressie-analyse uitgevoerd op basis van de beschikbare experimentele data. Resultaten zijn:

Nonlinear Model NonLinModel.1 <- nls(Y~X/(a+b*X),data=c(Exercise2),start=list(a=0.2,b=0.4)) summary(NonLinModel.1) Parameters: Estimate Std. Error t value Pr(>|t|) a 0.2740468 0.0202928 13.51 5.01e-09 b 0.3449726 0.0008033 429.45 < 2e-16 Residual standard error: 0.0138 on 13 degrees of freedom Number of iterations to convergence: 4 Achieved convergence tolerance: 1.696e-07

d.

Beargumenteer of er convergentie opgetreden is en geef expliciet de vergelijking van het gefitte niet-lineaire model. Welke startwaardes zijn in dit geval gebruikt voor de parameters α en β?

2DM71: 20-1-2015

2

Opgave 3: (5 x 6 = 30 points) (Bij deze opgave is gebruik van resultaten uit de bijlagen 3a en 3b noodzakelijk) Van drie typen medicijnen, type A, type B and type C (variabele: "Medication"), wil men nagaan in hoe verre ze een allergische reactie veroorzaken. Men voert daartoe een experiment uit, waarbij gezonde proefpersonen één van de drie medicijnen toegediend krijgen. Na afloop van het experiment wordt voor elk van de proefpersonen een zogenaamde 'severity-index' bepaald (variable: "Severity"), die maatgevend is voor de mate waarin een allergische reactie optreedt: hoe hoger de waarde hoe heftiger de allergische reactie. Op basis van deze gegevens zijn een aantal analyses uitgevoerd. Resultaten zijn opgenomen in bijlage 3a. Hiervan kan bij het beantwoorden van de volgende vragen gebruik gemaakt worden! a.

Voer op basis van de resultaten in bijlage 3a een Exploratieve Data Analyse uit. Beschrijf opvallende zaken en bespreek in hoe verre er sprake is van een gebalanceerde opzet van het experiment.

b.

Voer een parametrische toets uit om te bepalen of het type medicijn van invloed is op de mate waarin een allergische reactie optreedt. Vermeld duidelijk details, p-waarde en conclusie van de gebruikte toets.

c.

Voer een post-hoc test uit om te bepalen welke typen medicijnen onderling significant verschillen. Vermeld naam, relevante details en het onderliggend principe van de gebruikte toets.

d.

Voer een parametervrije toets uit om te bepalen of het type medicijn van invloed is op de mate waarin een allergische reactie optreedt. Omschrijf naam en principe van de geselecteerde toets en vermeld duidelijk details, p-waarde en conclusie.

Van de deelnemende proefpersonen is ook het geslacht bijgehouden in een variabele “Gender“: men, women. In een vervolganalyse is deze informatie meegenomen. Resultaten van deze aanvullende analyses zijn opgenomen in bijlage 3b. Hiervan kan bij het beantwoorden van de volgende vraag gebruik gemaakt worden! e.

Voer een adequate Analysis of Variance (ANOVA) uit om mogelijke hoofd- en interactieeffecten van de factoren “Medication” and “Gender“ vast te kunnen stellen. Vermeld duidelijk details, p-waarden en conclusies van de gebruikte toetsen en besteed aandacht aan de praktische interpretatie van significante hoofdeffecten en interacties!

Opgave 4 

2DM71: 20-1-2015

3

Opgave 4: (4 x 5 = 20 punten) a.

De analyse van een lineair regressiemodel levert de volgende ANOVA tabel (Analysis of Variance table) op: Analysis of Variance Source Sum of Squares Model 816,32 Residual 78,99 Total (Corr.) 895,31

Df Mean Square 3 272.11 16 4.94 19

F-Ratio P-Value 55.08 0,0000

Bepaal op basis hiervan:    

het aantal waarnemingen dat voor het berekenen van het regressiemodel gebruikt is, het aantal parameters in het model (inclusief de constante, 0), 2 de coefficient of determination, R , de standaardafwijking van de residuën (standard error of estimate).

b.

Beschrijf de essentiële stappen in een procedure om op basis van experimentele data een adequaat regressiemodel te fitten.

c.

Op basis van experimentele data zijn de parameters, 0 en 1, van een lineair regressiemodel: Y   0  1  x   geschat. De resultaten gebruikt men om een schatting te doen van de afhankelijke variabele, y, in het punt x=xp : op basis van de formule:

x  x x  x 2

1 yˆ p   b0  b1  x p   t n 2; /2 s   n

p

2

i

Geef een toelichting op deze formule en beargumenteer of hier sprake is van een voorspelinterval (prediction interval) of van een betrouwbaarheidsinterval (confidence interval) voor de geschatte respons. d.

Beschrijf details en principe van de toets van Friedman. Geef aan in welke situaties deze toets gebruikt kan worden!

2DM71: 20-1-2015

4

Bijlage 1: Opgave 1 Boxplot of Rate (order: A, B)

80 60

Rate

80

0

20

20

40

40

60

Rate

100

100

120

120

140

140

Stripchart of Rate (order: A, B)

0

A

A

B

B

Metal

Quantile comparison plot of Rate (metal B only) 140

60

Quantile comparison plot of Rate (metal A only)

80

Rate

20

10

40

20

60

30

Rate

40

100

50

120

5

2 -1.5

-1.0

-0.5

0.0

0.5

1.0

-1.5

1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

norm quantiles

norm quantiles

> numSummary(Exercise1[,"Rate"], groups=Exercise1$Metal, statistics=c("mean", "sd", + "IQR", "quantiles"), quantiles=c(0,.25,.5,.75,1)) mean sd IQR 0% 25% 50% 75% 100% data:n A 25.54545 16.69349 21 5 11.5 26 32.5 60 11 B 62.69231 36.71372 51 10 35.0 68 86.0 140 13 > t.test(Rate~Metal, alternative='two.sided', conf.level=.95, var.equal=TRUE, + data=Exercise1) data: Rate by Metal t = -3.0886, df = 22, p-value = 0.005366 alternative hypothesis: true difference in means is not equal to 0 > t.test(Rate~Metal, alternative='two.sided', conf.level=.95, var.equal=FALSE, + data=Exercise1) data: Rate by Metal t = -3.2704, df = 17.338, p-value = 0.004418 alternative hypothesis: true difference in means is not equal to 0 > var.test(Rate ~ Metal, alternative='two.sided', conf.level=.95, data=Exercise1) data: Rate by Metal F = 0.2067, num df = 10, denom df = 12, p-value = 0.01809 alternative hypothesis: true ratio of variances is not equal to 1 > with(Exercise1, shapiro.test(Rate)) data: Rate W = 0.9103, p-value = 0.03584 > wilcox.test(Rate ~ Metal, + alternative="two.sided", + data=Exercise1)

> wilcox.test(metaal.A, metaal.B, + alternative='two.sided', paired=TRUE, + data=Exercise1))

Wilcoxon rank sum test data: Rate by Metal W = 25, p-value = 0.007644

2DM71: 20-1-2015

Wilcoxon signed rank test data: metaal.A and metaal.B V = 4, p-value = 0.006836

5

Bijlage 2: Opgave 2, onderdelen a t/m c Linearized Model > numSummary(Exercise2[,c("Xtrafo", "Ytrafo")], statistics=c("mean", "sd", "IQR", + "quantiles"), quantiles=c(0,.25,.5,.75,1)) mean sd IQR 0% 25% 50% 75% 100% n 0.0344 0.0236 0.0274 0.0118 0.0161 0.0227 0.0435 0.0833 15 0.3544 0.0067 0.0084 0.3466 0.3492 0.3524 0.3576 0.3671 15

Xtrafo Ytrafo

0.365

x-axis: Xtrafo, y-axis: Ytrafo > cor(Exercise2[,c("Xtrafo","Ytrafo")])

0.350

0.355

Ytrafo

0.360

Xtrafo Ytrafo Xtrafo 1.0000000 0.9680544 Ytrafo 0.9680544 1.0000000

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

> Confint(LinearModel.1, level=0.95) Estimate 2.5 % 97.5 % (Intercept) 0.3450102 0.3432598 0.3467606 Xtrafo 0.2731528 0.2307606 0.3155450

Xtrafo

> LinearModel.1 <- lm(Ytrafo ~ Xtrafo, data=Exercise2) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.3450102 0.0008102 425.82 < 2e-16 Xtrafo 0.2731528 0.0196227 13.92 3.46e-09 Residual standard error: 0.001732 on 13 degrees of freedom Multiple R-squared: 0.9371, Adjusted R-squared: 0.9323 F-statistic: 193.8 on 1 and 13 DF, p-value: 3.457e-09

Residual vs. Fitted:

0.355

0.360

0.365

0.4

1.0 0.5 0.0 -0.5

Studentized Residuals(LinearModel.1)

-1.0

1.2

1

5

0.8

6

5

-1.5

0.0

0.000

1

5

Standardized residuals

Scale-Location

6

-0.002

Residuals

0.002

Residuals vs Fitted

0.350

qqPlot(LinearModel.1)

Scale - Location:

0.350

0.355

0.360

0.365

1 -2

Fitted values

2DM71: 20-1-2015

Fitted values

6

-1

0 t Quantiles

1

2

Bijlage 3a: Opgave 3, onderdelen a t/m d > numSummary(Exercise3[,"Severity"], groups=Exercise3$Medication, statistics=c("mean", + "sd", "IQR", "quantiles"), quantiles=c(0,.25,.5,.75,1)) mean 46.25417 62.77083 27.00833

Type_A Type_B Type_C

sd 26.96104 30.14027 13.91221

IQR 39.0625 31.8625 8.7500

0% 25% 50% 75% 100% 22.55 24.4875 33.525 63.550 102.45 31.70 42.8625 50.475 74.725 138.60 15.40 19.3500 22.150 28.100 66.70

data:n 12 12 12

140

Boxplot: {Type_A, Type_B, Type_C}

120

21

Estimate 2.5 % 97.5 % (Intercept) 46.25 31.75 60.76 Medication[T.Type_B] 16.52 -3.99 37.02 Medication[T.Type_C] -19.25 -39.75 1.26

80

Severity

100

> Confint(AnovaModel.1, level=0.95)

20

40

60

36

Type_A

Type_B

Type_C

Medication

> AnovaModel.1 <- aov(Severity ~ Medication, data=Exercise3) Df Sum Sq Mean Sq F value Pr(>F) Medication 2 7689 3844 6.306 0.00479 Residuals 33 20118 610 > kruskal.test(Severity ~ Medication, data=Exercise3) chi-squared = 14.6449, df = 2, p-value = 0.0006605 > leveneTest(Exercise3$Severity, Exercise3$Medication, center=mean) Df F value Pr(>F) 2 3.8542 0.03131 33 > plot(AnovaModel.1) # Residuals vs. Fitted values > qqPlot(AnovaModel.1, simulate=TRUE) group

80

4

Residuals vs Fitted

2 1

20

36

-40

-1

-20

0

Studentized Residuals(AnovaModel.1)

11

0

Residuals

40

60

3

21

30

35

40

45

50

55

60

-2

Fitted values aov(Severity ~ Medication)

-1

0

1

2

t Quantiles

Multiple Comparisons of Means: Tukey Contrasts Linear Hypotheses: Type_B - Type_A Type_C - Type_A Type_C - Type_B > cld(.Pairs) #

Estimate Std. Error t value Pr(>|t|) == 0 16.52 10.08 1.639 0.24396 == 0 -19.25 10.08 -1.909 0.15194 == 0 -35.76 10.08 -3.548 0.00327 compact letter display

Type_A

Type_B

Type_C

"ab"

"b"

"a"

Appendix 3b  2DM71: 20-1-2015

7

Bijlage 3b: Opgave 3, onderdeel e tapply(Exercise3$Severity, list(Medication=Exercise3$Medication), mean, na.rm=TRUE) Medication Type_A Type_B Type_C 46.25417 62.77083 27.00833 tapply(Exercise3$Severity, list(Gender=Exercise3$Gender), mean, na.rm=TRUE) Gender Men 45.15000

Women 45.53889 order: {Men, Women}

order: {Type_A, Type_B, Type_C} Plot of Means

50 45 30

45.2

35

40

mean of Problem_5$Severity

45.4 45.3


55

45.5

60

Plot of Means

Men

Type_A

Women

Type_B

Type_C

Problem_5$Medication

Problem_5$Gender

tapply(Exercise3$Severity,list(Gender=Exercise3$Gender,Mediction=Exercise3$Medication), + mean, na.rm=TRUE)

Gender Men Women

Type_A 68.19167 24.31667

Medication Type_B 45.06667 80.47500

Type_C 22.19167 31.82500

order: {Men, Women}

order: {Type_A, Type_B, Type_C}

Plot of Means

Problem_5$Gender

Type_C

60

70

Men Women

Women

50


40

50

60

70

Type_A Type_B Type_C

30

30


80


40

80

Type_B

Plot of Means

Type_A

Men 20

20 Men

Women

Type_A

Problem_5$Gender

Type_B

Type_C


> Anova(AnovaModel.2) Anova Table (Type II tests) Response: Severity Sum Sq Gender 1.4 Medication 7688.6 Gender:Medication 9813.3 Residuals 10303.0

2DM71: 20-1-2015

Df 1 2 2 30

F value 0.004 11.194 14.287

8

Pr(>F) 0.9502205 0.0002336 4.377e-05

Tabel Standard normal distribution

Tabel Student t-verdeling

2DM71: 20-1-2015

9

2DM71: Eindtoets Biostatistiek, op dinsdag 20 Januari 2015,

Recommend Documents