Faculteit der Wiskunde en Informatica
Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 28 oktober 2009, 9.00-12.00 uur • • • •
Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven Statistisch Compendium. De antwoorden dienen gemotiveerd, duidelijk geformuleerd en overzichtelijk opgeschreven te worden. In het bijzonder dienen bij statistische toetsen expliciet hypothesen, toetsings-grootheden, relevante steekproefverdelingen en steekproefresultaten vermeld te worden. Indien niet anders gespecificeerd geldt: toets met een onbetrouwbaarheid van 5% en bepaal 95%betrouwbaarheids-intervallen. Er zijn 5 vraagstukken met in totaal 20 onderdelen. Elk onderdeel wordt gewaardeerd met 5 punten. Het eindcijfer wordt berekend door het totaal door 10 te delen.
Opgave 1: (5x5=25 punten) De hartslag na afloop van een (gestandaardiseerde) inspanningstest is een indicatie voor iemands fysieke conditie: een hartslag van meer dan 127 slagen per minuut geldt als indicatief voor een verhoogd gezondheidsrisico. Men wil onderzoeken in hoeverre personen in deze zogenaamde risicogroep een verhoogde sterftekans hebben bij een hartaanval. Uit een grootschalig longitudinaal onderzoek over een periode van 10 jaar zijn binnen een populatie scores bekend voor de hartslag na de inspanningstest, alsook de opgetreden sterfte ten gevolge van een hartaanval (in sterfte per 100 personen gedurende een 10-jaars periode). Bovendien is bekend hoe binnen de bekeken populatie de verdeling van de hartslagscores na de inspanningstest is: Hartslag na inspanningstest (slagen/min) ≤ 105 106 - 115 116 - 127 >127
Fractie binnen de populatie 20% 30% 30% 20%
Sterfte tgv. hartaanval (per 100 personen; 10 jaars periode) 4.6 4.3 5.8 6.6
a.
Bepaal de kans dat in de bekeken populatie een persoon in de afgelopen 10-jaars periode aan een hartaanval overleden is.
b.
Bepaal de kans dat een persoon die in de afgelopen 10-jaars periode aan een hartaanval overleden is een hartslag na inspanningstest van meer dan 127 slagen per minuut had en dus tot de risicogroep gerekend werd.
c.
Bepaal de kans dat een persoon die in de afgelopen 10-jaars periode NIET aan een hartaanval overleden is een hartslag na inspanningstest van meer dan 127 slagen per minuut had en dus tot de risicogroep gerekend werd.
d.
Bepaal de kans dat een persoon die in de afgelopen 10-jaars periode aan een hartaanval overleden is NIET een hartslag na inspanningstest van meer dan 127 slagen per minuut had en dus NIET tot de risicogroep gerekend werd.
e.
Benoem de in de vorige onderdelen b, c en d gevraagde kansen in termen van specificiteit, sensitiviteit, predictive value positive en predictive value negative.
2DM40
1
28-10-2009
Opgave 2: (4x5=20 punten) (Bij deze opgave kan gebruik gemaakt worden van resultaten uit de bijlage bij opgave 2)
Voorzien studenten op natuurlijke wijze in hun dagelijkse behoefte aan vitamine A? Om hier beter inzicht in te krijgen is bij een representatieve groep van 14 studenten de dagelijkse inname van vitamine A bepaald (variabele: Intake, in mg/dag). Resultaten van een analyse van deze data zijn opgenomen in een bijlage bij opgave 2. Hiervan kan bij het beantwoorden van de volgende vragen gebruik gemaakt worden! a.
Voer op basis van de resultaten in de bijlage bij opgave 2 een Exploratieve Data Analyse uit op deze data. Vermeld relevante kentallen, beschrijf opvallende zaken en bespreek in hoeverre er sprake is van een symmetrische verdeling danwel van een Normale verdeling van de resultaten.
b.
Voer een toets uit om vast te stellen of de dagelijkse vitamine A inname lager is dan de noodzakelijk geachte 70 mg per dag. Licht je werkwijze toe en geef ook een schatting voor de p-waarde van deze toets.
Van de uitgevoerde toets om op basis van de beschikbare gegevens vast te stellen of de dagelijkse vitamine behoefte lager is dan de noodzakelijk geachte 70 mg per dag is ook de toetsings-karakteristiek (Power Curve of Operating Characteristic) bepaald. Daarbij is een standaardafwijking σ=50 mg per dag verondersteld. Power Curve 1
Power (1 - beta)
0.8 0.6 0.4 0.2 0 10
30
50 70 True Mean
90
110
c.
Wat is bij de gekozen opzet de kans op een fout van de tweede soort bij een feitelijke afwijking Δ= 20 mg per dag? Wat houdt zo’n fout van de tweede soort in ?
d.
Beargumenteer op basis van het gerapporteerde 95%-betrouwbaarheidsinterval voor de standaardafwijking van de dagelijkse vitamine inname of de geschatte standaardafwijking significant afwijkt van de veronderstelde waarde σ=50 mg per dag.
Opgave 3: (2x5=10 punten) Op basis van historische gegevens is bekend dat onder normale omstandigheden in een landelijk gebied met een oppervlakte van 1000 hectare jaarlijkse 1 inwoner een beroep doet op de lokale eerste hulp post. a. Wat is voor een landelijk gebied van 5000 hectare de kans dat onder normale omstandigheden in een jaar tijd 4 inwoners een beroep doen op de lokale eerste hulp post? Beargumenteer welke kansverdeling je gebruikt en welke aannamen hieraan ten grondslag liggen. In een landelijk gebied van 20000 hectare blijken in een jaar tijd 30 inwoners een beroep op de lokale eerste hulp post gedaan te hebben. b. Beargumenteer of het waargenomen aantal personen dat in dit gebied een beroep deed op de eerste hulp post ongebruikelijk hoog is ten opzichte van het aantal dat je onder normale omstandigheden verwacht. Gebruik, voor zo ver mogelijk, een adequate benadering voor het berekenen van kansen en licht je keuze toe!
2DM40
2
28-10-2009
Opgave 4: (4x5=20 punten) (Bij deze opgave is gebruik van resultaten uit de bijlage bij opgave 4 noodzakelijk)
Is er bij personen met cardiomyopathie een samenhang tussen leeftijd en slagvolume van de linker hartkamer? Om dit te onderzoeken zijn gegevens verzameld van het slagvolume van de linker hartkamer (variabele: LVEF) en de leeftijd (variabele: age) van een aantal personen met cardiomyopathie. Op basis van deze gegevens is een regressie-analyse uitgevoerd. Resultaten van deze analyse staan vermeld in een bijlage bij opgave 4. Gebruik bij het beantwoorden van deze opgaven deze resultaten. Merk op dat in deze bijlage sommige deelresultaten met opzet ontbreken ! a.
Geef op basis van summary statistics en scatterplot aan of in dit geval lineaire regressie een geschikte methode lijkt om de resultaten van het onderzoek te analyseren. Beargumenteer de keuze voor verklaarde en verklarende variabele en geef de vergelijking van de regressielijn die het verband tussen hartslagfrequentie en leeftijd weergeeft.
b.
Bepaal de ontbrekende gegevens in de ANOVA-tabel. Beargumenteer op basis daarvan of het model als geheel significant is.
c.
Bereken het 95% betrouwbaarheidsinterval voor de richtingscoëfficiënt van het regressiemodel. Specificeer de kansverdeling die je hierbij nodig hebt. Beargumenteer of de richtingscoëfficiënt van het model significant van 0 verschilt.
d.
Welke modelaannamen gelden voor een enkelvoudig lineair regressiemodel? Beargumenteer op basis van de residuen of aan deze modelaannames voldaan lijkt te zijn.
Opgave 5: (5x5=25 punten) (Bij deze opgave is gebruik van resultaten uit de bijlage bij opgave 5 noodzakelijk)
Is een nieuw medicijn effectief in de behandeling van alcoholverslaving? Om dit te bepalen voert men een experiment uit waarbij een aantal alcoholverslaafden random over twee groepen verdeeld wordt, namelijk een controlegroep en een behandelingsgroep. De controlegroep ondergaat de standaard therapie, de behandelingsgroep krijgt bovendien het nieuwe medicijn voorgeschreven. Na beëindiging van de behandeling wordt de deelnemers gevraagd gedurende een jaar bij te houden hoeveel alcohol zij geconsumeerd hebben (in centiliter per jaar): Controle groep 1042 1617 1180 973 1552 1251 1151 1511 728 1079 951 1319 Behandel groep 874 389 612 798 1152 893 541 741 1064 862 312 Gebruik bij het beantwoorden van deze opgaven resultaten van de analyse uit de bijlagen bij opgave 5. a.
Beargumenteer dat hier sprake is van een experiment met onafhankelijke groepen. Geef eventuele voordelen/nadelen ten opzichte van een experiment met gepaarde data en voer op basis van de resultaten in de bijlagen bij opgave 5 een Exploratieve Data Analyse uit.
b.
Voer een toets uit om vast te stellen of de variantie in beide groepen gelijk is. Licht je werkwijze toe!
c.
Voer een t-toets uit om vast te stellen of er een significante verbetering optreedt ten gevolge van de behandeling met het nieuwe medicijn.
d.
Voer een parametervrije toets uit om vast te stellen of er een significante verbetering optreedt ten gevolge van de behandeling met het nieuwe medicijn.
e.
Beargumenteer welke van beide toetsen, de t-toets of de parametervrije toets, in dit geval de voorkeur verdient.
2DM40
3
28-10-2009
Bijlage bij opgave 2: SnapStat: One Sample Analysis Histogram Data variable: Intake Count = 14 Average = 50.2357 Standard deviation = 40.2322 Coeff. of variation = 80.0869% Minimum = 13.4 Maximum = 155.8 Range = 142.4 Stnd. skewness = 2.36025 Stnd. kurtosis = 1.89264
8
frequency
6 4 2 0 0
Box-and-Whisker Plot
30
60
90 120 150 180 Intake
95% confidence intervals Mean: 50.2357 +/- 23.2295 [27.0063, 73.4652] Sigma: [29.1665, 64.8158] Diagnostics Shapiro-Wilks P-value = 0.0106 Lag 1 autocorrelation = 0.026364 +/- 0.523823
0
30
60
90 120 150 180 Intake
Time Sequence Plot
Normal Probability Plot 99.9
180
99
150
95 percentage
Intake
120 90 60 30
50 20 5 1 0.1
0 0
3
6
9
12
0
15
Row
2DM40
80
4
30
60
90 120 150 180 Intake
28-10-2009
Bijlage bij opgave 4: n = 25;
∑x
i
= 1030;
∑y
i
= 5.58; Lxx ≡ Sxx = 6324; Lxy ≡ Sxy = 11.684; Lyy ≡ Syy = 0.1113;
Summary Statistics age 25 41.2 16.2327 39.3997% 19.0 75.0 56.0 0.803035 -1.12345
LVEF 25 0.2232 0.0681127 30.5164% 0.12 0.4 0.28 1.42542 0.426832
Scatterplot Plot of LVEF vs age 0.45 0.4 0.35 LVEF
Count Average Standard deviation Coeff. of variation Minimum Maximum Range Stnd. skewness Stnd. kurtosis
0.3 0.25 0.2 0.15 0.1 19
29
39
49 age
59
69
79
Simple Regression - LVEF vs. age Dependent variable: LVEF Independent variable: age Linear model: Y = a + b*X Coefficients Least Squares Standard T Parameter Estimate Error Statistic P-Value Intercept 0.14708 ???? 4.23954 0.0003 Slope 0.00184756 ???? 2.35193 0.0276 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 0.0215869 ??? ????? ??? 0.0276 Residual 0.0897571 ??? ????? Total (Corr.) 0.111344 ??? R-squared = 19.3876 percent R-squared (adjusted for d.f.) = 15.8827 percent Standard Error of Est. = 0.0624698
Vervolg bijlage bij opgave 4 Æ
2DM40
5
28-10-2009
Vervolg bijlage bij opgave 4: Plot of Fitted Model: 0.45 0.4
LVEF
0.35 0.3 0.25 0.2 0.15 0.1 19
29
39
49 age
59
69
79
3
3
2
2 Studentized residual
Studentized residual
Residual Plots:
1 0 -1 -2 -3
1 0 -1 -2 -3
19
29
39
49 age
59
69
79
0.18
0.2
0.22 0.24 0.26 predicted LVEF
0.28
0.3
Normal Probability Plot 99.9 99 percentage
95 80 50 20 5 1 0.1 -3
2DM40
-2
-1
0 1 SRESIDUALS
6
2
3
28-10-2009
Bijlage bij opgave 5 SnapStat: Two Sample Comparison behandelgroep Count Average Standard deviation Coeff. of variation Minimum Maximum Range Stnd. skewness Stnd. kurtosis
controlegroep 12 1196.17 267.959 22.4014% 728 1617 889 0.152167 -0.423867
6 4 frequency
behandelgroep 11 748.909 263.786 35.2227% 312 1152 840 -0.345171 -0.448614
2 0 2 4 6 0
300
600 900 1200 1500 1800 controlegroep
Normal Probability Plot 1800 Box-and-Whisker Plot
Variables behandelg controlegr
95% 1500 confidence intervals Diff. of means: -447.258 +/- 230.892 [-678.15, -216.365] Ratio1200 of variances: [0.27487, 3.55167] Comparison of Means 900 Null hypothesis: difference = 0 t statistic = -4.0284 Two-sided P-value = 0.0006
ehandelgroep
600
Comparison of Sigmas Null hypothesis: ratio = 1 300 F statistic = 0.9691 Two-sided P-value = 0.9684
controlegroep
0
300
600
900 1200 1500 1800
0 Diagnostics Shapiro-Wilks 0.8450 0.1 P-values 1 5 =20 50 and 80 0.8345 95 99 99.9 Lag 1 autocorrelation = 0.0443 +/- 0.5910, -0.3021 +/- 0.5658 percentage
Comparison of Medians Median of sample 1: 798.0 Median of sample 2: 1165.5 Average rank of sample 1: 7.36364 Average rank of sample 2: 16.25
2DM40
7
28-10-2009