Faculteit der Wiskunde en Informatica
Tentamen Biostatistiek 1 voor BMT (2DM40), op woensdag 12 november 2008 14.00-17.00 uur • • • •
Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven Statistisch Compendium. De antwoorden dienen gemotiveerd, duidelijk geformuleerd en overzichtelijk opgeschreven te worden. In het bijzonder dienen bij statistische toetsen expliciet hypothesen, toetsingsgrootheden, relevante steekproefverdelingen en steekproefresultaten vermeld te worden. Indien niet anders gespecificeerd geldt: toets met een onbetrouwbaarheid van 5%. Betrouwbaarheidsintervallen 95%. Er zijn 7 vraagstukken met in totaal 20 onderdelen. Elk onderdeel wordt gewaardeerd met 5 punten. Het eindcijfer wordt berekend door het totaal door 10 te delen.
Opgave 1: (4x5=20 punten) Twee gezonde ouders hebben een kind met een recessieve chromosomale afwijking. Deze afwijking is niet vooraf op basis van een zwangerschapsonderzoek vast te stellen. Wel is bekend dat de kans op een dergelijke afwijking 1/4 bedraagt. Wanneer de vrouw opnieuw in verwachting raakt blijkt uit een echo dat er sprake is van een tweeling. Onbekend is nog of het een een-eiige tweeling (met identiek genetisch materiaal) danwel een twee-eiige tweeling (met voor wat betreft de recessieve chromosomale afwijking onafhankelijk genetisch materiaal) betreft. a.
b.
Bepaal, uitgaande van de aanname dat het een een-eiige tweeling betreft, de kansen dat respectievelijk bij beide tweelingen, bij één van beide tweelingen danwel bij geen van beide tweelingen de chromosomale afwijking optreedt. Bepaal, uitgaande van de aanname dat het een twee-eiige tweeling betreft, de kansen dat respectievelijk bij beide tweelingen, bij één van beide tweelingen danwel bij geen van beide tweelingen de chromosomale afwijking optreedt.
Neem aan dat er een kans 1/3 op een een-eiige tweeling en een kans 2/3 op een twee-eiige tweeling is. c. d.
Bepaal op basis van deze gegevens de kansen dat respectievelijk bij beide tweelingen, bij één van beide tweelingen danwel bij geen van beide tweelingen de chromosomale afwijking optreedt. Wanneer bekend is dat bij beide tweelingen de chromosomale afwijking optreedt, wat is dan op grond van de beschikbare gegevens de kans dat het een een-eiige tweeling betreft?
2DM40
1
12-11-2008
Opgave 2: (2x5=10 punten) Biochemische markers worden gebruikt bij het diagnostiseren van een hartaanval. Op grond van beschikbare gegevens blijkt dat bij gebruik van de marker CK (Creatine Kinase) de specificiteit van de test 87% bedraagt en de sensitiviteit 37%. Van de onderzoekspopulatie is bekend dat de hartaanvalprevalentie 25% bedraagt. a. b.
Geef aan wat de betekenis is van de specificiteit danwel de sensitiviteit van de test met CKmarkers. Bepaal de positief voorspellende waarde (predictive value positive) van de test met CK-markers.
Opgave 3: (3x5=15 punten) (Bij deze opgave kan gebruik gemaakt worden van resultaten uit de bijlage bij opgave 3)
Een fysioloog doet onderzoek naar de longvitaliteit van personen met astma. Daartoe bepaalt zij experimenteel bij een aantal personen met astma de zogenaamde long-vitaliteitsindex (variabele: LVI). Resultaten van een analyse van deze data zijn opgenomen in een bijlage bij opgave 3. Hiervan kan bij het beantwoorden van de volgende vragen gebruik gemaakt worden! a.
b. c.
Voer op basis van de resultaten in de bijlage bij opgave 3 een Exploratieve Data Analyse uit op deze data. Vermeld relevante kentallen, beschrijf opvallende zaken en bespreek in hoeverre er sprake is van een symmetrische verdeling danwel van een Normale van de resultaten. Bereken, op basis van de resultaten uit de bijlage bij opgave 3, een 99%-betrouwbaarheidsinterval voor de verwachtingswaarde van de long-vitatliteitsindex, LVI. Beargumenteer, op basis van de resultaten uit de bijlage bij opgave 3, of de standaardafwijking van de long-vitaliteitsindex, LVI, significant afwijkt van de streefwaarde 1.
Opgave 4: (2x5=10 punten) Hoe effectief is een zuiveringsfilter voor het reduceren van de hardheid van water? Om dit na te gaan verdeelt men 40 locaties random in twee groepen van gelijke omvang. Bij de ene groep, groep A, ondergaat het water geen verdere behandeling, bij de andere groep, groep B, wordt het zuiveringsfilter toegepast. Na een periode van drie maanden wordt op elk van de lokaties een watermonster genomen en de hardheid er van bepaald (gemeten op een schaal 1 – 5, met 1 het hardst en 5 het zachtste water). Resultaten zijn:
a. b.
Groep A x A = 1.7
Groep B xB = 2.1
sA = 0.6
sB = 0.7
Bepaal op basis van deze gegevens met α=0.01 of gebruik van het zuiveringsfilter leidt tot verzachting van het water. Geef ook aan welke aannames hierbij verondersteld zijn. Geef (beargumenteerd !) een schatting voor de p-waarde van deze toets.
2DM40
2
12-11-2008
Opgave 5: (3x5=15 punten) Om in te kunnen schatten hoe groot de fractie van personen is die bezwaar aan zal tekenen tegen het nieuw in te voeren Electronisch Patienten Dossier (EPD) wordt een onderzoek gepland onder een groep van n=500 random gekozen personen. Men gaat er daarbij vooralsnog van uit dat een fractie p=0.2 van de personen bezwaar aan zal tekenen tegen dit EPD. Voor het beoogde onderzoek bepaalt men de toetskarakteristiek (Operating Characteristic): 1
Power (1 - beta)
0.8 0.6 0.4 0.2 0 0.1
a. b.
0.15
0.2 True Proportion
0.25
0.3
Wat is bij de gekozen opzet het onderscheidingsvermogen bij een afwijking in fractie Δp=0.05? Welke α (type I fout) gebruikt de onderzoeker? Geef suggesties voor een aangepaste onderzoeksopzet waarmee het onderscheidingsvermogen bij een afwijking in fractie Δp=0.05 gunstiger wordt.
Bij daadwerkelijke uitvoering van dit onderzoek blijkt dat van de 500 random gekozen personen er 125 personen aangeven bezwaar aan te tekenen tegen het EPD. c.
Bepaal op basis van deze gegevens een 95% betrouwbaarheidsinterval voor de fractie personen die bezwaar aantekent tegen het EPD.
Opgave 6: (2x5=10 punten) Verlaagt een nieuw medicijn het cholesterol gehalte? Om dit te onderzoeken is bij een groep van 10 vergelijkbare proefpersonen een nulmeting van het cholesterol gehalte uitgevoerd. Vervolgens kregen deze proefpersonen gedurende 6 maanden het nieuwe medicijn voorgeschreven en is na afloop van deze periode voor elk van de deelnemers een exitmeting uitgevoerd om opnieuw het cholesterol gehalte te bepalen. Resultaten zijn (in g/l): Nulmeting Exitmeting Verschil: Nul-Exit a.
b.
2.53 1.89 0.64
2.12 2.23 -0.11
2.23 2.08 0.15
2.34 2.34 0.00
1.89 1.44 0.45
2.23 1.96 0.27
2.01 2.42 -0.41
1.93 1.78 0.15
2.65 2.48 0.17
1.74 1.94 -0.20
Beargumenteer dat hier sprake is van een experiment op basis van GEPAARDE data. Geef eventuele voordelen/nadelen ten opzichte van een experiment op basis van ONAFHANKELIJKE groepen. Selecteer een parametervrije toets om zo efficiënt mogelijk te bepalen of het medicijn het cholesterol gehalte verlaagt. Voer deze toets daadwerkelijk uit en licht je werkwijze toe!
2DM40
3
12-11-2008
Opgave 7: (4x5=20 punten) (Bij deze opgave kan gebruik gemaakt worden van resultaten uit de bijlage bij opgave 7)
Is er bij personen met een acute hartspierverwijding een samenhang tussen de leeftijd en de ejectiefractie van het linker ventrikel? Om dit te onderzoeken zijn van een aantal personen waar deze acute hartspierverwijding opgetreden is gegevens verzameld. Als afhankelijke variabele is de ejectie fractie van het linker ventrikel genomen (variabele: EFLV), als onafhankelijke variabele de leeftijd (variabele: AGE). Resultaten van een analyse van deze data zijn opgenomen in een bijlage bij opgave 7. Hiervan kan bij het beantwoorden van de volgende vragen gebruik gemaakt worden! a. b. c. d.
Geef de vergelijking van de regressielijn die het verband tussen AGE en EFLV weergeeft. Beargumenteer of elk van de modelparameters afzonderlijk significant van nul verschilt. Bereken het 95% betrouwbaarheidsinterval voor de constante term in het regressiemodel. Specificeer de kansverdeling die je hierbij nodig hebt en licht je werkwijze toe. Welke modelaannamen gelden voor een enkelvoudig lineair regressiemodel? Beargumenteer op basis van de residuen of aan deze modelaannames voldaan lijkt te zijn. Bereken een 95% confidence-interval (betrouwbaarheidsinterval) voor de EFLV van een 50jarige. Geef een praktische omschrijving voor de betekenis van dit betrouwbaarheidsinterval.
2DM40
4
12-11-2008
Bijlage bij opgave 3 SnapStat: One Sample Analysis Histogram Data variable: LVI Count = 15 Average = 4.08667 Standard deviation = 0.741491 Coeff. of variation = 18.1442% Minimum = 3.1 Maximum = 5.3 Range = 2.2 Stnd. skewness = 0.475613 Stnd. kurtosis = -0.998059
5
frequency
4 3 2 1 0 2.9
Box-and-Whisker Plot
3.4
3.9
4.4 4.9 LVI
5.4
5.9
95% confidence intervals Mean: 4.08667 +/- 0.410625 [3.67604, 4.49729] Sigma: [0.542866, 1.1694] Diagnostics Shapiro-Wilks P-value = 0.2827 Lag 1 autocorrelation = 0.387211 +/- 0.506061
3.1
3.5
3.9
4.3 4.7 LVI
5.1
5.5
Time Sequence Plot
Normal Probability Plot
5.5
99.9 99 percentage
5.1
LVI
4.7 4.3 3.9 3.5
80 50 20 5 1
3.1 0
3
6
9
12
0.1 3.1
15
Row
2DM40
95
5
3.5
3.9
4.3 4.7 LVI
5.1
5.5
12-11-2008
Bijlage bij opgave 7:
∑x
i
= 1137;
Lxx ≡ Sxx = 6868.7;
Lxy ≡ Sxy = 8.15778;
Lyy ≡ Syy = 0.16605;
Scatterplot: 0.4
EFLV
0.3
0.2
0.1
0 20
30
40
50 AGE
60
70
80
Simple Regression - EFLV vs. AGE Dependent variable: EFLV Independent variable: AGE Linear model: Y = a + b*X Coefficients Parameter Intercept Slope
Least Squares Estimate 0.17406 0.00118768
Analysis of Variance Source Sum of Squares Model 0.00968883 Residual 0.156363 Total (Corr.) 0.166052
Standard Error 0.0429702 0.000954247
Df 1 25 26
T Statistic XXXX XXXX
Mean Square XXXX XXXX
P-Value 0.0004 0.2248
F-Ratio 1.55
P-Value 0.2248
Correlation Coefficient = 0.241554 R-squared = 5.83482 percent R-squared (adjusted for d.f.) = 2.06821 percent Standard Error of Est. = 0.0790855
2DM40
6
12-11-2008
Vervolg bijlage bij opgave 7: Plot of Fitted Model: 0.4
EFLV
0.3
0.2
0.1
0 20
30
40
50 AGE
60
70
80
Residual Plots: 3 3
Studentized residual
2 Studentized residual
2 1 0 -1
1 0 -1 -2
-2
-3 -3
0.2 19
29
39
49 AGE
59
69
0.22
79
0.24 predicted EFLV
0.26
0.28
Normal Probability Plot 99.9 99 percentage
95 80 50 20 5 1 0.1 -3
2DM40
-2
-1
0 1 SRESIDUALS
7
2
3
12-11-2008