TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2DM40 en 2S390) op donderdag 24-1-2008, 14.00-17.00 uur • • • •
Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven Statistisch Compendium. De antwoorden dienen gemotiveerd, duidelijk geformuleerd en overzichtelijk opgeschreven te worden. In het bijzonder dienen bij statistische toetsen expliciet hypothesen, toetsings-grootheden, relevante steekproefverdelingen en steekproefresultaten vermeld te worden. Indien niet anders gespecificeerd geldt: toets met een onbetrouwbaarheid van 5%. Betrouwbaarheidsintervallen 95%. Er zijn 5 vraagstukken met in totaal 20 onderdelen. Elk onderdeel wordt gewaardeerd met 5 punten. Het eindcijfer wordt berekend door het totaal door 10 te delen.
LET OP:
Bij opgave 3e, 4d en opgave 5 zijn er twee varianten, een voor deelnemers aan het tentamen 2DM40 (biostatistiek - cursus 2007-2008), een voor deelnemers aan het tentamen 2S390 (biostatistiek – oude versie). Deelnemers aan het tentamen 2S390 mogen, naar eigen keuze, in plaats van de 2S390-variant ook de 2DM40-variant maken. Wel moeten zij duidelijk per opgave aangeven welke variant zij kiezen !
Opgave 1: (zowel 2DM40 als 2S390) Uit een studie naar de erfelijkheid van hoge bloeddruk zijn de volgende gegevens bekend: • • •
De kans dat de vader hoge bloeddruk heeft is 0.3. Als de vader hoge bloeddruk heeft is de kans dat de moeder hoge bloeddruk heeft 0.6. Als de vader geen hoge bloeddruk heeft is de kans dat de moeder hoge bloeddruk heeft 0.2.
Bovendien is uit deze studie bekend: • • • •
Als beide ouders hoge bloeddruk hebben is de kans op hoge bloeddruk bij het oudste kind: 0.15. Als de moeder hoge bloeddruk heeft, maar de vader niet is de kans op hoge bloeddruk bij het oudste kind: 0.13. Als de moeder geen hoge bloeddruk heeft maar de vader wel is de kans op hoge bloeddruk bij het oudste kind: 0.05. Als geen van beide ouders hoge bloeddruk heeft is de kans op hoge bloeddruk bij het oudste kind: 0.04.
Druk bij het oplossen van deze opgave relevante gebeurtenissen uit in termen van de elementaire gebeurtenissen M,V , K : M={moeder heeft hoge bloeddruk}, V={vader heeft hoge bloeddruk}, K={oudste kind heeft hoge bloeddruk}. en de bijbehorende complementaire gebeurtenissen M,V , K . Geef telkens expliciet aan welke kansregel(s) je toepast. a. b. c. d.
Beargumenteer of hoge bloeddruk van de vader en hoge bloeddruk van de moeder onafhankelijk zijn. Bepaal de kans dat zowel de vader als de moeder hoge bloeddruk heeft. Bepaal de kans dat het oudste kind hoge bloeddruk heeft, ongeacht de situatie van vader en moeder. Bepaal de kans dat de vader hoge bloeddruk heeft als bekend is dat het oudste kind hoge bloeddruk heeft. Beargumenteer of hoge bloeddruk van de vader en van het oudste kind onafhankelijk zijn.
2DM40 & 2S390
1
24-1-2008
Opgave 2: (zowel 2DM40 als 2S390) In een grootschalig onderzoek naar het optreden van bijwerkingen van een medicijn blijkt dat 5% van de personen last van bijwerkingen heeft. a.
Bereken de kans dat bij een onderzoek onder n=750 personen minder dan 30 personen last van bijwerkingen heeft.
Wanneer het onderzoek een jaar later herhaald wordt bij dezelfde personen blijkt dat 20% van de personen die eerder last van bijwerkingen had dit een jaar later opnieuw heeft, terwijl 4.2% van de personen die eerder geen last van bijwerkingen had dit een jaar later wel heeft. Beschouw nu de stochast X: het aantal keren dat een persoon last van bijwerkingen heeft tijdens de twee onderzoeken die in totaal uitgevoerd zijn, namelijk het eerste onderzoek en het onderzoek een jaar later. b. c.
Bepaal de kansverdeling van X. Bepaal de verwachtingswaarde, E(X), en de variantie, Var(X).
Opgave 3: (onderdeel a t/m d voor zowel 2DM40 als 2S390; onderdeel e. verschilt!) Let op:
Bij onderdeel e. zijn er twee varianten, een voor deelnemers aan 2DM40 (biostatistiek – cursus 2007-2008) en een voor deelnemers aan 2S390 (biostatistiek – oude versie). Deelnemers aan het tentamen 2S390 mogen, naar eigen keuze, in plaats van de 2S390-variant ook de 2DM40-variant maken.
Om het longvolume van deelnemers aan een fitnessprogramma te onderzoeken is bij een groep van n=8 deelnemers het longvolume experimenteel bepaald. Resultaten (in liters) zijn: 8.8
5.2
6.1
7.2
4.5
11.1
3.6
10.3
Gebruik bij het beantwoorden van deze opgaven resultaten van de analyse uit de bijlage bij opgave 3. a.
b. c. d.
Voer op basis van de resultaten in de bijlage bij opgave 3 een Exploratieve Data Analyse uit op deze data. Vermeld relevante kentallen, beschrijf opvallende zaken en bespreek in hoeverre er sprake is van een Normale danwel een symmetrische verdeling van de resultaten. Voer een toets uit om vast te stellen of het longvolume van deelnemers groter is dan 9 liter. Licht je werkwijze toe en geef ook een schatting voor de p-waarde van deze toets. Beargumenteer of de p-waarde van een toets om vast te stellen of het longvolume van deelnemers verschilt van 9 liter groter of kleiner is dan het resultaat bij onderdeel b. Bepaal de minimale steekproefomvang die nodig is om met 90% kans een afwijking in longvolume van 1 liter vast te kunnen stellen. Veronderstel hierbij een bekende standaardafwijking σ=3 en een significantienivo α=0.05 .
Variant voor 2DM40: e. Bereken een 99%-betrouwbaarheidsinterval voor de variantie van het longvolume. Licht je werkwijze toe! Alternatief voor 2S390: e. Geef een interpretatie voor een 95%-betrouwbaarheidsinterval van de verwachtingswaarde μ.
2DM40 & 2S390
2
24-1-2008
Opgave 4: (onderdeel a t/m c voor zowel 2DM40 als 2S390, onderdeel d. verschilt!) Let op:
Bij onderdeel d. zijn er twee varianten, een voor deelnemers aan 2DM40 (biostatistiek – cursus 2007-2008) en een voor deelnemers aan 2S390 (biostatistiek – oude versie). Deelnemers aan het tentamen 2S390 mogen, naar eigen keuze, in plaats van de 2S390-variant ook de 2DM40-variant maken.
Om de effectiviteit van twee medicijnen tegen psoriasis te vergelijken wordt bij 10 personen die aan psoriasis lijden één van de armen met medicijn A behandeld en de andere arm met medicijn B. Na afloop van de behandeling wordt per arm de mate van psoriasis bepaald op een schaal tussen 0 en 100. Hogere waarden duiden op een grotere mate van psoriasis. Resultaten zijn: Persoon Medicijn A Medicijn B
1 89.2 95.6
2 49.8 63.2
3 98.6 98.2
4 60.6 67.2
5 73 69.8
6 57.2 70.6
7 29.8 57.2
8 58.8 62.4
9 97 98.4
10 57.2 67.8
Gebruik bij het beantwoorden van deze opgaven resultaten van de analyse uit de bijlagen bij opgave 4. a.
b.
c.
Beargumenteer dat hier sprake is van een experiment met gepaarde data. Geef eventuele voordelen/nadelen ten opzichte van een experiment met onafhankelijke groepen en voer op basis van de resultaten in de bijlagen bij opgave 4 een Exploratieve Data Analyse uit. Bereken een 95%-betrouwbaarheidsinterval voor de verwachtingswaarde van het verschil in mate van psoriasis tussen medicijn A en B. Beargumenteer op basis van het resultaat of het verschil tussen het effect van medicijn A en B significant is. Selecteer een parametervrije toets om zo efficiënt mogelijk te bepalen of er een significant verschil is in de effectiviteit van beide medicijnen en voer deze toets uit.
Veronderstel nu dat de waarnemingen verkregen zijn door een experiment met onafhankelijke groepen waarbij van 20 proefpersonen 10 een behandeling met medicijn A krijgen en de andere 10 een behandeling met medicijn B: Medicijn A Medicijn B
89.2 95.6
49.8 63.2
98.6 98.2
60.6 67.2
73 69.8
57.2 70.6
29.8 57.2
58.8 62.4
97 98.4
57.2 67.8
Variant voor 2DM40: d. Voer een toets uit om vast te stellen of de variantie in beide groepen gelijk is. Licht je werkwijze toe! Alternatief voor 2S390: d. Selecteer een parametervrije toets om zo efficiënt mogelijk te bepalen of er een significant verschil is in de effectiviteit van beide medicijnen en voer deze toets uit.
Opgave 5: Z.O.Z. 2DM40 & 2S390
3
24-1-2008
Opgave 5: (2DM40) Let op:
2S390-deelnemers mogen in plaats van deze opgave ook de alternatieve opgave 5 kiezen.
Is er een samenhang tussen de dagelijkse kwikinname via voedsel en het kwiknivo in het bloed? Om dit te onderzoeken is bij een aantal proefpersonen de dagelijkse kwikinname via voedsel bepaald (variabele INNAME, in μg/dag) en het kwiknivo in het bloed (variabele NIVO, in ng/g). Resultaten zijn: INNAME NIVO
580 375
250 105
230 125
600 310
200 120
550 290
180 90
410 290
105 70
275 170
Gebruik bij het beantwoorden van deze opgaven resultaten van de analyse uit de bijlage bij opgave 5. a.
b.
c. d.
Geef op basis van summary statistics en scatterplot aan of in dit geval lineaire regressie een geschikte methode lijkt om de resultaten van het onderzoek te analyseren. Geef de vergelijking van de regressielijn die het verband tussen kwikinname en kwiknivo weergeeft. Bereken het 95% betrouwbaarheidsinterval voor de constante term van het regressiemodel. Specificeer de kansverdeling die je hierbij nodig hebt. Beargumenteer of de constante term van het model significant van 0 verschilt. Welke modelaannamen gelden voor een enkelvoudig lineair regressiemodel? Beargumenteer op basis van de residuen of aan deze modelaannames voldaan lijkt te zijn. Bereken de verwachte waarde, het 95% betrouwbaarheidsinterval en het 95% predictie-interval (voorspellings-interval) voor het kwiknivo in het bloed bij een dagelijkse kwikinname van 500 μg/dag.
Alternatieve Opgave 5: (ALLEEN 2S390) Let op:
Deze opgave is NIET voor 2DM40 deelnemers. 2S390-deelnemers mogen in plaats van deze opgave ook opgave 5 (2DM40) kiezen.
Een onderzoek naar mogelijk verband tussen roken en alcoholgebruik werd als volgt uitgevoerd: Er werd een steekproef van 2000 personen genomen. Van hen bleken er 500 te roken. Het totaal aantal gebruikers van alcohol bleek 1250 te zijn. Er zijn 400 personen die geen van beide genotmiddelen gebruikten. a. b. c. d.
Bereken een 95% betrouwbaarheidsinterval voor het percentage rokers. Maak een afhankelijkheidstabel (contingency table) met daarin de waargenomen aantallen, en de verwachte aantallen onder de aanname van onafhankelijkheid. Toets H0: “roken en alcoholgebruik zijn onafhankelijk”. Geef de toetsingsgrootheid, inclusief parameters, en benader de p-waarde van de toets. Wat is je conclusie? Bij de gebruikelijke toets bij afhankelijkheidstabellen is het niet mogelijk te zien of de samenhang “positief” is: “als je rookt zul je ook wel drinken” of “negatief”: als je rookt zul je wel niet drinken”. In dit speciale geval van een 2x2 tabel kun je ook een andere toets toepassen, die het wel mogelijk maakt om de richting van de samenhang te bepalen. Hiervoor moet je dit probleem anders formuleren. Doe dit, en geef aan welke toets je dan gebruikt (niet uitvoeren).
2DM40 & 2S390
4
24-1-2008
Bijlage bij opgave 3: SnapStat: One Sample Analysis Histogram Data variable: longvolume Count = 8 Average = 7.1 Standard deviation = 2.74539 Coeff. of variation = 38.6674% Minimum = 3.6 Maximum = 11.1 Range = 7.5 Stnd. skewness = 0.354717 Stnd. kurtosis = -0.81149
3
frequency
2.5 2 1.5 1 0.5 0 0
Box-and-Whisker Plot
3
6 9 longvolume
12
15
95% confidence intervals Mean: 7.1 +/- 2.29521 [4.80479; 9.39521] Sigma: [1.81518; 5.58761] Diagnostics Shapiro-Wilks P-value = 0.6865 Lag 1 autocorrelation = -0.706785 +/- 0.692953
3.6
5.6
7.6 9.6 longvolume
11.6
Time Sequence Plot
Normal Probability Plot 99.9
11.6
99 percentage
longvolume
9.6 7.6 5.6
95 80 50 20 5 1 0.1 3.6
3.6 0
2DM40 & 2S390
2
4 Row
6
8
5
5.6
7.6 9.6 longvolume
11.6
24-1-2008
Bijlage bij opgave 4: onafhankelijke groepen SnapStat: Two Sample Comparison medicijn A Count Average Standard deviation Coeff. of variation Minimum Maximum Range Stnd. skewness Stnd. kurtosis
medicijn B 10 75.04 15.9306 21.2295% 57.2 98.4 41.2 1.03828 -0.792294
6 4 frequency
medicijn A 10 67.12 22.129 32.9692% 29.8 98.6 68.8 0.146632 -0.407579
2 0 2 4 6 26
Box-and-Whisker Plot
46
66 86 medicijn B
106
95% confidence intervals Diff. of means: -7.92 +/- 18.1152 [-26.0352; 10.1952] Ratio of variances: [0.479273; 7.76836] Comparison of Means Null hypothesis: difference = 0 t statistic = -0.918527 Two-sided P-value = 0.3705
medicijn A
Comparison of Sigmas Null hypothesis: ratio = 1 F statistic = 1.92955 Two-sided P-value = 0.3417
medicijn B
Diagnostics Shapiro-Wilks P-values = 0.4048 and 0.0182 26
46
66
86
106
Quantile Plot
Normal Probability Plot
1
106
proportion
0.8
Variables medicijn medicijn
86
0.6 66 0.4 46
0.2
26 0.1 1
0 26
2DM40 & 2S390
46
66
86
106
6
5 20 50 80 95 99 99.9 percentage
24-1-2008
Bijlage bij opgave 4: gepaarde data SnapStat: Paired Sample Comparison Histogram Data variable: medicijn A-medicijn B Count = 10 Average = -7.92 Standard deviation = 8.84946 Coeff. of variation = -111.736% Minimum = -27.4 Maximum = 3.2 Range = 30.6 Stnd. skewness = -1.40383 Stnd. kurtosis = 1.06049
3
frequency
2.5 2 1.5 1 0.5 0 -30
Box-and-Whisker Plot
-20 -10 0 medicijn A-medicijn B
10
95% confidence intervals Mean difference: -7.92 +/- 6.33054 [-14.2505; -1.58946] Sigma: [6.08697; 16.1557] Comparison of Means Null hypothesis: difference = 0 t statistic = -2.83014 Two-sided P-value = 0.0197 Diagnostics Shapiro-Wilks P-value = 0.3769 Lag 1 autocorrelation = -0.0793262 +/- 0.619796
-30
-20 -10 0 medicijn A-medicijn B
10
Time Sequence Plot
Normal Probability Plot 99.9 99
0
95 percentage
medicijn A-medicijn B
10
-10 -20
80 50 20 5 1
-30 0
2
4
6
8
0.1 -30
10
Row
2DM40 & 2S390
7
-20 -10 0 medicijn A-medicijn B
10
24-1-2008
Bijlage bij opgave 5: Lxx ≡ Sxx = 299010;
Lxy ≡ Sxy = 173790;
Lyy ≡ Syy = 109572.5;
Summary Statistics INNAME 10 338.0 182.273 53.9268% 105.0 600.0 495.0 0.611301 -0.971537
NIVO 10 194.5 110.339 56.7296% 70.0 375.0 305.0 0.615556 -1.01035
Scatter Plot Plot of NIVO vs INNAME 400
300 NIVO
Count Average Standard deviation Coeff. of variation Minimum Maximum Range Stnd. skewness Stnd. kurtosis
200
100
0 0
100
200
300 INNAME
400
500
600
Simple Regression - NIVO vs. INNAME Dependent variable: NIVO Independent variable: INNAME Linear model: Y = a + b*X
Parameter Intercept Slope
Source Model Residual Total (Corr.)
Coefficients Least Squares Standard Estimate Error -1.95169 22.7151 0.581218 0.0598295
T Statistic -0.0859203 9.71457
Analysis of Variance Sum of Squares Df Mean Square 101010. 1 101010. 8562.62 8 1070.33 109573. 9
P-Value 0.9336 0.0000
F-Ratio P-Value 94.37 0.0000
Correlation Coefficient = 0.960132 R-squared = 92.1854 percent R-squared (adjusted for d.f.) = 91.2086 percent Standard Error of Est. = 32.7159
2DM40 & 2S390
8
24-1-2008
Vervolg bijlage bij opgave 5: Plot of Fitted Model: Plot of Fitted Model 400
NIVO
300
200
100
0 0
100
200
300 INNAME
400
500
600
Residual Plots: Residual Plot 3
2
2 Studentized residual
Studentized residual
Residual Plot 3
1 0 -1 -2 -3
1 0 -1 -2 -3
0
100
200
300 INNAME
400
500
600
0
100
200 predicted NIVO
300
400
Normal Probability Plot 99.9 99 percentage
95 80 50 20 5 1 0.1 -1.5
2DM40 & 2S390
-0.5
0.5 SRESIDUALS
9
1.5
2.5
24-1-2008