Faculteit der Wiskunde en Informatica
Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur • • • •
Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven Statistisch Compendium. De antwoorden dienen gemotiveerd, duidelijk geformuleerd en overzichtelijk opgeschreven te worden. In het bijzonder dienen bij statistische toetsen expliciet hypothesen, toetsingsgrootheden, relevante steekproefverdelingen en steekproefresultaten vermeld te worden. Indien niet anders gespecificeerd geldt: toets met een onbetrouwbaarheid van 5%. Betrouwbaarheidsintervallen 95%. Er zijn 6 vraagstukken met in totaal 20 onderdelen. Elk onderdeel wordt gewaardeerd met 5 punten. Het eindcijfer wordt berekend door het totaal door 10 te delen.
Opgave 1: (3x5=15 punten) Uit een studie naar de relatie tussen het rookgedrag van ouders en het optreden van bronchitis bij kinderen is het volgende bekend: • • •
8 % van kinderen waarvan beide ouders niet roken heeft last van bronchitis, 12 % van de kinderen waarvan een van beide ouders rookt heeft last van bronchitis, 18 % van de kinderen waarvan beide ouders roken heeft last van bronchitis,
Neem verder aan dat in 20% van de gezinnen beide ouders roken, in 50% van de gezinnen een van beide ouders en in 30% van de gezinnen geen van beide ouders en dat per gezin één kind in het onderzoek betrokken is. a.
Bepaal de kans dat in deze gezinnen een kind last heeft van bronchitis.
In gezinnen waarvan beide ouders roken is extra voorlichting gegeven over de mogelijke gevolgen hiervan voor het optreden van bronchitis bij kinderen. Dit heeft er toe geleid dat binnen deze groep uiteindelijk in 20% van de gevallen beide ouders met roken gestopt zijn, in 50% van de gevallen een van beide ouders. b.
Bepaal de kans dat in de groep gezinnen die extra voorlichting gehad heeft een kind last heeft van bronchitis.
Veronderstel dat in 1000 gezinnen waarvan beide ouders roken extra voorlichting gegeven is. c.
Wat is in deze groep het verwachte aantal kinderen dat last gehad zou hebben van bronchitis wanneer er geen extra voorlichting plaatsgevonden zou hebben? Wat is dit verwachte aantal nu de extra voorlichting wel plaatsgevonden heeft? Wat is het percentage bronchitis-gevallen dat door de voorlichting voorkomen is?
2DM40
1
5-1-2009
Opgave 2: (4x5=20 punten) Is blootstelling aan verhoogde stralingsomstandigheden van invloed op het optreden van chromosomale afwijkingen? Om dit na te gaan verzamelt men gegevens over een groep van N=800 personen die gedurende langere tijd aan verhoogde stralingsomstandigheden blootgesteld zijn. Het blijkt dat binnen deze groep bij 72 personen minstens één chromosomale afwijking opgetreden is. Uit eerder onderzoek is bekend dat onder normale stralingsomstandigheden bij 4,1 % van de personen minstens één chromosomale afwijking optreedt. a. Hoeveel personen met minstens één chromosomale afwijking worden verwacht in de groep die aan verhoogde stralingsomstandigheden blootgesteld is, wanneer aangenomen wordt dat het nivo van achtergrondstraling geen rol speelt bij het optreden van de onderzochte chromosomale afwijkingen. Beargumenteer welke kansverdeling daarbij van toepassing is. b. Beargumenteer of het feitelijk aantal waargenomen personen met minstens één chromosomale afwijking ongebruikelijk is in vergelijking met het aantal dat je onder normale stralingsomstandigheden verwacht. Gebruik, voor zo ver mogelijk, een adequate benadering voor het berekenen van kansen en licht je keuze toe. c. Bepaal een 95% betrouwbaarheidsinterval voor de kans dat bij personen die aan verhoogde stralingsomstandigheden blootgesteld worden er minstens één chromosomale afwijking optreedt. Bij de groep van N=800 personen is ook onderzocht in hoe verre een specifieke chromosomale afwijking, HMSN type 1A, opgetreden is. Dit bleek bij 6 personen het geval te zijn. Uit eerder onderzoek is bekend dat onder normale stralingsomstandigheden deze specifieke chromosomale afwijking, HMSN type 1A, bij gemiddeld 5 op de 2000 personen optreedt. d. Beargumenteer of het feitelijk aantal waargenomen personen met de specifieke chromosomale afwijking, HMSN type 1A, ongebruikelijk is in vergelijking met het aantal dat je onder normale stralingsomstandigheden verwacht. Gebruik, voor zo ver mogelijk, een adequate benadering voor het berekenen van kansen en licht je keuze toe.
Opgave 3: (4x5=20 punten) (Bij deze opgave kan gebruik gemaakt worden van resultaten uit de bijlage bij opgave 3)
Een ziektekostenverzekeraar wil inzicht krijgen in de jaarlijkse kosten voor medicijnen bij personen met hoge bloeddruk. Een medewerkster van de afdeling onderzoek verzamelt daartoe van een aantal personen met hoge bloeddruk de jaarlijkse medicijnkosten in euro per jaar (variabele: annual costs). Resultaten van een analyse van deze data zijn opgenomen in een bijlage bij opgave 3. Hiervan kan bij het beantwoorden van de volgende vragen gebruik gemaakt worden! a.
b. c. d.
Voer op basis van de resultaten in de bijlage bij opgave 3 een Exploratieve Data Analyse uit op deze data. Vermeld relevante kentallen, beschrijf opvallende zaken en bespreek in hoeverre er sprake is van een symmetrische verdeling danwel van een Normale verdeling van de resultaten. Voer een toets uit om vast te stellen of de medicijnkosten voor personen met hoge bloeddruk hoger zijn dan 650 euro per jaar. Licht je werkwijze toe en geef ook een schatting voor de p-waarde van deze toets. Beargumenteer of de p-waarde van een toets om vast te stellen of de medicijnkosten voor personen met hoge bloeddruk verschillen van 650 euro per jaar groter of kleiner is dan het resultaat bij onderdeel b. Bereken een 99%-betrouwbaarheidsinterval voor de variantie van de jaarlijkse kosten voor medicijnen.
2DM40
2
5-1-2009
Opgave 4: (2x5=10 punten) (Bij deze opgave is gebruik van resultaten uit de bijlage bij opgave 4 noodzakelijk)
Om in te kunnen schatten of de fractie van personen die bezwaar aan zal tekenen tegen het Electronisch Patienten Dossier (EPD) groter is dan p=0.2 wordt een onderzoek gepland onder een groep van n=500 random gekozen personen. Men gaat er daarbij vooralsnog van uit dat een fractie p=0.2 van de personen bezwaar aan zal tekenen tegen dit EPD. Er worden drie mogelijke onderzoeksopzetten voorgesteld, OPZET_1, OPZET_2 en OPZET_3. Voor elk van deze mogelijke opzetten is de bijbehorende toetskarakteristiek (Operating Characteristic) weergegeven in een bijlage bij opgave 4. Maak hiervan bij het beantwoorden van de volgende vragen gebruik. a.
b.
Geef een praktische omschrijving van de betekenis van een fout van de tweede soort (Type II fout). Bepaal bij OPZET_1 de kans op zo’n fout van de tweede soort (type II fout) bij een afwijking in fractie Δp=0.05. Welk van de drie mogelijke onderzoeksopzetten, OPZET_1, OPZET_2 en OPZET_3, verdient, in het licht van de onderzoeksvraag of de fractie groter is dan p=0.2, de voorkeur? Licht je keuze toe!
Opgave 5: (3x5=15 punten) (Bij deze opgave is gebruik van resultaten uit de bijlage bij opgave 5 noodzakelijk)
Om nader te onderzoeken of er een verschil in opnameduur bestaat tussen twee ziekenhuizen, ZH-A en ZH-B, verzamelt men opname gegevens (in dagen) van patiënten die met een zelfde diagnose behandeld zijn in ziekenhuis A of B: ZH-A 44 5 21 8 60 10 33 26 13 32 29 ZH-B 60 35 68 13 96 76 10 27 73 140 86 44 87 Resultaten van een analyse van deze data zijn opgenomen in een bijlage bij opgave 5. Hiervan kan bij het beantwoorden van de volgende vragen gebruik gemaakt worden! a.
b. c.
Beargumenteer dat hier sprake is van een experiment met onafhankelijke groepen. Voer op basis van de resultaten in de bijlagen bij opgave 5 een Exploratieve Data Analyse uit. Vermeld relevante kentallen, beschrijf opvallende zaken en bespreek in hoeverre er sprake is van een symmetrische verdeling danwel van een Normale verdeling van de resultaten. Voer een parametervrije toets uit om te bepalen of er een significant verschil is in de opnameduur tussen beide ziekenhuizen. Voer een toets uit om te bepalen of er een significant verschil is in de variantie van opnameduur tussen beide ziekenhuizen.
2DM40
3
5-1-2009
Opgave 6: (4x5=20 punten) (Bij deze opgave is gebruik van resultaten uit de bijlage bij opgave 6 noodzakelijk)
Hangt bij gezonde personen de hartslagfrequentie samen met de leeftijd? Om dit te onderzoeken zijn gegevens verzameld van de hartslagfrequentie (variabele: pulse) en de leeftijd (variabele: age) van een aantal personen onder de 22 jaar. Op basis van deze gegevens is een regressie-analyse uitgevoerd. Resultaten van deze analyse staan vermeld in een bijlage bij opgave 6. Gebruik bij het beantwoorden van deze opgaven deze resultaten. Merk op dat in deze bijlage sommige deelresultaten met opzet ontbreken ! a.
b.
c. d.
Geef op basis van summary statistics en scatterplot aan of in dit geval lineaire regressie een geschikte methode lijkt om de resultaten van het onderzoek te analyseren. Geef de vergelijking van de regressielijn die het verband tussen hartslagfrequentie en leeftijd weergeeft. Bereken het 95% betrouwbaarheidsinterval voor de richtingscoëfficiënt van het regressiemodel. Specificeer de kansverdeling die je hierbij nodig hebt. Beargumenteer of de richtingscoëfficiënt van het model significant van 0 verschilt. Welke modelaannamen gelden voor een enkelvoudig lineair regressiemodel? Beargumenteer op basis van de residuen of aan deze modelaannames voldaan lijkt te zijn. Bepaal het 95% betrouwbaarheidsinterval en het 95% predictie-interval (voorspellings-interval) voor de hartslagfrequentie van een kind van 8 jaar. Beargumenteer welk van beide het intervallen het breedst is.
2DM40
4
5-1-2009
Bijlage bij opgave 3: SnapStat: One Sample Analysis Histogram Data variable: annual costs Count = 16 Average = 710.563 Standard deviation = 153.747 Coeff. of variation = 21.6374% Minimum = 415.0 Maximum = 1030.0 Range = 615.0 Stnd. skewness = 0.810061 Stnd. kurtosis = 0.618659
8
frequency
6 4 2 0 380
Box-and-Whisker Plot
580 780 980 annual costs
1180
95% confidence intervals Mean: 710.563 +/- 81.9262 [628.636, 792.489] Sigma: [113.574, 237.953] Diagnostics Shapiro-Wilks P-value = 0.4213 Lag 1 autocorrelation = -0.227657 +/- 0.489992
380
580 780 980 annual costs
1180
Time Sequence Plot
Normal Probability Plot
1180
99.9 95 percentage
annual costs
99 980 780 580
80 50 20 5 1
380 0
2DM40
4
8 Row
12
0.1 380
16
5
580 780 980 annual costs
1180
5-1-2009
Bijlage bij opgave 4: p
,
1
Power (1 - beta)
0.8
Toetskarakteristiek Opzet_1
0.6 0.4 0.2 0 0.1
0.15
0.2 True Proportion
0.25
0.3
0.15
0.2 True Proportion
0.25
0.3
0.15
0.2 True Proportion
0.25
1
Toetskarakteristiek Opzet_2
Power (1 - beta)
0.8 0.6 0.4 0.2 0 0.1
1
Toetskarakteristiek Opzet_3
Power (1 - beta)
0.8 0.6 0.4 0.2 0 0.1
2DM40
6
0.3
5-1-2009
Bijlage bij opgave 5 SnapStat: Two Sample Comparison ZH_A Count Average Standard deviation Coeff. of variation Minimum Maximum Range Stnd. skewness Stnd. kurtosis
ZH_B 13 62.6923 36.7137 58.5618% 10 140 130 0.548804 0.113197
5 3 frequency
ZH_A 11 25.5455 16.6935 65.3482% 5 60 55 0.996495 0.194633
1 1 3 5 -10
Box-and-Whisker Plot
150
Comparison of Sigmas Null hypothesis: ratio = 1 F statistic = 0.206746 Two-sided P-value = 0.0181
30
70
110
150
Diagnostics Shapiro-Wilks P-values = 0.5248 and 0.7245 Lag 1 autocorrelation = -0.5465 +/- 0.5910, 0.0601 +/- 0.543
Quantile Plot
Normal Probability Plot 150
1 0.8 proportion
110
Comparison of Means Null hypothesis: difference = 0 t statistic = -3.27037 Two-sided P-value = 0.0044
ZH_B
Variables ZH_A ZH_B
110
0.6 70 0.4 30
0.2 0 -10
2DM40
70 ZH_B
95% confidence intervals Diff. of means: -37.1469 +/- -23.9291 [-13.2178, -61.0759] Ratio of variances: [0.0612844, 0.748617]
ZH_A
-10
30
30
70
110
-10 0.1 1
150
7
5 20 50 80 95 99 99.9 percentage
5-1-2009
Bijlage bij opgave 6:
∑x
i
= 233;
∑y
i
= 1725;
Lxx ≡ Sxx = 877.3;
Lxy ≡ Sxy = −1521.3;
Lyy ≡ Syy = 5677.3;
Summary Statistics Count Average Standard deviation Coeff. of variation Minimum Maximum Range Stnd. skewness Stnd. kurtosis
22 10.5909 6.46352 61.0289% 0.0 21.0 21.0 0.0985145 -1.07514
pulse
Scatter Plot
22 78.4091 16.4423 20.9699% 56.0 125.0 69.0 2.12191 1.80081
Plot of pulse vs age 136
116 pulse
age
96
76
56 0
4
8
12 age
16
20
24
Simple Regression - pulse vs. age Dependent variable: pulse Independent variable: age Linear model: Y = a + b*X Coefficients Least Squares Standard Parameter Estimate Error Intercept 96.7743 XXXX Slope -1.73406 XXXX
T Statistic P-Value 18.8574 0.0000 -4.16651 0.0005
Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 2638.05 XX XXXX 17.36 0.0005 Residual 3039.27 XX XXXX Total (Corr.) 5677.32 XX Correlation Coefficient = -0.681663 R-squared = 46.4665 percent R-squared (adjusted for d.f.) = 43.7898 percent Standard Error of Est. = 12.3273
2DM40
8
5-1-2009
Vervolg bijlage bij opgave 6: Plot of Fitted Model: 130
pulse
110
90
70
50 0
4
8
12 age
16
20
24
Residual Plots: Residual Plot
Residual Plot
3
3
2 Studentized residual
Studentized residual
2 1 0 -1 -2
1 0 -1 -2 -3
-3 0
4
8
12 age
16
20
60
24
70
80 predicted pulse
90
100
Normal Probability Plot 99.9 99
percentage
95 80 50 20 5 1 0.1 -3
2DM40
-2
-1
0 1 SRESIDUALS
9
2
3
5-1-2009