TECHNISCHE UNIVERSITEIT EINDHOVEN Tentamen Biostatistiek voor BMT (2S390) op 17-11-2003 U mag alleen gebruik maken van een onbeschreven Statistisch Compendium (dikt. nr. 2218) en van een zakrekenmachine. De uitwerkingen van de opgaven dienen gemotiveerd, duidelijk geformuleerd en overzichtelijk opgeschreven te worden. Per onderdeel zijn 2 punten te behalen. Cijfer is het totaal aantal behaalde punten plus het aantal punten behaald bij de tussentoets gedeeld door 4 met een maximum van 10.
1. In een laboratorium worden twee verschillende apparaten gebruikt voor dopingcontrole. De volgende eigenschappen van de apparaten zijn bekend. • Apparaat 1: kans op positieve test als doping is gebruikt is gelijk aan 0.92 • Apparaat 1: kans op negatieve test als geen doping is gebruikt is gelijk aan 0.95 • Apparaat 2: kans op positieve test als doping is gebruikt is gelijk aan 0.9 • Apparaat 2: kans op negatieve test als geen doping is gebruikt is gelijk aan 0.98 We gaan ervan uit dat de apparaten onafhankelijk van elkaar werken. Van de populatie sporters is bekend dat zo’n 20% doping gebruikt. (a) Wat is de kans dat beide apparaten een positieve uitslag geven als de sporter doping heeft gebruikt? Wat is de kans dat apparaat 1 en/of apparaat 2 een positieve uitslag geeft als de sporter doping heeft gebruikt? Helaas, het tweede apparaat gaat kapot en men kan alleen het eerste apparaat gebruiken. (b) Wat is de kans dat apparaat 1 een positieve uitslag geeft voor een willekeurig persoon waarvan we niet weten of hij/zij doping heeft gebruikt? (c) Er komt een heel voetbalelftal langs. Niemand wordt op doping betrapt. Wat is de kans dat de keeper van dit elftal echt niet heeft gebruikt? Wat is de kans dat daadwerkelijk niemand van het elftal heeft gebruikt? Ga ervan uit dat de spelers onafhankelijk handelen wat betreft wel of geen dopinggebruik. 2. Een fabrikant heeft een nieuw materiaal gevonden dat gebruikt zou kunnen worden voor kunstgewrichten. Er worden verschillende testen gedaan. E´en van die testen is een simpele sterktetest, waarbij op tien onafhankelijk geproduceerde kunstheupen van het nieuwe materiaal de maximale belasting waaronder het materiaal breekt wordt gemeten. Deze test wordt ook uitgevoerd op twintig kunstheupen van het conventionele materiaal. De fabrikant wil graag aantonen dat het nieuwe materiaal sterker is. De data zijn ingevoerd in StatGraphics en we laten StatGraphics een analyse uitvoeren. De uitvoer is alsvolgt:
1
Comparison of Means ------------------95.0% confidence interval for mean of Nieuw: [49.7051,52.5673] 95.0% confidence interval for mean of Conv: [47.4255,48.6969] 95.0% confidence interval for the difference between the means assuming equal variances: [0.11104,4.33897] t test to compare means Null hypothesis: mean1 = mean2 Alt. hypothesis: mean1 NE mean2 assuming equal variances: t = 2.02
P-value = 0.0523
(a) Formuleer de hypotheses overeenkomstig met de vraagstelling van de fabrikant. Vind je de aanname(s) achter de StatGraphics analyse re¨eel? Verklaar. (b) Toets de nulhypothese bij α = 0.05. Ga er vanuit dat de varianties gelijk zijn. De fabrikant besluit een veel omvangrijkere levensduurtest te doen. Hierbij worden steeds ´e´en kunstheup van het nieuwe materiaal en ´e´en conventionele kunstheup onderworpen aan hetzelfde (realistisch) schema van elkaar opvolgende belastingen. Dit wordt dan steeds herhaald bij andere instellingen van het schema. De data zijn alsvolgt: Schema 1 2 3 4 5 6 7 8 9 10 2
Nieuw 0.12 0.45 0.92 0.27 8.23 2.06 6.35 0.84 2.69 0.26
Conv. 1.02 4.56 0.32 0.09 0.23 0.61 6.23 1.42 1.66 1.24
en de bijbehorende normal probability plot ziet er uit als boven weergegeven. (c) Toets of de nieuwe kunstheupen een langere levensduur (onder gesimuleerde omstandigheden) hebben dan de conventionele kunstheupen. Gebruik α = 0.05. P10 (d) Zijn de levensduren van de twee soorten heupen gecorreleerd? Er geldt i=1 d2i = 148. Gebruik α = 0.05. 3. We onderzoeken het longvolume van twee soorten (mannelijke) atleten: hardlopers en schaatsers. Ga er in eerste instantie vanuit dat we weten dat beide een normale verdeling volgen met bekende parameters. Voor het longvolume van hardlopers geldt dat de verwachtingswaarde 5.7 (liter) en de standaarddeviatie 0.8 is, terwijl voor schaatsers de verwachtingswaarde 5.5 en de standaarddeviatie 1 is. (a) Bereken de kans dat een willekeurige hardloper uit deze populatie een longvolume groter dan 6 liter heeft. (b) We bekijken nu een willekeurige hardloper en een willekeurige schaatser. Bereken de kans dat de schaatser een groter longvolume heeft dan de hardloper. We veronderstellen nu dat we µ1 en µ2 niet kennen (maar σ1 en σ2 zijn wel bekend en gelijk aan de eerder veronderstelde waardes). (c) We doen nu twee keer 10 metingen en vinden x ¯1 = 5.85 en x ¯2 = 5.60. Wat is de pwaarde behorende bij deze waarnemingen voor een toets H0 : µ1 = µ2 vs. H1 : µ1 6= µ2 ? Uit een populatie hardlopers en schaatsers kiezen we nu een willekeurig persoon waarvan we niet weten of hij een hardloper of schaatser is. We weten dat 70% van de populatie hardloper is en 30% schaatser. De kansdichtheidsfunctie van het longvolume van deze persoon kan worden geschreven als f (x) = 0.7f1 (x) + 0.3f2 (x), waarbij f1 (x) en f2 (x) de kansdichtheden zijn van het longvolume van hardlopers resp. schaatsers. (d) Ga na dat f (x) ook weer een kansdichtheidsfunctie is.
3
(e) Bereken de kans dat de willekeurige persoon een longvolume kleiner dan 5.5 heeft. Ga daarbij uit van de gegeven verwachtingswaardes en standaarddeviaties zoals gegeven voor onderdeel (a). 4. We willen van een grote groep mannen die bepaalde leef- en eetgewoonten delen weten of hun (gemiddelde) vetpercentage afwijkt van het bevolkingsgemiddelde van alle mannen. Dit bevolkingsgemiddelde mogen we bekend veronderstellen. We doen eerst een kleine pilot study en meten het vetpercentage van 8 mannen uit die groep. De verschillen t.o.v. het bevolkingsgemiddelde zijn: 0.8, 1.2, -0.3, 3.4, 1.1, -2.4, 4.8, 6.2. (a) Schat de standaarddeviatie σ van deze verschillen en geef het 95% rechtseenzijdig betrouwbaarheidsinterval voor σ (dus bovengrens). De onderzoeker wil nu een grotere studie opzetten. Dit kost echter tijd en geld, dus wil men eerst een steekproefgroottebepaling doen. De onderzoeker geeft aan dat hij een verschil ter grootte 1 met grote kans wil detecteren wanneer hij een toets zou doen. Hij gaat daarbij uit van standaarddeviatie zoals je die bij (a) geschat hebt. Hij vindt n = 79 m.b.v. Statgraphics en de software geeft de volgende curve voor n = 79 :
(b) Wat is het onderscheidingsvermogen bij δ = 1, als de onderzoeker een steekproef ter grootte 79 gebruikt? Welke α (type I fout) gebruikt de onderzoeker? (c) De onderzoeker gebruikt inderdaad 79 mannen in zijn studie, vindt toevallig inderdaad een gemiddeld verschil (in zijn steekproef) van ’1.0’, maar na het uitvoeren van de toets bij α = 0.05 blijkt dit toch niet significant te zijn! Wat kan de oorzaak hiervan zijn? (denk aan het betrouwbaarheidsinterval dat je bij (a) hebt berekend) 5. Beargumenteer steeds de antwoorden. (a) We hebben een 95% betrouwbaarheidsinterval opgesteld voor het gemiddelde gewicht van vrouwen tussen de 20 en 25 jaar. Juist of onjuist: dan weten we dus dat 95% van de vrouwen een gewicht heeft tussen de grenzen van dit interval.
4
(b) Als de type I fout (α) van een toets afneemt dan (kies a., b. of c.) a. neemt het onderscheidingsvermogen ook af b. neemt het onderscheidingsvermogen toe c. weten we niet of het onderscheidingsvermogen af- of toeneemt. (c) Van een machine is het volgende bekend. De kans om direct kapot te gaan wanneer de machine wordt aangezet is gelijk aan 0.1. Verder is bekend dat wanneer de machine eenmaal is aangezet en draait, deze gemiddeld eenmaal per vijf dagen kapot gaat. Dit gebeurt volgens een Poissonproces. Bereken de verwachte tijd tot kapot gaan voor deze machine. 6. Een bepaald biochemisch proces volgen we in een biologisch model van opname tot afbraak. Hierbij wordt een bekende hoeveelheid moleculen, 1000, van een giftige stof ge¨ınjecteerd. Na uitscheiding wordt het aantal moleculen weer gemeten. Dit wordt bij een 20-tal proefpersonen herhaald. In de volgende tabel geven we de data weer Klasse Aantal
< 375 5
375-390 7
390-405 4
> 405 4
We weten ook het totaal aantal moleculen (van de 20.000) dat wordt uitgescheiden: 7800. (a) Stel we veronderstellen een binomiale verdeling, d.w.z. de moleculen gedragen zich onafhankelijk en de succeskans (dus de kans dat het molecuul niet wordt afgebroken) is constant. Laat zien dat het verwachte aantal proefpersonen waarvoor het aantal moleculen bij uitscheiden groter is dan 405 gelijk is aan 3.32. De verwachte frequenties zijn nu hieronder weergegeven Klasse Verw. freq.
< 375 3.32
375-390 6.68
390-405 6.68
> 405 3.32
(b) Toets bij α = 0.05 of de binomiale verdeling een redelijk model is.
Nb. Bij de opgaven kunnen de volgende formules (naast diegene in het Stat. Comp.) van nut zijn (maar niet noodzakelijkerwijs!).
P (A|B) = P (B) = X02
=
P (B|A)P (A) P (B) P (B|A)P (A) + P (B|A0 )P (A0 ) k X (Oi − Ei )2 i=1
X02
=
Ei
k X r X (Oij − Eij )2 Eij i=1 j=1
5