Extra Opgaven
1. Een persoon doet een HIV-test. Helaas is de uitslag positief. De test is echter niet perfect. De persoon vraagt zich af wat de kans is dat hij nu ook echt HIV heeft. Gegeven is: de kans op HIV in de betreffende populatie waartoe de persoon behoort is 0.001, de kans op een positieve test als iemand geen HIV heeft is 0.01, de kans op een positieve test als iemand ook echt HIV heeft is 0.99. (a) Bereken de gevraagde kans. (b) Gelukkig, hij heeft nog hoop. In de toekomst wil men niet iemand onterecht aan het schrikken maken en daarom de test perfectioneren. Hoe klein moet de kans op een positieve uitslag terwijl iemand geen HIV heeft zijn om de kans op een terechte HIVdiagnose te stellen als de uitslag positief is groter dan 99% te laten zijn? 2. Op twee plaatsen in het lichaam worden kunstaderen aangebracht. De ene kunstader is 7cm lang en is van materiaal gemaakt waarvoor geldt dat per 10 jaar er gemiddeld 5 defecten (scheurtjes) per meter optreden. De tweede is 4cm. lang en daarvoor geldt dat er gemiddeld 10 defecten per meter optreden gedurende 10 jaar. (a) Wat is de kans dat er iets mis gaat met minimaal ´e´en van de twee aderen gedurende 10 jaar? (b) We hebben nu 100 mensen waarbij dit herhaald wordt. Wat is de kans dat minimaal 60 van hen nog intacte aderen hebben na 10 jaar? 3. Van 10 personen meten we 100 keer de hartslag na het sporten. De gemiddelde hartslag van persoon i noemen we Xi , i = 1, . . . , 10. (a) Kan je redelijkerwijs aannemen dat Xi een normaal verdeelde stochast is? Neem nu aan dat Xi een normale verdeling volgt met verwachtingswaarde 160 en variantie 30 en dat alle Xi ’s onafhankelijk zijn. (b) Wat is de kans dat de som van de Xi ’s groter is dan 1650? (c) Wat is de kans dat 7 personen of meer een gemiddelde hartslag hoger dan 163 hebben? 4. Zou jij de levensduur van een mens modelleren met een exponenti¨ele verdeling? Waarom wel/niet? 5. Men is ge¨ınteresseerd in de levensduur van een nieuw soort prothese. Men heeft de gelegenheid gehad een groot aantal van deze protheses te kunnen testen en men heeft na het experiment levensduur lengtes van de geteste protheses tot de beschikking. Beschouw de volgende plots gebaseerd op deze data, een Box-plot en een normal probability plot. (a) Zou jij op basis van deze twee plots durven aannemen dat de data normaal verdeeld zijn? Verklaar.
1
2
(b) Een deel van de data ziet er als volgt uit: 2.43, 0.12, 0.20, 1.57, 1.36, 2.05, 1.57, 0.28, 1.66, 2.11. Schat op basis hiervan de verwachtingswaarde en de standaard deviatie van de populatie. (c) Naast deze 10 steekproefwaardes komen er nog vijf nieuwe beschikbaar uit dezelfde populatie. Men wil nu weer de verwachtingswaarde van de levensduur van zo’n prothese schatten. Noem de eerste 10 waarden X1 , . . . , X10 en de tweede vijf waarden X11 , . . . , X15 . Let op dit zijn stochasten, dus we beschouwen nu eigenlijk de situatie voordat het test experiment wordt uitgevoerd. Welke van de volgende schatters zou jij gebruiken om de populatie verwachtingswaarde te schatten? P10 P15 P15 µ P10 ¶ Xi i=1 Xi i=1 Xi i=1 Xi , + i=11 / 2, of 10 10 5 15 6. Een laboratorium gebruikt een dure meetmethode om het cholesterolgehalte van mensen te bepalen. Er is een nieuwe, goedkopere methode op de markt en het lab wil testen of de twee methoden vergelijkbare resultaten geven. (a) Wat zijn de nulhypothese en de alternatieve hypothese? (b) We gaan er eerst vanuit dat de methoden worden toegepast op twee verschillende groepen mensen. We gaan ervan uit dat de standaarddeviaties onbekend, maar gelijk zijn. Een pilotstudie op twee keer tien mensen geeft σ ˆ = S = 0.28. Een (gemiddeld) verschil van 0.25 of groter wordt als ’te groot’ beschouwd. Hoe groot moeten de groepen zijn om met 90% zekerheid een verschil van 0.25 te detecteren wanneer een toets wordt gebruikt bij α = 0.01? Wat is dan het totaal aantal vereiste metingen? (c) We gaan er nu vanuit dat de methoden wordt toegepast op dezelfde groep mensen. De standaarddeviatie op de paarsgewijze verschillen wordt geschat uit een pilotstudie met 10 mensen (dus ook 20 metingen in totaal): σˆd = Sd = 0.25. Hoe groot moet de groep nu zijn om met 90% zekerheid een verschil van 0.25 te detecteren wanneer een toets wordt gebruikt bij α = 0.01? Wat is dan het totaal aantal vereiste metingen? (d) Wat concludeer je uit b) en c)? 7. Van een bepaald gen is bekend dat de expressie ervan sterk gerelateerd is aan (overmatige) celdeling hetgeen kan leiden tot groei van een tumor. Deze expressie wordt gemeten t.o.v. ’normaal weefsel’ in logaritmische schaal. Negatieve expressie betekent dat het gen relatief afwezig is (hetgeen dus gewenst is); positieve expressie betekent dat het gen relatief sterk aanwezig is. Twee groepen van 11 pati¨enten worden behandeld; de een met chemotherapie, de ander met bestraling. Ga ervan uit dat de beginsituatie voor beide groepen ongeveer hetzelfde is. De data zien er alsvolgt uit: Chemo 0.946609 -0.889887 -0.0947893 -1.29888 -0.4183 -1.38963 0.824078 -1.3289 0.476952 0.306038 0.896119
Bestraling 0.5987 0.99776667 0.684552 0.00453 1.966687 -2.345 1.33539 -0.36234 1.2408 1.156037 1.508463
De boxplots en normal probability plots van de data zien er alsvolgt uit: 3
4
(a) Zou je op basis van deze plots kiezen voor een t-toets of een verdelingsvrije toets? Verklaar. (b) Toets of er een verschil is tussen genexpressie mbv de volgende Statgraphics uitvoer. Gebruik α = 0.05. Comparison of Means ------------------95.0% confidence interval for mean of Bestraling: 0.616871 +/- 0.796873 95.0% confidence interval for mean of Chemo: -0.179145 +/- 0.626851 95.0% confidence interval for the difference between the means assuming equal variances: 0.796016 +/- 0.949183 [-0.153167,1.7452] t test to compare means Null hypothesis: mean1 = mean2 Alt. hypothesis: mean1 NE mean2 assuming equal variances: t = 1.74936
P-value = 0.0955592
(c) Voer ook de verdelingsvrije toets uit. Gebruik weer α = 0.05. Vergelijk het antwoord met het antwoord bij b). 8. Bekijk de data bij opgave 11.64, boek, 3e ed. Maak een plot van de data. Is een lineair verband een redelijke aanname? Toets op correlatie tussen de twee variabelen (α = 0.05). 9. Bekijk de data bij opgave 11.66, boek, 3e ed. Maak een plot van de data. Is een lineair verband een redelijke aanname? Toets op correlatie tussen de twee variabelen (α = 0.05, welke toets gebruik je daarvoor? Zie slides).
5