125
Oefeningen Reeks 1 1.1 : Veel diersoorten worden bedreigd, zo ook de walvis. Regelmatig worden er uitermate moeilijke en daarom ook niet geheel betrouwbare tellingen uitgevoerd. Dit leverde de volgende tabel op voor 7 soorten walvissen, gemeten in 1980. Daarnaast zijn er ruwe schattingen over de oorspronkelijke aantallen walvissen: soort walvis
gemid. lengte freq. in 1980 oorspr. freq. volw. walvis (geschat) gewone vinvis 28.0 145000 428000 noordse vinvis 20.0 175000 210000 blauwe vinvis 34.0 11000 156000 dwergwalvis 23.0 9000 7500 bultrug 18.0 6300 110000 grijze walvis 11.5 11000 20000 dwergvinvis 15.5 150000 150000 a) Bepaal aan de hand van de kolom “gemiddelde lengte van volwassen walvissen” het gemiddelde, de modus, de mediaan, de variantie en de standaardafwijking van de gemiddelde lengte van 7 volwassen walvissen, van ieder soort ´e´en. b) Bepaal, rekening houdend met het aantal volwassen walvissen per soort het “gewogen gemiddelde” van de gemiddelde lengte van een volwassen walvis in 1980, als we er van uitgaan dat voor alle soorten gold dat er 60% volwassen dieren en 40% nog niet volgroeide dieren waren. c) Sorteer de gegevens in oplopende oorspronkelijke frequentie. Maak kolomdiagrammen van de oorspronkelijke frequentie en van de frequentie in 1980 en vergelijk deze met elkaar. Welke walvissoort is het sterkst in aantal verminderd? Vergelijk daarna de kolom diagrammen van de relatieve frequenties, oorspronkelijk en in 1980, met elkaar. Welke conclusies trek je hieruit? d) Maak een nieuwe kolom met de verschilfrequentie: (oorspronkelijke frequentie - frequentie 1980). Bepaal van deze verschil frequentie het gemiddelde en de variantie. Wat is het verband tussen het gemiddelde van de verschilfrequentie en de gemiddelden van de oorspronkelijke frequentie en de frequentie in 1980? Wat is het verband tussen de variantie van de verschilfrequentie en de varianties van de oorspronkelijke frequentie en de frequentie in 1980? 1.2 : Men heeft een steekproef van 53 metingen van het stikstofgehalte van een bepaalde soort kunstmest. Het stikstofgehalte is uitgedrukt in gewichtsprocenten; de gegevens zijn afgerond op tienden van gewichtsprocenten: 15.7 17.5 16.4 17.5 17.9 17.0 16.8 19.2 18.3
17.0 16.5 18.0 15.9 17.7 15.6 17.5 17.6 17.4
18.6 18.3 17.4 16.1 16.5 17.7 16.7 16.6 15.8
17.9 18.0 16.7 16.9 16.8 15.5 18.5 16.2 17.1
17.2 18.2 16.3 17.2 17.5 17.1 18.9 16.8 17.3
16.1 18.0 17.0 17.3 17.5 17.4 16.9 18.1
a) Bepaal aan de hand van deze steekproef het gemiddelde stikstofgehalte van de kunstmest, de modus, de mediaan en de standaardafwijking. b) Selecteer de waarnemingen met een stikstofgehalte van 18 gewichts% en hoger en bepaal hiervan gemiddelde en standaardafwijking. c) Maak van de 53 waarnemingen een frequentietabel met 13 klassen, maak een bijbehorend histogram en een bijbehorende cumulatieve verdelingsfunktie. Bekijk hoe de keuze van het
Oefeningen Kansrekening en Statistiek, Reeks 1
126
aantal klassen, de klassebreedte en de begin- en eindwaarden van de klassen van invloed zijn op het histogram. d) Maak een empirische verdelingsfunktie van deze 53 metingen. e) Ga er nu vanuit dat deze metingen gedaan zijn aan twee weinig van elkaar verschillende typen kunstmest, type A en type B. De even metingen (meting 2, 4, 6,. . .) behoren bij type A, de oneven metingen (meting 1, 3, 5,. . .) horen bij type B. Bepaal het gemiddelde stikstofgehalte en de variantie van kunstmest A, evenzo van kunstmest B. Teken ook een box-plot voor beide groepen. 1.3 : Van 200 monsters van een meststof is het stikstofgehalte gemeten, de resultaten zijn opgenomen in onderstaande frequentietabel. Bereken hieruit het gemiddelde, de modus, de mediaan en de standaardafwijking van het stikstofgehalte. Maak een histogram van deze gegevens. N-gehalte in % ] 15.5 – 16.5 ] ] 16.5 – 17.5 ] ] 17.5 – 18.5 ] ] 18.5 – 19.5 ] ] 19.5 – 20.5 ] ] 20.5 – 21.5 ] ] 21.5 – 22.5 ] ] 22.5 – 23.5 ] ] 23.5 – 24.5 ] ] 24.5 – 25.5 ]
aantal monsters 6 16 22 38 44 30 18 12 8 6
1.4 : De voorlopige eindcijfers voor statistiek in juni 1996 waren de volgende: 9 15 6 14 17 8 14 13
18 15 8 12 8 15 15 14
18 17 14 11 7 13 12 13
13 18 13 9 7 12 7 3
18 4 12 6 6 11 14 6
17 16 11 19 16 5 9 11
6 11 13 15 13 7 10 9
10 7 13 16 10 13 4 7
7 15 10 3 7 9 7 7
7 16 15 6 13 13 11 18
12 7 1 15 13 7 16 13
a) Bepaal gemiddelde, mediaan en modus. b) Bepaal spreiding, interkwartiel en MAD. c) Bepaal de 10%- en 90%-percentielen. d) Teken een histogram met klassemiddens 1.5, 3.5, 5.5, etc. en klassebreedte 2. e) Teken een box-plot voor deze data. 1.5 : Een bekende historische dataset uit de biologie is de verzameling metingen van Bumpus van lichaamskarakteristieken van een aantal dood gevonden en levend gevangen (volwassen) mussen uit 1898. Neem deze data over in een Statview-, SPSS- of Excelfile. a. Bepaal het steekproefgemiddelde en de spreiding (standaarddeviatie) in de vijf gemeten grootheden. b. Bepaal de modus, de mediaan en het interkwartiel van de kolommen “totale lengte” en “spanwijdte” en maak boxplots van beide datasets. Geef nauwkeurig de afmetingen van de verschillende elementen van deze boxplots aan. c. Maak histogrammen van de vijf grootheden; gebruik 9 deelintervallen.
Oefeningen Kansrekening en Statistiek, Reeks 1 nummer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
tot.lengte 155 156 160 152 160 155 157 165 153 162 162 159 159 155 162 152 159 155 163 163 156 159 161 155 162 153 162 164 156 154 153 153 155 163 157 155 164 158 158 160 161 157 157 156 158 153 155 163 159
spanwijdte 240 240 242 232 250 237 245 245 231 239 243 245 247 243 252 230 242 238 249 242 237 238 245 235 247 237 245 248 245 240 240 236 243 247 238 239 248 238 240 244 246 245 235 237 244 238 236 246 236
kop+bek 31.4 31.5 32.6 30.3 31.7 31.0 32.2 33.1 30.1 30.3 31.6 31.8 30.8 30.9 31.9 30.4 30.8 31.2 33.4 31.0 31.7 31.5 32.1 30.7 31.9 30.6 32.5 32.3 31.6 30.4 31.0 30.9 31.5 32.0 30.9 32.8 32.7 31.0 31.1 31.1 32.3 32.0 31.5 30.9 31.4 30.5 30.3 32.5 31.5
127 humerus 18.0 18.2 18.8 17.2 18.8 18.5 19.5 19.8 17.3 18.0 18.8 18.5 18.1 18.5 19.1 17.3 18.2 17.9 19.5 18.1 18.2 18.4 19.1 17.7 19.1 18.6 18.5 18.8 18.5 17.9 18.4 17.7 18.6 19.0 18.4 18.6 19.1 18.8 18.6 18.6 19.3 19.1 18.1 18.0 18.5 18.2 18.5 18.6 18.0
sternum 20.7 20.6 21.7 19.8 22.5 20.0 21.4 22.7 19.8 23.1 21.3 21.7 19.0 21.3 22.2 18.6 20.5 19.3 22.8 10.7 20.3 20.3 20.8 19.6 20.4 20.4 21.1 20.9 20.5 19.6 20.6 20.2 20.3 20.9 20.2 21.2 21.1 22.0 22.0 20.5 21.8 20.0 19.8 20.3 21.6 20.9 20.1 21.9 21.5
toestand dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood levend levend levend levend levend levend levend levend levend levend levend levend levend levend levend levend levend levend levend levend levend
d. Uit het histogram van de sternumlengten zien we dat er een sterk afwijkende meting is. Het lijkt waarschijnlijk dat dit een meet- of typefout is. Verwijder deze meting en bepaal opnieuw het gemiddelde, de mediaan, de spreiding en het interkwartiel. Welke van deze grootheden zijn veel en welke nauwelijks veranderd? e. Maak een gewogen gemiddelde van de vijf kolommen, waarbij iedere kolom wordt gewogen met het inverse van zijn gemiddelde, en bepaal opnieuw het gemiddelde, de mediaan, de spreiding en het interkwartiel. f. Maak de covariantie- en de correlatiematrix van deze dataset. 1.6 : Bij het bekende experiment van Rutherford en Geiger betreffende radioactief verval uit de begindagen van de studie van radioactiviteit werd gedurende 2608 tijdsintervallen van 8 minuten
Oefeningen Kansrekening en Statistiek, Reeks 1
128
het aantal desintegraties geteld in een stukje radioactief polonium (zie syllabus, hoofdstuk 13). De gegevens zijn hieronder overgenomen. aantal α-deeltjes per tijdsinterval van 8 min 0 1 2 3 4 5 6 7 8 9 10 11
waargenomen aantal tijdsintervallen 57 203 383 525 532 408 273 139 45 27 10 6
Bepaal het gemiddelde aantal desintegraties per tijdsinterval van 8 minuten en bepaal de spreiding ervan. 1.7 : Gegeven zijn de vijf “metingen” {1, 2, 3, 4, 5} van de grootheid X; dus xk = k (k = 1 · · · 5). a. Bepaal het gemiddelde x en de empirische variantie sx , de mediaan mx en het interkwartiel Ix . b. We transformeren deze data met de functie f (x) := x2 , zodat yk = k 2 (k = 1 · · · 5). Bepaal het gemiddelde y en de empirische variantie sy en vergelijk deze met f (x) en sx | f 0 (x) | , en vergelijk dit met de formules (1.15–17) in de syllabus. c. doe hetzelfde met de mediaan my en het interkwartiel Iy . Herhaal deze berekeningen met de data {2.8 , 2.9 , 3.0 , 3.1 , 3.2}. Wat is het verschil met de vorige dataset?
1.8 : In een steekproef van 20 onafhankelijke waarnemingen van X vinden we de volgende waarden: {4 , 5 , 8 , 0 , 1 , 5 , 7 , 0 , 4 , 1 , 4 , 7 , 6 , 9 , 8 , 5 , 1 , 7 , 4 , 3}. Bepaal de modus en de mediaan en teken een Boxplot van deze data. Geef nauwkeurig de afmetingen van de verschillende elementen van deze boxplot aan. 1.9 : Gegeven zijn n metingen {x1 , · · · , xn } en yi := f (xi ) (i = 1 · · · n) voor een gegeven gladde functie f . Bewijs dat de mediaan medx de functie g 7→
Pn
i=1
| xi − g | minimaliseert.
Bepaal vervolgens (zie syllabus formule 1.18) voorwaarden waaronder geldt f (medx ) = medy en n n | f 0 (medx ) | X 1X | yi − f (medx ) | ≈ | xi − medx | n i=1 n i=1
Oefeningen Kansrekening en Statistiek, Reeks 2
129
Reeks 2 2.1 : Voor de gebeurtenissen A en B is gegeven P (A) = P (A ∪ B) als verder gegeven is: a. A en B zijn onafhankelijk, b. P (A ∩ B) =
3 5
c. P (A | B) =
1 2
,
d. P (B | A) =
1 3
.
3 4
en P (B) =
4 5
. Bepaal, indien mogelijk,
,
2.2 : In doos een zitten negen witte knikkers en een rode en in doos twee zitten vijf rode en twee witte. Als je willekeurig een doos neemt en hieruit ongezien een knikker pakt, a. wat is dan de kans op een witte knikker? b. wat is de kans dat deze witte knikker uit doos een kwam? 2.3 : Bij het klaverjassen wordt met 4 spelers gespeeld. Je hebt een vaste maat, die tegenover je zit. Alleen de kaarten 7 8 9 10 B V H A worden in het spel gebruikt. De overige worden geschud en op een apart stapeltje gelegd. Bij ieder nieuw spel wordt de bovenste kaart van dit stapeltje genomen (zonder teruglegging) en bepaalt deze de troefkleur. a. Wat is dan de kans dat een speler hartenboer en hartenaas krijgt? b. Wat is de kans dat harten troef is in het derde spel, als dit ook in de eerste twee spelen het geval was? c. Wat is de kans dat mijn maat geen troef heeft als ik er zelf vier heb? 2.4 : Ik heb twee stukken van 20F op zak en gooi met een ervan. Deze laat de muntzijde zien. Een grapjas heeft echter (zonder dat ik dat gezien heb) op een van de munten de afbeelding van Albert vervangen door de 20F afbeelding. a. Bepaal de kans dat de onderzijde van deze munt de beeldenaar van Albert laat zien. b. Ik gooi een tweede maal met dezelfde munt en zie opnieuw de muntzijde. Wat is nu de kans dat met de betreffende munt niet geknoeid is 2.5 : We gooien met een rode en een groene dobbelsteen (tegelijk) en we defini¨eren de gebeurtenissen A, B, en C door: A : De rode steen is oneven, B : De groene steen is oneven, C : De som van de rode en groene steen is oneven. Laat zien dat deze drie gebeurtenissen twee aan twee onafhankelijk zijn, maar dat A, B en C niet gedrie¨en onafhankelijk zijn (dat de derde afhankelijk is van de andere twee) 2.6 : Een televisiepresentatrice doet tijdens een show een spel. Zij werpt tweemaal met een “eerlijke” munt, maar houdt het resultaat verborgen. Zij vertelt slechts, dat de uitslag minstens eenmaal “kop” was en laat iemand uit het publiek (zeg Louis) raden wat de uitslag van de andere munt was. a. Wat kan Louis het beste antwoorden en waarom? (d.w.z. bereken de kans, dat het antwoord “kop” resp. “munt” juist is) b. Wat is de kans op een goed antwoord, als zij bovendien vertelt dat het resultaat “kop” in de tweede beurt werd gegooid? 2.7 : Een massieve kubus, gemaakt van een wit materiaal, wordt aan de buitenkant volledig zwart geschilderd en daarna in 4 × 4 × 4 kubusjes van gelijke grootte gesneden. Deze 64 kubusjes worden grondig gemengd. Bereken de kans dat een lukraak gekozen kubusje juist 2 zwarte vlakjes heeft. 2.8 : Men heeft 2 dobbelstenen, een rode en een blauwe. Bereken als men ´e´enmaal gooit met deze twee dobbelstenen de volgende kansen:
Oefeningen Kansrekening en Statistiek, Reeks 2
130
a) P (2 ´enen) b) P (minstens 1 ´e´en) c) P (rode steen een 1 of blauwe steen een 6) d) P (rode steen een 1 of som van de ogen van beide stenen is 5) e) P (rode steen een 1 | som van de ogen van beide stenen is 6) f) P (rode steen een 1 en som van de ogen is 5) 2.9 : We bekijken het volgende electrische schema: b1 M
a
b2
N
b3
A is de gebeurtenis dat het element a geen stroom doorlaat. Bi is de gebeurtenis dat het element bi geen stroom doorlaat, (i = 1, 2 of 3). De kans op gebeurtenis A is P (A) = 0.2 en de kans op gebeurtenis Bi is P (Bi ) = i/4 (i = 1, 2 of 3); de gebeurtenissen A en Bi zijn stochastisch onafhankelijk. a) Bereken de kans dat er geen stroom loopt tussen M en N. b) Bereken de kans dat er minstens langs ´e´en weg stroom loopt van M naar N. 2.10 : Gegeven zijn 3 gebeurtenissen A, B en C. Vindt uitdrukkingen in termen van de verzamelingen (gebeurtenissen) A, B en C en de operatoren ∪, ∩ en complement voor het geval dat: a) alleen A optreedt b) A en B, maar niet C optreden c) A, B en C optreden d) tenminste ´e´en van de drie optreedt e) tenminste twee van de drie optreden f) geen enkele van de drie optreedt g) precies ´e´en van de drie optreedt h) niet meer dan twee optreden. 2.11 : Laat Ω de uitkomstenruimte zijn van een experiment en laten A en B ∈ Ω twee gebeurtenissen zijn. a) Wanneer zijn A en B onafhankelijk? b) Bewijs dat onafhankelijkheid van A en B eveneens onafhankelijkheid van Ac en B c impliceert. 2.12 : Een onderzoeker test mensen op kleurenblindheid door ze een aantal kaartjes, alle verschillend van kleur, in even zoveel doosjes te laten stoppen. Bij elk kaartje hoort precies ´e´en doosje van dezelfde kleur. De onderzoeker verklaart iemand kleurenblind als hij niet ieder kaartje in het bijbehorende doosje gestopt heeft. De veronderstelling van de onderzoeker hierbij is dat iemand die kleurenblind is elk kaartje aselect in ´e´en van de nog lege doosjes zal stoppen. a) Het experiment wordt met drie doosjes uitgevoerd. Hoe groot is de kans dat, onder de veronderstelling van de onderzoeker, een kleurenblinde elk kaartje in het juiste doosje zal doen en dus niet als kleurenblinde herkend zal worden. b) Hoe groot moet het aantal doosjes minstens zijn om de kans dat een kleurenblinde niet als zodanig herkend wordt, kleiner dan 1% te laten zijn? c) Als we er van uitgaan dat 1% van de mensen kleurenblind is, hoe groot moet de kleinst mogelijke steekproef dan zijn, opdat de kans dat deze minstens ´e´en kleurenblinde bevat groter of gelijk is aan 0.95?
Oefeningen Kansrekening en Statistiek, Reeks 2
131
2.13 : Iedere boerenzwaluw komt gewoonlijk naar dezelfde plaats terug en gebruikt vaak het nest van het vorig jaar. De kans dat beide ouders echter zowel de najaars- als de voorjaarstrek overleven is slechts ´e´en op vijf. Als we aannemen dat de voorjaarstrek en de najaarstrek verhoudingsgewijs evenveel slachtoffers kosten, en dat het overleven van de voorjaarstrek en het overleven van de najaarstrek onafhankelijke gebeurtenissen zijn, hoe groot is dan het percentage boerenzwaluwen dat ´e´en trek overleeft? 2.14 : Is de kans om met ´e´en dobbelsteen in 6 worpen precies ´e´en zes te gooien even groot als de kans om in 12 worpen precies twee zessen te gooien? 2.15 : In de veronderstelling dat er evenveel meisjes als jongens geboren worden, bereken de kans dat in een gezin van 5 kinderen a) alle kinderen van hetzelfde geslacht zijn, b) de 3 oudsten jongens en de 2 jongsten meisjes zijn, c) er 3 jongens en 2 meisjes zijn. 2.16 : In het stroomgebied van een rivier bevinden zich twee potpolders R1 en R2 , die bij een hoge waterstand onder water kunnen komen te staan. Laat A de gebeurtenis zijn dat R1 onder water komt te staan en laat B de gebeurtenis zijn dat R2 onder water komt te staan in een bepaald jaar. Gegeven zijn de volgende kansen: P (A) = 0.20 en P (B) = 0.15; de kans dat R1 en R2 beide overstromen in eenzelfde jaar is 0.08. Er wordt verondersteld dat overstromingen in opeenvolgende jaren onafhankelijke gebeurtenissen zijn. a) Bereken de kans dat er in een bepaald jaar slechts ´e´en potpolder onder water komt te staan. b) Bereken de kans op een jaar zonder overstromingen c) Bereken de kans dat wanneer er een overstroming optreedt in R2 er eveneens in datzelfde jaar een overstroming in R1 op zal treden. Wat kan er gezegd worden over de afhankelijkheid van de twee gebeurtenissen A en B? d) Bereken de kans op 3 overstromingsjaren van potpolder R1 in de komende 10 jaar. 2.17 : Drie personen hebben een bepaalde ziekte opgelopen. Waarnemingen hebben uitgewezen dat 10% van diegenenen die deze ziekte oplopen er niet van genezen. Wat is dan de kans dat ze alle drie genezen? Wat is de kans dat geen enkel van de drie geneest? 2.18 : Men werpt een teerling 6 maal. Vergelijk de kans dat men tweemaal twee, tweemaal vier en tweemaal zes werpt met de kans dat men driemaal twee en driemaal vier werpt. 2.19 : Men zet volgens toeval acht witte torens op de velden van een schaakbord. Hoe groot is de kans dat geen enkele toren door ´e´en van de andere torens gedekt staat? 2.20 : Fons en Tuur spelen het volgende spel: Twee teerlingen worden geworpen. Fons wint als de som van de ogen groter is dan 7 en verliest als de som kleiner is dan 7. Bij een som van 7: gelijk spel. Is dit een eerlijk spel (m.a.w. hebben beide gelijke kansen om te winnen)? 2.21 : Klaas en Joris spelen het volgende spel: drie teerlingen worden geworpen. Klaas wint als de som van de ogen groter is dan 10 en verliest als de som kleiner is dan 10. Bij een som van 10: gelijk spel. Is dit een eerlijk spel (m.a.w. hebben beide gelijke kansen om te winnen)?
Oefeningen Kansrekening en Statistiek, Reeks 3
132
Reeks 3 3.1 : In een vaas zitten 7 briefjes, op ieder briefje staat ´e´en letter van het woord ”energie”. Iemand trekt aselect 3 briefjes uit deze vaas. Bereken de kans om met de 3 getrokken letters de woorden ”erg” en ”een” te kunnen vormen als er a) getrokken wordt met teruglegging b) getrokken wordt zonder teruglegging. 3.2 : Vijf tweede-kandidatuurstudenten zitten samen aan tafel in het restaurant. a) Bepaal de kans dat er minstens twee van deze vijf studenten op een maandag geboren zijn. b) Bepaal de kans dat ze alle 5 op een verschillende dag van de week geboren zijn. c) uit hoeveel studenten moet een groep minstens bestaan opdat er met minstens 95% zekerheid geldt dat minstens ´e´en student op een maandag geboren is? 3.3 : Men heeft een partij van 100 stuks. In deze partij zitten 5 defecte produkten. Er wordt een steekproef genomen van 20 stuks; als in deze steekproef meer dan 2 defecte produkten voorkomen wordt de hele partij afgekeurd. Bereken de kans dat de partij zal worden afgekeurd als a) de steekproef genomen wordt met teruglegging, b) de steekproef genomen wordt zonder teruglegging. 3.4 : Men verdeelt 52 kaarten willekeurig onder 4 personen, zodat iedere speler juist 13 kaarten krijgt. Wat is de kans dat iedere speler precies ´e´en koning heeft? 3.5 : Men verdeelt 52 kaarten willekeurig onder 4 personen, zodat elke persoon juist 13 kaarten heeft. Wat is dan de kans dat speler A 13 kaarten van dezelfde kleur heeft? Wat is de kans dat hij juist 12 kaarten van dezelfde kleur heeft? 3.6 : Men verdeelt 52 kaarten willekeurig onder 4 personen, zodat elke persoon juist 13 kaarten heeft. A (Noord) heeft juist 5 harten. Wat is de kans dat zijn medespeler C (Zuid) juist 3 harten heeft? Wat is de kans dat C geen enkele harten heeft? 3.7 : Men gooit twee dobbelstenen. Bereken de kans dat ze allebei een vier tonen als gegeven is dat de som van het aantal ogen zeven of acht is? 3.8 : Een grondstof, gebruikt in de produktie van een scheikundig produkt kan van zes verschillende plaatsen afkomstig zijn met kansen: 0.09
0.16
0.25
0.25
0.16
0.09
De kans dat het gemaakte produkt voldoet aan een aantal kwaliteitseisen als de grondstof van de respectievelijke plaatsen komt is: 0.2
0.3
0.4
0.4
0.3
0.2
Wat is het percentage produkten, dat voldoet aan de kwaliteitseisen? 3.9 : Iemand heeft altijd twee doosjes lucifers op zak. Als hij een lucifer nodig heeft neemt hij volgens toeval ´e´en van beide doosjes en neemt er een lucifer uit. Hij begint met twee doosjes met elk n lucifers. Hoe groot is de kans dat op het moment waarop hij het ene doosje leeg maakt het andere nog k lucifers bevat? 3.10 : Karel en Lodewijk schieten elk tweemaal naar een doel. Bij elk schot hebben ze ieder een kans p om raak te schieten. Indien men weet dat er op 4 schoten twee raak zijn, bereken dan a) de kans dat beide treffers van Karel komen b) de kans dat ´e´en treffer van Karel komt en de andere van Lodewijk.
Oefeningen Kansrekening en Statistiek, Reeks 3
133
3.11 : Vaas A bevat twee rode en twee witte knikkers en vaas B bevat vier witte knikkers. Men trekt een knikker uit ´e´en der vazen en deze is wit. Wat is de kans dat deze knikker uit vaas B kwam? 3.12 : De kans dat je slaagt voor het examen statistiek is 100% als je de stof (en vooral de oefeningen) goed genoeg bestudeerd hebt. Bekend is echter dat 50% van de studenten zich niet goed genoeg voorbereid en voor hen is de slagingskans slechts 40%. Bepaal de kans dat een geslaagde student zich onvoldoende had voorbereid. 3.13 : Van een test op een bepaald soort kanker zijn de volgende statistische gegevens bekend: De kans op het optreden van deze ziekte is 0.0001. Indien iemand deze ziekte heeft zal in 90% van de gevallen de test dat juist aangeven. De kans dat de test een foutieve diagnose geeft, dwz. suggereert dat iemand kanker heeft, terwijl dat in werkelijkheid niet waar is, is 0.001. Bereken de kans dat, als de test wijst op kanker, de persoon ook werkelijk deze ziekte heeft. 3.14 : Machine A produceert van een bepaald product tweemaal zoveel als machine B. Machine A levert 5% defecte produkten, machine B 7%. Een klant krijgt een defect produkt. Hoe groot is de kans dat dit produkt afkomstig is van machine A? 3.15 : Een binair telecommunicatiesysteem zendt de signalen 0 en 1 door. Door mogelijke storingen tijdens de teletransmissie worden er gemiddeld 2 op de 5 nullen en 1 op de 3 ´enen onjuist ontvangen. Veronderstel dat de verhouding tussen de doorgezonden nullen en ´enen 5 op 3 is. Wat is dan de kans dat een ontvangen signaal hetzelfde is als het doorgezonden signaal als: a) het ontvangen signaal een 0 is? b) het ontvangen signaal een 1 is? 3.16 : Rt is de gebeurtenis dat het op dag t droog is; het complement Rt is de gebeurtenis dat er op dag t neerslag valt. Voor een bepaalde streek zijn de volgende kansen gegeven: p := P (Rt+1 | Rt ) = 0.88
en
q := P (Rt+1 | Rt ) = 0.70
We nemen aan, dat het weer van dag t onafhankelijk is van het weer van meer dan ´e´en dag ervoor. a) Bewijs dat P (A ∩ B | C) = P (A | B ∩ C) · P (B | C). b) Bereken de kans dat het in elk van de drie komende dagen droog zal blijft, als het vandaag regent. c) Bereken de kans dat het overmorgen droog zal zijn als het vandaag droog is. 3.17 : Je vriendin heeft je verjaardagscadeau in een van haar drie bureauladen gestopt. Je gaat het cadeau alleen krijgen als je de lade met het cadeau weet aan te wijzen. Ze vraagt je om een lade te kiezen. Je wijst dus een van de drie laden, zeg lade X, aan. Alvorens deze lade te openen zegt je vriendin dat het misschien wel een goede keuze is maar misschien ook niet en ze trekt een tweede lade, zeg lade Y , open en laat zien dat het cadeau daar in ieder geval niet in zit. Ze vraagt dan of je bij je keuze X blijft of dat je liever de derde lade, zeg lade Z, verkiest te openen. Wat is de beste keuze, X of Z, en wat is de kans dat je dan je cadeau ook werkelijk krijgt. Motiveer je antwoord! 3.18 : Een persoon zit in een labyrinth en heeft de keuze uit drie deuren. Deur 1 leidt naar de uitgang in 1 stap, deur 2 leidt terug in 2 stappen en deur 3 in 3 stappen. De persoon kiest een willekeurige deur. Als hij teruggeleid wordt, kiest hij weer een willekeurige deur (hij heeft geen geheugen). Dit gaat zo door tot hij buiten is. Bepaal het gemiddeld aantal stappen dat hij zet om buiten te geraken.
Oefeningen Kansrekening en Statistiek, Reeks 4
134
Reeks 4 4.1 : Vroeger werd in ons land door loting bepaald wie zijn militaire dienstplicht moest vervullen en wie daarvan werd vrijgesteld. Stel dat drie jonge mannen na elkaar een nummer trekken, zonder teruglegging, uit een verzameling van 4 goede en 4 slechte nummers. Welke van deze drie mannen heeft de grootste kans om als soldaat aangewezen te worden? Bereken deze kansen. 4.2 : Tien helikopters worden belast met het zoeken naar een vermist vliegtuig. Elk van deze tien toestellen kan gebruikt worden om ´e´en van de twee gebieden, waar het vliegtuig zich kan bevinden met respectievelijke kansen 0.8 en 0.2, af te zoeken. Indien een helikopter in het gebied gaat zoeken waar het vliegtuig zich effectief bevindt, heeft hij een kans van 0.2 om het vliegtuig te detecteren. Hoe moet men de tien helikopters verdelen over de twee gebieden om de kans om het vliegtuig terug te vinden maximaal te maken? Bepaal deze kans. (Strategie: Veronderstel dat m helikopters gebied 1 afzoeken, en 10 − m gebied 2. Bereken de kans, als funktie van m, dat men het vliegtuig terug vindt. Maximaliseer deze kans.) 4.3 : In de lift van een gebouw met 10 verdiepingen stappen 4 personen in op verdieping 0. Neem 1 aan, dat de kans dat een persoon op een gegeven hogere verdieping uitstapt, 10 is. Bereken de kans dat de 4 personen alsvolgt uitstappen: a) allen op dezelfde verdieping, b) drie op eenzelfde verdieping en de vierde op een andere, c) twee op eenzelfde verdieping en de andere twee samen op een andere verdieping, d) twee op eenzelfde verdieping en de andere twee op twee andere verdiepingen, e) ieder op een verschillende verdieping. Ga na dat de som van de kansen 1 is. 4.4 : In n cellen worden r ballen willekeurig opgeborgen, zodat de i-de cel ri ballen bevat, met r1 + · · · + rn = r . Veronderstel r > n . Ai is de gebeurtenis waarbij de i-de cel leeg blijft. Bereken: a) de kans dat voor elke i er ri ballen in cel i zitten, b) P (Ai ) en P (Ai ∩ Aj ) , 4.5 : Twee urnen A en B bevatten elk een witte en een zwarte bol. Men neemt een willekeurige bol uit elke urn en plaatst deze in de andere urn. Deze procedure wordt n keer herhaald. Noteer met pn de kans dat A twee witte bollen bevat na deze n verwisselingen, met qn de kans dat A ´e´en witte en ´e´en zwarte bol bevat en met rn de kans dat A twee zwarte bollen bevat. Wat is de limietwaarde voor n → ∞ voor pn , qn en rn ? (Bepaal hiertoe pn+1 , qn+1 en rn+1 als funktie van pn , qn en rn en laat n dan naar oneindig gaan.) 4.6 : – – –
Een dobbelspel kent de volgende regels: De speler bepaalt de inzet en kiest ´e´en van de getallen 1 t/m 6, hij werpt 3 dobbelstenen, als zijn gekozen getal op alle 3 de dobbelstenen bovenkomt wordt hem 4 maal zijn inzet uitbetaald, – als zijn getal op 2 dobbelstenen bovenkomt wordt hem 3 maal zijn inzet uitbetaald, – als zijn getal op ´e´en dobbelsteen bovenkomt wordt hem 2 maal zijn inzet uitbetaald, – als zijn getal op geen enkele dobbelsteen bovenkomt krijgt hij niets uitbetaald.
Wat is de te verwachte winst of verlies voor deze speler als hij 100 BF inzet? 4.7 : De hoeveelheid van een grondstof (uitgedrukt in tonnen), nodig gedurende een maand in een fabriek is een discrete stochastische variabele X. Uit ervaring, wat betreft de vraag naar het met deze grondstof vervaardigde produkt, heeft men P (X < 8) = 0
2 25 2 = 25
P (X = 8) =
P (X > 12) = 0 P (X = 12)
6 25 6 = 25
P (X = 9) = P (X = 11)
P (X = 10) =?
Oefeningen Kansrekening en Statistiek, Reeks 4
135
a) Bereken P (X = 10) , b) Maak een staafdiagram, van de kansfunktie P (X = x) , c) Bepaal de cumulatieve distributiefunktie FX (x) en teken deze, d) Bereken P (9.25 ≤ X ≤ 11.25) , e) Bereken E[X] en V ar[X] f) Indien men met een zekerheid van minstens 90 % wenst te voldoen aan de vraag naar het vervaardigde produkt, wat is dan de minimale bestelhoeveelheid van de grondstof per maand? g) Bereken de scheefheidsco¨effici¨ent en de co¨effici¨ent van kurtosis van deze verdeling. 4.8 : Een andere werknemer in deze fabriek stelt een ander kansmodel voor, waarbij men uitgaat van een continue kansvariabele X met de volgende dichtheidsfunktie:
fX (x) =
0
voor
x ≤ 7.5 ,
x−7.5 c
voor
7.5 < x ≤ 10 ,
12.5−x c
voor
10 < x ≤ 12.5 ,
0
voor
x > 12.5 .
a) Bepaal c, b) Maak een grafiek van fX (x) , c) d) e) en f) als voor oefening 4.7, g) Bereken de modus, mediaan, interkwartiel, MAD en de variatieco¨effici¨ent van X. 4.9 : Een onderdeel van de militaire keuring in de V.S. bestond uit een bloedonderzoek naar de geslachtsziekte syfilis. Bij het laboratoriumonderzoek kan een belangrijke besparing plaatsvinden door de bloedmonsters van een aantal mannen te vermengen en dit totale bloedmengsel te onderzoeken. Als de reactie van dit totaal negatief is, is geen van de personen die een bijdrage geleverd heeft aan dit mengsel besmet. Is de reactie positief, dan zal een bloedmonster van elke persoon, die bijgedragen heeft tot dit mengsel, afzonderlijk worden onderzocht om na te gaan wie besmet is (zijn). Volgens de Amerikaanse keuringsadministratie bedroeg het percentage lijders aan syfilis in de jaren 1940/1941 ongeveer 5%. Stel dat er 10.000 mannen gekeurd moesten worden. Het probleem waarvoor de keuringsdienst zich in 1940 gesteld zag was: hoeveel bloedmonsters moeten er steeds vermengd worden om zo weinig mogelijk tests te hoeven uitvoeren. a) Bereken de te verwachte aantal uit te voeren tests als er in groepen van 10 personen getest wordt. b) Wat is de optimale testgroepgrootte? 4.10 : Een punt P wordt willekeurig gekozen op de omtrek van een cirkel met straal r. Bepaal de gemiddelde afstand tussen een vast punt A op de omtrek en P . 4.11 : O, P en Q worden willekeurig gekozen op de omtrek van een cirkel met straal r. Bepaal de kans dat een van de hoeken van de driehoek OP Q stomp is (groter is dan 12 π). 4.12 : De levensduur X van een gloeilamp is een stochastische variabele, die beschreven kan worden m.b.v. de volgende dichtheidsfunktie: (
fX (x) :=
λ exp(−λx)
voor x ≥ 0,
0
voor
x < 0,
met λ := 0.001 uur−1 .
a) Bepaal FX (x) en maak een grafiek van fX (x) en FX (x) b) Hoe groot is de kans dat een gloeilamp langer dan 1000 uur brandt?
Oefeningen Kansrekening en Statistiek, Reeks 4
136
c) Bereken de te verwachte levensduur van een gloeilamp: E[X] d) Bereken de mediaan van X e) Hoe groot is de kans dat een lamp, die al 200 uur goed brandt, nog minstens 1000 uur langer zal branden? 4.13 : X en Y zijn twee onafhankelijke exponentieel verdeelde stochastische variabelen met dezelfde parameter λ, d.w.z. ( λ exp(−λx) voor x ≥ 0 , fX (x) = fY (y) = 0 voor x < 0 . Bepaal de dichtheid van Z = X + Y , de verwachtingswaarde en de variantie van Z. 4.14 : Veronderstel dat het aantal km dat men kan rijden met een radiaalband normaal verdeeld is met gemiddelde 70000 km en standaard afwijking 10000 km. Is de producent juist indien hij beweert dat minstens 90 % van de bestuurders langer dan 60000 km rijden met dit type banden, leg uit.
Oefeningen Kansrekening en Statistiek, Reeks 5
137
Reeks 5 5.1 : X is een stochastische variabele met verdelingsfunktie FX (x). We voeren een lineaire transformatie uit op X: Y = aX + b met a > 0. a) Bepaal FY (y) en fY (y) . ( λ exp (−λx) als x ≥ 0 , b) Als Y = 2X + 1 en fX (x) = bepaal dan fY (y). 0 als x < 0 , 5.2 : Vanuit het punt met co¨ ordinaten (0, b) in het xy-vlak wordt een deeltje uitgezonden langs een rechte lijn, die een willekeurige hoek maakt met de x-as, in de richting van de x-as. De stochastische variabele X is de abscis op de x-as waar het deeltje terecht komt. Toon aan dat de dichtheidsfunktie van X de volgende is: b fX (x) = 2 π(b + x2 ) Aanwijzing: bekijk eerst de verdeling van ϕ, de hoek waaronder het deeltje uitgezonden wordt. 5.3 : X is uniform verdeeld over het interval [0,1]. Bepaal de dichtheidsfunktie van Y = −2 ln(X). 5.4 : Uit grote partijen artikelen neemt men steekproeven van 20 stuks. Een partij wordt afgekeurd als in zo’n steekproef 3 of meer foutieve exemplaren worden aangetroffen. a) Wat is de kans dat een partij met 25% fouten wordt afgekeurd? b) Wat is de kans dat van 10 partijen met elk 10% fouten er 8 of meer goedgekeurd worden? 5.5 : Gebruik de tabel van de cumulatieve binomaalverdeling. a) Bereken de volgende kansen: a. P (X ≤ 3) b. P (X < 10) c. P (X < 10)
als X ∼ B(7, 0.45) , als X ∼ B(15, 0.1) . als X ∼ B(15, 0.9) .
b) Bereken voor welke waarden van x geldt: a. P (X ≤ x) ≤ 0.1 b. P (X ≤ x) ≤ 0.1
als X ∼ B(20, 0.25) , als X ∼ B(20, 0.75) .
5.6 : Een partij goederen is zo groot dat men ze als oneindig groot mag beschouwen. Men voert een kwaliteitstest uit door willekeurig stukken uit de partij te nemen tot men een defekt stuk gevonden heeft. Als 20 % van de partij bestaat uit defekte stukken, bepaal dan de verdelingsfunktie en de verwachtingswaarde van het aantal geteste stukken X . 5.7 : Het optreden van een sterke pollutiegolf in het Albertkanaal vormt een Poisson incidentenstroom met een parameter waarde λ van 1 incident per 6 maanden. a) Bereken de kans dat er gedurende ´e´en jaar 1 sterke pollutiegolf is. b) Bereken de kans dat er in elk van de volgende jaren :1995, 1998, 1999, 2002, 2004 minder dan 3 sterke pollutiegolven optreden. 5.8 : Op een kantoor komen gemiddeld 3 telefoongesprekken per uur binnen. De telefonist is gedurende 10 minuten afwezig. Hoe groot is de kans dat er in die tijd minstens ´e´en persoon geen gehoor heeft gekregen? 5.9 : Bij de produktie van pantynylons is de kans dat een geproduceerde panty geen ladders vertoont 90 %. Neem aan dat het optreden van ladders in opeenvolgend geproduceerde panties stochastisch onafhankelijke gebeurtenissen zijn. Bereken a) Het gemiddeld aantal panties zonder ladder in een partij van 10 stuks b) De kans op meer dan 7 goede panties in deze partij.
Oefeningen Kansrekening en Statistiek, Reeks 5
138
Als het voorkomen van ladders te wijten is aan defecten in het produktieproces of aan de grondstoffen waaruit de panties geproduceerd worden, dan geldt de hierboven genoemde stochastische onafhankelijkheid niet. Veronderstel dat het aantal incidenten per 8 uur, dat slechte panties produceert, een Poisson-verdeelde stochastische variabele is X ∼ P (λ). Bij elk incident worden er 50 panties geproduceerd met ladders, voordat men in staat is het produktieproces bij te regelen. c) Wat moet de waarde van λ zijn, opdat gemiddeld genomen 90 % van de panties geen ladders vertoont, indien de tijd nodig om ´e´en panty te produceren 1 minuut is. d) Bereken met deze waarde van λ de kans dat er op een werkdag van 8 uur meer dan 2 incidenten optreden, waardoor het produktieproces ontregeld wordt. 5.10 : Veronderstel dat X een stochastische variabele is met een discrete verdeling en dat de momenten E[X] en E[ |X − E[X] |r ] bestaan voor een zekere r > 0. Bewijs dan voor iedere ² > 0 de ongelijkheid (cf. de ongelijkheid van Chebyshev): P (|X − E[X] | ≥ ²) ≤
E[ |X − E[X] |r ] . ²r
5.11 : Laat X en Y twee onafhankelijke continue stochastische variabelen zijn en neem M := M ax(X, Y ). Bepaal de dichtheidsfunktie fM van M. 5.12 : X is de levensduur in uren van een bepaald type radiobuis. De dichtheidsfunktie van X wordt gegeven door: ( 0 als x < 100 , fX (x) = a x−2 als x ≥ 100 . Een antieke radio bevat drie van dergelijke buizen, met van elkaar onafhankelijke levensduur. a) Bepaal de waarde van a. b) Bereken de kans dat men in een dergelijke radio geen buizen moet vervangen, voordat er 150 uur verlopen zijn. c) Bereken de kans dat men geen buizen zal moeten vervangen in de radio, voordat er 150 uur verlopen zijn, als de radio al 120 uur heeft kunnen spelen zonder dat er buizen vervangen moesten worden. 5.13 : Een autoverhuurder bezit twee wagens, die per dag worden verhuurd. Het aantal aanvragen voor een dag vertoont een Poissonverdeling met λ = 1.5 . a) Welk percentage van de dagen zijn beide wagens thuis? b) Welk percentage van de dagen zijn beide wagens uit? c) Indien beide wagens even vaak worden gebruikt, welk percentage van de dagen is ´e´en bepaalde wagen dan thuis?
Oefeningen Kansrekening en Statistiek, Reeks 6
139
Reeks 6 6.1 : Men weet uit ervaring dat de jaarlijkse hoeveelheid neerslag in een gebied een normaal verdeelde kansveranderlijke is met een gemiddelde µ = 125cm en een standaardafwijking σ = 20cm. Wanneer er meer dan 160 cm neerslag valt in een jaar leidt dit tot overstromingen. Bepaal de kans dat er zich gedurende een aselect gekozen jaar minstens ´e´en overstroming voordoet. 6.2 : X is en normaalverdeelde stochastische variabele met een gemiddelde µ = 10 en een standaardafwijking σ = 4, dus X ∼ N (10, 4). Bereken: a) P (X ≤ 14) , b) P (12 ≤ X ≤ 18) , c) P (X < 7) , d) de 90%, 50% en 20% percentielen van X. 6.3 : Twee merken elektronenbuizen hebben levensduren die normaal verdeeld zijn. Merk A: N(27;5) en merk B: N(30;2). a) Welk merk moet men kiezen om de grootste kans te hebben dat de buis langer dan 30 uur meegaat? b) Welk merk moet men kiezen om de grootste kans te hebben dat de buis langer dan 34 uur meegaat? 6.4 : Een hoogtemeter geeft een systematische fout van 10 meter en een toevallige fout, die normaal verdeeld is met een gemiddelde van 0 meter en een standaardafwijking van 2 meter. Wat is de kans dat men bij een hoogtemeting een fout heeft kleiner dan 7 meter? 6.5 : Er wordt een aselecte steekproef van omvang n genomen uit een populatie, die een bepaalde theoretische kansverdeling bezit met verwachtingswaarde µ en variantie σ 2 . Men krijgt zo dus n realisaties van n onafhankelijke stochastische variabelen X1 , X2 , . . . , Xn , die alle dezelfde kansP verdeling bezitten. Het rekenkundig gemiddelde van deze n stochastieken is X n := n1 ni=1 Xi . a) Bepaal E[X n ] en V ar[X n ] als funktie van n. b) Als Xi ∼ N (µ, σ) (i = 1, . . . , n), wat is dan de kansverdeling van X n ? 6.6 : De gewichtsinhoud van een pakje boter is normaal verdeeld met een standaarddeviatie σ van 3 gram. Een regeringsinstantie neemt ter controle af en toe een steekproef van 25 pakjes. De fabrikant krijgt een boete als de gemiddelde gewichtsinhoud van deze steekproef minder is dan 250 gram. Op welk gemiddelde moet de verpakkingsmachine ingesteld worden om het risico van een boete tot 5 % te reduceren? 6.7 : Men wil een afstand van 100 meter afzetten door 100 maal achtereen een afstand van 1 meter af te passen. De fout die daarbij elke keer gemaakt wordt is een stochastische variabele X, die normaal verdeeld is met µ = 0 meter en σ = 5 cm. a) Bereken de kans dat de afgezette afstand meer dan een halve meter van de gewenste 100 meter afwijkt. b) Tot hoever zou men de standaardafijking van de fout moeten reduceren, opdat de kans onder a) gevonden ten hoogste 0.1 is? 6.8 : De stochastische variabele X is de jaarlijkse piekwaarde van het debiet in een rivier. X is lognormaal verdeeld met ln X ∼ N (4.4, 0.63); X wordt uitgedrukt in m3 /s. a) Bepaal de dichtheidsfunktie van X. b) Bereken de mediaan van X, d.w.z. het hoogste jaarlijke debiet, dat in niet meer dan 50 % van de jaren overschreden wordt.
Oefeningen Kansrekening en Statistiek, Reeks 6
140
c) In geval van een zeer hoog debiet zal de rivier buiten zijn oevers treden. Men kan het omliggende gebied daartegen beschermen door de dijken te verhogen. Bereken de jaarlijkse piekwaarden van het debiet, waartegen het gebied beschermd moet worden, opdat er gemiddeld niet meer dan 1 maal in de 50 jaar een overstroming op zal treden. 6.9 : Laten X1 en X2 twee standaard-normaalverdeelde stochastieken zijn. Definieer een nieuwe stochastieken Yi voor i = 1, 2: −1
Yi =
als
Xi < −1 ,
0
als
−1 ≤ Xi < 1 ,
1
als
Xi ≥ 1 .
a) Schets de verdeling van Z = Y1 + Y2 b) Als P (Xi < −1) = 0.1587, bereken dan de verwachtingswaarde en de variantie van Z. 6.10 : De kansvector Z := (X, Y ) heeft de dichtheidsfunktie: (
fZ (x, y) :=
x exp(− 12 x2 ) exp(−y)
voor 0 < x < ∞, 0 < y < ∞;
0
elders.
a) Bepaal de verdelingsfunktie FZ (x, y), b) Bepaal de marginale verdelingsfukties c) Bepaal P (X > 2 en Y ≥ 1) en P (X 2 + Y 2 ≤ 2). 6.11 : Veronderstel dat Z := (X, Y ) uniform verdeeld is over de driehoek met hoekpunten (0, 0), (0, 1) en (1, 1). Bereken fZ , fX , fY en de correlatiecoeffici¨ent tussen X en Y . 6.12 : Een experiment kan de drie uitkomsten u1 , u2 en u3 hebben met kansen p1 , p2 respectievelijk p3 . Men voert dit experiment n maal uit; Xi is het aantal keer dat ui zich voordoet (i=1, 2, 3). Bepaal de verdeling van de kansvector (X1 , X2 , X3 ). Bepaal ook de covariantie Cov(X1 , X2 ) en de correlatiecoe¨effici¨ent ρ. Wat gebeurt er als p3 = 0? 6.13 : Men kiest een willekeurig getal x ∈ [0, 1] en daarna een willekeurig getal y ∈ [x, 1]. (X, Y ) is de stochastische variabele die de uitslag afbeeldt op (x, y). Bepaal fX , f(X,Y ) en fY . 6.14 : Veronderstel dat (X, Y ) een continu verdeelde kansvector is. We defini¨eren een nieuwe kansvector (R, Θ) door: X = R cos Θ ,
Y = R sin Θ
met
0 ≤ Θ < 2π
en
0 ≤ R < +∞ .
Bepaal de dichtheidsfunktie van (R, Θ). Veronderstel nu dat (X, Y ) uniform verdeeld is over de eenheidscirkel. Bepaal de dichtheidsfunktie f(R,Θ) en laat zien dat R en Θ onafhankelijk zijn.
Oefeningen Kansrekening en Statistiek, Reeks 7
141
Reeks 7 7.1 : Veronderstel dat een bepaalde gebeurtenis zich voordoet volgens een Poisson-proces en dat er gemiddeld λ gebeurtenissen per tijdseenheid optreden. Toon dan aan dat de tijd Y , tussen twee opeenvolgende gebeurtenissen, exponentieel verdeeld is. 7.2 : Gemiddeld gebeurt er op een bepaalde weg elke 100 dagen een ongeluk. Het aantal ongelukken per maand (30 dagen) volgt een Poisson-verdeling. a) Wat is de kans op meer dan ´e´en ongeluk in een maand? b) Wat is de kans dat tussen twee opeenvolgende ongelukken niet meer dan 3 dagen liggen? 7.3 : In het stroomgebied van een rivier liggen twee potpolders A en B, die bij hoge waterstanden onder water komen te staan. De kans dat beide polders in eenzelfde jaar overstromen is 0.08. Bereken de kans dat in de volgende 100 jaar er minstens 10 jaren zullen zijn waarin zowel polder A als polder B onder water komt te staan. 7.4 : Men vindt dat de lengte van telefoongesprekken een exponenti¨ele verdeling volgt, met een gemiddelde van 3 minuten. Hoe groot is de kans dat een gesprek langer dan drie minuten duurt? Hoe groot de kans dat het langer dan 10 minuten duurt? 7.5 : Een auto valt nogal eens in panne en het aantal defekten is Poisson-verdeeld. Indien men gemiddeld twee pannes per maand heeft, wat is dan de kans dat men op een jaar meer dan 25 pannes heeft? 7.6 : Bij de verkiezingen haalt een politieke partij 30% van de stemmen. Men verricht achteraf een steekproef onder 3000 mensen die gestemd hebben en vraagt hen of ze daadwerkelijk voor die partij gestemd hebben. Wat is de kans dat tussen de 850 en 950 ondervraagden hierop bevestigend antwoorden? Opmerking: in de praktijk treedt er altijd een overwinnaarseffekt op bij ondervragingen omtrent kiesgedrag na het bekendmaken van de uitslag; meer kiezers geven achteraf op, dat ze op de winnende partij gestemd hebben, dan er in feite gedaan hebben. 7.7 : Op een landelijke weg komen gemiddeld 3 auto’s per uur voorbij. Stel X het aantal wagens dat gedurende een tijdsinterval van 20 minuten voorbij komt. Bepaal P (X = 0) en P (X ≥ 2). 7.8 : Een krantenjongen in Chicago verkoopt per uur gemiddeld 50 kranten. Als we nu een krant van hem kopen, wat is dan de kans dat het minstens 2 minuten zal duren alvorens hij de volgende krant verkoopt? Als het nu al 5 minuten geleden is dat hij een krant verkocht heeft, wat is dan de kans dat hij nog 2 minuten zal moeten wachten om er nog ´e´en te verkopen? 7.9 : Een eerlijk muntstuk wordt geworpen, totdat er voor de eerste maal kop boven komt. Wat is de kans dat het aantal worpen oneven is? 7.10 : We beschouwen een rij onafhankelijke stochastische variabelen X0 , X1 , X2 , . . ., die alle B(1, p) verdeeld zijn. De Xi kunnen twee waarden aannemen, zeg a en b met P (a) = p en P (b) = q = 1 − p. Laat de stochastische variabele N het aantal experimenten zijn, dat nodig is om r maal de uitslag a te bekomen. Bepaal de verdelingsfunktie van N . Men zegt dat N negatief-binomiaal verdeeld is met parameters r en p. 7.11 : Veronderstel dat een stochastische variabele X ∼ N (µ, σ) normaal verdeeld is. We zeggen dan dat Y := eX lognormaal verdeeld is met parameters µ en σ. a) Bepaal de verdelingsfunktie van Y uit de verdelingsfunktie van de standaardnormale verdeling. b) Bepaal de dichtheidsfunktie van Y . c) Bepaal gemiddelde en standaardafwijking van Y . 7.12 : Van de schoenen die in een fabriek geproduceerd worden is 4% defekt. Bepaal op 3 manieren de kans dat in een doos met 100 willekeurig gekozen paren schoenen er ten hoogste twee defekt zijn:
Oefeningen Kansrekening en Statistiek, Reeks 7
142
a) exact, b) met een benadering door een Poisson-verdeling, c) met een benadering door een normale verdeling. 7.13 : Een boek bevat gedrukte bladzijden met (gemiddeld) 40 regels van 75 lettertekens per bladzijde. (beschouw een spatie ook als een letterteken). De zetter maakt gemiddeld ´e´en fout per 6000 letters. a) Wat is de verdelingsfunktie van X, het aantal fouten per bladzijde? b) Bereken de kans dat een bladzijde geen enkele fout bevat. c) Wat is de kans dat een hoofdstuk van 16 bladzijden geen enkele fout bevat? 7.14 : Van een bepaald soort zaden is bekend dat de kans op ontkiemen gelijk is aan 0.8 . a) Hoe groot is de kans dat minstens 75% van de zaden ontkiemen in een verpakking van 100 zaden? b) Hoe groot is de kans dat minstens 75% van de zaden ontkiemen in een verpakking van 1000 zaden? 7.15 : Een Geigerteller geeft voor een bepaald radio-actief preparaat gemiddeld 90 aanslagen per minuut. Hoe groot is de kans dat er in een bepaalde minuut minder dan 85 aanslagen geregistreerd worden? 7.16 : Het gewicht G van mannelijke studenten is normaal verdeeld met µ = 75 kg en σ = 10 kg. a) Bepaal de kans dat een willekeurige student een gewicht heeft tussen de 60 en 65 kg. b) Gegeven is een groep van 2000 mannelijke studenten. Hoe groot is het verwachte aantal studenten in deze groep met een gewicht tussen de 60 en 65 kg? c) Zij X het aantal studenten in deze groep van 2000 met een gewicht tussen de 60 en 65 kg. Bepaal de kans P (X ≥ 142). N.B. In de praktijk blijkt de lengte wel (in goede benadering) normaal verdeeld te zijn maar het gewicht niet. 7.17 : Een gasmolecuul heeft een snelheid v met componenten vx , vy en vz . Neem aan dat vx , vy en vz onafhankelijk en normaal N (0, σ) verdeeld zijn. Bepaal de dichtheidsfunktie van de q 2 snelheidsverdeling van v = kvk = vx + vy2 + vz2 en bepaal de verwachtingswaarde E[v].
Oefeningen Kansrekening en Statistiek, Reeks 8
143
Reeks 8 8.1 : Een chemicus voert 12 maal een gewichtsbepaling uit, waarvan mag worden aangenomen dat de uitkomsten normaal verdeeld zijn met een standaardafijking σ van 2 gram. De chemicus vindt als gemiddelde van zijn 12 experimenten een waarde van 9 gram. Stel een 95%-betrouwbaarheidsinterval op voor de werkelijke waarde van de gemeten grootheid. 8.2 : De uitkomst X van een experiment is normaal verdeeld, X ∼ N (µ, 2). Laat S52 de schatter voor de variantie zijn berekend aan de hand van 5 onafhankelijke experimenten, bepaal dan P (S52 < 3). 8.3 : Een stochastische variabele X is normaal verdeeld. Een steekproef levert de vijf volgende waarden op: 6.1 7.2 3.4 5.5 2.1 . Stel een 90%-betrouwbaarheidsinterval op voor het gemiddelde µ a) in het geval dat σ = 2 bekend is, b) in het geval dat σ niet bekend is. 8.4 : De jaarlijkse hoeveelheid sneeuw waargenomen door het Koninklijk Meteorologisch Instituut te Ukkel is normaal N (µ, σ) verdeeld. Gedurende de laatste 20 jaren zijn er de sneeuwhoeveelheden xi , voor i = 1, . . . , 20 waargenomen met 20 X
xi = 200 mm
en
i=1
20 X
(xi − x20 )2 = 76 mm2 .
i=1
a) Bepaal een 95%-BI voor de gemiddelde hoeveelheid sneeuw in een jaar, veronderstellend dat de waargenomen sneeuwhoeveelheden in opeenvolgende jaren onafhankelijk zijn van elkaar. b) Bepaal het minimum aantal jaargegevens waarover men zou moeten kunnen beschikken om een 95%-BI te bekomen met lengte gelijk aan 1 mm. Veronderstel hierbij, dat s (de wortel van de steekproefvariantie) 2mm blijft in grotere steekproeven. 8.5 : De topsnelheid van een bepaald merk “sport”wagen is normaal verdeeld met gemiddelde µ en standaardafwijking σ. Men kiest willekeurig 10 wagens uit, meet de maximum snelheid vi en vindt: 10 X
vi = 2243 km/u
en
i=1
10 X
(vi − v 10 )2 = 290 (km/u)2 .
i=1
Bepaal 90%-BI’s voor µ en σ. 8.6 : Om de nauwkeurigheid van een balans te bepalen meet men 25 maal een bekend gewicht van (precies) 4 kg. met als resultaat: 25 X
xi = 100.02 kg
en
i=1
25 X
(xi − x25 )2 = 0.0113 kg2 .
i=1
Geef een 95%-BI voor de onbekende onnauwkeurigheid (standaarddeviatie) van de balans. Men veronderstelt dat de meetuitslagen onafhankelijke normaal verdeelde stochastische variabelen zijn. De onnauwkeurigheid is dan een maat voor σ. 8.7 : Beschouw n1 + n2 stochastische variabelen: X1 , X2 , . . . , Xn1 ∼ N (µ1 , σ)
en
Y1 , Y2 , . . . , Yn2 ∼ N (µ2 , σ)
waarbij µ1 , µ2 en σ onbekend zijn. Construeer een (1 − α)-BI voor het verschil µ1 − µ2 . 8.8 : Een stochastische variabele X is uniform verdeeld over [0, b], met b een onbekende parameter. Men verricht een steekproef X1 , . . . , Xn en beschouwt de statistiek M := max(X1 , . . . , Xn ). a) Gebruik M om een zuivere schatter voor b te vinden
Oefeningen Kansrekening en Statistiek, Reeks 8
144
b) Construeer een (1 − α)-BI voor de parameter b. 8.9 : Van een bepaalde grondstof wenst men het gehalte van een actief bestanddeel te schatten door een aantal monsters te nemen en te analyseren. Uit ervaring is bekend dat de analyseresultaten normaal verdeeld zijn met een standaardafwijking van 0.6 gram. Men wenst met een betrouwbaarheid van 99% de werkelijke hoeveelheid van het bestanddeel te schatten tot op 0.5 gram nauwkeurig. Hoeveel monsters moet men analyseren om aan deze nauwkeurigheid te voldoen? 8.10 : Het aantal binnenvallende deeltjes in een Geigerteller kan opgevat worden als een Poissonverdeelde kansvariabele met parameter λ, het gemiddeld aantal binnenvallende deeltjes per minuut. Een meting van een staal met een Geigerteller heeft 80 aanslagen in een minuut opgeleverd. Gebruik de normale benadering van de Poisson verdeling om een 95%-betrouwbaarheids interval voor λ te vinden. 8.11 : Men zegt dat zaad een goede kiemkracht bezit als er minstens 75% van de zaden ontkiemt. Bij een test op peterseliezaden vond men, dat er van de 5000 geteste zaden 3600 ontkiemden. Stel een 95%-BI op voor het percentage peterseliezaden, dat ontkiemt. Mag men zeggen dat dit zaad een goede kiemkracht bezit? 8.12 : De levensduur van een gloeilamp is exponentieel verdeeld met onbekende parameter λ. Men test 15 gloeilampen en vindt 130 uur als gemiddelde levensduur. Construeer een 90%-BI voor λ en voor de gemiddelde levensduur. 8.13 : Een marketingbureau doet een onderzoek naar het gebruik van een bepaald wasmiddel. Van 300 aselect gekozen huismannen en huisvrouwen gebruikten 40 personen dit wasmiddel. Geef een 90%-BI voor het percentage gebruikers van dit wasmiddel.
Oefeningen Kansrekening en Statistiek, Reeks 9
145
Reeks 9 9.1 : De chemicus van oefening heeft op theoretische gronden een hypothese opgesteld dat de werkelijke waarde van de gemeten grootheid 10 gram moet zijn. a) Zal de chemicus op grond van zijn meetresultaten (x12 = 9 en σ = 2) de hypothese verwerpen als hij deze toetst met een significantieniveau van 5%? b) Wat zal zijn conclusie zijn als hij een signifcantieniveau van 10% gekozen had? 9.2 : Een fabrikant van wegwerpbatterijen beweert dat zijn batterijen goed zijn voor 10 uur muziek op een walkman. Een consumentenmagazine wil dit testen en voert een steekproef uit op 20 batterijen. De gemiddelde speelduur x20 hiervan is 9 uur en 35 minuten en s20 = 20 minuten. Is het verschil met de opgegeven waarde significant op niveau 10%? 9.3 : Uit een grote partij aspirinetabletten wordt een steekproef genomen van 10 stuks. De gewichten van deze 10 tabletten, gemeten in mg, zijn: 336
333
335
333
329
334
324
331
332
332 .
a) Stel een 95 % BI op voor het gemiddelde gewicht van een aspirine tablet uit deze partij, als het gewicht van een tablet een normaal verdeelde stochastische variabele is. b) De machine die de aspirines produceerde stond afgesteld op 335 mg/tablet. Toets of aan deze instelling voldaan wordt met een significantieniveau α van 5%. c) Toets de hypothese σ 2 = 10 mg2 met een α van 5 %. 9.4 : Een machine produceert metalen staafjes. De lengte van deze staafjes is normaal verdeeld met σ = 2.0 cm. De gemiddelde lengte kan worden ingesteld en heeft als normwaarde 20.0 cm. Er kunnen storingen optreden waardoor het gemiddelde lager wordt, zonder dat de spreiding verandert. Ter controle neemt men regelmatig steekproeven van 5 stuks en meet hiervan de lengte. Bij een steekproef vond men een gemiddelde lengte van 18.3 cm. a) Toets de hypothese dat de instelwaarde 20.0 cm is bij een α van 5% en van 1%. b) Hoe groot is de fout van de eerste soort bij de onder a) uitgevoerde toets. c) Bereken, onder de veronderstelling dat de instelwaarde 18.0 cm. is, de fout van de tweede soort voor de onder a) uitgevoerde toetsen. 9.5 : Het is bekend dat 1 op de 10 personen een zeker produkt gebruikt. Na een agressieve campagne gebruiken 60 personen uit een aselecte steekproef van 400 mensen dit produkt. Toets met een significantie niveau van 5% of de advertentiecampagne effectief is geweest. 9.6 : Een landbouwproefstation wil twee soorten tarwe (A en B) vergelijken. Op 20 verschillende percelen zaait men na bemesting de ene helft in met soort A, de andere helft met soort B. Er komen de volgende opbrengsten (in kg) van de percelen: perc. nr. 1 2 3 4 5 6 7
opbr. A 560 290 440 250 650 890 410
opbr. B 470 280 390 270 600 750 380
perc. nr 8 9 10 11 12 13 14
opbr. A 560 750 320 490 500 630 260
opbr. B 590 700 310 440 480 620 300
perc. nr. 15 16 17 18 19 20
opbr. A 710 480 360 530 620 370
opbr. B 630 450 350 570 570 340
a) Toets m.b.v. de t-toets of tarwesoort A beter is dan tarwesoort B. Het gebruik van de t-toets is gebaseerd op de aanname, dat de opbrengsten van de tarwesoorten A en B normaal verdeelde stochastische variabelen zijn. Als dit niet zo is, of als deze verdelingen niet
Oefeningen Kansrekening en Statistiek, Reeks 9
146
bekend zijn, moet men gebruik maken van verdelingsvrije of parametervrije toetsen. Een voorbeeld hiervan is de tekentoets: als beide tarwesoorten even goed zijn, is de kans dat op een bepaald perceel tarwesoort A een grotere opbrengst oplevert dan soort B gelijk aan 12 . Als tarwesoort A beter is dan soort B dan is deze kans p groter dan 12 . Bekijk nu per perceel het verschil tussen de opbrengsten van soort A en soort B, waarbij alleen naar het teken van het verschil gekeken wordt: + of −. b) Toets m.b.v. de tekentoets de nulhypothese H0 : p = 12 (A en B geven een gelijke opbrengst) tegen het alternatief H1 : p > 12 (A levert meer op dan B) met een significantieniveau α van 5%. 9.7 : Men wenst het benzineverbruik van twee verschillende automerken te vergelijken. Men laat 10 auto’s van merk A en 16 auto’s van merk B met een constante snelheid van 90 km/uur over eenzelfde stuk autoweg van 100 km rijden. Men vindt voor het gemiddelde gebruik: wagens van merk A wagens van merk B
gemiddeld verbruik 6.5 liter/100 km 6.0 liter/100 km
standaardafwijking s10 = 0.21 liter/100 km s16 = 0.22 liter/100 km
Is het verschil in varianties significant op het niveau 5%? Zo niet, test dan of het verschil in brandstofverbruik significant is op het 5%-niveau. 9.8 : Gedurende een bepaalde tijd werden de temperaturen in de kantoren van de VUB opgetekend. Op 42 metingen bekwam men een gemiddelde van 22◦ C en een standaardafwijking van 4◦ C. a) Toets de bewering dat de gemiddelde temperatuur in de kantoren tenminste 23◦ C is (α = 5%). b) In de leslokalen van de VUB werd ook regelmatig de temperatuur genoteerd. Men bekwam het volgende lijstje met metingen: temperatuur 15 16 18 20 22 26
frequentie 5 6 4 15 6 4
Kun je hieruit besluiten dat het in de leslokalen beduidend kouder is dan in de kantoren? (α = 5%) 9.9 : Een fijnmechanische werkplaats kan de zware concurrentie strijd in de sector alleen overleven als de precisie van haar produkten wordt verbeterd. Om te beginnen bestelt de directeur een proefexemplaar van een nieuw type draaibank. De chef van de werkplaats vindt de machine geen verbetering en laat, om dit te staven, 10 exemplaren van een standaardprodukt maken op de nieuwe machine en 20 exemplaren op de oude. In de eerste groep is de standaardafwijking in de dikte 14 µm en in de tweede groep 17 µm. Toets de bewering van de chef op het 5% niveau. 9.10 : Onderzoekers veronderstellen, dat de besmettingsgraad met het HIV-virus in de grote steden van Centraal Afrika 22% bedraagt. Uit een steekproef onder 120 personen blijken er 44 personen seropositief te zijn. Moet men op basis van deze steekproef de hypothese herzien? (α = 5%) 9.11 : Men weet dat het gewicht van vier maanden oude mestvarkens van een bepaald ras normaal is verdeeld met een gemiddelde van 55 kg en een standaardafwijking van 4.5 kg. Om uit te maken of een alternatieve manier van voeden beter is (d.w.z. dat men zwaardere varkens krijgt) probeert men deze voedingswijze uit op 25 pasgeboren varkens van dat ras, aselect over het land verspreid. Wanneer men vier maanden na de geboorte hun gewicht meet, bekomt men een gemiddeld gewicht van x = 62 kg. Is de alternatieve manier van voeden beter dan de traditionele manier, als men veronderstelt dat de standaardafwijking van het gewicht onveranderd is? (α = 5%) 9.12 : Een geneesmiddelenfabrikant beweert dat een bepaald vaccin 85% effectief is (d.w.z. de kans dat men er immuun van wordt is 0,85). Om na te gaan of deze bewering strookt met de werkelijkheid, wordt het vaccin geprobeerd bij 100 aselect gekozen personen. Wanneer 82 of meer personen immuun worden nemen we de bewering aan. Vind een benadering voor de kans dat we
Oefeningen Kansrekening en Statistiek, Reeks 9
147
de bewering niet voor waar aannemen, terwijl het vaccin in werkelijkheid toch 85% effectief is. 9.13 : Bij een bepaalde plantensoort komen volgens de wetten van Mendel de vier vari¨eteiten AB, aB, Ab en ab voor in de verhouding 9 : 3 : 3 : 1. In een aselecte steekproef van 160 exemplaren vindt men: vari¨eteit aantal
AA 88
aB 35
Ab 24
ab 13
totaal 160
Toets met behulp van de χ2 -toets of de gemeten frequentieverdeling verschilt van de theoretisch verwachte frequentieverdeling op het niveau van α = 5% .
Oefeningen Kansrekening en Statistiek, Reeks 10
148
Reeks 10 10.1 : De 12 metingen, die de chemicus uit oefening 8.1 uitvoerde, hadden de volgende uitkomsten: 10.3
9.4
8.6
7.7
9.8
10.1
7.9
8.8
8.3
9.4
9.5
8.2
a) Toets aan de hand van deze metingen de hypothese dat µ = 10.0 bij gegeven σ = 2.0, via het betrouwbaarheidsinterval van µ met α = 5%. Toets eveneens de hypothese µ = 10 als σ niet bekend is. b) Bij welk significantieniveau α zal de chemicus zijn hypothese verwerpen, als hij toetst met onbekende σ? 10.2 : Beschouw de 53 metingen van het stikstofgehalte van oefening . a) Bepaal een 95%-betrouwbaarheidsinterval voor het werkelijke N-gehalte van de kunstmest. b) Hoeveel % van de waarnemingen in de steekproef van 53 metingen liggen buiten dit betrouwbaarheidsinterval? c) De fabrikant beweert dat het N-gehalte van de kunstmest minstens 17.4% bedraagt. Toets aan de hand van de 53 metingen of de fabrikant gelijk heeft. Neem een significantieniveau van 5% aan. 10.3 : In oefening werd uit een partij aspirinetabletten de gewichten bepaald van een steekproef van 10 stuks. Deze partij wil men nu vergelijken met een tweede partij. Uit de tweede partij wordt van 12 tabletten het gewicht gemeten met de volgende uitkomsten (in mg): 332
336
337
336
333
335
332
334
332
334
340
332
a) Toets of de varianties in de gewichten van beide partijen gelijk zijn, als α = 5%. b) Toets de hypothese, dat het gemiddelde gewicht van de eerste partij gelijk is aan dat van de tweede partij, als α = 5%. c) Ga na wat er gebeurt als er een uitschieter tussen de metingen van de tweede partij zit, als er bijv. 360 i.p.v. 340 mg. gemeten wordt. Verklaar uw antwoord. 10.4 : Aan 8 konijnen wordt een gelijke dosis insuline gegeven. Om de hoeveelheid glucose (in mg/l) in hun spieren te meten worden 2 methodes gebruikt (A en B) met de volgende resultaten: konijn methode A methode B
1 1.8 2.0
2 2.0 1.6
3 2.2 1.1
4 1.9 1.4
5 2.3 1.9
6 1.6 1.6
7 2.1 2.3
8 2.1 2.0
a) Toets met een α van 5% of er een verschil is tussen de twee methodes. b) Veronderstel, dat er niet 8 maar 16 konijnen gebruikt waren bij dit onderzoek. (D.w.z de metingen met methode B zijn gedaan met 8 andere konijnen.) Voer de toets of er een verschil bestaat tussen de twee methodes A en B nogmaals uit voor deze nieuwe proefopzet. 10.5 : Voer de toets van oefening nogmaals uit, nu met Statview. Statview voert deze toets uit onder het compare-menu, contingency table, 1-group-chi-square. De gemeten frequentie moet in een x-kolom geplaatst worden en de theoretische frequentie in een y-kolom. 10.6 : Genereer m.b.v. Statview-series (onder tools-menu) 200 uniform verdeelde random getallen met waarden tussen 0 en 1. Maak een klassenindeling in 20 klassen en bekijk het histogram. Toets m.b.v. een χ2 -toets op het niveau α = 5% of deze random gegenereerde getallen uit een uniforme verdeling afkomstig zijn. 10.7 : Een meting van de lengtes van 100 babies leverde een gemiddelde lengte op van 67 cm met een standaardafwijking van 3 cm en de volgende frequentie tabel:
Oefeningen Kansrekening en Statistiek, Reeks 10
149
lengte (in cm) 60 – 63 63 – 66 66 – 69 69 – 72 72 – 75
frequentie 8 20 41 25 6
Toets m.b.v. een χ2 -toets of deze waarnemingen komen uit een normale verdeling met een µ van 67 cm en een σ van 3 cm als α = 5%. 10.8 : Men wenst te toetsen of de duur van telefoonsprekken een exponentieel verdeelde stochastische variabele is. Hiervoor meet men de duur van 100 willekeurig gekozen telefoongesprekken. Men vindt de volgende resultaten: duur (min) 0–2 2–4 4–6 6–8 8 – 10 10 – 12 12 – 14 14 – 20 20 – ∞
aantal 30 19 13 12 9 4 4 4 5
Kan men uit deze gegevens besluiten, dat de duur van een telefoongesprek exponentieel verdeeld is met een gemiddelde duur van 5.9 minuten? neem α = 10%. 10.9 : Twee verschillende fabricageprocessen leveren 2% respectievelijk 4% defecte produkten bij een steekproef van 250 stuks uit produkten van ieder van beide processen. Toets op het niveau α = 5% of het eerste proces beter is dan het tweede. 10.10 : Een leraar gebruikt 3 verschillende onderwijsmethoden in 3 verschillende groepen met het volgende resultaat: geslaagd gebuisd
methode 1 50 5
methode 2 47 14
methode 3 56 8
Kan de leraar uit deze resultaten concluderen dat ´e´en van de drie methodes beter is dan de andere? (α = 5%). 10.11 : Van 6800 aselect gekozen Belgen noteerde men de kleur van haar en ogen. Men bekwam de volgende resultaten: kleur ogen blauw grijs bruin totaal
blond haar 1768 946 115 2829
bruin haar 807 1387 438 2632
zwart haar 189 746 288 1223
rood haar 47 53 16 116
totaal 2811 3132 857 6800
Toets of er een verband bestaat tussen de haarkleur en de kleur van de ogen? (α = 5%). 10.12 : We gooien met een knoop en noteren steeds of deze op voor- of achterzijde valt. a. Als de kans dat de voorzijde van de knoop boven komt gelijk is aan 40%, benader dan de kans dat de knoop in 150 worpen minstens 70 maal met de voorzijde naar boven valt. b. In een experiment gooien we 150 maal en meten dat de knoop 72 maal met de voorzijde naar boven valt. Maak een 95%-Betrouwbaarheidsinterval rond de gemeten waarde en toets of de knoop aan het voorgestelde model (met p = 40%) zou kunnen voldoen op het niveau α = 5% .
Oefeningen Kansrekening en Statistiek, Reeks 10
150
10.13 : Neem de Bumpus-data uit oefening en kies α = 5% . a. Toets of er een verschil is tussen de spanwijdte van dood gevonden en levend gevangen exemplaren. Welke toets of toetsen gebruik je en wat zijn de hypotheses en de conclusies? Bereken ook de overschrijdingskans. b. Toets of de totale lengte van een mus (in deze dataset) gelijk is aan 5/8 maal de spanwijdte. Welke toets of toetsen gebruik je en wat zijn de hypotheses en de conclusies? Bereken ook de overschrijdingskans.
Oefeningen Kansrekening en Statistiek, Reeks 11
151
Reeks 11 11.1 : Uit de populatie van de Belgische bevolking werden 5 waarnemingen verricht van het basisinkomen en het aantal studiejaren na het 12-de levensjaar. aantal studiejaren (x) 6 12 10 8 9
basisinkomen in 103 BF (y) 10 20 17 12 11
a) Maak een scatterdiagram van deze gegevens. b+b bx. b) Bepaal de regressierechte van y op x: yb = a
c) Bereken s2 en bepaal een 95%-BI voor σ 2 (de residuele variantie). d) Bepaal een 95%-BI voor bb. e) Voorspel met de regressielijn de waarde van yb als x = 11 en bepaal een 95%-BI rond deze voorspelde waarde. f) Bepaal de lineaire correlatieco¨effici¨ent ρxy en stel een 95%-BI interval op voor ρxy . g) Toets op het niveau α = 5% de hypothese dat er geen lineair verband is tussen x en y tegen de hypothese dat er wel een lineair verband is. 11.2 : Krekels sjirpen door hun vleugels tegen elkaar te wrijven. De frequentie van het sjirpen, het aantal malen per seconde dat de vleugels heen en weer bewegen, neemt toe als de temperatuur hoger wordt. Uit de volgende waarnemingen willen we dat verband nader bestuderen: frequentie (x) 20 16 19 17 15 17 17 15 16 18
temperatuur (y) 31 22 34 27 21 28 29 26 27 29
a) Maak een scatterdiagram van deze gegevens. b+b bx. b) Bereken de regressielijn van y op x: yb = a
c) Bereken y en x en controleer, dat de regressielijn door (x, y) gaat. d) Bereken de covariantie Cov(x, y) en de correlatie co¨effici¨ent ρ(x, y) . e) Bereken de variantie s2 van yi ∼ N (a + b xi , σ). f) Teken een 95%-BI voor de richtingsco¨effici¨ent b van de regressielijn. g) Bepaal een 95%-BI voor y(x). h) Toets de hypothese b = 0 met α = 5%. i) Er wordt een 11-de meting (x, y) = (19, 33) gedaan. Ligt deze waarneming binnen het 95%-BI van y(x), dat bepaald is op grond van de eerste 10 waarnemingen? j) Bepaal de vergelijking van de regressielijn als de temperaturen in graden Fahrenheit opgegeven zijn (x◦ C = (1.8 x + 32)◦ F ). Veranderen de covariantie Cov(x, y) en de correlatieco¨effici¨ent ρ(x, y) door deze schaalverandering?
Oefeningen Kansrekening en Statistiek, Reeks 11
152
k) Welke temperatuur zal op grond van het gevonden lineaire model corresponderen met een sjirpfrequentie van 21 trillingen per seconde? Bepaal het 95%-BI rond deze geschatte waarde. l) Bepaal de regressielijn van x op y. m) Laat b de helling zijn van de regressielijn van y op x en d de helling van de regressielijn van x op y. Toon dan aan dat b · d = r2 . 11.3 : De hardheid van een metaallegering is gemakkelijker te meten dan de treksterkte. Omdat de treksterkte een belangrijke eigenschap is willen onderzoekers nagaan of de hardheid te gebruiken is om voorspellingen te doen over de treksterkte van een metaallegering. Daartoe werden van 20 monsters, vervaardigd onder verschillende condities de hardheid en de treksterkte gemeten. hardheid 52 56 60 62 66 69 71 73 76 80
treksterkte 12.3 12.5 14.5 15.6 14.7 15.0 16.7 17.6 17.6 18.6
hardheid 54 57 61 64 68 70 71 76 77 83
treksterkte 12.8 13.6 13.5 16.1 16.1 16.0 17.4 16.8 19.0 18.9
a) Maak een scatterdiagram van deze metingen b+b b h en stel 95%-BI’s op voor a en b b) Bepaal de regressielijn tb = a
c) Toets de hypotheses : b = 0 en a = 0. d) Geef een schatting voor de gemiddelde treksterkte van een metaal legering met een hardheid van 66 en geef een 95%-BI voor deze schatting. Doe hetzelfde voor een legering met een hardheid van 85. 11.4 : Neem de Bumpus-data uit oefening en kies α = 5% . a. Doe een regressie van de totale lengte op de spanwijdte, bepaal intercept, helling en de residuele som van kwadraten. b. Geef betrouwbaarheidsintervallen voor helling en intercept. c. Toets of het intercept gelijk is aan nul. Wat zijn de hypotheses en de conclusies? Bereken ook de overschrijdingskans. d. Toets of de helling gelijk is aan 5/8. Wat zijn de hypotheses en de conclusies? Bereken ook de overschrijdingskans.
12
SPSS, een summier overzicht van een aantal faciliteiten
12
SPSS, een summier overzicht van een aantal faciliteiten
12.1
Inleiding
153
SPSS is een afkorting van ”Statistical Package for the Social Sciences”. Het wordt veel gebruikt en is al vrij lang op de markt. De laatste versies zijn volledig menugestuurd en eenvoudig te gebruiken. Het belangrijkste bij het gebruik van zo’n pakket is, dat je weet wat een een statistisch begrip of toets betekent en hoe hierbij de gegevens gebruikt worden. Via de menu’s wijst de rest zich dan vanzelf.
12.2
Het werkblad (data window of data editor)
In de kolommen staan de waarnemingen behorende bij een variable. In de rijen staan de gevallen (“cases”), de waarnemingen van de verschillende variabelen in eenzelfde geval. Als je bijvoorbeeld fysieke kenmerken zoals lengte, gewicht, haarkleur, · · · , van een groep personen bestudeert, gebruik je per persoon (geval) een rij en voor ieder kenmerk (variabele) een kolom.
12.3
Het FILE-menu
Het file menu biedt drie mogelijkheden om een bestaande dataset te openen of een nieuwe te cre¨eren: a. New: Cre¨eer een nieuw werkblad (data window). b. Open: Open een reeds bestaande file. Standaard is dit een SPSS-datafile, maar je kunt via deze weg ook een tekst-file openen. In een tekst-file moet per geval een regel gebruikt worden en moeten de verschillende waarnemingen op een regel gescheiden zijn door tabs; het spreekt vanzelf, dat iedere regel even veel tabs moet bevatten omdat anders data niet in de goede kolom terecht zouden kunnen komen. c. Read ASCII Data: Importeer data uit een ASCII-file, een bestand met pure tekst en dus zonder font- en layout aanwijzingen. SPSS zal de gebruiker vragen naar de namen van de variabelen en de wijze waarop de data moeten worden ge¨ınterpreteerd. Als je al een werkblad in gebruik hebt, wordt dit verwijderd bij het openen van een nieuw. Via het file-menu kun je een bestand bewaren (Save) of uitprinten.
12.4
Aanmaken van kolommen en invoeren van data
Bij het opstarten van SPSS verschijnt er op het scherm een werkblad (data sheet), mogelijk gevuld met data als je vertrekt van een bestaande file. Iedere kolom (variabele) draagt een naam van maximaal 8 karakters. Iedere rij (case) draagt een nummer. Een cel is bepaald door zijn kolomnaam en zijn rijnummer. De cursor wijst altijd naar een cel; rijnummer en kolomnaam ervan staan in de linker bovenhoek. Een nieuwe kolom kan alsvolgt worden aangemaakt: a. Door in een cel een getal te zetten. De bijbehorende kolom krijgt dan de (default) naam “var0000xx” en het numerieke formaat (F8.3) van een decimaal getal met 3 cijfers na de komma (decimal point). b. Door in het Data menu te kiezen “Insert Variable ...”. Een nieuwe kolom met (default) naam “var0000xx” en numeriek formaat (F8.3) wordt ingevoegd v´ o´or de cursorkolom.
12
SPSS, een summier overzicht van een aantal faciliteiten
154
c. Zet de cursor op een (lege) kolom en kies in het Data–menu “Define Variable ...”. Je krijgt dan de mogelijkheid om de kolom een naam te geven en het type (getal – datum – string ) en de presentatie ervan te kiezen. Voor een getal kun je kiezen uit numeric x.y of scientific x.y. In beide gevallen krijg je een veld van x posities met y cijfers achter de decimale punt of komma. Bij numeric heeft de decimale punt of komma een vaste plaats, b.v. π = 3.14159 (zodat x ≥ y + 2). Bij scientific krijg je een mantisse en een exponent, b.v. π = 3.14159 E + 00 = 0.314159 E + 01 (zodat x ≥ y + 6). d. Met Compute in het Transform–menu, zie hieronder. N.B. Punt (c) biedt je ook de mogelijkheid om de naam en de presentatie van een bestaande kolom te wijzigen.
12.5
Transformatie van data
Met Compute in het Transform–menu kun je een nieuwe kolom (target variable) defini¨eren en de waarden erin berekenen via een formule, samengesteld uit namen van variabelen, getallen en standaard-operatoren (∗∗ voor machtsverheffing) en standaardfuncties. Variabelen en functies “selecteer” je in hun menu’s en importeer je in het compositie-venster door op de pijl te klikken. Voorbeeld 1: Een kolom met n random getallen maak je door in het menu met Transform → Compute een nieuwe kolom te defini¨eren en te vullen met de functie RV.XXX(· · ·), waar RV staat voor “Random Variable” , XXX de naam is van de gewenste verdeling en · · · de parameters van die verdeling zijn, b.v. RV.normal(µ , σ) als de getallen normaal N (µ , σ) verdeeld moeten zijn. Je moet er wel eerst voor zorgen dat de n-de cel van een kolom een waarde heeft. Voorbeeld 2: Een kolom met de rangnummers 1, 2, 3, · · · maak je door eerst in Transform → Compute een nieuwe kolom met waarden 1 te maken en vervolgens hiervan via Transform → Time Series een cumulatieve som te maken. In het help–menu vind je onder keyword → functions een overzicht van de beschikbare functies en in het byzonder van verdelingsfuncties (Cumulative Distributions functions: Normaal, χ2n , tn , Fm,n , · · ·) en inverse verdelingsfuncties (voor de berekening van quantielen). Met Sort Cases in het Data–menu kun je een bestand sorteren. Als je de mogelijkheid wilt hebben om de oorspronkelijke orde terug te krijgen, maak je eerst een kolom met rangnummers. De oude orde kun je dan herstellen door op deze kolom te sorteren.
12.6
Grafische weergave van de data
Via het Graphs–menu kun je onder andere een histogram, een boxplot, een scatterplot en normale P–P - en Q–Q - plots maken. a. Voor een histogram kies je in het betreffende menu een variabele en klikt op OK. In het plaatje dat je dan krijgt kun je via de knop EDIT (in het Chart venster) de klassebreedte en het aantal klassen aanpassen. Je krijgt dan een nieuwe menubalk en in het “chart”-menu klik je dan .?.. N.B. Op sommige Mac’s crasht EDIT!!! Een ander methode bestaat erin om via het menu Transform → Compute de gewenste kolom met de functie RND (=round, afronden) af te beelden op de gewenste verzameling klassemiddens en dan een Barchart te maken. RND rondt een re¨eel getal af naar het dichtstbijzijnde gehele getal, als k geheel en k −
1 2
≤ x < k + 12 , dan RND(x) = k .
Als je de indeling in klassen [a , a + d) , [a + d , a + 2d) , · · · met klassebreedte d wilt maken, dan kun je de elementen van de kolom OudeCol op de klassemiddens {a + 12 d , a + 32 d , · · ·} afbeelden (ga na!) met
12
SPSS, een summier overzicht van een aantal faciliteiten
155
N ieuwCol = a + d ∗ (0.5 + RN D((OudeCol − a)/d − .5)) . b. In het Boxplot-menu heb je de mogelijkheden simple ↔ clustered
en
groups of cases ↔ separate variables.
In het geval van “groups” heb je een aparte variabele (categorie) nodig die je dataset uitsplitst in deelgroepen. Voor ieder van deze groepen wordt een aparte boxplot gemaakt. Zie help → keyword → boxplots → chart types voor details. Uitschieters (data verder weg dan 1.5 maal het interkwartiel) worden apart getekend. c. In een scatterplot van de variabelen X en Y worden de koppels (xi , yi ) uitgezet in het XY –vlak om te zien of er een verband zou kunnen zijn tussen beide variabelen. d. P–P en Q–Q plots: Laat {xi |i = 1 · · · n} een gegeven gesorteerde dataset zijn met gemiddelde m, standaarddeviatie s en empirische verdelingsfunctie FX en laat Y ∼ N (m, s) de “best bijpassende” normale verdeling zijn. Een “normale P–P plot” is een scatterplot van FX (xi ) = i/n en de theoretische kans P (Yi ≤ xi ). Een “normale Q–Q plot” doet hetzelfde voor de quantielen van beide verdelingen. Het is een hulpmiddel om te zien of een dataset (min of meer) normaal verdeeld is.
12.7
Beschrijvende statistiek
In het menu Statistics → summarize → frequencies selecteer je de variabelen. Onder de knop “Statistics · · ·” vind je een submenu, waarin je de gewenste grootheden (gemiddelde, mediaan, standaarddeviatie, kurtosis, · · ·) kan selecteren. Om andere dan de 25%, 50% en 75% percentielen te krijgen, moet je het hokje voor Percentile(s) aanklikken en in het hokje er achter telkens een waarde invoeren en via add toevoegen aan de lijst. De resultaten worden in het output window neergeschreven. Onder de knop “Charts · · ·” vind je een submenu, waarin je kunt vragen om tegelijk ook een histogram van de data te tekenen. Ook via het menu Statistics → summarize → explore kun je de gebruikelijke beschrijvende grootheden (gemiddelde, standaarddeviatie, mediaan, interkwartiel) plus een Betrouwbaarheidsinterval voor het gemiddelde laten uitrekenen en een boxpot laten tekenen. Als je datakolom (variabele) X metingen bevat en een tweede datakolom N de aantallen van deze metingen (b.v. als X en N afkomstig zijn van een frequentietabel), dan kan je de data van X door SPSS laten “wegen” door de kolom N door via het menu Data → weight cases deze kolom als “frequentie variable” aan te duiden. Als je rijen bij de statistische verwerking wilt uitsluiten, kun je dit doen via het menu Data → select cases. Een eenvoudige manier is om eerst een (extra) kolom met nullen en enen te maken
12.8
t-Toetsen
Te vinden in het menu Statistics → Compare Means. SPSS geeft als uitvoer de waarde van de toetsgrootheid, de overschrijdingskans Sig (of Significance level), het aantal vrijheidsgraden df en het (tweezijdig) betrouwbaarheidinterval CI (Confidence Interval). Standaard wordt de betrouwbaarheid op 95% gezet maar in het options submenu kun je deze zelf instellen. SPSS doet altijd een tweezijdige toets. Als je een eenzijdige toets wil doen, moet je het niveau α verdubbelen om de goede grens voor het betrouwbaarheisinterval te vinden en moet je de overschrijdingskans delen door twee. Maar je moet wel nagaan of de toetsgrootheid aan de goede zijde van het midden van het betrouwbaarheidsinterval van de tweezijdige toets ligt!.
12
SPSS, een summier overzicht van een aantal faciliteiten
156
a. t-toets voor ´ e´ en groep: H0 : µ = µ0 tegen H1 : µ 6= µ0 . Selecteer in het One-Sample T Test–menu een of meer toets-variabelen, geef de gepostuleerde waarde voor µ op in test value (dezelfde voor alle variabelen! en kies desgewenst in de options een betrouwbaarheid verschillend van 95%. b. t-toets voor twee gepaarde groepen: H0 : µ1 = µ2 tegen H1 : µ1 6= µ2 . Zet de beide data-reeksen in twee kolommen, met overeenkomstige elementen op dezelfde rij. Selecteer in het Paired-Samples T Test–menu twee toets-variabelen door ze aan te klikken met ingedrukte command toets en transporteer ze naar het “paired variables window” door de pijl aan te klikken. Desgewenst kun je zo meerdere paren voor een gepaarde t-toets selecteren. Bij de uitvoer vinden we ook het gemiddelde en de standaarddeviatie van beide groepen apart en de correlatie ertussen; bovendien staat onder het hoofdje Sig de significantie (overschrijdingskans) van de hypothese dat deze correlatie nul is. Als de correlatie niet significant is, kun je net zo goed een ongepaarde toets gebruiken. c. t-toets voor twee ongepaarde groepen: H0 : µ1 = µ2 tegen H1 : µ1 6= µ2 . Zet de beide data-reeksen achtereen in een kolom en maak een tweede kolom (categorie) waarin, b.v. door een integer 1 of 2, is aangegeven tot welke groep het betreffende gegeven behoort. Selecteer in het Independent-Samples T Test–menu de toetsvariabele en de groeperende (categorale) variable. In deze categorale kolom moet je via de knop “define groups” de twee waarden selecteren, die de te vergelijken groepen aanduiden. Zoals het hoort, toetst SPSS eerst met een F-toets (Levene) of de varianties gelijk geacht mogen worden. Vervolgens wordt er dan zowel een t-toets gedaan voor het geval, dat de varianties gelijk zijn, alsook een (benaderende) t-toets voor het geval, dat de hypothese van gelijke varianties wordt verworpen. De keuze tussen beide resultaten wordt aan de gebruiker overgelaten.
12.9
Toetsen met de χ2 –verdeling
a. χ2 -toets op een kansverdeling: H0 : ni = νi , i = 1 · · · n, tegen H1 : ni 6= νi voor minstens ´e´en i, waar ni het gemeten aantal van groep i is en νi het aantal op grond van de gepostuleerde verdeling. Via het menu Statistics → Nonparametric Tests → Chi–Square · · · kun je een kolom opgeven met waargenomen frequenties (of een kolom met categorie¨en gewogen door een kolom met frequenties). Als de verwachte frequenties niet allemaal gelijk zijn, moet je deze in de goede volgorde manueel inbrengen of een syntax window gebruiken, zie 12.11. b. Kruistabellen (contingency tables). Toets H0 : gegevens in rijen en kolommen zijn onafhankelijk tegen H1 : er is afhankelijkheid tussen rijen en kolommen. Een kruistabel zoals tabel 2 is (vrijwel altijd) een uittreksel van een groter bestand zoals tabel 1. In SPSS (versie 6.1) kun je niets doen met de kruistabel 2 en moet je werken met de primaire data zoals tabel 1. tabel 1. aantal 252 224 248 276 20 16
Uittreksel uit een enqu`ete geslacht stemming man voor man tegen vrouw voor vrouw tegen vrouw blanco man blanco
tabel 2. bijbehorende kruistabel man vrouw voor 252 248 tegen 224 276 blanco 16 20
In het menu Data → weight cases duid je de kolom aantal aan als “frequentie variable” zodat de andere kolommen met deze aantallen gewogen worden. In het menu Statistics → summarize → crosstabs selecteer je de rij-variabele stemming en
12
SPSS, een summier overzicht van een aantal faciliteiten
157
kolom-variabele geslacht (of andersom), in het “Statistics ...” submenu duidt je aan dat je een (benaderende) toets met de Chi-kwadraat–verdeling doet en in “Cells ...” duidt je aan welke tussenresultaten je in je uitvoer wilt zien. Als resultaat krijg je de waarde van de toetsgrootheid, het aantal vrijheidsgraden (df) en de overschrijdingskans (Sig) berekend met drie methoden, de oorspronkelijke methode van Pearson (zoals behandeld in de cursus), Pearsons methode met continu¨ıteitscorrectie en de maximum likelihood methode.
12.10
Regressie en correlatieanalyse
Zet de data in kolommen X en Y . In het menu Statistics → regression → linear selecteer je de onafhankelijke variabele (X) en de afhankelijke variabele (Y ); in het submenu “Statistics ...” selecteer je de gewenste uitvoer en in het submenu “Plots ...” de gewenste scatterplots.
12.11
Het Syntax Window
SPSS is van oorsprong een command language; alle opdrachten worden door textcommando’s gegeven. Bovenop deze command language is een menu-systeem gebouwd, dat de commando’s genereert en doorgeeft aan de SPSS-processor. Als je via het menu een opdracht samenstelt kun je de equivalente commando’s in de SPSS-programmeertaal zien in een syntax window, dat je cre¨eert door je opdracht niet af te sluiten met het aanklikken van OK maar met paste; desgewenst kun je de opdracht aanpassen en (alsnog) uit laten voeren door in de menubalk de betreffende knop (met een klein naar rechts gericht driehoekje) aan te klikken. In de meeste gevallen werkt het menu-systeem vrij goed, en hoef je je als gebruiker niets aan te trekken van die command language, maar soms is werken via een menu echter zeer onhandig. Via een syntax window kun je dan je commando’s bijsturen. Een goed voorbeeld is de χ2 -toets op een kansverdeling, als de kansen van de verschillende klassen niet alle dezelfde waarde hebben. Als je volledig via het menu werkt, moet je de verwachte kansen (of waarden) een voor een intijpen maar dat is een methode uit het stenen tijdperk. Je kunt echter ook via het menu (Statistics → Nonparametric Tests → Chi–Square · · ·) alle details opgeven behalve deze verwachte waarden en dan vervolgens via de knop paste een syntax window openen en hierin /EXPECTED=EQUAL vervangen door /EXPECTED=
via een copy-paste operatie. Als voorbeeld beschouwen we de data van het Rutherford-Geiger experiment (zie syllabus, hoofdstuk 3). tabel 3. Het SPSS DataWindow voor het Rutherford-Geiger experiment. aantal desintegraties per tijdsinterval
aantal tijdsintervallen
Poisson-kans als λ = 3.87
desintgr 0 1 2 3 4 5 6 7 8 9 10 11
aantal.w 57 203 383 525 532 408 273 139 45 27 10 6
th.kans .0209 .0807 .1562 .2015 .1949 .1509 .0973 .0538 .0260 .0112 .0043 .0015
12
SPSS, een summier overzicht van een aantal faciliteiten
158
We wegen de kolom desintgr met de kolom aantal.w. Het gemiddelde is aantal desintegraties per tijdsinterval is 3.870 en de variantie 3.664. We schatten de parameter λ van de Poisson-verdeling dus met 3.870 en berekenen de kolom van de kansen P (λ) in het menu Transform → Compute met de opdracht th.kans(target variable) = CDF.POISSON(desintgr,3.87)-CDF.POISSON(desintgr-1,3.87) Als we nu in het Chi-square menu de test-variabele desintgr kiezen met Expected Value: ”All Categories Equal” en vervolgens op paste klikken, krijgen we de volgende tekst in een syntax window: NPAR TEST /CHISQUARE=desintgr /EXPECTED=EQUAL /MISSING ANALYSIS Met copy–paste vervangen we hierin het woord EQUAL door de kolom th.kans van kansen op de verschillende uitkomsten (onder de hypothese dat de waarnemingen Poisson-verdeeld zijn met λ = 3.87 ): NPAR TEST /CHISQUARE=desintgr /EXPECTED=.0209 .0807 .1562 .2015 .1949 .1509 .0973 .0538 .0260 .0112 .0043 .0015 /MISSING ANALYSIS Bij uitvoering van deze opdracht vermenigvuldigt SPSS de kansen met het totale aantal waarnemingen (som van kolom aantal.w) en geeft dan als uitkomst Chi-Square 14.0163
D.F. 11
Significance .2321
Er zijn tw´e´e problemen: (1) SPSS weet niet, dat de parameter λ geschat is uit de data en dat dus het aantal vrijheidsgraden (D.F.) met ´e´en verminderd moet worden, zodat de overschrijdingskans (Significance) in feite .1722 is (in het Transform-Compute-menu te berekenen met 1 - CDF.CHISQ( 14.0163 , 10)). (2) Om een eenduidige relatie vast te leggen tussen de opgegeven verwachte waarde en de uitkomst van de te toetsen variabele desintegr worden alle uitkomsten van deze variabele gesorteerd; de waargenomen frequenties worden in deze volgorde met de waarden in expected geassocieerd. Met deze afspraak is de methode ook toepasbaar als je in plaats van de bovenstaande compilatie van de metingen met hun frequenties alleen beschikt over de primaire waarnemingen, bestaande uit een (lange) ongeordende lijst met 57 nullen, 203 enen, 383 twee-en etc.
13
EXCEL versie 5, een aantal statistische faciliteiten
13
159
Excel versie 5, een aantal statistische faciliteiten
Het belangrijkste bij het gebruik van statistische software is, dat je weet wat een een statistisch begrip of toets betekent en hoe hierbij de gegevens gebruikt worden. Via de menu’s wijst de rest zich dan vanzelf. Excel is een “spreadsheet”-programma met veel ruimere mogelijkheden dan de statistische het verwerking van gegevens. In dit overzichtje beperken we ons echter hiertoe. Als je statistische functies in Excel wilt gebruiken moet je in het Tools-menu het veld Data Analysis · · · aanklikken (of eventueel via Add-Ins het Analysis ToolPak kiezen). Via dit veld kun je de gebruikelijk statistische toetsen selecteren. In het kader van de cursus “Begrippen van Kansrekening en Statistiek” zijn de volgende tools van belang: Correlation & Covariance Descriptive Statistics F-Test Two-Sample for Variances Histogram
13.1
Random Number Generation Regression t-Test: Paired Two-Sample for Means t-Test: Two-Sample Assuming Equal Variances
Het invoeren van data
Bij het opstarten van Excel verschijnt er op het scherm een werkblad (workbook of worksheet) met cellen genummerd met een letter voor de kolom en een nummer voor de rij. Iedere cel is vanuit ieder andere cel uniek adresseerbaar met zijn kolomletter en rijnummer. Bij het tussenvoegen van kolommen of rijen worden alle referenties automatisch aangepast. In een cel kan tekst, een getal of een formule geplaatst worden, door de cel aan te klikken, de gewenste symbolen in te tijpen en af te sluiten met een Return. Tijdens het tijpen verschijnt een copie van de celinhoud in de bovenbalk; als je de inhoud wilt wijzigen, moet je eerst de goede plaats in deze tekst op de bovenbalk aanklikken, dan de wijzigingen intijpen en afsluiten via return of via het aanklikken van √ het -symbooltje naast deze verbeterde tekst. Via de Cells· · ·-optie in het Format-menu kan de vorm (aantal decimalen – centering – font – size etc.) naar behoeven worden aangepast. Formules. Een formule in een cel begint altijd met het =-teken. Na het intijpen van een correcte formule wordt door excel onmiddellijk het resultaat berekend en neergeschreven in de cel op je werkblad. Dat er in een cel een formule staat is alleen nog te zien door de cel aan te klikken en in de bovenbalk naar de werkelijke inhoud te kijken. Voorbeelden =AVERAGE(A1:B5) =VAR(A1:B5) =SUMPRODUCT(A1:A5,B1:B5)
bereken het gemiddelde van de genoemde 10 cellen bereken de steekproefvariantie van de genoemde 10 cellen bereken het product van de overeenkomstige P5 elementen en sommeer deze (= inproduct i=1 Ai Bi ).
Een lijst van beschikbare functies is te vinden via de standaard Excel Help-procedure. ¨ren, wissen, verplaatsen en dupliceren van celinhoud. In het Edit-menu zijn onder Copie andere de volgende functies beschikbaar. Zij werken op een van te voren geselecteerde cel of reeks cellen: naam delete cut copy paste fill
toetscombinatie command-K command-X command-C command-C command-R command-D
betekenis verwijder de geselecteerde cellen uit het werkblad zet selectie klaar voor verplaatsing naar elders in het werkblad zet selectie klaar voor copi¨ering naar elders in het werkblad voeg de selectie van cut of copy in op de gekozen plaats dupliceer de celinhoud naar geselecteerde cellen rechts (R), beneden (D), links of boven.
Bij het copi¨eren of dupliceren van een formule verschuiven ook de referenties naar andere cellen, tenzij de kolomletter en/of het rijnummer in de formule is vastgezet door het er een $-teken voor te zetten. Als bijvoorbeeld in cel C1 de formule
Statistische faciliteiten in Excel
160
=A1∗B1/SUM(A1:A10) staat en we doen een fill-down naar cel C2, dan komt hierin de formule =A2∗B2/SUM(A2:A11) te staan. Alle referenties zijn ´e´en veld naar beneden opgeschoven. Als wel de referenties in de teller maar niet die in de noemer willen opschuiven, dus als we =Ai∗Bi/SUM(A1:A10) met i = 1 · · · 10 in de cellen C1 · · · C10 willen hebben, moeten we in cel C1 de formule =A1∗B1/SUM(A$1:A$10) intijpen en vervolgens een fill-down doen naar de negen cellen eronder. Analoog schuiven alle kolomreferenties in een formule op naar rechts bij een fill-right, tenzij er een $-teken voor de kolomletter staat. Vraag. Stel dat je werkblad in de cellen A1· · ·A10 de klassemiddens en in B1· · ·B10 de frequenties van een serie metingen. Schrijf een Excel-functie die in een cel het klassengemiddelde uitrekent. Schrijf ook een functie in de cel C1, die zo is, dat als je een fill-down naar C2· · ·C10 doet, deze cellen de cumulatieve frequenties bevatten.
13.2
Beschrijvende Statistiek
Stel, dat de cellen A1:A65 je metingen bevatten. Selecteer in het Tools/Data Analysis-menu descriptive statistics, dan krijg je een menu, waarin je de plaats van je data (= input range) in het werkblad moet opgeven (hier dus A1:A65), en moet aangeven of er bovenaan je kolom een label staat, of je een betrouwbaarheidsinterval (of beter de halve lengte van het BTI) wilt hebben en met welke betrouwbaarheid (b.v. 95%) en waar de uitvoer moet worden neergeschreven (in het huidige werkblad, op een nieuwe pagina van datzelfde werkblad of in een nieuw werkblad). Het programma geeft dan de volgende grootheden: Mean – Standard Error – Median – Mode – Standard Deviation Sample Variance – Kurtosis – Skewness – Range Minimum – Maximum – Sum – Count – Confidence Level(95.0%). Om vervolgens een Boxplot te kunnen tekenen moet je in twee cellen met de functie = quartile(< range >, 1) en = quartile(< range >, 3), het eerste resp. derde kwartiel uitrekenen. Histogram: Selecteer in het Tools/Data Analysis-menu histogram. Excel vraagt dan een input range (hier dus A1:A65) en een facultatieve bin range en of de gespecificeerde datakolommen labels bevatten. Je kunt in je werkblad zelf een klassenindeling maken (in een kolom met de benedengrenzen van de klassen) en deze opgeven; anders verdeelt excel zelf het waardengebied in 10 klassen. Tenslotte, als je een chart vraagt, wordt naast de frequentietabel het histogram getekend.
13.3
F- en t-Toetsen
Selecteer in het Tools/Data Analysis-menu de gewenste toets en geef de input range op. Excel geeft dan de overschrijdigskansen voor de een- en tweezijdige versies van de toets en de grens van de kritieke zone, behorende bij het gevraagde niveau (α). Een χ2 -toets voor de variantie in ´e´en groep metingen (one group χ2 -test) is niet beschikbaar.
13.4
Kruistabellen en de χ2 -toets op een kansverdeling
Deze toetsen moet je doen met gebruik van de excel-functie CHITEST(actual range, expected range). Deze functie berekent met formule (20.4) uit de syllabus de χ-waarde van je steekproef en de overschrijdingskans die hierbij hoort. Je moet dus wel zelf de verwachte frequenties berekenen die behoren bij de gepostuleerde theoretische verdeling. Als je b.v. de frequentietabel van je toetst
Statistische faciliteiten in Excel
161
tegen de normale verdeling, dan kun je uit de klassegrenzen met de functie NORMDIST de percentielen berekenen (zie Excel Help). Je kunt CHITEST ook toepassen bij kruistabellen, als je zelf eerst de matrix van verwachte frequenties maakt. Voor een 2 × 2 kruistabel kun je b.v. het volgende maken 1 2
A A1 = 300 A2 = 80
B B1 = 150 B2 = 20
C = (A1 + B1) ∗ (A1 + A2)/SU M (A1 : B2) ??
en dan in het veld A3 de functie “= CHIT EST (?? , ??)” plaatsen.
D ?? ??