Domein Statistiek en kansrekening havo A
3 Data verwerven Inhoud
3.0 3.1 3.2 3.3 3.4 3.5 3.6
Statistisch onderzoek Experimenteren en simuleren Toeval Kansen berekenen Steekproeven Enquêtes Overzicht
In opdracht van: Commissie Toekomst Wiskunde Onderwijs
© cTWO Utrecht 2009 Dit lesmateriaal is ontwikkeld in het kader van de nieuwe examenprogramma’s zoals voorgesteld door de Commissie Toekomst Wiskunde Onderwijs. De gebruiker mag het werk kopiëren, verspreiden en doorgeven en remixen (afgeleide werken maken) onder de volgende voorwaarden: • Naamsvermelding. De gebruiker dient bij het werk de door de maker of de licentiegever aangegeven naam te vermelden (maar niet zodanig dat de indruk gewekt wordt dat zij daarmee instemmen met uw werk of uw gebruik van het werk). • Niet-commercieel. De gebruiker mag het werk niet voor commerciële doeleinden gebruiken. • Gelijk delen. Indien de gebruiker het werk bewerkt kan het daaruit ontstane werk uitsluitend krachtens dezelfde licentie als de onderhavige licentie of een gelijksoortige licentie worden verspreid. Versie 3: april 2010
Overzicht lesmateriaal in het domein Statistiek en kansrekening 1 1.1 1.2 1.3 1.4 1.5
Kijken naar data Wat is statistiek? Data Diagrammen Interpretaties Overzicht
2 2.0 2.1 2.2 2.3 2.4 2.5
Data en datasets verwerken Data voor onderzoek Data presenteren Centrum en spreiding Verdelingen typeren Relaties Overzicht
3 3.0 3.1 3.2 3.3 3.4 3.5 3.6
Data verwerven Statistisch onderzoek Experimenteren en simuleren Toeval Kansen berekenen Steekproeven Enquêtes Overzicht
4
Normale verdeling
5
Conclusies trekken uit data
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
2
3.0
Statistisch onderzoek
In het hoofdstuk “Data en datasets verwerken” heb je geleerd hoe je gegeven datasets kunt presenteren, kunt samenvatten en kunt typeren. Dat is een onderdeel van statistisch onderzoek. In dit hoofdstuk ga je vooral bekijken hoe je data kunt verwerven en welke problemen zich daarbij voordoen. Dit deel van statistisch onderzoek gaat vooraf aan het verwerken van de data. Later zul je nog ingaan op het trekken van conclusies. In uitspraken in kranten, boeken en op internet kom je vaak resultaten van statistisch onderzoek tegen. Hier zie je daar een voorbeeld van. Uit onderzoek van het Centraal Bureau voor de Statistiek (CBS) blijkt dat bijna de helft van de jongeren tussen de 15 en 25 jaar gebruik maakt van internet op de telefoon. Dat is veel meer dan vorig jaar, toen nog maar 20 procent van de jongeren internette op hun mobiel. (Bron: jongeren.blog.nl maart 2010)
Het Centraal Bureau voor de Statistiek (CBS) heeft zich kennelijk afgevraagd hoe het zit met het internetgebruik onder jongeren. Met zo’n probleemstelling begint statistisch onderzoek. De probleemstelling wordt vertaald in een aantal onderzoeksvragen. Die vragen worden zo geformuleerd dat de antwoorden data opleveren die statistisch verwerkt kunnen worden om antwoord te geven op het gestelde probleem. Opgave 1 Bekijk de uitspraak hierboven van maart 2010. a) Welke onderzoeksvraag heeft het CBS zich gesteld? b) Kun je bedenken hoe het CBS dit heeft aangepakt? c) Hoe zou je zelf zo’n onderzoeksvraag aanpakken? Practicum: Eigen dataset maken Het is leuker om met eigen gegevens onderzoek te doen. Je moet dan wel eerst een goede onderzoeksvraag formuleren en bedenken hoe je aan geschikte data kunt komen. Bovendien kun je wellicht niet ieder lid van de groep die je wilt onderzoeken bevragen, maar moet je een steekproef (een deel van de groep) nemen… Hoe je dergelijke zaken oplost is onderwerp van dit hoofdstuk. In paragraaf 3.5 vind je een practicum hierover.
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
3
3.1
Experimenteren en simuleren
!
Practicum Bij deze paragraaf hoort het VUStat-practicum PROBLEMEN OPLOSSEN
Verkennen Uit onderzoek van het Centraal Bureau voor de Statistiek (CBS) blijkt dat bijna de helft van de jongeren tussen de 15 en 25 jaar gebruik maakt van internet op hun telefoon. Dat is veel meer dan vorig jaar, toen nog maar 20 procent van de jongeren internette op hun mobiel. (Bron: jongeren.blog.nl maart 2010)
Opgave 2 Bekijk de uitspraak hierboven. Hoe zou het CBS aan zijn gegevens komen?
Uitleg Data kun je verkrijgen ! door ondervragen, een enquête houden; ! door experimenteren; ! door meten; ! uit bestaande datasets (bijvoorbeeld via het Bureau voor de Statistiek); ! door simulatie, het nabootsen van situaties. Het CBS wil iets zeggen over het internetgebruik van jongeren tussen de 15 en 25 jaar, de populatie van het onderzoek. Het CBS verzamelt daartoe data. Dat kunnen ze op verschillende manieren doen. En dat is nog niet zo eenvoudig… Opgave 3 Het CBS wil weten hoeveel procent van de jongeren internet via de telefoon. Hieronder zie je enkele manieren om data te verwerven. In een aantal van die gevallen is gebruikte methode niet zo geschikt. Leg telkens uit waarom. a) Het CBS houdt een enquête waarin men je leeftijd vraagt en of je internet via de telefoon. b) Het CBS houdt in een bekend tijdschrift voor de jeugd een enquête waarin men je leeftijd vraagt en of je internet via de telefoon.
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
4
c) d)
Het CBS houdt een telefonische enquête onder 2000 willekeurig getrokken mensen en vraagt eerst of ze tussen de 15 en 25 jaar zijn en dan of ze internetten via de telefoon. Het CBS houdt een enquête onder jongeren in 100 winkelcentra in NL.
Opgave 4 Anita, Joost en Paul schieten elk 15 keer met een boog op een schietschijf. Doel is de roos te raken. Hier zie je drie keer het resultaat.
Anita a) b) c) d) e)
Joost
Paul
Bij welke van deze gevallen is er sprake van een grote variatie in de resultaten? Heb je er veel vertrouwen in dat Anita volgende keer de roos zal raken? Vind je dat Paul goed kan schieten? Wat is er mis? Welke aanwijzing moet je geven zodat Paul de roos zal raken? Hoe kun je het voorgaande toepassen op data verwerven?
Opgave 5 Bij het fabriceren van thee in zakjes moet in elk theezakje 2 gram thee terecht komen. Daarna komt er om elk theezakje een papieren zakje en worden ze per 20 stuks in een doosje verpakt. Nu zal er bij het automatisch vullen van de theezakjes niet precies 2 gram thee in elk zakje terecht komen. Om geen problemen met de Consumentenbond te krijgen weegt een fabrikant regelmatig een doosje thee met 20 zakjes. a) Hij keurt een doosje theezakjes af als het minder dan 40 gram weegt. Waarom is dit geen goede aanpak? b) Wat zou je hem adviseren om te doen? c) Wat gebeurt er met de weegresultaten als de vulmachine op een verkeerd gemiddelde is ingesteld? d) De vulmachine is aan het verslijten en wordt daardoor onnauwkeuriger. Wat is het gevolg voor de weegresultaten? Opgave 6 De ANWB onderzoekt de reactiesnelheid van automobilisten. Op hun website kun je een filmpje bekijken waarin je achter het stuur zit van een auto en ineens met een gevaarlijke situatie wordt geconfronteerd. Gemeten wordt hoe snel je op de remknop drukt. a) Leg uit dat hier sprake is van een simulatie. Waarom gebruikt de ANWB hiervoor een simulatie? b) Geef commentaar op deze onderzoeksopzet. c) Geef aan hoe dit onderzoek kan worden verbeterd.
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
5
Opgave 7 Je wilt onderzoeken hoe vaak je kop krijgt bij het werpen met negen geldstukken. a) Hoe zou je dit aanpakken door experimenteren? b) Iemand bedenkt dat je dit kunt simuleren door bijvoorbeeld een telefoonboek te pakken en de eindcijfers van de eerste 1000 telefoonnummers te noteren; een even cijfer is kop, oneven is munt. Zou dit een goede aanpak zijn? c) Waarom kun je niet de begincijfers van de telefoonnummers gebruiken? d) Hoe zou je het werpen met vier geldstukken kunnen simuleren? Opgave 8 Een belangrijk aspect van statistisch onderzoek is het verwerken van de data. Daarbij speelt de manier waarop je meet een grote rol. a) Het CBS stelt je de vraag: “Heb je de afgelopen maand wel eens via de telefoon geïnternet?” De antwoordmogelijkheden zijn “ja” of “nee”. Om wat voor soort variabele gaat het dan? Is de volgorde van de antwoordmogelijkheden van belang? b) Het CBS stelt je de vraag: “Heb je de afgelopen maand wel eens via de telefoon geïnternet?” De antwoordmogelijkheden zijn “0 = nooit, 1 = af en toe, 2 = vaak”. Om wat voor soort statistische variabele gaat het? Is de volgorde van de antwoordmogelijkheden van belang? Is het zinvol om een gemiddelde te berekenen? c) Van Jan, Piet en Klaas is de intelligentie gemeten via het intelligentiequotiënt IQ. Jan heeft een IQ van 70, Piet van 105 en Klaas van 140. Piet en Jan verschillen evenveel in IQ als Klaas en Piet. Is Klaas twee keer zo intelligent als Jan? d) De ANWB meet de reactiesnelheid van automobilisten door de tijd tussen het zien van een gevaarlijke situatie en het indrukken van de remknop te bepalen. Mijnheer Gerritsen heeft reactiesnelheid van 0,4 sec en mijnheer Grieving van 0,2 sec. Is Grieving twee keer zo snel als Gerritsen?
Theorie *************************************** Een probleem heet statistisch als er data nodig zijn om het op te lossen. Eerst wordt het probleem vertaald in onderzoeksvragen. De antwoorden op die vragen leveren data op die met statistische methoden kunnen worden verwerkt. Er zijn verschillende manieren om die data te verkrijgen ! door experimenteren, dus bijvoorbeeld door enquêtes te houden, of zelf proeven te doen; ! door meten; ! door simuleren, dat is nabootsen van de situatie; ! door redeneren. Simuleren en redeneren is alleen mogelijk als je bepaalde zaken als vaststaand aanneemt, zoals bij geboortes is 50% van de baby’s jongen en 50% meisje. (In werkelijkheid worden iets meer jongens dan meisjes geboren.) Je moet goed nadenken over de wijze van meten, anders ontstaan er fouten bij het verwerven van data. Zo kan er vertekening optreden als de data een eenzijdig beeld geven of als de variatie in de data te groot is.
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
6
Je spreekt van een systematische fout als de manier van meten niet goed is opgezet en van een toevallige fout als een foutieve uitslag puur door toeval ontstaat. Toevallige fouten zijn niet te vermijden. Bij het verwerken van de data onderscheid je verschillende meetniveaus: ! het nominale meetniveau van een kwalitatieve variabele, waarbij de volgorde geen rol speelt; ! het ordinale meetniveau van een kwalitatieve variabele, waarbij de volgorde wel een rol speelt; ! het interval meetniveau van een kwantitatieve variabele, waarbij gelijke verschillen in de meetwaarden overeenkomen met gelijke verschillen in het kenmerk; ! het ratio meetniveau van een kwantitatieve variabele, waarbij een twee keer zo grote meetwaarde overeenkomt met een twee keer zo sterk kenmerk.
********************************************* Voorbeeld Hier zie je van elk meetniveau een voorbeeld: ! Nominaal meetniveau: De politieke partij waarop iemand stemt. ! Ordinaal meetniveau: De hoeveelheid tijd die je doorbrengt met internetten gemeten op een vierpuntsschaal: 0 = vrijwel nooit, 1 = af en toe, 2 = vaak, 3 = heel vaak. ! Interval meetniveau: De temperatuur in graden Celsius. ! Ratio meetniveau: Iemand’s gewicht in kg. " Opgave 9 Bekijk het Voorbeeld. a) Leg uit waarom de variabele politieke partij waarop iemand stemt van een nominaal meetniveau is en niet van een ordinaal meetniveau. b) Als je de variabele hoeveelheid tijd op internet gewoon meet in minuten, van welk meetniveau is die variabele dan? c) Je meet de buitentemperatuur in graden Celsius en het is 0°C. Is er dan geen warmte? d) e) f) g)
Is 20°C twee keer zo warm als 10°C? Licht je antwoord toe. Kan er bij het meten van de buitentemperatuur een systematische fout optreden? Welke vertekening treedt er dan op? Kun je bij het meten van de buitentemperatuur ook toevallige fouten maken? Zo ja, hoe dan? Je meet iemand’s gewicht in kg. Kun je daarbij een systematische fout maken? En een toevallige fout?
Opgave 10 Ga na wat het meetniveau is van de volgende variabelen. a) De schaal van Richter bij het meten van de sterkte van een aardbeving
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
7
b) c) d) e)
Het gewicht van sinaasappels in grammen. De reactietijd in seconden. De schoenmaten van het merk Adidas. Voorkeur voor een automerk.
Opgave 11 Je zou je kunnen afvragen bij gezinnen met drie kinderen of het aantal jongens of het aantal meisjes in de meerderheid is. a) Welke statistische variabele kies je? Met welk meetniveau heb je te maken? b) Kun je hier met gemiddelden werken? c) Is hierbij een simulatie te bedenken? En zo ja, hoe zou je dit dan simuleren? Opgave 12 Hoe meet je de kwaliteit van het schoonmaken van de school? Beschrijf minstens drie variabelen die je daarbij zou kunnen meten en de bijbehorende meetniveau’s.
Verwerken Opgave 13 Ga na wat het meetniveau is van de volgende variabelen. a) De Cito-score op de basisschool. b) Je mening over de kwaliteit van je telefoonabonnement. c) De maat van een T-shirt. d) Je lichaamslengte. e) De hoeveelheid sms-jes die je per dag verstuurt. Opgave 14 Sommige mensen denken dat je door het drinken van een energiedrankje beter presteert bij toetsen, examens, e.d. Een mogelijke onderzoeksopzet zou dan kunnen zijn dat je in een aantal klassen de ene helft van de leerlingen zo’n energiedrankje geeft en de andere helft een ander soort drankje (zonder dat de leerlingen weten wat ze krijgen), waarna je een toets afneemt die wordt becijferd van 1,0 t/m 10,0. De resultaten voor die toets van beide groepen worden vergeleken. a) Om wat voor soort statistische variabele gaat het? Met welk meetniveau heb je te maken? b) Dit soort onderzoek wordt wel dubbel blind genoemd. Kun je verklaren waarom? c) Op een bepaalde school scoorden de leerlingen met een energiedrankje op 0,5 punten hoger. Is dat voldoende om te concluderen dat het energiedrankje helpt? d) Heb je commentaar op de opzet van dit onderzoek? Kun je verbeteringen in de opzet aanbrengen?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
8
3.2
Toeval en kans
!
Practicum Bij deze paragraaf hoort het VUStat practicum SIMULATIES.
Verkennen In de vorige paragraaf heb je met toevallige fouten te maken gehad. Het begrip toeval moet nog nader worden omschreven. Als je met twee dobbelstenen gooit kun je in totaal 2, 3, 4, …, 11, 12 ogen boven krijgen. Wat er boven komt hangt van het toeval af. Niet al deze mogelijkheden zijn even waarschijnlijk, sommige komen vaker voor dan andere.
!
Opgave 15 Bekijk de uitspraak hierboven. Je gaat hem onderzoeken door met twee dobbelstenen te werpen. a) Over welke variabele gaat het dan? En wat voor soort variabele is dat? b) Werp 30 keer met twee dobbelstenen en noteer de resultaten in een tabel. c) Bereken de relatieve frequenties (bijvoorbeeld in procenten) van elke waarde van het aantal ogen dat boven komt. d) Verzamel de gegevens van de hele klas en vergelijk de resultaten. Wat valt je op? e) Bereken opnieuw de relatieve frequenties, maar nu van het totaal. f) Kun je de uitkomsten van je onderzoekje verklaren?
Uitleg In deze tabel zie je de frequenties bij een simulatie van het werpen met twee dobbelstenen. ogenaantal 30 keer 60 keer 600 keer 3600 keer
2 3 3 14 97
3 0 3 39 195
4 2 5 36 295
5 0 9 76 368
6 7 6 75 480
7 6 6 99 621
8 1 10 75 518
9 4 4 75 415
10 3 8 60 295
11 2 2 34 200
12 2 4 17 116
Hoewel de frequenties van het toeval afhangen zit er toch wel een bepaald patroon in. 7 komt duidelijk vaker voor dan 2 of 12 ogen. Bovendien lijken de relatieve frequenties wel naar vaste waarden te naderen. Bekijk de figuren op de volgende pagina maar. De relatieve frequentie van 7 ogen lijkt ongeveer 17% te worden, terwijl die op 2 ogen ongeveer 3% lijkt te worden. CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
9
Je zegt wel dat de empirische kans op de gebeurtenis 7 ogen ongeveer 17% is, terwijl die op 2 ogen maar ongeveer 3% is. Met relatieve frequenties kun je kansen benaderen. Je moet daarvoor zelf met dobbelstenen werpen of een simulatie uitvoeren. Je spreekt daarom ook wel van experimentele kansen. Het benaderen door de empirische kans wordt waarschijnlijk steeds beter als het aantal experimenten toeneemt.
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
10
Je kunt ook door redeneren proberen kansen te vinden. Bij het werpen met twee dobbelstenen let je op de som van het aantal ogen. Let er op dat voor elke dobbelsteen apart de uitkomsten 1 tot en met 6 even waarschijnlijk zijn en dat dus ook elke uitkomst van de beide dobbelstenen even waarschijnlijk is. In het overzicht staat bij elke worp de som vermeld. Zie je dat de gebeurtenis 7 ogen 6 van de 36 keer in de tabel voor komt? 6 De kans daarop is 36 . Dit is een kans die je door redeneren bepaalt. Je spreekt
dan van een theoretische kans. Theoretische kansen bepaal je vooraf zonder experimenteren en worden uitgedrukt in getallen tussen 0 en 1. Een kans van 0 heb je als een gebeurtenis zeker niet voorkomt (13 ogen gooien met twee dobbelstenen), een kans van 1 heb je als de gebeurtenis zeker is. Relatieve frequenties bepaal je na experimenteren of simuleren. Ze worden meestal als percentage gegeven: de kans op 7 ogen bij het werpen met twee dobbelstenen is ongeveer 17%.
Opgave 16 Bekijk de uitleg hierboven. a) Hoeveel zal de empirische kans op 5 ogen ongeveer zijn? Geef je antwoord in procenten. b) Hoeveel bedraagt de theoretische kans op 5 ogen? Geef je antwoord als een breuk. c) Laat zien dat beide kansen redelijk overeen komen. d) Waarom is het van belang dat in het overzicht in de Uitleg de uitkomst van elke worp van de twee dobbelstenen een even grote kans heeft? e) Stel je voor dat je 600 keer achter elkaar geen 6 hebt gegooid. Wordt daardoor de kans dat je de volgende keer 6 gooit groter? Opgave 17 Hiernaast zie je de resultaten van het aantal keer 7 ogen bij het 36 keer met twee dobbelstenen gooien in drie verschillende klassen. Je wilt een schatting maken van de kans op 7 ogen. Het aantal keren dat er 7 ogen is gegooid kan in principe variëren van 0 t/m 36. a) Maak een frequentieverdeling van de aantallen keren 7 ogen die er zijn gegooid in klas 4A. b) Tussen welke waarden liggen de gevonden aantallen keren 7 ogen? c) Kun je op grond van deze frequentieverdeling een schatting maken van de kans op 7 ogen? Motiveer je antwoord. d) Maak nu een frequentieverdeling van het aantal keren dat er 7 ogen zijn gegooid in alle drie deze klassen samen. Wordt de schatting van de kans op 7 ogen hiermee verbeterd? CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
11
!
Opgave 18 Met een computer en een rekenmachine kun je willekeurig getallen produceren. Die getallen noem je toevalsgetallen of randomgetallen. Je kunt 120 keer werpen met één dobbelsteen simuleren door de machine 120 toevalsgetallen van 1 t/m 6 te laten produceren. a) Hoe kun je met toevalsgetallen het 50 keer werpen met één geldstuk simuleren? b) Waarom kun je het 100 keer werpen met twee dobbelstenen niet simuleren door 100 keer de toevalsgetallen 2 t/m 12 te laten produceren? c) Leg uit waarom je het 100 keer werpen met twee dobbelstenen kunt simuleren door 200 keer de toevalsgetallen 1 t/m 6 te produceren. d) Hoe simuleer je het 100 keer werpen met drie geldstukken?
Theorie *************************************** Als je een experiment doet waarbij toeval een rol speelt, dan voer je een toevalsexperiment uit. Een uitkomst van zo’n toevalsexperiment heet een gebeurtenis, bijvoorbeeld het werpen van 5 ogen met een dobbelsteen. Als de uitkomsten van een kansexperiment even waarschijnlijk zijn is de definitie van de kans op een gebeurtenis:
aantal uitkomsten van de gebeurtenis totaal aantal uitkomsten Dit wordt wel de kansdefinitie van Laplace genoemd, naar de Franse wiskundige PierreSimon de Laplace (1749 – 1827) die hem als eerste formuleerde. De kansrekening valt uiteindelijk steeds terug op deze definitie. Kansen zijn getallen vanaf 0 tot en met 1. Je kunt een kans benaderen met de relatieve frequentie van een gebeurtenis. Deze kans heet dan de empirische kans op die gebeurtenis. Je kunt soms ook door redeneren de kans bepalen, dat heet de theoretische kans op die gebeurtenis. Dit staafdiagram geeft de frequenties bij het 600 keer werpen met een dobbelsteen weer. Het is gemaakt door 600 worpen met de dobbelsteen te simuleren, na te bootsen met een toevalsgenerator. Die genereert toevalsgetallen: daarbij is elk getal even waarschijnlijk In het dagelijks taalgebruik worden kansen soms ook als percentage gegeven: 0% voor geen enkele kans en 100% voor zekerheid. Een kans van 0,17 komt overeen met een kans van 17%. Als je een toevalsexperiment maar vaak genoeg herhaalt, zal de empirische kans steeds waarschijnlijker de theoretische kans dichter benaderen. Dit noem je wel CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
12
de wet van de grote aantallen. De empirische kans wordt dus steeds betrouwbaarder. Hieronder wordt het 200 keer werpen met een munt getoond. De kans op kop van 50% wordt benaderd naarmate het aantal worpen toeneemt.
********************************************* Voorbeeld Je wilt de kans bepalen dat een gezin met drie kinderen bestaat uit 2 jongens en 1 meisje (behalve de ouders). Uitwerking: Je gaat er van uit dat bij een geboorte de kans op een meisje of een jongetje gelijk is. Daarom kun je dit simuleren door 100 keer drie toevalsgetallen 0 of 1 te laten produceren door de computer. Je krijgt dan 100 groepjes van drie toevalsgetallen, 0 = meisje en 1 = jongen. Je kunt dan bij elk drietal tellen hoeveel jongens er telkens in elk van die 100 gezinnen voor komen. De tabel laat de resultaten van één simulatie zien. Op grond van deze simulatie zou je wellicht concluderen dat de kans op 2 jongens in de buurt van 36 de 100 = 0,36 ligt. Dat kun je wel doen, maar bij een
nieuwe simulatie van 100 gezinnen komt er vast iets anders uit. Als je dit toevalsexperiment vaak herhaalt zal de frequentie van 2 jongens waarschijnlijk steeds dichter in de buurt van de theoretische kans van 37,5% uitkomen.
"
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
13
!
Opgave 19 Bekijk het voorbeeld. a) Voer zelf de simulatie met 100 gezinnen uit. b) Doe deze simulatie 20 keer en noteer steeds de frequentie die hoort bij 2 jongens. c) Tussen welke waarden liggen je frequenties? d) Hoe maak je nu een betere schatting van de kans op 2 jongens dan de 36% in het voorbeeld? e) Verzamel de resultaten van je klasgenoten en vergelijk deze met elkaar. f) Voeg alle resultaten bij elkaar en bepaal de relatieve frequentie. Is de schatting beter geworden?
!
Opgave 20 Neem aan dat van alle scholieren in de bovenbouw havo 30% rookt. Een bureau wil 50 willekeurige scholieren uit deze populatie ondervragen over het rookgedrag. Je kunt dit simuleren door toevalsgetallen van 1 t/m 100. De getallen 1 t/m 30 stellen dan rokers voor. a) Voer zo’n simulatie van een trekking van 50 leerlingen uit. Vind je precies 30% rokers? b) Voer nu 10 van die simulaties uit en bereken telkens het percentage rokers in je steekproef. Tussen welke waarden liggen die percentages? c) Doe dit nog eens met 100 simulaties. Liggen je percentages netjes gespreid rond de 30%? d) Iemand simuleert per ongeluk met 26%. Is er dan er sprake van vertekening?
Verwerken Opgave 21 Iemand wil onderzoeken of de Nederlandse euromunt eerlijk is. Dat wil zeggen dat de kans op kop even groot is als die op munt. a) Hij gooit 100 keer met zo’n geldstuk en krijgt 62 keer munt. Mag hij nu concluderen dat de Nederlandse euromunt niet eerlijk is? b) Iemand anders gooit ook 100 keer met een Nederlandse euromunt en krijgt 54 keer munt. Welke conclusie trek je als je deze uitkomsten vergelijkt? c) Je werpt 100 keer met een Nederlandse euromunt. Kun je een simulatie uitvoeren om te bepalen of deze munt eerlijk is? Licht je antwoord toe. Opgave 22 Mensen met bloedgroep O zijn geschikte bloeddonoren: hun bloed kan zonder problemen worden toegediend aan mensen van alle bloedgroepen. Uit de patiëntgegevens van een streekziekenhuis blijkt dat 42% van hun patiënten bloedgroep O heeft. a) Hoe groot is de kans dat een willekeurig getrokken patiënt van dit ziekenhuis bloedgroep O heeft? Is dit een theoretische kans of een empirische kans?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
14
b) c)
Het streekziekenhuis draagt de zorg voor vrijwel alle mensen in die streek. Mag je nu zeggen dat 42% van de mensen in die streek bloedgroep O heeft? Licht je antwoord toe. Uit onderzoek is gebleken dat 45% van alle West-Europeanen bloedgroep O heeft. Is het percentage patiënten met bloedgroep O in dit streekziekenhuis daarmee in strijd? Licht je antwoord toe.
Opgave 23 Een pak speelkaarten bestaat uit 52 kaarten in vier kleuren (harten, klaveren, schoppen en ruiten). Je kunt door redeneren de kansen bepalen dat een bepaalde kaart na zorgvuldig schudden bovenop komt te liggen. a) Hoe groot is de kans dat schoppenaas boven ligt? b) Hoe groot is de kans dat een hartenkaart boven ligt? c) Hoe groot is de kans dat er een plaatje boven ligt? d) Je kunt de hierboven beschreven kansen ook vinden door simuleren met toevalsgetallen. Beschrijf hoe je dit kunt doen. e) Kun je bepalen wanneer een pak kaarten voldoende geschud is?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
15
3.3
Kansen berekenen
!
Practicum Bij deze paragraaf hoort het VUStat practicum KANSEN.
Verkennen Je hebt toeval leren beschrijven met behulp van kansen. Empirische kansen vind je met behulp van statistiek. Theoretische kansen moet je beredeneren. Daarbij kun je goed gebruik maken van boomdiagrammen en kansbomen. Opgave 24 In de figuur zie je hoe het water uit de Rijn zich in Nederland over meerdere rivierarmen verspreidt. Eerst splitst de Rijn zich in de Waal (65% van het Rijnwater) en de Nederrijn (35% van het Rijnwater). Later splitst de Nederrijn zich weer in de Lek (60% van het water van de Nederrijn) en de IJssel. a) Het water dat in de IJssel terecht komt stroomt naar het IJsselmeer. Hoeveel procent van het Rijnwater komt in het IJsselmeer? b) Hoeveel procent van het Rijnwater stroomt via de Lek naar de Noordzee? c) Neem aan dat alle Rijnwater dat in het IJsselmeer komt ook naar de Noordzee stroomt. Laat met behulp van percentages zien dat uiteindelijk alle Rijnwater in de Noordzee terecht komt. Opgave 25 Stel je wilt de kans bepalen dat je bij een toss met een Nederlandse euro, een Duitse euro en een Franse euro precies twee keer kop boven krijgt. Bekijk het boomdiagram, K staat voor kop, M voor munt.
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
16
Ga er van uit dat je 200 keer met 3 geldstukken werpt die volstrekt eerlijk zijn, dus met kans is 0,5. De getallen in de hokjes geven de percentages. a) Vul in het boomdiagram de overige aantallen in. b) Leg uit waarom de kans op de route KKK 12,5% is. c) Op hoeveel % kom je bij de route KMK? d) Hoeveel routes zijn er met 2 keer kop? e) Hoe groot is de kans op precies twee keer kop? Geef een percentage. f) Hoe groot is de kans op minstens twee keer kop? g) Hoe groot is de kans op hoogstens twee keer kop? Opgave 26 Je gooit met twee dobbelstenen. Ga er van uit dat je 360 keer met 2 dobbelstenen werpt. Je wilt alleen de kansen op het gooien van één of meer zessen weten. a) Hoe groot is de kans op twee zessen? b) Leg uit waarom de kans op twee zessen ook 1 1 1 is. ! = 36 6 6 c) d)
Vul de overige getallen bij het boomdiagram in. Bepaal op twee manieren de kans op geen enkele zes.
Uitleg Wil je kansen beredeneren, dan heb je een overzicht nodig van alle uitkomsten. Met een boomdiagram kun je een overzicht krijgen van alle uitkomsten. Je kunt de routes volgen langs de verschillende takken. Bij het boomdiagram voor het 360 keer werpen met twee dobbelstenen verdeel je bij elke splitsing het aantal volgens de bijbehorende kansen: ! In 16 deel van de gevallen heeft de eerste dobbelsteen 6 ogen, in !
deel van de gevallen niet.
Als de eerste dobbelsteen 6 ogen heeft, dan heeft de tweede dobbelsteen in 16 deel van de gevallen ook 6 ogen en in
!
5 6
5 6
deel van de gevallen niet.
5 6
deel van de gevallen niet.
Als de eerste dobbelsteen niet 6 ogen heeft, dan heeft de tweede dobbelsteen in 16 deel van de gevallen ook 6 ogen en in
In het kansboom hiernaast staan bij de takken de bijbehorende kansen. Wil je daarmee de kans op twee keer zes ogen berekenen, dan bedenk je dat de eerste dobbelsteen in 16 deel van de worpen 6 ogen heeft en in
1 6
deel daarvan ook de tweede dobbelsteen
6 ogen heeft. De kans op twee keer zes ogen is dus
1 6
! 16 =
1 36
.
Wil je de kans op één keer zes ogen berekenen, dan moet je eerst bedenken dat je nu met twee routes rekening moet houden. Je kunt namelijk op de eerste
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
17
dobbelsteen de 6 hebben en op de tweede niet, maar je kunt ook op de eerste dobbelsteen geen 6 hebben en op de tweede juist de 6. Opgave 27 Bekijk de uitleg. Je wilt de kans op één keer zes ogen berekenen. a) Leg uit dat de kans op een 6 op de eerste dobbelsteen en geen 6 op de 5 tweede gelijk is aan 16 ! 65 = 36 . b) c)
Hoe groot is de kans op geen 6 op de eerste dobbelsteen en een 6 op de tweede dobbelsteen? Hoe groot is nu de totale kans op één keer zes ogen?
Opgave 28 Kijk terug naar opgave 25 en naar de uitleg. a) Maak een kansboom voor het werpen met drie geldstukken. b) Laat door rekenen met kansen zien, dat de kans op drie keer munt 0,125 is. c) Bereken de kans op precies twee keer munt. d) Bereken de kans op minstens twee keer munt. e) Bereken de kans op hoogstens twee keer munt. f) Laat zien dat de som van de kansen van alle mogelijke routes samen precies 1 is. Opgave 29 Binnen een grote populatie heeft 30% van de mensen blauwe ogen. Dit betekent dat elk mens in deze populatie 30% kans heeft om blauwe ogen te hebben. Je trekt willekeurig 3 mensen uit deze populatie. a) Maak een bijpassende kansboom. b) Hoe groot is de kans dat alle mensen in de steekproef blauwe ogen hebben? c) Hoe groot is de kans dat er twee van de drie blauwe ogen hebben? d) Bereken de kans dat minstens twee van de drie blauwe ogen hebben. Je trekt nu 10 mensen uit deze populatie. e) Hoe groot is de kans dat ze alle 10 blauwe ogen hebben? f) Hoe groot is de kans dat er 9 uit de steekproef blauwe ogen hebben? Opgave 30 Binnen een groep van 20 personen heeft 30% blauwe ogen. Je trekt willekeurig 3 personen uit deze populatie. a) Waarom kun je nu niet de kansboom van opgave 29 gebruiken? b) Hoeveel personen in deze populatie van 20 hebben blauwe ogen? c) Voor de eerste persoon in de steekproef is de kans dat hij blauwe ogen 6 heeft 20 (30%) en de kans dat hij ze niet heeft 14 (70%). 20 Laat zien dat voor de tweede persoon die kansen ofwel en d) e) f) g)
13 19
5 19
en
14 19
, ofwel
6 19
zijn.
Bepaal ook de kansen voor de derde persoon. Maak onderstaande kansboom volledig. Hoe groot is de kans dat alle drie personen blauwe ogen hebben? Bereken de kans dat twee van de drie personen blauwogig zijn. Hoe groot is de kans dat minstens twee van de drie blauwe ogen hebben?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
18
Opgave 31 Van een populatie zeehonden is 18% ziek. Een onderzoeksteam neemt willekeurig 5 zeehonden om die nader te onderzoeken. a) Bereken de kans op 5 zieke zeehonden als de populatie 40 zeehonden groot is. b) Bereken opnieuw de kans op 5 zieke zeehonden, maar nu in het geval dat de populatiegrootte 2000 is. c) Waarom is er verschil tussen de kansen uit a) en b)? d) Jan beweert: “Als de populatie maar groot genoeg is kun je gewoon met 18% gaan rekenen”. Waarom heeft Jan gelijk?
Theorie *************************************** Een handige manier om een overzicht van alle uitkomsten te krijgen is een boomdiagram. Je kunt ook meteen met een kansboom werken. Daarin staan langs de takken bijbehorende kansen. Als je in een kansboom een kans op een route wilt berekenen moet je de kansen langs de takken van die route vermenigvuldigen. Bij het plaatsen van kansen langs de takken van een kansboom is het belangrijk om van te voren te bedenken of elke stap dezelfde situatie wordt herhaald of niet.
*********************************************
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
19
Voorbeeld 1 In een groep van 4 mannen en 5 vrouwen worden door loten drie taken verdeeld. Iedere persoon mag meerdere van die drie taken uitvoeren. Hoe groot is de kans dat er twee taken door een man en één door een vrouw worden uitgevoerd? Uitwerking: De kans dat een man de eerste taak krijgt is de kans dat een vrouw hem krijgt is
5 9
4 9
,
. Dit geldt
ook voor de tweede taak en de derde taak. Deze driestaps kansboom geeft de situatie weer. De routes waarbij twee taken door een man en één door een vrouw worden gedaan zijn aangegeven door een pijltje. Elke route heeft drie stappen, de kansen langs de takken vermenigvuldig je met elkaar. De gevraagde kans is: 94 · 94 · 59 + 94 · 59 · 94 + 59 · 94 · 94 = 240 ! 0,334. 719 " Opgave 32 Bekijk Voorbeeld 1. a) Bereken de kans dat alle drie de taken bij een vrouw terecht komen. b) Bereken de kans dat precies twee taken bij een vrouw terecht komen. c) Bereken de kans dat hoogstens twee taken bij een vrouw terecht komen. d) Bereken de kans dat minstens twee taken bij een vrouw terecht komen. e) Waarom is de kans dat er hoogstens drie taken bij een vrouw terecht komen gelijk aan 1? f) Hoe kun je het antwoord bij e gebruiken om de kans die bij c) wordt gevraagd te berekenen? Opgave 33 Ongeveer 11% van alle Nederlanders heeft één of andere vorm van kleurenblindheid. Bij een stoplicht staan drie voor jou onbekende fietsers. a) Hoe groot is de kans dat geen van die fietsers kleurenblind is? b) Hoe groot is de kans dat hoogstens één van die fietsers kleurenblind is? c) Hoe groot is de kans dat minstens één van die fietsers kleurenblind is? d) Hoe groot is de kans op hoogstens één kleurenblinde als er 12 fietsers bij het stoplicht staan?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
20
Voorbeeld 2 In een groep van 4 mannen en 5 vrouwen worden door loten drie taken verdeeld. Niemand mag meerdere van die drie taken uitvoeren. Hoe groot is de kans dat er twee taken door een man en één door een vrouw worden uitgevoerd? Uitwerking: De kans dat een man de eerste taak krijgt is 4 , de kans dat een vrouw hem krijgt is 59 . 9
Maar dit geldt niet meer voor de tweede taak en de derde taak. Iemand die al een taak heeft gekregen kan niet nog een volgende taak krijgen, dus elke volgende stap valt er een persoon af. De kansboom hiernaast geeft de situatie weer. De routes waarbij twee taken door een man en één door een vrouw worden gedaan zijn aangegeven. De gevraagde kans is nu: 94 · 38 · 57 + 94 · 58 · 73 + 59 · 84 · 73 = 180 ! 0,357. 504 " Opgave 34 Bekijk Voorbeeld 2. a) Bereken de kans dat alle drie de taken bij een vrouw terecht komen. b) Bereken de kans dat precies twee taken bij een vrouw terecht komen. c) Bereken de kans dat hoogstens twee taken bij een vrouw terecht komen. d) Bereken de kans dat minstens twee taken bij een vrouw terecht komen. e) Laat zien dat ook nu de kans dat er hoogstens drie taken bij een vrouw terecht komen gelijk is aan 1. f) Gebruik het antwoord bij e) om de kans die bij c) wordt gevraagd te berekenen. Opgave 35 In een havo4 klas van 24 leerlingen zijn 3 kleurenblinden, maar jij weet niet wie. Ieder leerling gaat langs het verkeerslicht vlak bij school. Bij dit verkeerslicht staan op een gegeven moment drie scholieren uit die havo4 klas. a) Hoe groot is je de kans dat geen van hen kleurenblind is? b) Bepaal de kans dat één van hen kleurenblind is. c) Bepaal de kans dat hoogstens één van hen kleurenblind is. d) Hoe is de kans dat minstens één van hen kleurenblind is? e) Laura zegt: ‘De drie kleurenblinden fietsen altijd samen”. Blijven de kansen dan hetzelfde?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
21
Opgave 36 Kleurenblindheid komt veel meer bij mannen voor dan bij vrouwen. In Zwolle is aan 1000 willekeurige voorbijgangers gevraagd of ze kleurenblind zijn of niet. Deze kruistabel laat het resultaat zien. mannen vrouwen a) b) c)
kleurenblind 65 7
niet kleurenblind 535 393
Je komt in Zwolle op straat een onbekende man tegen. Hoe groot schat je de kans dat hij kleurenblind is? Hoe groot schat je de kans dat in Zwolle een willekeurige voorbijganger een kleurenblinde man is? Kun je de kruistabel ook gebruiken voor Bangkok?
Verwerken Opgave 37 In West-Europa heeft 40% van de bevolking bloedgroep A, 10% bloedgroep B, 5% bloedgroep AB en 45% bloedgroep O. Voor de Rhesus-factor geldt: 85% is Rh-positief en 15% is Rh-negatief, ongeacht de bloedgroep waartoe men behoort. Bereken het percentage West-Europeanen dat: a) Bloedgroep A heeft en Rh-positief is. b) Bloedgroep O heeft en Rh-negatief is. c) Rh-negatief is en niet bloedgroep O heeft. d) Welke van de acht combinaties van bloedgroep en Rh-factor is het zeldzaamst? Opgave 38 Op een tennistoernooi wordt in de finale heren-enkel gespeeld om ‘best of three’: wie het eerst 2 sets heeft gewonnen is kampioen. Na hoogstens 3 sets is er dus een winnaar, het kan al na 2. Neem je aan dat beide finalisten even sterk zijn en kans 50% hebben om een set te winnen, dan hangt het aantal in de finale gespeelde sets van het toeval af. a) Maak een kansboom voor een tenniswedstrijd van het type ‘best of three’. b) Bereken de kans dat er twee sets worden gespeeld. c) Bereken ook de kans dat er drie sets worden gespeeld. d) Neem aan dat de finale al 100 keer is gespeeld. Hoeveel twee-setters zijn daar waarschijnlijk bij? En hoeveel drie-setters? De resultaten van 90 finales staan in deze tabel. partijlengte aantal e) f)
2 sets 54
3 sets 36
Wat is de empirische kans op een twee-setter? Hoe groot is de empirische kans dat de volgende vijf finales allemaal driesetters worden?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
22
Opgave 39 De iepziekte is een ziekte onder iepen die wordt veroorzaakt door bepaalde schimmels die de houtvaten van de bomen verstopt. Stel dat van een populatie iepen 60% aan die ziekte lijdt. Onderzoekers willen drie iepen uit die populatie nader bestuderen. a) Hoe groot is de kans dat die drie iepen alle drie ziek zijn als de populatie uit 20 iepen bestaat? b) En hoe groot is die kans als de populatie uit 1500 iepen bestaat? c) Bereken ook voor beide populatiegroottes de kans dat precies één van de drie iepen niet ziek is. Opgave 40 Iemand is linkshandig als zijn linkerhand zijn voorkeurshand is. Er zijn iets meer linkshandige mannen dan vrouwen. Bij een onderzoek werd aan 500 personen gevraagd of ze linkshandig of rechtshandig zijn. Deze kruistabel geeft het resultaat. mannen vrouwen a) b)
linkshandig 30 25
rechtshandig 210 235
Er wordt blindelings iemand uit die groep aangewezen. Hoe groot is de kans dat de aangewezen persoon linkshandig is? Er wordt blindelings een linkshandige uit die groep aangewezen. Hoe groot is de kans dat de aangewezen persoon een vrouw is?
Opgave 41 Voor een bepaald diploma moet je voor alle drie verschillende testen slagen. Uit gegevens van voorgaande kandidaten is gebleken dat 90% slaagt voor de eerste test, 65% slaagt voor de tweede test en 36% slaagt voor de derde en zwaarste test. a) Teken een kansboom. b) Hoe groot is de kans dat iemand dit diploma haalt? c) Er zijn twee testrondes geweest. Hoeveel procent van de kandidaten is daarna afgevallen?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
23
3.4
Steekproeven
!
Practicum Bij deze paragraaf hoort het VUStat-practicum STEEKPROEVEN.
Verkennen In deze paragraaf wordt uitgelegd waartoe een steekproef dient en hoe je daarmee een betrouwbare uitspraak over een populatie kunt doen.
!
Opgave 42 Je gebruikt bij deze opgave een blad met 100 genummerde rechthoeken. Er zijn grote en minder grote rechthoeken. Je wilt weten hoeveel procent van de oppervlakten van deze rechthoeken kleiner is dan 10 zonder alle 100 oppervlaktes te bepalen. Dat doe je door een steekproef van 10 rechthoeken te nemen en dan het percentage te bepalen. a) Geef op het oog een schatting van het gevraagde percentage. b) Waarom is het niet verstandig om de eerste 10 rechthoeken als steekproef te nemen? En waarom kun je ook beter niet de laatste tien nemen? c) Neem een steekproef van 10 rechthoeken. Bereken het percentage vierhoeken met een oppervlakte kleiner dan 10. Hoe heb je bepaald welke rechthoeken in je steekproef komen? d) Verzamel nu de resultaten in de klas en maak daarvan een histogram. Tussen welke waarden zitten de gevonden percentages? e) Geef opnieuw een schatting van het percentage. f) Vraag aan een aantal klasgenoten hoe zij hebben bepaald welke rechthoeken in de steekproef komen. Zijn er verschillen? En welke manier vind je het best?
!
Opgave 43 Van een partij sinaasappels is 34% rijp. Als je uit die partij met behulp van toevalsgetallen een steekproef van bijvoorbeeld 50 trekt, dan krijg je vast niet precies 34% van 50, dus 17 rijpe sinaasappels in de steekproef. Er zal variatie optreden. a) Simuleer met behulp van 50 toevalsgetallen van 1 t/m 100 zo’n steekproef. Een getal van 1 t/m 34 stelt een rijpe sinaasappel voor. Tel het aantal rijpe sinaasappels in jouw steekproef en bereken de relatieve frequentie van de rijpe sinaasappels binnen de steekproef. b) Verzamel de resultaten van de hele klas. Teken een histogram van de verdeling van de relatieve frequenties van de rijpe sinaasappels in de steekproef. c) Tussen welke waarden liggen de relatieve frequenties? d) Alex doet een nieuwe steekproef. Welke waarde mag hij verwachten?
!
Opgave 44 Een gemeente wil in een wijk een buurthuis laten bouwen. Een raadslid beweert dat 25% van de bewoners van die wijk tegen dit plan is. De gemeenteraad besluit een enquête te houden in de wijk. Veronderstel dat het raadslid gelijk heeft.
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
24
a) b)
c) d)
e)
Simuleer met toevalsgetallen een steekproef van 50 personen en bereken de relatieve frequentie van de bewoners in je steekproef dat tegen de bouw van het buurthuis is. Hieronder staat een histogram van 5000 van die steekproeven met steekproefgrootte 50. De relatieve frequentie van de mensen die tegen de bouw zijn heet de steekproefproportie. Dit getal geef je niet als percentage, maar als waarde tussen 0 en 1. Tussen welke grenzen liggen de steekproefproporties? Zijn er uitschieters?
De gebruikte kans is 0,25. Je kunt een interval [0,25 " a; 0,25 + a] maken waarbinnen 90% van de steekproefproporties ligt. Welk interval is dat? Het histogram hieronder geeft de resultaten van 5000 steekproeven met steekproefgrootte 2000. Tussen welke grenzen liggen de steekproefproporties bij deze steekproeven?
Ongeveer 90% van de steekproefproporties ligt nu in het interval [0,235;0,265]. Hoe groot is dat interval? Zijn de steekproefresultaten betrouwbaarder geworden door de steekproefgrootte te verhogen?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
25
f)
Een bureau voert een steekproef van 2000 in de wijk uit. In deze steekproef blijken 496 mensen tegen de bouw van het buurthuis te zijn. Dat is een steekproefproportie van 0,248. Het bureau deelt mee dat de proportie van de populatie dat tegen het bouwen is met 90% betrouwbaarheid in het interval [0,248 " 0,5 x 0,03; 0,248 + 0,5 x 0,03] = [0,233; 0,263] ligt. Ben je het daarmee eens?
Opgave 45 In het histogram hieronder staan de resultaten van 10000 simulaties van een steekproef met proportiegrootte p = 0,35 en steekproefgrootte 1000. a) In welk interval ligt 100% van de steekproefproporties? Hoeveel wijken de linker- en de rechtergrenzen van 0,35 af? Hoeveel procent is dat? b) In het interval [0,325;0,375] rondom p = 0,35 ligt 90% van de steekproefproporties. Ga na dat dit klopt. c) Hoeveel de intervalgrenzen van 0,35 afwijken wordt de foutenmarge bij 90% van de steekproeven genoemd. Ga na dat de foutenmarge 2,5% is. d) Luuk voert ook een simulatie uit met een steekproefgrootte van 1000 en krijgt een steekproefresultaat van 37%. Hij zegt dat de populatieproportie 37% is met een foutenmarge van 2,5%. Is hij daar 100% zeker van? e) Is Luuk 90% zeker van zijn uitspraak?
Uitleg In opgave 43 is binnen een populatie sinaasappels 34% rijp. Dat noem je de populatieproportie p. Als je de populatieproportie niet van te voren weet zul je een onderzoek moeten doen. Je kunt niet alle sinaasappels proeven om vast te stellen of ze rijp zijn. Je neemt een steekproef. Die steekproef moet representatief zijn voor de hele populatie, je neemt niet alleen de grootste, of alleen de bovenste, of de meest oranje sinaasappels, maar
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
26
willekeurige sinaasappels door de hele populatie heen. In de praktijk neem je maar één steekproef. Je trok uit deze populatie een steekproef van 50 elementen met behulp van toevalsgetallen, dus zonder te selecteren. Je noemt dit een aselecte steekproef met een steekproefgrootte van 50. Je neemt de steekproef aselect om het resultaat representatief te krijgen. In die steekproef tel je het aantal sinaasappels dat rijp is. Reken je dit aantal om ˆ. naar een relatieve frequentie, dan heb je een steekproefproportie p Om een idee te krijgen van de betrouwbaarheid van steekproeven kun je zoals bij het buurthuis en bij opgave 45 de populatieproportie bekend veronderstellen en een groot aantal aselecte steekproeven simuleren. Dat is een theoretische situatie, in de praktijk is de populatieproportie onbekend en neem je maar één steekproef. ˆ verschillen. Door het toeval zullen in het algemeen de gevonden waarden van p
ˆ hoort dus een frequentieverdeling, de verdeling van de Bij de waarden van p steekproefproporties, die je steekproevenverdeling kunt noemen. Die steekproevenverdeling kun je met behulp van een histogram weergeven. De middelste 90% van alle steekproefproporties ligt binnen een bepaald interval. Bij de steekproeven van opgave 45 is dit het interval [0,325; 0,375]. Dus bij deze simulaties met populatieproportie 0,35 ligt 90% van de steekproefproporties tussen de 32,5% en 37,5%. De halve lengte van dat interval is de foutenmarge, in dit geval is de foutenmarge 0,025, dus 2,5%. Je hanteert dan een 90%-betrouwbaarheidsniveau. Het bijbehorende interval hangt af van de steekproefgrootte, de populatieproportie en het gekozen betrouwbaarheidsniveau. Dit interval heet het betrouwbaarheidsinterval. Opgave 46 Stel je voor dat je wilt bepalen hoeveel procent van de frequentie ˆ p Nederlandse vrouwen tussen 15 en 25 jaar rookt. Een 0,25 1 bureau huurt 100 interviewers die elk een aselecte 0,26 2 steekproef van 1200 meisjes tussen de 15 en de 25 jaar 0,27 2 uitvoeren. 0,28 15 In de tabel zie je frequenties van de steekproefproporties 0,29 25 ˆ van de rokers in elke steekproef. p 0,30 29 a) Welke steekproefproportie komt het vaakst voor? 0,31 15 b) Hoeveel bedraagt de steekproefgrootte? 0,32 6 c) Teken een bijpassend histogram. 0,33 4 d) Bepaal het betrouwbaarheidsinterval dat hoort bij een 0,46 1 90% betrouwbaarheidsniveau. Hoeveel bedraagt de totaal 100 foutenmarge? e) Eén van de interviewers heeft een steekproefproportie van 0,31 gevonden en zegt: “Het percentage rokers onder de Nederlandse vrouwen bedraagt 31% met een foutenmarge van 2%.” Waarom is deze uitspraak in overeenstemming met de steekproevenverdeling?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
27
Opgave 47 Je bekijkt opnieuw steekproeven uit een populatie met populatieproportie van 0,35. De steekproefgrootte is ook weer 1000. De histogrammen hieronder zijn alle hetzelfde. Bij een betrouwbaarheid van 100%, 90%, 80% en 70% wordt steeds het betrouwbaarheidsinterval en de foutenmarge aangegeven. a) Hoe groot is de kans dat een steekproef valt in het interval [0,3; 0,4]? b) Hoe groot is de kans dat een steekproef valt in het interval [0,335; 0,365]? c) Geef het betrouwbaarheidsinterval bij een betrouwbaarheidsniveau van 90%. d) Vul onderstaande tabel verder in. foutenmarge
e) f) g)
betrouwbaarheidsinterval
betrouwbaarheidsniveau 100% 90% 80% 70%
Stel dat een steekproefproportie 33% is. Geef een schatting van het betrouwbaarheidsinterval waarin de populatieproportie dan met 80% betrouwbaarheid ligt. Wat gebeurt er met het betrouwbaarheidinterval als het betrouwbaarheidsniveau afneemt? Wat gebeurt er met het betrouwbaarheidsniveau als de foutenmarge kleiner wordt?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
28
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
29
Opgave 48 In de figuur zie je opnieuw een steekproevenverdeling van een populatie met populatieproportie van 0,35. De steekproefgrootte is ook weer 1000.
a)
In een steekproef is de steekproefproportie 0,366. Welke uitspraak kun je met 90% betrouwbaarheid doen over de populatieproportie? Valt de werkelijke populatieproportie binnen het betrouwbaarheidsinterval?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
30
b) c) d)
In een andere steekproef is de steekproefproportie 0,379. Valt de werkelijke populatieproportie binnen het betrouwbaarheidsinterval? Maartje zegt: “Ik kan met 90% betrouwbaarheid zeggen dat de populatieproportie 0,379 is”. Wat is er fout aan deze uitspraak? Met hoeveel procent betrouwbaarheid kan Maartje zeggen dat de populatieproportie niet in het betrouwbaarheidsinterval ligt bij een steekproefproportie 0,379?
Opgave 49 In de histogrammen hieronder staan voor een aantal waarden van de steekproefgrootte een steekproevenverdeling. Het betrouwbaarheidsniveau is steeds 95%. a) Hoe groot is de spreidingsbreedte bij steekproefgrootte n = 20 en n = 500 ? b) Maak een tabel van de steekproefgrootte en het bijbehorende betrouwbaarheidsinterval bij een betrouwbaarheidsniveau van 100%. c) Wat kun je zeggen over de betrouwbaarheidsintervallen als de steekproefgrootte toeneemt?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
31
Opgave 50 Het betrouwbaarheidinterval hangt dus samen met van de populatieproportie en de steekproefgrootte. Onderstaande tabel laat de samenhang ook zien. Het betrouwbaarheidsniveau is 95%, de populatieproportie en de foutenmarge zijn gegeven in procenten. a) Een bureau voert een steekproef uit met steekproefgrootte 1500. Hoe groot is het betrouwbaarheidsinterval als bekend is dat de populatieproportie 70% is? b) De populatieproportie is echter niet bekend. Het bureau vindt een steekproefproportie van 68%. Geef het bijpassende betrouwbaarheidsinterval.
Theorie *************************************** Bij statistisch onderzoek wil je onder andere antwoord op vragen als: “Hoeveel procent van een groep heeft een zekere eigenschap?” De te onderzoeken groep heet de populatie en die heeft een bepaalde omvang, de populatiegrootte. Het percentage binnen de populatie met de eigenschap heet de populatieproportie p. Daar ben je naar op zoek… Je kunt een steekproef nemen om de populatieproportie te weten te komen. Je zet dan een aselecte steekproef op van een bepaalde grootte, de steekproefgrootte. Een steekproef is aselect als elk element van de populatie evenveel kans heeft om er in voor te komen. Het percentage binnen de ˆ. steekproef met de eigenschap heet de steekproefproportie p Door de rol van het toeval geven verschillende steekproeven verschillende steekproefproporties. Die steekproefvariabiliteit wordt alleen zichtbaar als je in theorie meerdere steekproeven simuleert, waarbij je de populatieproportie bekend veronderstelt. In de praktijk neem je slechts één steekproef. Een tabel als die van opgave 50 geeft het verband tussen populatieproportie, steekproefgrootte en foutenmarges bij een gekozen betrouwbaarheidsniveau. Het betrouwbaarheidsinterval is dan [steekproefproportie – foutenmarge, steekproefproportie + foutenmarge]
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
32
********************************************* Voorbeeld In de praktijk wordt er meestal slechts één steekproef uitgevoerd. De populatieproportie is onbekend. Je kiest een betrouwbaarheidsniveau. De tabel van opgave 50 geeft de foutenmarge weer bij een betrouwbaarheidsniveau van 95%. Je kunt ook de foutenmarge kiezen en dan met de tabel het betrouwbaarheidsniveau bepalen. Er is per 1 januari 2009 een rookverbod in de Horeca ingevoerd. In dat jaar heeft men onderzocht hoeveel % van de volwassen Nederlanders daar voor is. Bij een aselecte steekproef van 1500 mensen was de steekproefproportie 0,63 = 63%. Bij een betrouwbaarheidsniveau van 95% hoort volgens de tabel een foutenmarge van 2,5%. Dat betekent dat het 95%-betrouwbaarheidsinterval dus loopt vanaf 63 " 2,5 = 60,5% tot en met 63 + 2,5 = 65,5%. Conclusie: je kunt met 95% betrouwbaarheid beweren dat het percentage Nederlanders die voor het rookverbod zijn 63% is met een foutenmarge van 2,5%. "
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
33
Opgave 51 Gebruik bij deze opgave de tabel van opgave 50 met foutenmarges bij een betrouwbaarheidsniveau van 95%. a) Bij een aselecte steekproef van 1000 personen werden 692 voorstanders van het rookverbod in de Horeca aangetroffen. Doe nu met een betrouwbaarheid van 95% een uitspraak over het percentage Nederlanders voor het rookverbod in de Horeca. b) Leg uit waarom bij het toenemen van de steekproefgrootte de foutenmarge kleiner wordt. c) Wat zal er met de foutenmarges in de tabel gebeuren als er een kleiner betrouwbaarheidsniveau wordt gehanteerd? Leg uit. Opgave 52 Voorafgaande aan verkiezingen worden opiniepeilingen gehouden. Daarbij worden door een onderzoeksbureau 2000 aselect getrokken Nederlanders gevraagd naar de partij van hun voorkeur. Het onderzoeksbureau hanteert een betrouwbaarheidsniveau van 95%. Een partij gaat in zo’n opiniepeiling van 30 naar 31 zetels (van de 150 zetels). Laat zien dat er geen reden tot vrolijkheid is in verband met het gehanteerde betrouwbaarheidsniveau. Gebruik weer de tabel uit opgave 50.
Verwerken Opgave 53 Bij het bepalen van de kwaliteit van gloeilampen wordt een steekproef van 600 stuks getest op levensduur: ze moeten minstens 750 branduren hebben. Daarvan doorstaan er 48 de test niet. a) Waarom mag de fabrikant nu niet met een betrouwbaarheid van 95% beweren dat hoogstens 10% van zijn gloeilampen minder dan 750 branduren heeft? Gebruik bij je antwoord de tabel uit opgave 50. b) Welke bewering kan de fabrikant wel doen? Opgave 54 Bij de presidentsverkiezingen is er keuze uit twee kandidaten, A en B. In een krant staat: “Uit de laatste opiniepeiling blijkt dat 54% van de stemgerechtigden voor kandidaat A zullen stemmen. De peiling heeft een foutenmarge van 3%, dus kandidaat A zal zeker winnen.” Wat is er fout aan deze redenering? Opgave 55 Uit een onderzoek onder 3000 aselect getrokken Nederlanders blijkt dat 61% van de deelnemers regelmatig naar soap-series kijkt. a) Als je werkt met een betrouwbaarheid van 95% tussen welke waarden zal dan het percentage Nederlanders liggen dat regelmatig naar soap-series kijkt? Gebruik de tabel uit opgave 50. b) Stel dat je met een betrouwbaarheid van 99% wilt werken. Wordt dan het betrouwbaarheidsinterval groter of kleiner?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
34
3.5
Enquêtes
!
Practicum Bij deze paragraaf hoort het VUStat-practicum ENQUÊTES.
Verkennen Bij statistisch onderzoek speelt het houden van een enquête een grote rol. Hoe je zo’n enquete opzet is van groot belang: je mag geen onduidelijke, dubbelzinnige vragen stellen, je moet niemand antwoorden in de mond leggen, de antwoorden moeten goed kunnen worden verwerkt, en dergelijke… Bovendien heb je in paragraaf 3.1 gezien dat de manier van vragen stellen invloed kan hebben op het meetniveau van de verkregen data. Het meetniveau is weer van invloed op het soort technieken dat je kunt inzetten voor het verwerken van de data. Opgave 56 Je wilt door middel van een enquête een beeld krijgen van de bestedingen van jongeren van 16 – 18 jaar. Formuleer minstens vijf vragen die geschikt zijn voor de enquête. Wissel jouw vragen uit met een klasgenoot en probeer elkaars vragen te verbeteren. Opgave 57 Er zijn verschillende manieren om een enquête te houden. Elke manier heeft zijn voor en tegen, vaak afhankelijk van de populatie. a) Een onderzoeksbureau onderzoekt of mensen op een krant zijn geabonneerd door een telefonische enquête waarbij de nummers aselect uit een telefoonboek worden getrokken. Zal de uitslag van deze enquête een goed beeld geven of vindt er vertekening plaats? Motiveer je antwoord. b) Telefonisch onder alleen mobiele nummers en “random digit dialling”. Voor elke populatie geschikt? c) Internet via een jongerensite als het gaat om uitgavenpatroon jongeren. Goede aanpak? d) Via ANWB-site als het gaat om “rekening rijden”. Goede aanpak? e) Via e-mail onder de leden van een bepaalde club over contributieverhoging. Goede aanpak? f) Schriftelijk onder 5000 aselect gekozen adressen. Welk nadeel heeft deze aanpak? Opgave 58 Belangrijk bij een enquête is om goede vragen te stellen. a) In een onderzoek naar de relatie tussen schoolprestaties en de tijd die wordt besteed aan computerspellen wordt gevraagd: “Besteed je teveel tijd aan computerspellen?” Is dat een goede vraag? Kun je hem verbeteren? b) Wat kun je beter vragen: “Merkt u ook dat de onveiligheid op straat sterk is toegenomen?” of “Voelt u zich veilig op straat?” c) In een onderzoek naar de werkdruk binnen een bepaald bedrijf staat de vraag: “Welk deel van de werktijd besteedt u aan zaken die met het werk niets te maken hebben?” Geef commentaar op deze vraag. CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
35
Opgave 59 In een onderzoek naar het voedingspatroon van de Nederlandse jeugd van 16 – 22 jaar wordt een aselecte steekproef van 10.000 jongeren uit die leeftijdscategorie getrokken. Al deze jongeren krijgen een schriftelijke enquête naar hun huisadres gestuurd. a) Het onderzoeksbureau krijgt 4831 enquêtes ingevuld terug, dat noem je de respons. Hoeveel procent bedraagt die respons? b) Probeer een aantal (minstens twee) redenen te geven voor de non-respons, het aantal enquêtes dat niet is ingevuld. c) Op een bepaalde vraag wordt op 94% van de ingevulde enquêtes met “ja” geantwoord. Mag je nu concluderen dat 94% van de jongeren van 16 – 22 jaar het daarmee eens is? d) Per vraag kan de respons ook nog variëren. Kun je een vraag bedenken in het kader van dit onderzoek waarop de respons laag zal zijn?
Theorie *************************************** Een enquête is een steekproef, waarbij aan mensen vragen worden gesteld. De steekproef moet zorgvuldig worden samengesteld anders treedt er al snel vertekening op. De steekproef is dan niet representatief meer. Verder moet je als onderzoeker rekening houden met onvolledige antwoorden, niet of onvolledig ingevulde enquêtes. Dergelijke non-respons treedt altijd op. Te grote non-respons maakt de enquête onbruikbaar ook al lijken de resultaten duidelijk in een bepaalde richting te wijzen. De steekproef is immers niet representatief meer. Voor wat betreft de enquête zelf: ! Kies een vorm die past bij je populatie: schriftelijk, mondeling, telefonisch (vast/mobiel), digitaal (via email, via een website), e.d. ! Stel vragen waarop zoveel mogelijk een eenduidig antwoord mogelijk is, zoals ja/nee-vragen, vragen waarbij je aankruist op een puntenschaal, vragen waarop precies één antwoord kan worden gegeven. ! Stel geen vragen waarbij door de vraagstelling al duidelijk wordt welk antwoord je wilt horen. ! Laat je enquête afnemen door onpartijdige enquêteurs.
********************************************* Opgave 60 In een straat staan precies 100 woningen, het zijn 20 blokken van 5 woningen. Aan iedere kant van de weg staan 10 blokken. Je hebt een even kant met de huisnummers 2 t/m 100, met tuin op het zuiden. Je hebt een oneven kant met de huisnummers 1 t/m 99, met tuin op het Noorden. a) Een energiebedrijf wil het gasverbruik in deze straat onderzoeken. Het neemt een steekproef van 10 huizen: de huisnummers 1, 11, 21, 31, 41, 51, 61, 71, 81 en 91. Waarom is deze steekproef niet aselect? b) Het gemiddelde gasverbruik wat de onderzoeker bij de 10 huisnummers vindt, blijkt veel hoger te zijn dan het gemiddelde in de straat in werkelijkheid blijkt te zijn. Hoe kan dat?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
36
c) d)
Bedenk een manier om 10 huizen uit de straat te selecteren voor het onderzoek, zodat het gemiddelde gasverbruik van de 10 huizen representatief is voor de hele straat. Iemand beweert dat een bepaald deel van de steekproef moet bestaan uit hoekwoningen omdat die meer energie verbruiken dan tussenwoningen. Welk deel zou dat moeten zijn? Hoe kun je nu een aselecte steekproef samenstellen en toch hiermee rekening houden?
Opgave 61 In 1987 verscheen het geruchtmakende boek “Women and Love: A Cultural Revolution in Progress” van Shere Hite. De auteur beschreef daarin de resultaten van een onderzoek onder 100.000 vrouwen met betrekking tot hun relatie. Van de vrouwen die de vragenlijst terug stuurden: ! voelde 84% zich emotioneel niet goed in hun relatie; ! had 95% psychische of lichamelijk mishandeling doorstaan; ! gaf slechts 13% aan na twee jaar huwelijk nog van hun man te houden. Om te laten zien dat ze een representatieve steekproef had opgesteld gebruikte ze tabellen zoals deze: Jaarlijks inkomen (x 1000 dollar) In steekproef (%) V.S. (%) 0-<2 19,0 18,3 2-<6 22,5 25,4 6 - < 10 17,0 17,1 10 - < 15 13,0 15,0 15 - < 20 10,0 9,8 20 - < 25 8,0 6,4 8,5 8,2 # 25
Grote stad Platteland Kleine stad
Woonplaats In steekproef (%) 60 27 13
V.S. (%) 62 26 12
En zo hield ze ook rekening met ras/afkomst en de regio. Zo’n 4500 vrouwen stuurden de vragenlijst ingevuld terug aan de auteur. a) Wat denk je van de representativiteit van de steekproef? b) Waarom zou zo’n steekproef een gelaagde steekproef worden genoemd? c) De vragenlijst bevatte meer dan 100 vragen die de vrouwen zelf moesten invullen en terugsturen. Waarom stuurde Shere Hite geen interviewers op pad? d) In dat zelfde jaar verscheen een andere opiniepeiling waaruit bleek dat 89% van de respondenten wel degelijk voldoening putte uit hun relatie. Dit cijfer was ongeveer gelijk voor mannen en voor vrouwen. Is dit in strijd met de resultaten van Hite? En hoe zou dat komen? e) Shere Hite had je maken met een grote non-respons. Waardoor zou dat komen? En welke gevolgen heeft dat voor de betrouwbaarheid? Is er sprake van vertekening en waardoor komt dat dan? f) Stel je eens voor dat Hite ook de overige 95500 vragenlijsten terug had gekregen en daarvan alle vrouwen zich emotioneel goed voelden in hun
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
37
relatie. Welk percentage vrouwen die zich emotioneel niet goed voelen in hun relatie had deze auteur dan gevonden?
Verwerken Opgave 62 In de wetenschapsquiz kwam de volgende vraag voor. Stel: je wilt weten hoeveel schoolgaande kinderen er gemiddeld per gezin zijn. Je neemt een grote steekproef onder schoolkinderen en vraagt hun hoeveel schoolgaande broertjes en zusjes zij hebben. Op basis daarvan bepaal je het gemiddelde aantal schoolgaande kinderen per gezin. Is dit een goede aanpak? ! Ja, zo krijg je een betrouwbare schatting van het gemiddelde aantal kinderen per gezin. ! Nee, zo krijg je een te lage schatting. ! Nee, zo krijg je een te hoge schatting. Welk van de bovenstaande antwoorden is correct en waarom? Opgave 63 In februari 2010 deelde RTLNieuws mee dat het personeel in Nederlandse ziekenhuizen te kampen heeft met extreem veel geweld. De redactie heeft alle 94 ziekenhuisinstellingen in Nederland per e-mail benaderd met de vraag hoe vaak ze nu eigenlijk met geweld en agressie te maken hebben gehad zowel in 2008 als in 2009. 44 instellingen reageerden en meldden samen ruim 2000 incidenten in 2009, waarvan 78% verbaal geweld en 22% fysiek geweld. Over 2008 kwamen te weinig gegevens binnen. (Bron: Natuurwetenschap en technologie, april 2010) a) Wat vind je van deze manier van onderzoeken? Het tijdschrift waarin melding werd gemaakt van het bericht van RTLNieuws deed vervolgens zelf aanvullend onderzoek: ! Eind 2004 meldde Elsevier Gezondheidszorg een daling van 11% geweldsdelicten in ziekenhuizen t.o.v. het jaar ervoor. In 2004 registreerde men 784 geweldsdelicten in 16 ziekenhuizen. ! Trouw meldde over 2005 een gemiddelde van ruim 60 geweldsdelicten per instelling. ! Zorgvisie geeft op zijn website over 2006 een gemiddelde van 38 geweldsdelicten per instelling. Neem aan dat het steeds over dezelfde geweldsdelicten gaat. b) Maak een overzicht van het gemiddelde aantal geweldsdelicten in ziekenhuizen over de jaren 2004, 2005, 2006 en 2009. Kun je een conclusie trekken? Waarom wel/niet?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
38
Overzicht Je hebt nu alle theorie van het onderwerp “Data verwerven” doorgewerkt. Het is nu tijd om een overzicht over het geheel te krijgen. Begrippen 31: statistisch probleem – onderzoeksvragen – experimenteren, simuleren, redeneren – steekproef – vertekening – systematische fout – toevallige fout – nominaal, ordinaal, interval en ratio meetniveau 32: toevalsexperiment – gebeurtenis – simuleren, toevalsgetallen – kansdefinitie van Laplace - empirische kans – theoretische kans – empirische wet van de grote aantallen 33: boomdiagram, kansboom 34: populatie, populatiegrootte, populatieproportie – steekproef, steekproefgrootte, steekproefproportie – representatief – aselecte steekproef – steekproevenverdeling – betrouwbaarheidsinterval – foutenmarge 35: enquête – non-respons Vaardigheden 31: manieren van statistisch onderzoek herkennen – het voor komen en voorkomen van systematische fouten – het omgaan met toevallige fouten – het herkennen van meetniveau’s 32: empirische kansen bepalen door experimenteren en/of simuleren – theoretische kansen herkennen 33: theoretische kansen bepalen door redeneren met behulp van boomdiagrammen en kansbomen 34: werken met steekproefproporties en betrouwbaarheid 35: kritisch kijken naar enquêtes Opgave 61 Samenvatten Maak een samenvatting van dit onderwerp door bij elk van de genoemde begrippen een omschrijving of een voorbeeld te geven en bij elk van de genoemde vaardigheden een voorbeeld te geven.
Toetsen Opgave 64 De schok was groot toen uit een artikel in “Onze taal” bleek dat Belgen beduidend langzamer praten dan Nederlanders. In de Randstad haalt men 5,42 lettergrepen per seconde, in Oost-Vlaanderen slechts 4,43. Sommige mensen gingen het meteen controleren. De spreeksnelheid van 21 miljoen Nederlands sprekenden werd bepaald door maar liefst 160 leraren en leraressen een stukje te laten opzeggen. Er waren acht groepen, dus twintig sprekers per groep. En dan werd ook nog gerapporteerd over het verschil tussen jong en oud, man en vrouw. (Bron: http://www.vanmaanen.org/hans/artikelen/2004.html)
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
39
a) b) c) d)
Wat vind je van deze opzet? Wat vind je van de steekproef? Wat vind je van de conclusie dat Belgen beduidend langzamer praten dan Nederlanders? Hans van Maanen rangschikt dit onderzoek in de top 10 van wetenschappelijke blunders van 2004. Waarom denk je?
Opgave 65 In de jaren 1982 – 1988 werd onder 22.000 mannelijke Amerikaanse artsen onderzoek gedaan naar de invloed van aspirine op hart- en vaatziekten op de gemiddelde Amerikaanse man. De helft gebruikte om de dag 300 mg aspirine, wat ongeveer gelijk staat aan een ‘gewoon’ aspirientje. De andere helft slikte een placebo (‘fopmiddel’). Van de aspirineslikkers kregen 104 personen een hartinfarct, van de placeboslikkers waren dat er 189. De conclusie van het onderzoek was dat het risico op een hartinfarct met ongeveer 45% wordt verlaagd door het slikken van aspirine. Dat dit grote verschil aan toeval was te wijten vond men uitgesloten vanwege het grote aantal mensen dat aan de studie meewerkte. a) Waarom is hier geen sprake van een representatieve steekproef? Hoe had deze steekproef moeten worden samengesteld? b) Waarom werd er van placebo’s gebruik gemaakt? c) Hoeveel procent van de 11.000 aspirineslikkers heeft baat gehad bij slikken van aspirine? d) Volgens de tekst hierboven wordt de kans op een hartinfarct met 45% verlaagd. Klopt dat? Opgave 66 Chuck-a-luck Bij het spel Chuck-a-luck kies je vooraf je “point”, dat is een aantal ogen op één dobbelsteen (bijvoorbeeld 5). Daarna leg je een bepaald bedrag in. Dan wordt er met drie dobbelstenen geworpen en geteld hoe vaak je “point” boven komt. Komt je point niet boven, dan ben je je inleg kwijt. Komt hij één keer boven, krijg je de inleg terug, komt hij twee keer boven krijg je de inleg dubbel terug en komt hij drie keer boven krijg je de inleg 10 keer terug. a) Hoe groot is de kans dat je je geld kwijt bent? b) Je legt 1 euro in. Hoeveel kun je dan maximaal winnen? En hoe groot is de kans daar op? c) Hoe groot is de kans op 1 euro winst? d) Beschrijf hoe je dit spel kunt simuleren. Voer daarna een simulatie uit van 30 spelletjes Chuck-a-luck. Bereken je winst! e) Is dit een spel waar je op de lange duur winst op zult maken? Licht je antwoord toe. Opgave 67 De kleurenblinde en de glasbak Ongeveer een half miljoen Nederlanders is kleurenblind. Een kleurenblinde ziet (bijna) geen verschil tussen (bepaalde) kleuren. Gekleurde flessen zijn groen of bruin. Sommige kleurenblinden zien geen verschil tussen groen en bruin. Zij staan met hun lege flessen voor de glasbak en weten niet of ze een gekleurde fles in het gat voor groen glas of in het gat voor bruin glas moeten gooien. Peter is kleurenblind. Hij kan de groene en de bruine flessen niet van elkaar onderscheiden. Als Peter met zijn lege flessen bij de glasbak komt, gooit hij de witte flessen altijd in het juiste gat. Bij
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
40
een gekleurde fles kiest hij aselect tussen het gat voor groen en het gat voor bruin. De kans dat een groene of bruine fles in het goede gat terechtkomt is dus 0,5. Peter brengt 100 lege flessen naar de glasbak. De helft van zijn flessen is van wit glas. Bij de andere helft zijn zowel groene als bruine flessen.
.
a)
Laat zien dat naar verwachting 75 van de 100 flessen in het goede gat terechtkomen.
Uit a) volgt: de kans dat een fles in het goede gat terechtkomt is 75% als Peter de witte flessen altijd goed gooit en bij elke gekleurde fles aselect kiest tussen het gat voor groen en het gat voor bruin. Uit onderzoek is gebleken dat van de flessen in de glasbak 50% wit, 40% groen en 10% bruin is. Neem aan dat dit ook voor de flessen van Peter geldt. Je kunt het gooien van de flessen in de glasbak weergeven met een boomdiagram zoals dit.
Peter kan de kans dat hij een fles in het goede gat gooit, hoger krijgen dan 75%. Hij gooit de witte flessen allemaal in het goede gat. Hij concludeert uit het onderzoek dat van de gekleurde flessen 4/5 deel groen en 1/5 deel bruin is. In die verhouding gaat hij de gekleurde flessen in de gaten gooien. Elke gekleurde fles heeft dan kans 4 /5 om in het gat voor groen
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
41
terecht te komen en kans 1/5 om in het gat voor bruin terecht te komen. b) Bereken voor deze werkwijze de kans dat een willekeurige fles in het goede gat terechtkomt. Er bestaan nog betere werkwijzen voor Peter. In zo’n werkwijze is de kans dus nog groter dat een fles in het goede gat terechtkomt. c) Geef een voorbeeld van zo’n werkwijze en toon aan dat deze beter is. (bron: eindexamen havo wiskunde A in 2001)
Opgave 68 Tennis om een bromfiets Jeanine speelt even goed tennis als haar moeder. Een partijtje tegen haar moeder wint ze met kans 0,5. Ze speelt veel beter dan haar vader. Een partijtje tegen haar vader wint ze met kans 0,8. Jeanine krijgt van haar ouders een bromfiets als ze in een serie van drie partijen, afwisselend tegen haar vader en haar moeder, twee maal achter elkaar wint. a) Tegen wie zou jij beginnen als je Jeanine was, tegen haar vader of tegen haar moeder? En waarom? b) Bepaal de kans dat Jeanine de bromfiets wint als ze tegen haar vader begint. c) Bepaal ook de kans dat ze de brommer wint als ze tegen haar moeder begint. Opgave 69 Om te onderzoeken hoeveel procent van de jongeren in de leeftijd van 15 tot 18 jaar een scooter heeft wordt een aselecte steekproef van 2310 jongeren in die leeftijd getrokken. Daarvan bleken er 516 een scooter te hebben. a) Hoeveel procent van de jongeren van 15 tot 18 jaar beschikt met een betrouwbaarheidniveau van 95% over een scooter? (Gebruik de onderstaande tabel met foutenmarges.) b) Een fabrikant van scooters wil dit percentage wel nauwkeuriger weten. Wat kan hij het beste doen? Motiveer je antwoord. A – Nog een aantal keren een steekproef van 2310 jongeren trekken. B – Een grotere steekproef van 20000 jongeren trekken. C – Een betrouwbaarheidsniveau van 99% hanteren?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
42
Opgave 70 In Frankrijk is sinds 2001 een wet van kracht die het mogelijk maakt om in theaters, bioscopen, concertzalen, sportzalen, e.d., mobiele telefoons te storen. Om te onderzoeken of de Fransen het daar mee eens zijn werd door een onderzoeksbureau aan 1023 aselect gekozen Fransen van 15 jaar of ouder hun mening gevraagd. Hiervan bleek 85% het eens te zijn met deze wet. a) Hoeveel procent van de Fransen was het met een betrouwbaarheid van 95% dus eens met deze wet? (Gebruik de tabel met foutenmarges op de vorige pagina.) b) Het onderzoeksbureau meldde dat tussen de 83,5% en 86,5% van de Fransen het met deze wet eens waren. Hebben zij een grotere of een kleinere betrouwbaarheid gehanteerd?
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
43
3 Data verwerven
Antwoorden
3.0 Statistisch onderzoek Opgave 1 a) Welk deel van de jongeren (tussen 15 en 25 jaar) gebruikt internet via de telefoon? De onderzoeksvraag kan ook veel algemener zijn (bijv. “Wat doen jongeren met hun mobieltje?”), waarbij de genoemde uitspraak slechts het antwoord op een deelvraag is… b) Bijv. door een groot aantal jongeren (telefonisch) te bevragen c) …
3.1 Experimenteren en simuleren Opgave 2 Zie opgave 1b) Opgave 3 a) Prima, maar onbekend is HOE de geënquêteerden worden gekozen… b) Je bevraagt alleen een bepaald type jongere, namelijk degenen die dit blad lezen en ook nog eens de moeite nemen te reageren c) Hoe komen ze aan de nummers? Nogal wat mensen hebben tegenwoordig geen ‘vast nummer’ meer en alleen een mobiel nummer, eventueel zelfs prepaid. Deze nummers zijn vaak onbekend (en staan niet in een telefoonboek). d) Er zijn nogal wat jongeren die zich weinig tot niet in winkelcentra vertonen. Die peil je dus niet en de ‘shoppende jongere’ juist des te meer. En het tijdstip of de dag in de week? Opgave 4 a) Anita b) Nee c) Ja, afwijking in de afstelling van het vizier d) Rechts naast de roos en ietsje te hoog mikken e) Als je steekproef niet goed is kan daardoor een systematische afwijking in de resultaten zitten en daardoor verkeerde conclusies getrokken worden. Opgave 5 a) Hij houdt dan geen rekening met het verpakkingsmateriaal. Bijna elk doosje zal worden goedgekeurd, terwijl er toch te weinig thee in zit. b) De thee uit de 20 zakjes halen en de thee alleen te wegen. c) Dan vallen de weegresultaten ook systematisch te laag of te hoog uit, overeenkomstig de foute instelling van de vulmachine d) Er zal een grotere variatie (of spreiding) in de meetresultaten optreden. Opgave 6 a) Je zit niet echt in een auto en de gevaarlijke situatie is niet echt. Er staan niet echt levens op het spel. Je kunt moeilijk echt mensenlevens op het spel zetten. b) In een echte auto, met bijv. muziek en passagiers aan boord, reageer je toch anders dan wanneer je aan een testje meedoet en weet dat er in de komende minuten/seconden iets gaat gebeuren. c) … CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
1
3 Data verwerven
Antwoorden
Opgave 7 a) Een groot aantal keer 9 munten gelijktijdig (voldoende hoog) opwerpen en dan turven hoeveel daarvan op kop of munt landen. (Of: een groot aantal keren één munt 9 keer opgooien. Elk negental worpen is dan 1 experiment. Turf het aantal keer kop of munt.) b) De nul moet je dan sowieso buiten beschouwing laten! Verder mag je verwachten dat de eindcijfers allemaal even vaak voorkomen, maar zekerheid daarover heb je niet… De aanpak is dus waarschijnlijk redelijk goed. c) In een bepaalde regio/gemeente beginnen de telefoonnummers meestal met hetzelfde begincijfer. d) Bijv. telefoonboek: laatste 4 cijfers gebruiken van het eerste nummer op een willekeurig opengeslagen bladzijde; voor elk cijfer geldt dan 0 t/m 4 is kop, 5 t/m 9 is munt. Doe dit 1000 keer. Opgave 8 a) Kwalitatieve variabele, nominale meetniveau; volgorde niet van belang. b) Kwalitatieve variabele, ordinale meetniveau; volgorde wel van belang; gemiddelde is niet zinvol. c) Nee (kwantitatieve variabele, interval meetniveau) d) Ja (kwantitatieve variabele, ratio meetniveau) Opgave 9 a) Je kunt niet objectief zeggen dat de ene partij ‘beter’ is dan de andere. b) Ratio meetniveau c) Jawel, 273 kelvin d) Nee, 10 ºC is 283 kelvin en 20 ºC is 293 kelvin, dus niet twee keer zo warm e) Ja, bijv. streepjes staan verkeerd of kwikbuisje iets verschoven, je leest dan telkens hetzelfde aantal ºC te veel of te weinig af. f) Je vergist je in het tellen van de streepjes op de thermometer. g) Systematische fout: weegschaal niet goed afgesteld (nulstand), of veer werkt niet goed en de weegschaal geeft te veel of te weinig aan; Toevallige fout: je vergist je in het aflezen van de weegschaal of noteert per ongeluk een andere waarde dan je hebt afgelezen (slordig handschrift). Opgave 10 a) Interval meetniveau (hoewel…) b) Ratio meetniveau c) Interval meetniveau d) Interval meetniveau e) Nominale meetniveau Opgave 11 a) Bijv. variabele ‘meerderheid’ met de waarden ‘j’ of ‘m’; nominale variabele b) Gemiddelde niet zinvol c) Ja: laat een computer 3 getallen ‘0 of 1’ trekken; 0 = ‘j’ en 1 = ‘m’ en tel dan waar er meer van zijn; doe dit een groot aantal (bijv. 1000) keer. Opgave 12 …
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
2
3 Data verwerven
Antwoorden
Opgave 13 a) Interval meetniveau b) Ordinale meetniveau c) Ordinale meetniveau (bij S, M, L, XL) of interval meetniveau (bij Engelse of Franse kledingmaten) d) Ratio meetniveau e) Ratio meetniveau Opgave 14 a) Kwalitatieve variabele; ordinale meetniveau b) Het is ‘dubbel blind’ als aan de leerling en degene die de toets nakijkt onbekend is of de leerling een ‘ander’ drankje heeft gekregen c) … d) …
3.2 Toeval en kans !
a) b) c) d) e) f)
Som Freq. Proc. Som Freq. Proc. Opgave 15 2 1 3,33 2 17 2,27 Som van het aantal ogen van 3 1 3,33 3 50 6,67 de twee dobbelstenen; 4 2 6,67 4 62 8,27 kwalitatief, rationiveau 5 4 13,33 5 80 10,67 Zie een mogelijke uitkomst 6 1 3,33 6 105 14,00 7 5 16,67 7 121 16,13 hiernaast (gemaakt met een 8 6 20,00 8 97 12,93 simulatie in VU-Stat) 9 4 13,33 9 77 10,27 Zie de tabel hiernaast 10 3 10,00 10 71 9,47 … 11 2 6,67 11 41 5,47 Zie de tweede tabel hiernaast 12 1 3,33 12 29 3,87 voor het (gesimuleerde) Totaal 30 100% Totaal 750 100% resultaat van 25 leerlingen. De sommen 2 en 12 komen het minst voor, want die kunnen elk maar op één manier (1+1 resp. 6+6). De som 7 komt het vaakst voor, want kan op de meeste manieren (6 stuks: 1+6, 2+5, 3+4, 4+3, 5+2 en 6+1).
Opgave 16 a) 10,2% b) 4/36 (= 1/9) c) 4/36 ! 11,1% en dat is bijna gelijk aan 10,2%. d) Dan heeft niet elk ‘vakje’ in het rooster dezelfde kans en kun je de theoretische kans dus niet bepalen door het aantal vakjes te tellen. e) Nee, een dobbelsteen heeft geen ‘geheugen’ en elke nieuwe worp staat los van de resultaten van al de voorgaande worpen. Opgave 17 a) b) c) d)
aantal 2 3 4 5 6 7 8 9 10 totaal freq. 2 1 3 1 3 7 4 3 1 160 Tussen 2 en 10 (inclusief de grenzen) Ja: de 25 leerlingen hebben in totaal 160 keer 7 gegooid van de 25 · 36 = 900 worpen, dus de empiritsche kan is 160/900 ! 17,8% (of 18%).
aantal 2 3 4 5 6 7 8 9 10 totaal freq. 5 10 10 7 7 13 15 6 3 452 De empirische kans is nu 452/(76·36) = 452/2736 ! 16,5%. Ja, deze kans is beter, want de theoretische kans is 6/36 ! 16,7%.
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
3
3 Data verwerven
Antwoorden
!
Opgave 18 50 toevalsgetallen van 0 t/m 1 laten maken en dan bijv. 1=kop, 0=munt. Omdat de uitkomsten 2 t/m 12 niet allemaal dezelfde kans hebben. Je telt dan telkens twee toevalsgetallen bij elkaar op; elk tweetal is dan één worp van twee dobbelstenen tegelijk. d) 300 toevalsgetallen van 0 t/m 1 genereren; elk drietal is dan één worp van de 3 munten.
a) b) c)
!
Opgave 19 a) Met de Random Generator van VUStatistiek (instellingen zie hiernaast). 1=jongen, 0=meisje; de som is dan het aantal jongens. Jongens 0 1 2 3 Totaal
b)
Zie de tabel hieronder voor de resultaten van 20 simulaties met VU-Stat. ! 0 1 2 3
c) d) e) f)
!
a)
Freq. 17 39 34 10 100
1 17 39 34 10
2 17 35 36 12
4 14 33 38 15
5 14 33 41 12
6 11 37 35 17
7 11 36 40 13
8 15 36 37 12
9 13 35 37 15
10 10 39 38 13
11 11 53 27 9
12 10 25 45 20
13 15 41 32 12
14 16 32 40 12
15 13 46 33 8
16 17 18 19 20 16 9 8 14 8 41 36 46 34 37 34 48 38 40 36 9 7 8 12 19
Laagste uitkomst 27 en hoogste uitkomst 48 Optellen: in totaal 34 + 36 + 31 + … + 36 = 740 keer twee jongens; 740 keer van de 2000 simulaties, dus de empirische kans is 740/2000 = 37% … … waarschijnlijk wel … (de theoretische kans is overigens 3/8 = 37,5%) Opgave 20 Met VU-Statistiek, zie instellingen hiernaast. De gegevens kun je naar een tabel zetten. V1 0 - 30 31 - 100 Totaal
b)
3 16 39 31 14
Freq. 19 31 50
Proc. 38,00 62,00 100%
Nee, ik vind 38% rokers. Zie de tabel hieronder. rokers (%) 1 2 3 4 5 6 7 8 9 10 ja 38 34 38 22 32 36 46 24 28 38 nee 62 66 62 78 68 64 54 76 72 62
c) d)
Zie tabel: tussen 22 en 46 procent. … waarschijnlijk wel … Ja, de uitkomsten vallen structureel te laag uit.
Opgave 21 a) Nee, zo’n hoge uitkomst kan toeval zijn. b) Nu zeker het idee dat de eerste keer toeval was, maar nog steeds kun je niet zeggen dat de munt niet eerlijk is. CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
4
3 Data verwerven c)
Antwoorden
Nee, daarvoor moet je echt de munt gebruiken.
Opgave 22 a) 42% (of 0,42); theoretische kans, omdat je echt wéét uit de patiëntgegevens dat precies 42% van de patiënten bloedgroep O heeft. b) Nee, de patiënten in het ziekenhuis vormt slechts een steekproef uit alle patiënten uit de streek. Bij een steekproef kan de gevonden percentage aardig afwijken van de werkelijke verdeling. Zie bijv. vraag 20. c) Nee, ook nu geldt dat deze patiënten een steekproef zijn uit de Europese bevolking en daarbij wordt bijna nooit de precieze verdeling gevonden. Opgave 23 a) 1/52 (! 0,02) b) 13/52 = 1/4 (= 0,25) c) 16/52 = 4/13 (! 0,31) d) a) Een groot aantal keer, t/m 52 genereren; Als schoppenaas; b) Een groot aantal keer, t/m 52 genereren; Als c) Een groot aantal keer, t/m 52 genereren; Als e) …
bijvoorbeeld 1000 keer, een willekeurig getal van 1 het getal 52 wordt gegenereerd dan is het een bijvoorbeeld 1000 keer, een willekeurig getal van 1 het getal 1 t/m 13 is, dan is het een hartenkaart; bijvoorbeeld 1000 keer, een willekeurig getal van 1 het getal 1 t/m 16 is, dan is het een plaatje.
3.3 Kansen berekenen Opgave 24 a) 40% van 35%, dus 14% b) 60% van 35%, dus 21% c) Via de Waal: 65%; Via de Lek: 21%; Via de IJssel: 14%; Dit is samen 100%. Opgave 25 a) Zie hiernaast. b) Onderaan de tak KKK staat 12,5(%) c) 12,5% d) 3 routes e) (3 takken, dus) 37,5% f) (4 takken, dus) 50% g) (7 takken, dus) 87,5%
50
25
12,5
12,5
25
25
12,5
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
12,5
12,5
12,5
12,5
5
12,5
3 Data verwerven
Antwoorden
Opgave 26 a) Bijv. met een simulatie. Een groot aantal keer twee getallen van 1 t/m 6 laten genereren en dan tellen hoe vaak 6+6 (of som 12) voorkomt. Zie schermafdruk: de empirische kans is dan 22/1000 = 2,2%. b) In 1/6 deel van de worpen met de eerste steen is de uitkomst een 6. Van deze gevallen is 1/6 deel ook de tweede steen een 6. Dus 1/6 van 1/6 deel, ofwel 1/6 · 1/6 = 1/36 is de kans. c) Zie hiernaast. 300 d) Met boomdiagram: 250/360 = 25/36 (! 0,69); Berekenen met kansen: 5/6 · 5/6 = 25/36 ! (0,69).
10 50 50 250
Opgave 27 a) In 1/6 deel van de gevallen heeft de 1e steen een 6. Van deze gevallen heeft 5/6 deel ook de 2e 5 . steen een 6. Dus 16 ! 65 = 36 b) c)
5
/6 · 1/6 = 5/36 5 /36 + 5/36 = 10/36 (= 5/18 ! 0,28)
Opgave 28 a) Zie hiernaast. b) " · " · " = 1/8 = 0,125 c) 3 takken, elk kans 1/8, dus 3 · 1/8 = 3/8 = 0,375 d) 4 takken, elk kans 1/8, dus 4 · 1/8 = 4/8 = 0,5 e) 7 takken, elk kans 1/8, dus 7 · 1/8 = 7/8 = 0,875 f) 8 takken, elk met kans 1/8, dus 8 · 1/8 = 1
Opgave 29 a) Zie hiernaast. b) 0,3 · 0,3 · 0,3 = 0,027 c) 3 takken (BBN, BNB, NBB); 0,3·0,3·0,7+0,3·0,7·0,3+0,7·0,3·0,3=0,189 d) Dat zijn de 3 takken van vraag c en verder nog de tak met 3 keer blauw (vraag b). De kans is dus 0,027 + 0,189 = 0,216. e) 0,310 ! 0,000006 f) BBBBBBBBBN: 0,39 · 0,7 ! 0,000014 Maar er zijn 10 zulke rijtjes (of takken in de kansboom), dus 10 · 0,000014 = 0,00014.
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
6
3 Data verwerven
Antwoorden
Opgave 30 a) Omdat je nu een klein aantal personen hebt. b) 6 c) Als de 1e persoon die gekozen is blauwe ogen heeft, dan zijn er nog 19 personen over van wie er 5 blauwe ogen hebben. Dus de kans dat de 2e ook blauwe ogen heeft is 5/19 en geen blauwe ogen met kans 14/19. Als de 1e persoon die gekozen is geen blauwe ogen heeft, dan zijn er nog 19 personen over van wie er 6 blauwe ogen hebben. Dus de kans dat de 2e wel blauwe ogen heeft is 6/19 en geen blauwe ogen met kans 13/19. d) Zie hieronder. e) 6/20 · 5/19 · 4/18 ! 0,0175 f) BBN of BNB of NBB: 6/20·5/19·14/18 + 6/20·14/19·5/18 + 14/20·6/19·5/18 ! 0,1842 g) 0,0175… + 0,1842… ! 0,2018
13 19
12 18
6 18
13 18
5 18
13 18
5 18
14 18
Opgave 31 a) Er zijn er 18% van 40 ziek, dus 7 zieke zeehonden; 7 /40 · 6/39 · 5/38 · 4/37 · 3/36 ! 0,000032. b) Dan zijn er 360 van de 2000 zeehonden ziek. 360 /2000 · 359/1999 · 358/1998 · 357/1997 · 356/1996 ! 0,000185 c) Omdat de groep in het tweede geval veel groter is. d) 0,185 ! 0,000188 dus het scheelt bijna niets. Dat komt omdat eentje meer of minder op een aantal van 360 en 2000 niets uit maakt. De breuken 360/2000 en 359/1999 zijn ongeveer even groot. Opgave 32 a) 5/9 · 5/9 · 5/9 = 125/729 ! 0,171 b) 3 takken; VVM of VMV of MVV: 5 /9 · 5/9 · 4/9 + 5/9 · 4/9 · 5/9 + 4/9 · 5/9 · 5/9 = 300/729 = 100/243 ! 0,412 c) 7 takken in de kansboom, de kansen optellen: 604/729 ! 0,829 d) 125/729 + 300/729 = 425/729 (of 0,171… + 0,412…) ! 0,583 e) Hoogstens 3 is 0, 1, 2 of 3 stuks. Dat zijn alle mogelijkheden, dus kans 1. f) De kans van alle takken samen moet 1 zijn. Bij vraag a heb je de kans van één tak berekend, dus de kans van vraag c van de andere 7 takken samen kun je berekenen via: 1 – 125/729 = 729/729 – 125/729 = 604/729 ! 0,829 Opgave 33 a) 0,893 ! 0,705 (of 0,70) b) 0,893 + 3 · 0,892 # 0,11 ! 0,966 (of 0,97) c) 1 – 0,705 ! 0,295 (of 0,30)
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
7
3 Data verwerven d)
Antwoorden
Kans dat er géén kleurenblind is: 0,8912 ! 0,24699… Kans dat er eentje kleurenblind is: 12 · 0,8911 · 0,11 ! 0,3663… De gevraagde kans is dus 0,24699… + 0,3663… ! 0,6133 (of 0,61)
Opgave 34 a) 5/9 · 4/8 · 3/7 = 60/504 (= 5/42) ! 0,119) b) 3 takken in de kansboom; VVM of VMV of MVV: 5 /9 · 4/8 · 4/7 + 5/9 · 4/8 · 4/7 + 4/9 · 5/8 · 4/7 = 240/504 (= 10/21) ! 0,476 c) 7 takken in de kansboom, de kansen optellen: 444/504 ! 0,881 d) 60/504 + 240/504 = 300/504 (= 25/42) ! 0,595 e) Alle 8 takken samen zijn natuurlijk samen kans 1 f) 1 – 60/504 = 504/504 – 60/504 = 444/504 (= 37/42) ! 0,881 Opgave 35 a) 21/24 · 20/23 ·19/22 = 7980/12144 (= 665/1012) ! 0,657 b) 3/24·21/23·20/22 + 21/24·3/23·20/22 + 21/24·20/23·3/22 = 3780/12144 (= 315/1012) ! 0,311 c) De kans op hoogstens één kleurenblinde is 7980/12144 + 3780/12144 = 11760/12144 (= 245/253) ! 0,968 d) 1 – 7980/12144 = 4164/12144 (= 347/1012) ! 0,343 e) Nee Opgave 36 a) 65/600 ! 0,108 (of 0,11) dus 10,8% (of 11%) b) 65/1000 = 0,065 (of 0,07) dus 6,5% (of 7%) c) Nee, daar kan het wel heel anders zijn. Opgave 37 a) 0,40 · 0,85 = 0,34 dus 34% b) 0,45 · 0,15 = 0,0675 dus 6,75% (of 7%) c) 0,15 · 0,55 = 0,0825 dus 8,25% (of 8%) d) Bloedgroep AB en Rh-negatief (0,05 · 0,15 = 0,0075 dus slechts 0,75%) Opgave 38 a) Zie hiernaast (de spelers heten A en B) b) 2 takken; 0,5 · 0,5 + 0,5 · 0,5 = 0,5 (dus 50%) c) Dat is dan dus ook 50% (of de kansen van de 4 takken in de kansboom optellen) d) 50 twee-setters en 50 drie-setters e) 54/90 = 0,6 dus 60% f) 0,43 = 0,064 dus 6,4% (of ongeveer 6%) Opgave 39 a) 0,6 · 20 = 12 zieke iepen; 12 /20 · 11/19 · 10/18 = 1320/6840 = 11/57 ! 0,193 (of 19%) b) 0,63 = 0,216 (of 22%) c) Bij 20 iepen: 12/20 · 11/19 · 8/18 + 12/20 · 8/19 · 11/18 + 8/20 · 12/19 · 11/18 = 3168/6840 (= 44/95) ! 0,463 (of 46%) Bij 2000 iepen: 0,6 · 0,6 · 0,4 + 0,6 · 0,4 · 0,6 + 0,4 · 0,6 · 0,6 = 3 · 0,62 · 0,4 = 0,432 (of 43%)
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
8
3 Data verwerven
Antwoorden
Opgave 40 a) 55/500 = 0,11 dus 11% b) 25/55 = 5/11 ! 0,4545… dus ongeveer 45% Opgave 41 a) Zie hiernaast b) 0,90 · 0,65 · 0,36 = 0,2106 c) Van degenen die overgebleven zijn na twee testrondes valt bij de laatste test 63% af. Dat is 0,90 · 0,65 · 0,64 = 0,3744 ! 37,4% van de oorspronkelijke kandidaten valt dan alsnog af.
3.4 Steekproeven !
Opgave 43 a) Met de Random Generator van VUStatistiek, instellingen zie hiernaast. Maak dan een tabel met klassen van ongelijke breedte; V1 0 - 34 35 - 100 Totaal
b) c) d)
!
a) b) c) d) e) f)
Freq. 21 29 50
Proc. 42,00 58,00 100%
(Kan handiger of beter met de module ‘Steekproeven’ van VU-Statistiek…) … … … Opgave 44 … Tussen 0,07 en 0,47 Ongeveer [0,15; 0,35] (dus a = 0,10) Tussen 0,218 en 0,282 (dus breedte van het interval is 0,07 of 7%) 0,265 – 0,235 = 0,03 (ofwel 3%); ja, de grootte van het interval waarbinnen de uitkomsten vallen is nu van 7% verkleind naar 3%. … (Ja. De breedte van het interval waarbinnen 90% van de steekproefproporties bleek bij de vorige vraag 0,03 te zijn bij een steekproefgrootte van 2000 stuks, dus zal de populatieproportie ook met deze marge rondom de gevonden steekproefproportie van 0,248 liggen.)
Opgave 45 a) [0,300; 0,400]; 0,05; 5% b) … c) 0,35 – 0,025 = 0,325 en 0,35 + 0,025 = 0,375 d) Nee, slechts 90% van alle steekproeven hebben een resultaat dat binnen een interval van 2,5% rondom de gevonden waarde van 37% ligt. e) Ja. CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
9
3 Data verwerven
Antwoorden
Opgave 46 a) 0,30 b) 1200 c) Zie hieronder. d) [0,28; 0,32]; foutenmarge is (0,32 – 0,28)/2 = 0,02 dus 2% Eigenlijk een beter antwoord: [0,275; 0,325]; foutenmarge is (0,325 – 0,275)/2 = 0,025 dus 2,5%. e) Klopt, de foutenmarge is 2% (of 2,5%, zie vorige vraag), dus de werkelijke waarde ligt met 90% zekerheid in het interval 2% onder of boven de gevonden waarde van 31% (d.w.z. 31% ± 2%). %" %! $" $! #" #! " !
" ' &$ &$ ! !
( ) * &$ &$ $ & ! ! !
Opgave 47 a) 100% b) 70% c) [0,325; 0,375] d) foutenmarge 5% 2,5% 2% 1,5% e) f) g)
! # $ &% &% % & ! ! !
% + " ' &% &% % & &% ! ! ! !
( ) * &% &% % & ! ! !
! # $ &+ &+ + & ! ! !
betrouwbaarheidsinterval [0,300; 0,400] [0,325; 0,375] [0,330; 0,370] [0,335; 0,365]
% + " &+ &+ + & ! ! !
' &+ !
betrouwbaarheidsniveau 100% 90% 80% 70%
[0,31; 0,35] Dan wordt het betrouwbaarheidsinterval kleiner. Dan wordt het betrouwbaarheidsniveau kleiner.
Opgave 48 a) De foutenmarge is 2,5% (zie vorige opgave), dus de populatieproportie zit met 90% zekerheid in het interval [0,366 – 0,025, 0,366 + 0,025] ofwel in het interval [0,341; 0,391]; Ja, de waarde 0,35 ligt er tussen. b) Het interval is dan [0,379 – 0,025; 0,379 + 0,025], ofwel [0,354; 0,404]. De werkelijke waarde 0,35 ligt er nu niet binnen. c) Ze kan met 90% betrouwbaarheid zeggen dat de populatieproportie in het interval 0,379 ± 0,025 ligt. d) 10%
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
10
3 Data verwerven
Antwoorden
Opgave 49 {Vreemde horizontale schaalverdeling: 0,35 verdeeld in 12 stukjes. Dat maakt het aflezen erg vervelend en onnauwkeurig.} a) (ongeveer) 0,5 en 0,12 b) (allemaal ongeveer vanwege het lastige aflezen)
c)
steekproef20 50 100 250 500 1000 omvang betrouwbaar[0,15;0,61] [0,20;0,50] [0,23;0,47] [0,26;0,41] [0,29;0,41] [0,29;0,38] heidsinterval
De betrouwbaarheidsintervallen worden kleiner, minder breed.
Opgave 50 a) De foutenmarge is 2,3%, dus het betrouwbaarheidsinterval is 4,6% groot b) 68% ± 2,3%, dus [0,657; 0,703] Opgave 51 a) Betrouwbaarheidsinterval: 69,2 ± 2,8% Uitspraak: 69,2% van de Nederlanders is voorstander van het rookverbod met een foutenmarge van 2,8%. b) Als de steekproefgrootte toeneemt, dan komt de gemeten steekproefproportie steeds dichter in de buurt van de populatieproportie en zal het er dus steeds minder van afwijken. De foutenmarge wordt dus kleiner. (In het extreme geval als de steekproef de hele populatie omvat is de steekproefproportie zelfs gelijk aan de populatieproportie en is de foutenmarge 0%.) c) Dan worden de foutenmarges ook kleiner, want je hoeft minder zeker te zijn dat het gegeven interval ook goed is. Opgave 52 De eerste meting gaf een steekproefproportie van 30/150 = 20%; de foutenmarge is volgens de tabel 1,8%, dus 20% ± 1,8% stemt op deze partij. Dat is dus 30 ± 2,7 zetels. De nieuwe meting van 31 zetels ligt binnen dit interval, dus de werkelijke aanhang kan ongewijzigd zijn gebleven. Er is geen reden om aan te nemen dat de aanhang voor deze partij daadwerkelijk is toegenomen. Opgave 53 a) De steekproefproportie is 48/600 = 8%; foutenmarge (tabel) is 2,4%; dus tussen 5,6% en 10,4% van de gloeilampen heeft minder dan 750 branduren. Het kan dus net iets meer dan 10% zijn. b) Hoogstens 10,4% van de gloeilampen heeft minder dan 750 branduren. Opgave 54 Geen rekening is gehouden met die 5% onzekerheid (uitgaande van een betrouwbaarheidsniveau van 95%). Bovendien kunnen nogal wat stemmers in de periode tussen de peiling en het stemmoment van keuze veranderen. Deze onzekerheid kun je niet berekenen. Opgave 55 a) 61% ± 1,8% dus tussen 59,2% en 62,8% b) Groter
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
11
3 Data verwerven
Antwoorden
3.5 Enquêtes Opgave 56 … Opgave 57 a) Vertekening: mensen met alleen een mobiel nummer – vooral jongeren – staan niet in het telefoonboek. b) Nee, senioren/ouderen hebben (nog) regelmatig geen mobiel nummer. c) Elke (jongeren)site spreekt een bepaald type jongere aan, met bepaalde interesses, dus vertekening. d) Nee, want zeer twijfelachtig is of de bezoekers van de ANWB-site (waarschijnlijk vooral leden) een goede doorsnee vormen van alle Nederlanders. e) Als van elk lid een email-adres bekend is, dan wel. Anders niet. f) Wie van de gezinsleden vult het in? Daar heb je dan geen grip op. Ook krijg je waarschijnlijk slechts een deel terug en dan treedt zeker vertekening op, omdat slechts een bepaald type of met een bepaalde mening (sterke mening voor of juist tegen) wel de moeite neemt de enquete in te vullen en terug te sturen. Opgave 58 a) Slechte vraag: wat is ‘teveel’? Hoeveel tijd besteed je (gemiddeld) per week aan computerspellen? b) De tweede vraag is beter. De eerste vraag stuurt erg in een bepaalde richting. c) In de vraag klinkt direct door dat dit door het bedrijf wordt afgekeurd, dus de verleiding wordt groot om hier oneerlijk antwoord op te geven. Opgave 59 a) 48,31% (of 48%) b) Kost teveel tijd of moeite om het in te vullen; Als je weet dat je voedingspatroon niet zo goed is, dan sta ja vaak niet te popelen om dat ook aan anderen kenbaar te maken. c) Nee, misschien kiest juist het type jongere dat niet heeft gereageerd grotendeels voor ‘nee’ bij deze vraag. d) … Opgave 60 a) Te regelmatig gekozen. En zie het antwoord op vraag b. b) Het zijn allemaal hoekwoningen van een blok een een vrije gevel naar het oosten. Uit het oosten komt het meest koude wind. c) Eentje willekeurig kiezen uit 1, 11, 21, .., 91; eentje kiezen uit 2, 12, 22, .., 92; eentje kiezen uit 3, 13, …, 93; etc. ; eentje kiezen uit 10, 20, .., 100. Dat kan bijvoorbeeld met een random generator. d) Per type/locatie van de woningen een aparte steekproef nemen (‘gelaagde steekproef’), zoals bij vraag c is aangegeven. Opgave 61 a) De representativiteit van de steekproef is goed. b) Omdat uit elke inkomenslaag en ‘woonlaag’ apart gezorgd is dat een representatieve steekproef wordt genomen. c) Dit is erg arbeidsintensief en zou de enqueteurs erg veel tijd kosten en dus veel geld kosten. CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
12
3 Data verwerven d) e)
f)
Antwoorden
Nee, de respons op de enquete van Hite was slechts 4,5%. De vrouwen die tevreden waren hebben deze lijst (blijkbaar) niet teruggestuurd. De vragenlijst bevat 100 vragen en kost dus nogal wat moeite om in te vullen en terug te sturen. Als je tevreden bent neem je waarschijnlijk die moeite niet. Misschien was de vraagstelling ook erg suggestief. Je krijgt vertekening omdat je de mening van tevreden vrouwen niet meet alleen van vrouwen met problemen. (95500 + 0,16 · 4500)/100000 = 96220/100000 ! 96%
Opgave 62 Nee, zo krijg je een te hoge schatting. Officiële antwoord van de site www.nwo.nl (vraag 18 uit de quiz van 1996):
We kijken naar twee gezinnen, één met 1 kind, en één met 9 kinderen. We ondervragen alle 10 de kinderen. Eén kind zal rapporteren dat er maar één kind is, en negen kinderen zullen rapporteren dat er (acht plus één - hem/haarzelf - is:) negen kinderen zijn. Dit levert gemiddeld 8,2 kinderen per gezin op, terwijl het er in werkelijkheid maar vijf zijn. Het probleem is dat gezinnen met meer kinderen vaker worden geteld. Ook gezinnen met kinderen die niet naar school gaan vallen buiten de telling. Wanneer het CBS zoiets zou doen, worden er formules gebruikt om hiervoor te corrigeren!
Opgave 63 a) De vraag is hoe serieus sommige ziekenhuizen zo’n enquete per email van een TV-zender nemen. Zo’n mailtje belandt vaak niet bij de juiste persoon. b) jaar 2004 2005 2006 2009 gemiddeld aantal geweldsdelicten
49
60
38
45
Conclusie: …
Toetsen Opgave 64 a) Gewoon ‘praten’ is iets anders dan ‘een stukje opzeggen’. Als je gewoon praat, dan moet je bijvoorbeeld nadenken en naar de woorden zoeken. b) De steekproef is veel te klein. En dat het allemaal leraren en leraressen zijn kan ook vertekening geven. c) Zou best kunnen, maar dat kun je niet concluderen op basis van dit slechte onderzoek. d) … Opgave 65 a) Het betrof allemaal artsen, dus hoger opgeleid en met een bepaalde levensstandaard. Beter: mannen uit alle lagen van de bevolking kiezen. b) Om het psychologische effect van het slikken van een pil eruit te filteren. Je voelt je vaak al beter of gaat je beter gedragen als je met een behandeling bezig bent. Je kunt nu het verschil in effect meten tussen beide pillen. c) 85 van de 11.000, dat is 0,77% d) De kans op een hartinfarct met fopmiddel is 189/11.000 ! 1,72%; De kans op een hartinfarct met aspirine is 104/11.000 ! 0,95%; De kans op een hartinfarct is dus slechts met 0,77% afgenomen. (Hoe komen die onderzoekers dan toch aan die genoemde 45%? Ze hebben de relatieve verhouding van de twee kansen berekend: (104/11.000)/( 189/11.000) ! 0,55 dus vandaar 45% afname.) CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
13
3 Data verwerven
Antwoorden
Opgave 66 Chuck-a-luck a) 5/6 · 5/6 · 5/6 = 125/216 (! 0,579) b) Maximaal 9 euro winst (nl. 10 euro terug, waarvan 1 euro je eigen inleg); 1 /6 · 1/6 · 1/6 = 1/216 (! 0,005) 1 c) /6 · 1/6 · 5/6 + 1/6 · 5/6 · 1/6 + 5/6 · 1/6 · 1/6 = 3 · 1/6 · 1/6 ·5/6 = 15/216 (! 0,069) d) Met de Random Generator van VU-statistiek: 3 getallen van 1 t/m 6 genereren; Neem bijv. ‘point’ 6, dan betekent een 6 succes. Tel het aantal zessen. (Dat kan via een extra variabele en formule V4 = tel(v=6).
Maak dan een tabel van V4 en bereken de bijbehorende winst, bijvoorbeeld: V4 0 1 2 3 Totaal
Freq. 13 15 2 0 30
winst -13 0 2 0 -11
Bij de uitkomst van deze simulatie maak je 11 euro verlies. e)
Ik simuleer het spel 1000 keer en bereken de bijbehorende winst, bijv.: V4 0 1 2 3 Totaal
Freq. 576 354 65 5 1000
winst -576 0 130 45 -401
Ook nu maak je verlies. Dus ook op den duur maak je geen winst.
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
14
3 Data verwerven
Antwoorden
Opgave 67 De kleurenblinde en de glasbak a) De 50 witte flessen gaan in het gat voor wit; van de 50 groene en bruine flessen belandt (naar verwachting) de helft in het goede gat; dus in totaal 50 + 25 = 75 in het goede gat. b) Vul de kansboom aan, zoals hieronder. 1
4
1 4 1 4
c)
5
5
5 5
1
De kans is 0,5 · 1 + 0,4 · /5 + 0,1 · /5 = 0,5 + 0,32 + 0,02 = 0,84 (84%) Bijvoorbeeld: alle gekleurde flessen in het gat voor groen; De succeskans is dan 0,5 · 1 + 0,4 · 1 + 0,1 · 0 = 0,9 (of 90%).
Opgave 68 Tennis om een bromfiets a) … Je zou kunnen denken dat ze beter tegen haar vader kan beginnen, want daar moet ze dan twee keer tegen spelen … b) +++ of ++- of -++: 0,8 · 0,5 · 0,8 + 0,8 · 0,5 · 0,2 + 0,2 · 0,5 · 0,8 = 0,48 c) +++ of ++- of -++: 0,5 · 0,8 · 0,5 + 0,5 · 0,8 · 0,5 + 0,5 · 0,8 · 0,5 = 0,60 (Dus ze kan beter tegen haar moeder beginnen!) Opgave 69 a) Steekproefproportie = 516/2310 ! 0,223 = 22,3%; Uit de tabel: de foutenmarge is ongeveer 1,7%; Dus 22,3% ± 1,7%, ofwel tussen 20,6% en 24,0% (met een betrouwbaarheid van 95%) b) C zeker niet, want dan wordt het interval alleen maar groter; A zou kunnen, maar er is dan een groot risico dat hij dezelfde personen meerdere keren bevraagt en treedt vertekening op; B is de beste optie, want dan wordt de foutenmarge érg klein. Opgave 70 a) De steekproefproportie ligt midden tussen 80% en 90% dus in de tabel ook het midden nemen van de foutenmarge bij 80% en 90%: de foutenmarge is (ongeveer) 2,2%; Dus 85% ± 2,2%, ofwel tussen 82,8% en 87,2% van de Fransen is het met een betrouwbaarheid van 95% eens met de wet. b) Een kleinere betrouwbaarheid, want ze hebben een kleiner interval.
CTWO – havo wiskunde A – Statistiek en kansrekening 3 – Data verwerven
15