Domein Statistiek en kansrekening havo A
5
Conclusies trekken Inhoud 5.0 5.1 5.2 5.3 5.4 5.5 5.6
Wat is een betrouwbare conclusie? Kwalitatieve variabelen vergelijken Boxplots vergelijken Tellingen vergelijken Meetwaarden vergelijken Statistische procescontrole Data analyse
In opdracht van: Commissie Toekomst Wiskunde Onderwijs
© cTWO Utrecht 2009/2010 Dit lesmateriaal is ontwikkeld in het kader van de nieuwe examenprogramma’s zoals voorgesteld door de Commissie Toekomst Wiskunde Onderwijs. De gebruiker mag het werk kopiëren, verspreiden en doorgeven en remixen (afgeleide werken maken) onder de volgende voorwaarden: • Naamsvermelding. De gebruiker dient bij het werk de door de maker of de licentiegever aangegeven naam te vermelden (maar niet zodanig dat de indruk gewekt wordt dat zij daarmee instemmen met uw werk of uw gebruik van het werk). • Niet-commercieel. De gebruiker mag het werk niet voor commerciële doeleinden gebruiken. • Gelijk delen. Indien de gebruiker het werk bewerkt kan het daaruit ontstane werk uitsluitend krachtens dezelfde licentie als de onderhavige licentie of een gelijksoortige licentie worden verspreid. Versie 2: okt 2010
Overzicht lesmateriaal in het domein Statistiek en kansrekening 1 1.1 1.2 1.3 1.4 1.5
Kijken naar data Wat is statistiek? Data Diagrammen Interpretaties Overzicht
2 2.0 2.1 2.2 2.3 2.4 2.5
Data en datasets verwerken Data voor onderzoek Data presenteren Centrum en spreiding Verdelingen typeren Relaties Overzicht
3 3.0 3.1 3.2 3.3 3.4 3.5 3.6
Data verwerven Statistisch onderzoek Experimenteren en simuleren Toeval Kansen berekenen Steekproeven Enquêtes Overzicht
4 4.0 4.1 4.2 4.3 4.4 4.5 4.6
Normale verdeling Een bijzondere verdeling Gemiddelde en standaardafwijking Normale verdeling Rekenen met normale verdelingen Steekproef en populatie Schatten van een proportie Overzicht
5
Conclusies trekken
5.0 5.1 5.2 5.3 5.4 5.5 5.6
Wat is een betrouwbare conclusie? Kwalitatieve variabelen vergelijken Boxplots vergelijken Tellingen vergelijken Meetwaarden vergelijken Statistische procescontrole Data analyse
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
2
5.0 Wat is een betrouwbare conclusie? In het wetenschapskatern van De Volkskrant van 9 oktober 2010 stond een artikel over het nut van een griepprik. Je ziet hier de kop en enkele fragmenten uit het artikel.
Het is bewezen: vaccineren tegen griep helpt echt Een griepprik voor zwangere vrouwen heeft een dubbel effect. Niet alleen worden ze zelf minder ziek, ook hun pasgeboren kind blijkt veel beter beschermd. Dat blijkt uit jarenlang onderzoek onder ruim elfhonderd moeders en hun baby’s in twee Amerikaanse indianenreservaten. De studie werd uitgevoerd tijdens de griepseizoenen van 2003, 2004 en 2005. Baby’s van moeders die tijdens hun zwangerschap een griepprik hadden gekregen, bleken in de eerste zes maanden na de geboorte 41 procent minder kans te hebben op een griepvirusinfectie. … De Amerikaanse wetenschappers toonden met bloedonderzoek aan dat de baby’s van zwangere vrouwen die een griepprik hadden gekregen na twee tot drie maanden veel meer antistoffen in hun bloed hadden dan de baby’s van moeders die niet waren ingeënt. Die groep kinderen kreeg minder vaak griep en had een veel kleinere kans (39 procent) om met griepverschijnselen in het ziekenhuis te belanden. De wetenschappers kozen voor een onderzoek onder indianen omdat die, net als andere inheemse volken, een veel groter risico lopen op complicaties van de griep. … De 1160 indianenmoeders die aan het onderzoek meededen, woonden in het Navajo reservaat en het Witte Bergen reservaat van de Apaches. De helft van hen was ingeënt tegen de griep. …
Opgave 1 Lees het bovenstaande artikel. In de kop van het artikel kun je zien welke conclusie de schrijver van het artikel uit het onderzoek trekt. a) Ben je het zonder meer met deze conclusie eens? Licht je antwoord toe. b) Is de steekproef representatief voor alle moeders over de gehele wereld? Voor wie kan de steekproef wel representatief zijn? Licht je antwoorden toe. c) Er deden 1160 moeders (met hun baby’s) aan het onderzoek mee. Neem aan dat er geen meerlingen werden geboren. Neem ook aan dat van de groep niet ingeënte moeders de helft van de baby’s de griep kreeg. Wat stelt die 41% in het artikel dan precies voor? Over hoeveel baby’s gaat het? d) Staat er in het artikel iets over de betrouwbaarheid van de getrokken conclusie? Waar zou die betrouwbaarheid vanaf kunnen hangen? e) Welke conclusie zou je zelf trekken na het lezen van dit artikel? Opgave 2 Een fabrikant van batterijen brengt veranderingen aan in het fabricageproces van een bepaald type batterij. In een aselecte steekproef van 120 batterijen vóór de
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
3
veranderingen was de gemiddelde levensduur 450 uur. Na de veranderingen was de gemiddelde levensduur 480 uur in een aselecte steekproef van 80 batterijen. Kun je nu concluderen dat de veranderingen ook echt tot betere batterijen hebben geleid? En kun je iets zeggen over de betrouwbaarheid van je conclusie? Licht je antwoord toe.
!
Opgave 3 Bekijk de dataset !Lichmaat. Daarin vind je enkele lichaamsmaten van 404 mannen en vrouwen. Je kunt lichaamsmaten van de mannen en de vrouwen vergelijken. Probeer een paar vermoedens te formuleren en die dan ook te onderbouwen, bijvoorbeeld met behulp van diagrammen. Bij veel statistische onderzoeken worden twee groepen getest en met elkaar vergeleken. Er wordt dan vaak een steekproef genomen van elke groep. Een verschil in steekproefuitkomsten kan door toeval tot stand komen en hoeft dus niet te betekenen dat de onderliggende populaties in werkelijkheid ook verschillen. Je wilt dus een conclusie kunnen trekken of het verschil tussen de groepen toevallig is of niet. In dit hoofdstuk maak je kennis met een aantal manieren om dit te doen. De keuze welke manier geschikt is in een bepaalde situatie is afhankelijk van de soort variabele waar je mee te maken hebt. Opgave 4 Er bestaan kwantitatieve en kwalitatieve variabelen, maar door naar de meetniveaus te kijken kun je een nadere indeling maken. a) Als je de voorkeur van Nederlandse kiesgerechtigden voor een bepaalde politieke partij in kaart wilt brengen heb je dan met een kwalitatieve of een kwantitatieve variabele te maken? En is er sprake van een nominaal of een ordinaal meetniveau? b) Iemands interesse voor het kijken naar sport op tv wordt uitgedrukt in een cijfer op een vier punts schaal (1 = vaak, 2 = regelmatig, 3 = onregelmatig, 4 = vrijwel nooit). Van welke soort variabele en welk meetniveau is hier sprake? c) Het aantal geboorten in een ziekenhuis per dag van de week is een kwantitatieve variabele. Waarom is hier sprake van een ratio meetniveau en niet van een interval meetniveau? d) Kun je een voorbeeld geven van een variabele met een interval meetniveau?
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
4
5.1 Kwalitatieve variabelen vergelijken In deze paragraaf maak je kennis met manieren om van groepen te vergelijken als het gaat om kwalitatieve variabelen. Dat is nog niet zo eenvoudig, want dan heb je niet met meetgetallen te maken, maar met kwalificaties. Voorbeeld De leerlingen in 4 havo zijn naar een toneelvoorstelling geweest. Daarna werd onder andere aan ze gevraagd of ze die voorstelling boeiend vonden, hun voorstellingsbeleving. In de tabel zie je de resultaten uitgesplitst naar profiel.
Op grond van deze tabel zou je op het eerste gezicht misschien zeggen dat de EM-leerlingen de voorstelling hoger hebben gewaardeerd dan de NG-leerlingen. Maar om goed te kunnen vergelijken bij groepen die niet even groot zijn moet je eerst de absolute aantallen omzetten naar percentages. In de volgende tabel zie je onder p de percentages en onder cp de cumulatieve percentages
Je ziet dat de percentages van de EM-leerlingen en de NG-leerlingen nogal verschillen: veel meer NG-leerlingen hebben “gaat wel” geantwoord dan dat dit bij de EM-leerlingen het geval was en veel minder NG-leerlingen hebben “erg boeiend” geantwoord dan dit bij de EM-leerlingen het geval was. Toch hebben ook minder NG-leerlingen “niet-boeiend” geantwoord. Een conclusie trekken is nog niet eenvoudig. Je kunt beter de cumulatieve percentages vergelijken. " Opgave 5 Bekijk het voorbeeld hierboven. a) Waarom is de variabele voorstellingsbeleving een kwalitatieve variabele? En waarom heeft hij een ordinaal meetniveau?
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
5
b) c) d) e) f)
Vergelijk nu de cumulatieve percentages. Wat betekent het dat de cumulatieve percentages van de EM-leerlingen zowel bij “gaat wel” als bij “boeiend” lager zijn dan die van de NG-leerlingen? In de kolom Vcp zie je het verschil van de cumulatieve percentages. Laat zien dat daarbij niet wordt gelet op welk cumulatieve percentage groter is. Waarom is de Vcp bij de hoogste waarde van de variabele altijd 0? Hoe groot is het maximale verschil Vcp van de cumulatieve percentages? Vind je het maximale verschil groot?
Het maximale verschil van de cumulatieve percentages max.Vcp wordt wel gebruikt als maat voor het verschil tussen twee groepen. Je zou bijvoorbeeld de volgende criteria kunnen afspreken: ! Als max.Vcp ! 15, is het verschil gering. ! Als 15 < max.Vcp ! 30, is het verschil middelmatig. ! Als max.Vcp > 30, is het verschil groot.
!
Opgave 6 De cumulatieve percentages kun je uitzetten in cumulatieve relatieve frequentiepolygonen. Hier zie je dergelijke polygonen bij het vergelijken van de EM- en de NG-groep en van de CM en NT groep.
a) b) c)
d) e)
Geef de verschillen van de cumulatieve percentages in de figuren weer. Maak een tabel met daarin de cumulatieve percentages van de CM- en de NT-groep naast elkaar en bereken het max.Vcp van deze groepen. Wat geldt dan voor het verschil tussen de CM-leerlingen en de NT-leerlingen als je de hierboven genoemde criteria toepast? En voor het verschil tussen de EM- en de NG-leerlingen? Vind je dat redelijke uitspraken, of zou je die grenzen anders leggen? Waarom kun je alleen voorafgaande aan het onderzoek afspreken welke grenzen je zult hanteren? Vind je de grenzen bij de criteria goed gekozen? Licht je antwoord toe.
Opgave 7 Vergelijk nu de voorstellingsbeleving van de NG-leerlingen en de NT-leerlingen. a) Bepaal bij elke waarde van deze variabele het verschil tussen de cumulatieve relatieve percentages. Neem het absolute verschil, dus laat mintekens weg! CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
6
b) c)
Bepaal nu de grootste van die absolute verschillen, dat is de max.Vcp. Als je dezelfde criteria hanteert als hierboven is er dan een groot verschil tussen NG- en NT-leerlingen?
Opgave 8 Je kunt per profiel ook kijken naar het verschil tussen jongens en meisjes wat betreft voorstellingsbeleving.
a)
Vul de cumulatieve percentages in de tabel hieronder verder in.
1 2 3 4
j
100%
CM
m
j
100%
100%
NG
m
100%
b) Is het verschil tussen de jongens van CM en de meisjes van NG gering? Je gaat nu kijken naar het verschil in aantallen jongens en meisjes per profiel. c) Vul in de tabel hieronder de percentages in. j m d) e) f)
CM
NG
100%
100%
Waarom is het niet zinvol om het max.Vcp te gebruiken om het verschil tussen de profielen te bepalen wat betreft jongens en meisjes? Hoe zou je deze groepen dan wel kunnen vergelijken? Stel je voor dat je een kruistabel zou hebben van de verdeling van jongens en meisjes over vijf verschillende hobby’s. Waarom kun je nu max.Vcp niet gebruiken om het verschil tussen jongens en meisjes voor wat betreft hobby’s te bepalen?
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
7
5.2 Boxplots vergelijken Een manier om bij kwantitatieve variabelen groepen te vergelijken is door naar boxplots te kijken. Boxplots zijn geschikt om bij grote hoeveelheden gegevens snel een overzicht te krijgen waar de data vooral liggen. Voorbeeld Hier zie je boxplots die het aantal branduren van vier type lampen beschrijven.
Je ziet onmiddellijk dat lampen van het type A een langere brandtijd hebben dan die van alle andere types. Immers zelfs de laagste gemeten brandtijd van een lamp van dit type is langer dan elke hoogste gemeten brandtijd van de andere types. Maar hoe zit het als je de types B en C vergelijkt? Van die types overlappen de boxplots elkaar gedeeltelijk. Maar je ziet ook dat 75% van de lampen van type B een langere brandtijd heeft dan alle lampen van type C. De conclusie dat de lampen van type B meestal langer meegaan dan die van type C is wel gerechtvaardigd. Bij het vergelijken van de types C en D is het trekken van een gerechtvaardigde conclusie veel moeilijker. De overlap van beide boxplots is zo groot, dat de brandtijd van alle lampen van type D valt binnen de boxplot van type C. Wel kun je zeggen dat de 50% lampen van type C die het langst meegaan, een langere brandtijd hebben dan de 75% kortst brandende lampen van type D. " Je ziet in het voorbeeld hierboven dat bij het vergelijken van boxplots vaak wordt gekeken naar de overlap. Bovendien speelt de grootte van de steekproef waarvan de boxplot een weergave is een rol: hoe groter de steekproef, hoe beter de boxplot de verdeling van de waarden weergeeft.
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
8
Hier zie je enkele situaties getekend waarin je een uitspraak kunt doen: Situatie I: Er is geen overlap. A is groter dan B.
Situatie II: Er is wel enige overlap, maar de box van A en die van B overlappen elkaar niet. Ook nu kun je redelijkerwijs zeggen dat A groter is dan B.
Situatie III: Zelfs de box van A en die van B overlappen elkaar, maar de mediaan van A is groter dan het derde kwartiel van B en de mediaan van B is kleiner dan het eerste kwartiel van A. Heb je nu behoorlijk grote steekproeven (zodat beide boxplots de verdelingen van de waarden van A en B goed weergeven) dan kun je toch wel zeggen dat A groter is dan B.
Situatie IV: In andere situaties is het doen van uitspraken nauwelijks mogelijk. Je moet dan duidelijk van te voren aangeven welke criteria je wilt aanleggen om toch nog iets te kunnen zeggen. Opgave 9 Bekijk het voorbeeld. a) Waarom weet je nog steeds niet 100% zeker dat elke lamp van type A langer brandt dan een lamp van de andere types? b) Maakt de grootte van de steekproeven waarop deze boxplots zijn gebaseerd verschil bij het trekken van een conclusie? c) Mag je bij een boxplot zonder meer aannemen dat de data regelmatig over de figuur zijn verdeeld? En heeft die verdeling invloed op de betrouwbaarheid van een conclusie? d) Hoeveel procent van de lampen van type C gaat langer mee dan de lamp van type B met de kortste brandtijd? e) Leg uit hoe je de uitspraak in de laatste zin van het voorbeeld uit de boxplots kunt aflezen. f) Waarom kun je bij kwalitatieve variabelen niet met boxplots werken?
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
9
Opgave 10 De boxplots hiernaast zijn gebaseerd op tellingen van een jaar lang en geven het aantal ziekhuisgeboorten weer op een bepaalde dag in de week. De éne dag worden er meer kinderen in het ziekenhuis geboren dan de andere zo lijkt het. a) Kun je vaststellen welke dag van de week de meeste kinderen in het ziekenhuis worden geboren? Licht je antwoord toe. Omdat alle boxplots elkaar wel een beetje overlappen, moet je om echt iets te kunnen zeggen afspraken maken. Je kunt bijvoorbeeld de ligging van de mediaan gebruiken: als de mediaan van dag X onder het minimum van dag Y ligt worden er op dag X minder kinderen in een ziekenhuis geboren dan op dag Y. b) Formuleer zelf de overeenkomstige regel voor het geval de mediaan van X boven het maximum van dag Y ligt. c) Laat zien dat volgens deze afspraak op zondag er minder kinderen in een ziekenhuis worden geboren dan op vrijdag. d) Worden er volgens deze afspraak op zondag minder kinderen in een ziekenhuis geboren dan elke andere dag van de week? e) Worden er volgens deze afspraak op donderdag meer kinderen geboren in een ziekenhuis dan op zaterdag? f) Vind je de gemaakte afspraak een redelijk criterium om boxplots te kunnen vergelijken? Of kun je zelf een beter criterium vinden? Licht je keuze toe.
!
Opgave 11 Bekijk de dataset !Lichmaat. Je vindt daar enkele lichaamsmaten van 404 mannen en vrouwen. Een bepaalde lichaamsmaat wordt verschillend genoemd voor mannen en vrouwen als de boxen van de twee boxplots geen overlap hebben. a) Wat vind je van deze afspraak? Formuleer deze uitspraak met behulp van percentages. b) Vergelijk de boxplots van de handspanne van mannen en vrouwen. Kun je zeggen dat mannen een grotere handspanne hebben dan vrouwen? c) En hoe zit dat met de lengtes van mannen en vrouwen? d) En hoe zit het met de verschillen tussen mannen en vrouwen bij de variabelen gewicht en schoenmaat?
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
10
5.3 Tellingen vergelijken Bij veel onderzoeken wordt niet zozeer gemeten, als wel wordt een aantal geteld. Ook dan kun je conclusies trekken. Voorbeeld Om te onderzoeken of vitamine C helpt tegen verkoudheid heeft een onderzoeker 139 personen vitamine C toegediend en 140 personen een placebo (fopmiddel). De personen in kwestie wisten niet of ze vitamine C dan wel de placebo toegediend kregen. De onderzoeker telde het aantal personen dat verkouden werd en maakte deze kruistabel.
vitamine C placebo totaal
verkouden 19 29 48
niet verkouden 122 109 231
totaal 139 140 279
Zo op het eerste gezicht zie je al dat van het aantal personen dat vitamine C kreeg toegediend een relatief klein deel verkouden werd. Maar dat aantal van 19 kan toevallig zijn. Daarom ga je bekijken hoe groot de kans is dat er toevallig 19 of minder mensen verkouden worden. Dat doe je met behulp van de !Random generator in VUstat. Je hebt een populatie van 279 personen waarvan er 48 verkouden zijn. Uit die populatie simuleer je steekproeven van 139 personen en je telt telkens hoeveel personen verkouden zijn (je bepaalt dus voor elke steekproef het aantal verkouden mensen). Als je dit een groot aantal keer (bijvoorbeeld 1000 keer) herhaalt krijg je een steekproevenverdeling. Je kunt kijken in hoeveel procent van de steekproeven 19 of minder verkouden personen voorkomen. Als dat percentage erg klein is, is 19 verkouden personen in de steekproef bijzonder en mag je concluderen dat vitamine C helpt. Wat je verstaat onder “erg klein” moet je van tevoren afspreken: bijvoorbeeld 5% of 3%. (Helaas is 0% niet mogelijk.) Die afspraak geeft de betrouwbaarheid van je conclusie weer: bij een percentage van 5% is de betrouwbaarheid 95%. " Opgave 12 Ga uit van een groep van 279 personen waarvan er 48 verkouden zijn geworden. a) Als je hier aselect een groep van 139 personen uit trekt, hoeveel verkouden mensen verwacht je dan in die steekproef als vitamine C niet helpt? b) Is het aantal dat je verwacht veel hoger dan het aantal verkouden mensen in de groep van 139 die vitamine C kregen? c) Kun je een conclusie trekken? En hoe zit het dan met de betrouwbaarheid daarvan?
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
11
!
Opgave 13 Gebruik nu de !Random generator in VUstat. a) Bekijk eerst nauwkeurig de figuur hierna. Daarin zie je de verdeling van 1000 steekproeven van 139 (de vitamine C gebruikers) uit de gehele getallen 1 t/m 279 (de totale groep). De getallen 1 t/m 48 stellen de verkouden personen voor. Hoe vaak komt 19 of minder verkouden mensen in de steekproeven verdeling voor?
b)
Ga na dat je in 9,1% van de gevallen 19 of minder verkouden mensen in de steekproeven aantreft. Dat zijn maar weinig gevallen, dus je zou kunnen zeggen dat 19 verkouden mensen in de steekproef wel bijzonder is. Je kunt concluderen dat vitamine C helpt met een betrouwbaarheid van 100% ! 9,1% = 90,9%. c) Trek nu zelf 10000 van die steekproeven van 139 (de vitamine C gebruikers) uit de gehele getallen 1 t/m 279 (de totale groep). d) Tel het aantal verkouden personen in de steekproeven en maak een staafdiagram van de steekproevenverdeling. Waarom zal jouw steekproevenverdeling anders zijn dan die in de figuur hierboven? e) Bereken in hoeveel procent van de gevallen 19 of minder verkouden mensen in de steekproef voorkomen. f) Helpt vitamine C gebruik tegen verkoudheid? Trek een conclusie waarbij je ook iets zegt over de betrouwbaarheid. CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
12
g) h)
Wijkt jouw conclusie veel af van de conclusie die boven c) werd getrokken? Stel dat je van te voren afspreekt dat je een uitspraak wilt doen met een betrouwbaarheid van 95%. Welke conclusie moet je dan trekken?
!
Opgave 14 Hier zie je een kruistabel van de relatie tussen de keuze voor wiskunde A of wiskunde B en het geslacht.
Pas de procedure van opgave 13 toe om te bepalen of het geslacht van invloed is op de keuze voor wiskunde B. Doe een uitspraak met een betrouwbaarheid van 90%.
!
Opgave 15 Er zijn autorijders en motorrijders die bij een ongeluk betrokken raken. In de regio R waren dat er 324 in het jaar 2008. Daarbij waren 39 motorrijders. Van de auto- en motorrijders die bij een ongeluk betrokken waren, hielden 32 enig letsel over. Dat waren 26 automobilisten en 6 motorrijders. a) Vul deze kruistabel in: letsel niet wel totaal
b)
voertuig auto
motor
totaal
324
Onderzoek nu met behulp van de !Random generator in VUstat of motorrijders in de regio R duidelijk vaker letsel overhouden bij een ongeluk dan automobilisten. Doe een uitspraak met een betrouwbaarheid van 95%.
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
13
5.4 Meetwaarden vergelijken Bij twee kleine datasets met meetwaarden wil je toch ook een uitspraak kunnen doen over de mate waarin beide datasets verschillen. Voorbeeld Er zijn twee merken A en B van kniebeschermers voor ijshockeyers. Een jaar lang worden tien clubs met merk A en tien clubs met merk B gevolgd en het aantal knieblessures per club gemeten met de volgende resultaten: ! Dataset merk A: 12;11;10;11;9;11;8;2;3;7 ! Dataset merk B: 1;8;9;0;1;5;7;10;3;6 Het gemiddelde van dataset A is 8,4 en dat van dataset B is 5, dus het verschil is 3,4. Op grond hiervan zou je wellicht de conclusie willen trekken dat merk A slechter is dan merk B. Maar de datasets zijn resultaten van steekproeven en dan kan het verschil in gemiddelde puur op toeval berusten. Om te onderzoeken of dit zo is, kun je net als bij de vorige paragraaf simulaties gebruiken. Daarbij doe je het volgende: ! Je voegt de datasets bij elkaar tot een dataset van 20 gegevens. ! Je neemt een aselecte steekproef van 10 waarmee je dus de dataset in twee groepen X en Y van elk tien gegevens verdeelt. ! Bereken de beide gemiddelden en het verschil G daarvan. ! Herhaal deze steekproef heel vaak en bekijk de verdeling van al de verschillen. Je kunt deze procedure uitvoeren met VUstat, zoals in de figuur bovenaan de volgende pagina te zien is. Je kunt bepalen in hoeveel procent van de steekproeven het verschil in gemiddelde tussen merk A en B 3,4 of meer is. Als dit percentage erg klein is, mag je concluderen dat het verschil niet op toeval berust. En wat “erg klein” kun je weer van tevoren afspreken: bijvoorbeeld 3% zodat je een conclusie kunt trekken met een betrouwbaarheid van 97%. " Opgave 16 Bekijk nauwkeurig het voorbeeld en de figuur op de volgende bladzijde. a) Waarom gebruik je geen boxplots om de twee datasets te vergelijken? b) Reken zelf de gemiddelden van dataset A en dataset B na. Ga na, dat voor deze datasets geldt dat het verschil tussen de gemiddelden 3,4 is. c) Gooi nu de waarden van A en B op één hoop en verdeel zelf deze set willekeurig opnieuw in twee datasets X en Y van elk 10 getallen. Bereken ook voor die twee datasets de waarde van Verschil. d) Waarom zal het gemiddelde van G vaak dicht bij 0 uitkomen als je opdracht b een groot aantal keren doet? e) Bekijk de steekproevenverdeling in de figuur op de volgende pagina. Leg uit dat in ongeveer 26 van de 1000 steekproeven Verschil groter is dan 3,4. f) Met welke betrouwbaarheid kun je dan zeggen dat merk A slechter is dan merk B?
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
14
!
Opgave 17 Simuleer nu zelf 10000 steekproeven bij de datasets in het Voorbeeld. Gebruik de !Random generator in VUstat. a) In hoeveel procent van de steekproeven wordt Verschil = 3,4 overschreden? b) Welke conclusie kun je nu trekken als je met een zodanige betrouwbaarheid werkt dat de kans dat Verschil = 3,4 wordt overschreden maximaal 5% mag zijn? c) En welke conclusie trek je als die kans maximaal 1% mag zijn? d) Is het verstandig om altijd met een zo groot mogelijke betrouwbaarheid te werken? Licht je antwoord toe. e) Van nog twee clubs die beide merk B gebruiken zijn de gegevens bekend: 2 en 6 knieblessures per jaar. Je maakt voegt nu alle gegevens samen tot één dataset van 22. Simuleer ook voor deze situatie het verschil van de gemiddelden van twee steekproeven X en Y waarbij steekproef X uit 10 en steekproef Y uit 12 metingen bestaat. Trek een conclusie met 95% betrouwbaarheid.
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
15
!
Opgave 18 Van twee types batterijen wordt de levensduur (in uren) vergeleken. Van beide types worden 15 batterijen onderzocht. In de tabel zie je de resultaten.
Type I 560 Type II 630
a) b) c) d) e)
610 620
580 595
605 590
598 635
602 660
602 601
613 654
650 632
583 680
588 624
595 590
601 643
623 625
589 671
Bereken de gemiddelde levensduur van elk van deze twee steekproeven. Kun je op grond van het antwoord bij a) zonder meer concluderen dat de batterijen van type II langer meegaan? Simuleer vanuit deze twee steekproeven 10000 nieuwe steekproeven. Gebruik de !Random generator in VUstat. Verschil stelt het verschil van de gemiddelden in de steekproeven I en II voor. Bereken de waarde van Verschil voor de data in de hierboven gegeven tabel en bereken (uitgaande van een passende normale verdeling) ook de kans dat die waarde van Verschil wordt overschreden. Stel dat je vooraf hebt afgesproken dat de batterijen van type II beter zijn dan die van type I als deze overschrijdingskans kleiner is dan 5%. Kun je nu concluderen dat de batterijen van type II inderdaad beter zijn?
!
Opgave 19 De ondernemingsraad van een bedrijf beweert dat het ziekteverzuim op afdeling A duidelijk hoger is dan op afdeling B. Ze legt de directie het volgende overzicht voor:
Ga met behulp van een gesimuleerde steekproevenverdeling na of inderdaad het ziekteverzuim op afdeling A groter is dan afdeling B. Spreek van tevoren af welke betrouwbaarheid je daarbij gaat hanteren. Wat is jouw conclusie?
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
16
5.5 Statistische procescontrole In fabrieken vinden regelmatig controles plaats van de productieprocessen. Bij zo’n proces treden variaties op in vulgewichten, afmetingen, aantallen in een verpakking, productietijden, etc. Het is onvermijdelijk dat er toevallige variaties zijn. Een machine kan nooit alleen maar bijvoorbeeld pakken van precies 500 gram suiker leveren. Er kunnen echter ook systematische fouten optreden. De wetgever of instanties die een keurmerk afgeven of de fabrieken zelf stellen grenzen vast waar die variaties binnen moeten vallen. Er zijn twee soorten grenzen: Tolerantiegrenzen: hier moeten de maten van de producten aan voldoen. Ze worden vastgesteld door instanties die kwaliteitskeurmerken verstrekken of door de omstandigheden waarin het product wordt toegepast. Regelgrenzen: grenzen die aan het productieproces gesteld worden om aan de tolerantiegrenzen te voldoen. Je mag aannemen dat de toevallige fouten normaal verdeeld zijn rond een gemiddelde. Voorbeeld Een buizenfabriek produceert buizen van 50 cm met een toegestane tolerantie van 6 mm, zowel naar boven als naar beneden. Elke dag wordt steekproefsgewijs de lengte van 10 van die buizen nagemeten. De meetresultaten van de afgelopen week uitgedrukt in cm zijn: 3 4 5 6 7 8 9
okt okt okt okt okt okt okt
2010 2010 2010 2010 2010 2010 2010
50.0 50.0 49.8 49.9 50.1 50.2 50.1
49.9 49.6 50.2 49.9 50.1 50.2 50.4
50.1 50.0 50.0 49.8 49.9 49.9 49.6
50.0 50.3 50.1 50.1 49.8 50.4 50.1
50.2 49.8 50.0 50.2 49.9 49.9 49.7
49.7 50.3 50.0 49.6 50.0 50.0 49.8
50.3 49.9 49.7 49.9 49.7 50.1 50.1
50.3 49.7 50.3 50.1 50.1 50.0 49.8
50.2 49.9 50.0 50.2 49.9 50.0 50.0
50.0 50.3 49.9 50.0 49.8 50.2 50.0
Een samenvatting van de meetresultaten wordt in een diagram zoals hiernaast uitgezet. Zo’n diagram heet een regelkaart. De rode stippen zijn de berekende gemiddelden en de verticale lijntjes geven de minima en de maxima aan. Op de verticale as staat de buislengte. De twee blauwe lijnen geven de tolerantiegrenzen aan voor dit type buis en de stippellijnen de regelgrenzen. Deze regelgrenzen zijn gebaseerd op de aanname dat de lengtes van de buizen normaal zijn verdeeld met een gemiddelde van 50,0 en een standaardafwijking van ongeveer 0,17. De regelgrenzen zijn hier het gemiddelde min 3 standaardafwijkingen en het gemiddeld plus drie standaardafwijkingen van de buislengte. Op deze regelkaart liggen de gemiddelden
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
17
redelijk netjes rond de 50,0. Er lijkt voor dit productieproces geen vuiltje aan de lucht. Dit noem je een statistisch beheerst proces, want er zijn alleen toevallige variaties in de metingen, geen structurele variaties. Het bijhouden van dergelijke regelkaarten en het trekken van conclusies er uit is onderdeel van de Statistische Procescontrole. " Opgave 20 Bekijk het voorbeeld. Behalve de gemiddelden X van de 10 dagelijkse metingen staan er ook de maximale en minimale gemeten buislengtes in. Deze maxima en minima bepalen de spreidingsbreedte R (van het Engelse “range”). a) Geef een statistische reden waarom de regelgrenzen 3 standaardafwijkingen boven en onder het gemiddelde liggen. Bereken de waarden van de regelgrenzen. b) Waarom is er verschil tussen tolerantiegrenzen en regelgrenzen? c) Hoeveel procent van de buizen zit er tussen de bovenste tolerantiegrens en de regelgrens er onder als het productieproces zonder systematische fouten verloopt? d) Waarom zullen de regelgrenzen altijd binnen de tolerantiegrenzen moeten liggen? e) Is het mogelijk dat het proces niet goed verloopt terwijl het gemiddelde steeds bij 50,0 in de buurt ligt? Geef een toelichting. f) Is het een statistisch beheerst proces als de minima en maxima binnen de regelgrenzen liggen? Opgave 21 Een week later ziet de regelkaart er uit zoals hiernaast. a) Waarom is er nu reden tot zorg, terwijl de minima en maxima toch binnen de regelgrenzen liggen? Is er nog steeds sprake van een statistisch beheerst proces? b) Fredrik zegt dat het proces statistisch beheerst verloopt als er maar één meting van de steekproef buiten de regelgrenzen valt. Klopt dat? c) Waarom kun je de tolerantiegrenzen en de regelgrenzen niet gebruiken als je alleen het gemiddelde van de steekproeven gebruiken wilt? d) Beschrijf een paar situaties waarin een regelkaart van de buislengten aanleiding geeft tot het bijstellen van het fabricageproces.
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
18
Opgave 22 In de praktijk worden ook regelkaarten zoals hieronder gebruikt: ! met een diagram waarop alleen het gemiddelde staat; ! daaronder een diagram met alleen de spreidingsbreedte.
a) b) c) d) e)
Waarom heeft de spreidingsbreedte maar één regelgrens? Op welke hoogte ligt die grens? Waarom deze hoogte? Leg uit dat die hoogte overeen komt met de regelgrenzen voor het gemiddelde. Beredeneer dat het proces in het gedeelte van de regelkaart van dag 1 tot dag 11 statistisch beheerst is. Waarom kun je zeggen dat het proces in het tweede deel van de regelkaart statistisch onbeheerst wordt? Beschrijf een paar situaties waarin een regelkaart van deze soort aanleiding geeft om te denken dat het productieproces statistisch onbeheerst is.
Opgave 23 Bij de productie van literpakken melk is een vulmachine zo ingesteld dat de inhoud van elk pak 1,03 liter is met een standaardafwijking van 0,01 liter. Om zijn productieproces te bewaken wordt er een regelkaart ontworpen. De regelgrenzen worden zo gekozen dat 99,7% van alle vulvolumes daar binnen valt. Door de wetgever is echter vastgesteld dat het vulvolume van een pak niet meer dan 1% onder de gewenste 1 liter mag zitten. a) Waarom is er nu maar één tolerantiegrens voor het gemiddelde? b) Maak een regelkaart zoals in opgave 20 voor deze fabrikant. Neem als tolerantiegrens van het gemiddelde het door de wetgever vastgestelde minimale vulvolume. c) Dagelijks laat de fabrikant een steekproef trekken uit zijn pakken melk: hij laat dan van 25 pakken melk het vulvolume bepalen. De tabel op de CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
19
volgende pagina tabel geeft de gemiddelden en de hoogste en laagste gemeten waarden per dag. dagnr 1 2 3 4 5 6 7
gemiddelde 1,023 1,014 1,045 1,012 0,998 1,001 0,997
hoogste 1,040 1,039 1,049 1,035 1,028 1,026 1,015
laagste 1,011 1,009 1,008 1,001 0,991 0,995 0,991
Welke conclusie zal de fabrikant trekken? Motiveer je antwoord.
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
20
5.6 Data analyse Tot slot krijg je een overzicht van een compleet statistisch onderzoek, waarbij je kunt gebruiken wat je tot nu toe geleerd hebt. Je kunt de volgende stappen onderscheiden: ! Probleemstelling. ! Vraag formuleren. ! Variabelen benoemen. ! Het verzamelen van data: o Welke populatie ondervragen? o Welke data verzamelen? o Hoe data verzamelen? o Hoeveel data verzamelen? o Welk meetbaarheid? o Hoe data weergeven? ! Verwachtingen uitspreken. ! Analyse van de data: o Datatabel beoordelen. o Diagrammen en grafieken, visualisaties beoordelen. o Beschrijven van waarneming (patronen, regelmaat, …). o Relaties tussen variabelen beschrijven. o Kwantificatie middels geschikte centrummaten en spreidingsmaten. o Oorzaken van fouten: # Nauwkeurigheid van metingen? # Representativiteit steekproef? # Systematische fout gemaakt? # Te beperkte vraagstelling? # Te grote non-response (bij enquêtes)? o Conclusies trekken (ook verwachtingen bijstellen) ! Voorstellen voor nader onderzoek. Opgave 24 Bestudeer het artikel uit paragraaf 5.0 over de resultaten van vaccinatie tegen de griep nog eens. a) Formuleer een bij dit onderzoek passende probleemstelling. b) Welke vraag hebben de onderzoekers proberen te beantwoorden? c) Met welke variabelen hebben ze te maken gehad? Ga ook in op de meetniveau’s van de variabelen. d) Beschrijf hoe de onderzoekers aan hun data zijn gekomen. Ga in op zoveel mogelijk van de deelvragen bij data verzamelen uit het overzicht hierboven. e) Welke verwachtingen hadden de onderzoekers waarschijnlijk vooraf? Zijn die uitgekomen naar de mening van de onderzoekers? En naar jouw mening? f) Over de data-analyse is in het artikel weinig terug te vinden. Hoe zou je zelf de data hebben gepresenteerd en geanalyseerd? g) Houdt zo goed mogelijk een foutenanalyse en doe aanbevelingen voor verder onderzoek.
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
21
!
Opgave 25 Leonardo da Vinci tekende in 1492 deze “man van Vitruvius”. De figuur geeft aan dat Leonardo stelde dat de spanwijdte en de lengte van de ideale mens gelijk zijn. De vraag is of dat geldt voor de mensen van deze tijd, meer dan 500 jaar later. In de bijbehorende dataset !Lichmaat vind je gegevens. a) Wat denk je zelf, voordat je data gaat bekijken? Doe een voorspelling. b) Wat is hier de probleemstelling? Formuleer de onderzoeksvraag en beschrijf de variabelen. c) Stel dat je zelf gegevens zou moeten verzamelen, hoe zou je dan je steekproef samenstellen en uit welke populatie? Welk meetniveau hebben je variabelen? d) Analyseer nu de data. Welke diagrammen zijn bruikbaar om uitspraken mee te doen? Welke centrummaten en spreidingsmaten gebruik je? e) Ga uit van een normaal verdeelde lichaamslengte. Kun je nu iets zeggen over de gemiddelde spanwijdte in die normaalverdeling? f) Ga uit van een normaal verdeelde spanwijdte. Kun je iets zeggen over de gemiddelde lichaamslengte in die normaal verdeling? g) Probeer een conclusie te trekken en vertel iets over de betrouwbaarheid ervan. Opgave 26 Aan het eind van hoofdstuk 1 zijn suggesties gedaan voor mogelijke statistische onderzoeken. Beschrijf van één of meer van die onderzoeksmogelijkheden een volledige opzet, gebaseerd op de hierboven genoemde punten. Besteed met name ook goed aandacht aan de foutenanalyse. a) Eerste onderzoeksmogelijkheid: vergelijken van twee groepen. Hoofdvraag: Hebben havo-leerlingen in het NG-profiel die wiskunde B hebben gekozen betere cijfers dan havo-leerlingen in het NG-profiel die wiskunde A hebben gekozen? Populatie: Alle havo-leerlingen met een NG-profiel. Onderzoeksmethode: Het gemiddelde eindcijfer voor het havo-examen wordt vergeleken met de gekozen wiskundesoort. Ook worden de cijfers voor natuurkunde, scheikunde en biologie vergeleken met de gekozen wiskundesoort. b) Tweede onderzoeksmogelijkheid: beschrijven van een populatie. Hoofdvraag: Je school gaat alle leerlingen voorzien van sportkleding en koopt daarom shirts en sportbroeken. Daarvoor moet je een bestaand maatsysteem voor kleding (van een bepaalde fabrikant?) gebruiken om vast te stellen hoeveel shirts en broeken je van een bepaalde maat moet inkopen. Hoeveel koop je van elke maat in? Populatie: Alle leerlingen op jouw school. Onderzoeksmethode: Je meet een goed gekozen steekproef van de leerlingen van je school op. Belangrijk is om vooraf vast te stellen welke maten van belang zijn voor de kledingmaat. Vervolgens stel je vast hoeveel procent van de gemeten personen een bepaalde maat broek of shirt heeft. Daarna bereken je hoeveel leerlingen dit jaarlijks op jouw school betreft. c) Derde onderzoeksmogelijkheid: zoeken naar een verband tussen twee variabelen. Hoofdvraag: Bij de lessen l.o. (of b.o.) doe je regelmatig de Coopertest
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
22
en/of de shuttle-run test. Doen sporters deze tests structureel beter dan niet-sporters? Populatie: Alle leerlingen in het vierde leerjaar. Onderzoeksmethode: Eerst stel je vast wat je onder een “sporter” verstaat en vervolgens ga je de resultaten van Coopertest en/of shuttle-run test vergelijken met het aantal uren dat iemand aan zijn sport besteedt. Opgave 27 Bedenk zelf een probleemstelling en beschrijf hoe in dat geval een volledige data-analyse uitgevoerd kan worden. Besteed bij je beschrijving aandacht aan alle stappen uit de lijst aan het begin van deze paragraaf. Misschien laat je docent je dit onderzoek wel volledig uitvoeren als afsluitende praktische opdracht van het domein Statistiek en Kansrekening.
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
23
5 Conclusies trekken 5.0
Antwoorden
Wat is een betrouwbare conclusie?
Opgave 1 a) ... b) Nee; voor indianen (of inheemse volken?) c) Wat wordt bedoeld met ’41 procent minder kans’? Als de normale kans 50% is, dan de kans op griep 50% - 41% = 9%? Of 0,59*0,5 = 0,295? Uitgaande van het laatste: Van de niet ingeënte baby’s krijgen er dan 0,5 · 580 = 290 de griep. Van de wel ingeënte baby’s krijgen er maar 0,295 · 580 = 171 de griep. Het verschil tussen beide groepen is dan dat 119 baby’s minder ziek werden. Maar eigenlijk heb je te weinig informatie... d) Nee; hoe zijn die twee groepen – wel of niet ingeënt – opgedeeld? In de ene groep kunnen toevallig meer of minder vrouwen/kinderen met hogere weerstand zitten; zijn de leeftijden van de moeders eerlijk verdeeld? Bovendien: ‘griepverschijnselen’ zijn niet altijd eenduidig. Een baby kan ook door andere oorzaak ziek zijn met (ongeveer) dezelfde symptomen. Of een baby kan wel ziek zijn, maar minder duidelijk waarneembare symptomen hebben en dus niet meegeteld zijn. e) … Opgave 2 … (Je leert in §5.4 om hier onderbouwd antwoord op te kunnen geven.)
!
Opgave 3 Bijvoorbeeld: ‘schoenmaat vergelijken tussen jongens en meisjes’; zie hiernaast voor de kentallen, waarbij de schoenmaat is gesplitst op sexe. De gemiddelde schoenmaat bij de jongens is veel groter. Je ziet het nog duidelijker met een boxplot:
Conclusie: de jongens hebben een grotere schoenmaat. Opgave 4 a) kwalitatief; nominaal b) kwantitatief; ordinaal c) er is een duidelijke vaste nulwaarde (0 baby’s geboren) en het kan niet negatief zijn d) tijd, temperatuur, geboortedatum, leeftijd (geen vast nulpunt en kan soms ook negatieve waarden aannemen)
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
1
5 Conclusies trekken
Antwoorden
5.1 Kwalitatieve variabelen vergelijken Opgave 5 a) het is geen getalswaarde, maar slechts een naam/omschrijving (hoewel voor het gemak vaak wel een getalswaarde wordt toegekend, zoals in het voorbeeld); het is ordinaal, want er zit wel een volgorde, of ordening in. b) minder leerlingen met EM-profiel hebben ‘boeiend’ of lager ingevuld dan met NG-profiel (dus een groter aantal hebben ‘erg boeiend’ ingevuld). c) bij ‘niet boeiend’ is cp bij EM groter dan bij NG, terwijl bij ‘gaat wel’ dit andersom is. Anders zou bij een van beiden het verschil negatief zijn. d) beide zijn dan 100% e) 11,7 (%) f) …
!
Opgave 6 a) De verschillen zijn de lengtes van de verticale verbindingslijntjes tussen de meetpunten van de twee polygonen b)
c) d) e)
max. Vcp = 28,2 (%) CM en NT: middelmatig verschil; EM en NG: gering verschil; … anders kan je de grenzen altijd zo kiezen dat je de uitslag krijgt die wenselijk is …
Opgave 7 a)
b) c)
max.Vcp = 29,2 (%) middelmatig verschil
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
2
5 Conclusies trekken
Antwoorden
Opgave 8 a)
b) c)
max.Vcp = 8,1 (%), dus gering verschil
d)
omdat er maar twee categorieën zijn is max.Vcp het verschil van de eerste categorie, in dit geval 14,9 (%), maar die is gelijk aan het verschil van de tweede categorie (ook 14,9 %)! … (gewoon verschil in percentages uitrekenen, bijv. in dit geval 14,9%) omdat er geen ordening zit in de hobby’s; de hobby’s zijn niet van ordinaal niveau, dus de volgorde ligt niet vast. Een andere volgorde geeft dan een andere uitkomst van max.Vcp. Deze waarde zegt dus niets. max.Vcp kan je dus alleen uitrekenen als er sprake is van een variabele op ordinaal niveau (en er meer dan 2 categorieën zijn).
e) f)
5.2 Boxplots vergelijken Opgave 9 a) je hebt hier te maken met een steekproef en niet alle lampen zijn getest. b) ja: hoe groter de steekproef hoe betrouwbaarder de resultaten c) nee; ja d) 25% e) de mediaan van type C is gelijk aan Q3 van type D, dus 50% van type C zit boven Q3 van type D; ofwel: 50% van de lampen van type C gaan langer mee dan de 75% kortst brandende lampen van type D. f) bij een boxplot moet je horizontaal over een schaalverdeling beschikken, dus over getallen; er moet sprake zijn van een kwantitatieve variabele van interval of ordinaal meetniveau. Opgave 10 a) Nee; je kunt de aantallen per dag niet meer zien, je weet niet hoe ze over de boxplot verdeeld liggen. b) als de mediaan van dag X boven het maximum van dag Y ligt worden er op dag X meer kinderen in een ziekenhuis geboren dan op dag Y c) de mediaan van de zondag (! 400) ligt onder het minimum van de vrijdag (! 420), dus worden er op zondag minder kinderen geboren dan op vrijdag. d) nee, niet vergeleken met de maandag en de zaterdag e) ja, want de mediaan van de donderdag ligt hoger dan het maximum van de zaterdag f) ... (ik vind het niet zo’n gekke afspraak) CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
3
5 Conclusies trekken
Antwoorden
!
Opgave 11 dat is een redelijk strenge afspraak: dan is (minstens) 75% van de ene groep groter (of kleiner) dan (minstens) 75% van de andere groep; b) zie de boxplot:
a)
De boxen hebben (net) geen overlap (Q3 vrouw = Q1 man = 20); conclusie: ja, de mannen hebben een grotere handspanne dan vrouwen. lengtes: nee, er is overlap van de boxen gewicht: nee, er is overlap van de boxen schoenmaat: ja, er is geen overlap van de boxen
c) d)
5.3
Tellingen vergelijken
Opgave 12 a) 139 · 48/279 ! 24 b) het scheelt (maar) 5 mensen die minder verkouden zijn geworden dan verwacht c) …
!
a) b) c)
d) e) f) g) h)
Opgave 13 1+1+1+2+23+17+44 = 89 keer 89/1000 = 0,089 = 8,9% (het gegeven percentage 9,1% is dus fout) bijvoorbeeld:
zie hierboven; omdat het toeval meespeelt zal je nooit precies dezelfde uitkomst hebben in bovenstaand geval: (4+12+19+48)/1000 = 83/1000 = 0,083 = 8,3% met 91,7% zekerheid kun je zeggen dat vitamine C helpt bij het voorkomen van verkoudheid nee dan moet je concluderen dat vitamine C niet helpt
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
4
5 Conclusies trekken
Antwoorden
!
Opgave 14 Trek met de Random Generator uit 154 getallen 69 getallen (= jongen) en tel het aantal met wisA (" 43) hieronder. Het resultaat kan dan zijn (maar zal in jouw geval niet precies hetzelfde zijn):
Volgens deze simulatie zal er in (1+0+2+7+12)/1000 = 22/1000 = 0,022 = 2,2% van de gevallen 13 of minder jongens met wiskunde A zijn; Het geslacht is dus (met een betrouwbaarheid van 97,8%) van invloed op de keuze voor wisA of wisB.
!
a)
b)
Opgave 15 voertuig letsel auto motor totaal niet 259 33 292 wel 26 6 32 totaal 285 39 324 Uit de getallen van 1 t/m 324 trek ik 32 getallen (letsel) en tel het aantal motorrijders daaronder (39 of minder):
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
5
5 Conclusies trekken
Antwoorden
Dat er 6 of meer motorrijders onder de letselgevallen zijn, gebeurt volgens deze simulatie in (101+51+14+4+1+0+1)/1000 = 172/1000 = 17,2% van de gevallen; Je kan dus niet zeggen dat motorrijders vaker letsel overhouden bij een ongeluk dan automobilisten.
5.4 Meetwaarden vergelijken Let op: het is uit de tekst niet direct duidelijk dat het verschil van de twee gemiddelden ook negatief kan zijn. Je neemt telkens gemiddelde(A) – gemiddelde(B). Dus dat kan ook negatief zijn. Opgave 16 a) De hoeveelheid getallen is erg klein, dus zeggen boxplots niet zoveel; een boxplot heeft pas zin bij grote aantallen b) gemiddelde(A) = (12 + 11 + 10 + … + 3 + 7)/10 = 84/10 = 8,4 gemiddelde(B) = (1 + 8 + 9 + 0 + … + 3 + 6)/10 = 50/10 = 5,0 verschil = 8,4 – 5,0 = 3,4; klopt c) … (zelf doen!) d) Vraagstelling is fout, moet zijn: Waarom zal het gemiddelde G van alle gevonden
verschillen bij de simulaties dicht bij 0 uitkomen als je opdracht b een groot aantal keren doet?
e) f)
Het zijn telkens dezelfde getallen; elk getal heeft telkens evenveel kans om in de ene of andere groep te komen, dus telt telkens bij de verschillen ‘aan de andere kant’ mee; gemiddeld zal er dus 0 uitkomen. (Het getal 26 is fout!) Het verschil is groter dan 3,4 bij 1 + 7 + 1/5 · 15 = 11 simulaties. 11/1000 = 0,011 = 1,1%; je kunt dat met 98,9% zekerheid zeggen.
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
6
5 Conclusies trekken
Antwoorden
!
Opgave 17 Een mogelijke uitkomst van zo’n simulatie van 10.000 steekproeven:
a) b) c) d)
e)
In de hierboven weergegeven simulatie: 40 + 110 + 36 + 12 + 13 + 0 + 1 = 212; dat is 212/10000 = 0,0212 = 2,12% (of ongeveer 2%) Merk A is slechter dan merk B. Dan mag je niet concluderen dat merk A slechter is. Nee, soms is het niet erg om het mis te hebben; in dit geval bijvoorbeeld is het waarschijnlijk wel verstandig om merk B te nemen, hoewel het niet 100% zeker is. Het is alleen van belang om een erg grote betrouwbaarheid te hebben als de gevolgen van een foute keuze grote gevolgen kan hebben. Het gemiddelde van merk B is nu 4,83; Het verschil tussen de gemiddeldes van merk A en B is nu 3,57 (of 3,6); Aan de lijst in VU-Statistiek de getallen 2 en 6 toevoegen; ‘Aantal getallen per keer’ aanpassen aan 22; Formule aanpassen: gemdeel2 = gemdeel(v;11;22) Een mogelijke uitkomst van zo’n simulatie van 10.000 steekproeven:
Kans op verschil groter dan 3,6 = (54+26+16+5+4)/10000 = 0,0105 ! 1% Dus ook nu nog is merk A slechter dan merk B, met een betrouwbaarheid van 99%. (Logisch: het verschil is alleen nog groter geworden!)
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
7
5 Conclusies trekken !
a) b) c)
Antwoorden
Opgave 18 Type I: 599,93; Type II: 630 Nee In het digiboek zit een tikfout in het bestand bij deze opgave: er staat in de lijst met getallen waaruit getrokken moet worden het getal 6590, maar dat moet 650 zijn. Dit getal eerst even aanpassen voordat je de simulatie uitvoert!
Zie hieronder:
d)
e)
Verschil bij de tabel is 599,93 – 630 = -30,07 Volgens de simulatie is de kans op een verschil kleiner dan -30 gelijk aan 20/10000 = 0,002 = 0,2% Met de normale benadering: (zie hiernaast de kentallen met de module Random Generator van VU-Statistiek) Te berekenen de normale kans P(V " -30,07| # = 0,0268; $ = 10,432) ! 0,002 = 0,2% Ja
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
8
5 Conclusies trekken
Antwoorden
!
Opgave 19 gemiddelde(afd.A) = 10,5; gemiddelde(afd.B) = 9; Verschil = 1,5; Betrouwbaarheid van 5%; Simulatie van 10.000 steekproeven:
Volgens deze simulatie is de kans op een verschil groter of gelijk aan 1,5 gelijk aan (47 + 55 + 7)/10.000 = 109/10.000 = 0,0109 ! 1,1%; Conclusie: het ziekteverzuim op afdeling A is groter dan op afdeling B.
5.5 Statistische procescontrole Opgave 20 a) Volgens de vuistregels voor de normale verdeling ligt 99,7% tussen deze grenzen; # - 3! = 50,0 - 3·0,17 = 49,49; # + 3! = 50,51 b) Als het voorbij de tolerantiegrenzen zit ben je te laat, want dan zijn er producten gemaakt die niet aan de eisen voldoen; als ze voorbij de regelgrenzen zit, dan heb je nog tijd om de machine of het proces bij te stellen c) 99% d) Anders lever je foute producten af zonder dat je het proces bijstelt e) Als de spreiding (te) groot is kan het gemiddelde goed zijn, maar kunnen er toch producten buiten de tolerantiegrenzen vallen f) Hoeft niet: het gemiddelde kan structureel te hoog of te laag zijn, maar dat dan toch de maxima en minima binnen de regelgrenzen vallen; er is dan waarschijnlijk sprake van een systematische fout. Opgave 21 a) Het gemiddelde wijkt steeds meer af van het gewenste gemiddelde en neemt steeds meer toe; nee, geen statistisch beheerst proces, want sprake van een systematische afwijking b) Nee c) (?) je hebt ook de spreiding nodig (?) d) … CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
9
5 Conclusies trekken
Antwoorden
Opgave 22 a) De spreidingsbreedte is groter of gelijk aan nul; een te kleine spreiding kan niet, omdat juist een zo klein mogelijke spreiding gewenst is. b) Bij 0,7; dat is 6 keer de sd; de afstand in het bovenste deel van de grafiek tussen de twee stippellijntjes is even groot als de hoogte waarop de onderste stippellijn ligt c) Tot en met dag 10 schommelt het gemiddelde mooi om het gewenste gemiddelde d) Het gemiddelde begint systematisch van het gemiddelde ‘weg te lopen’. e) ... Opgave 23 a) Wettelijk is er geen maximum, dus er mag best teveel melk in een pak zitten. b) De onderste tolerantiegrens zit bij 99% van 1 liter = 0,99 liter; Vuistregels normale verdeling: tussen #-3$ en #+3$ zit 99,7% (of 100%), dus: de bovenste regelgrens zit bij 1,03 + 3·0,01 = 1,06 liter; de onderste regelgrens zit bij 1,03 – 3·0,01 = 1,00 liter; c) Zie hiernaast. Het proces zal bijgesteld moeten worden. De laatste drie metingen zitten onder de regelgrens (hoewel ze nog wel net aan het wettelijk minimum voldoen).
5.6 Data analyse Opgave 24 a) Je kunt voor de winter een griepprik halen. Maar de vraag is of dat wel goed is voor zwangere vrouwen. Worden zij minder ziek, of juist meer? En hoe zit het met hun baby’s? b) Heeft een griepprik voor zwangere vrouwen een gunstig effect, voor henzelf maar ook voor de baby? c) Prik: ja/nee; kwalitatief, nominaal Ziek: ja/nee; kwalitatief, nominaal Hoeveelheid antistoffen: kwantitatief, rationiveau Baby ziek: ja/nee; kwalitatief, nominaal Baby hoeveelheid antistoffen: kwantitatief, rationiveau … d) … e) Dat de griepprik wel effect heeft; ja; … f) … g) … CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
10
5 Conclusies trekken
Antwoorden
!
Opgave 25 … Is bij de mens van tegenwoordig de lengte gelijk aan de spanwijdte (of armspan)? Variabelen, tenminste: lengte, armspan (of spanwijdte) c) Steekproef: … lengte: kwantitatief, rationiveau armspan: kwantitatief, rationiveau d) !" Enkele mogelijkheden: a) b)
e) f) g)
Centrummaten en spreidingsmaten: gemiddelde en sd steekproef (want beide variabelen zijn op rationiveau) De gemiddelde spanwijdte ligt vrijwel in het centrum van de normale verdeling van de lichaamslengte. De gemiddelde lichaamslengte ligt vrijwel in het centrum van de normale verdeling van de lichaamslengte. …
Opgave 26 … Opgave 27 …
CTWO – havo wiskunde A – Statistiek en kansrekening 5 – Conclusies trekken
11