Inleiding Hypothese toetsen
Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14
Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14
2
Inhoudsopgave Achtergrondinformatie ........................................................................................................................... 4
Wie heeft gelijk? ..................................................................................................................................... 5
Een eigen onderzoek ................................................................................................................................8 Significantie ............................................................................................................................................ 9
Nu terug naar “mens erger je niet”….. ................................................................................................. 12
Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14
3
Achtergrondinformatie Auteurs: Peter Donkelaar; e-‐mail:
[email protected] John Half; e-‐mail:
[email protected] Beatrice van der Tuin; e-‐mail:
[email protected]
Doelgroep: VWO Wiskunde A, mogelijk ook VWO Wiskunde D, ter afsluiting van Statistiek en kansrekening.
Voorkennis: Normale verdeling, Binomiale verdeling.
Waaruit bestaat het materiaal? Het pakketje gaat over hypothese toetsen, en is bedoeld ter vervanging van of aanvulling op de bestaande paragrafen over het waarom van hypothese toetsing en de betekenis van “significantie”.
Wat was de aanleiding om dit te ontwerpen? We hebben gezocht naar een meer intuïtieve en practische invulling ter vervanging van de gebruikelijke wijze van uitleggen.
Wat zijn de ervaringen met dit materiaal? De ervaringen zijn nog niet bekend; alle auteurs zullen het materiaal voor 24 januari 2014 hebben uitgeprobeerd
Wat zijn de aanbevelingen voor verdere ontwerpen? 1. Verder ontwikkelen zodat het bruikbaar is voor een practische opdracht voor Wiskunde A. 2. Verdere uitbreiding van de theorie naar één-‐ en tweezijdig toetsen. Handleiding voor het maken van valse dobbelstenen Zie: http://alternativetechnologies.wordpress.com/2012/08/26/vals-‐spelen-‐met-‐dobbelstenen/
Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14
4
Wie heeft gelijk? Reden tot ongerustheid? In het dorpje Weurt bij Nijmegen heerst grote onrust over een volgens de bevolking onrustbarend hoog aantal gevallen van kanker onder de 2600 inwoners. Een op verzoek van de bewoners gehouden onderzoek van de GGD regio Nijmegen heeft de onrust alleen maar aangewakkerd. De GGD constateert dat in de periode 1989-‐1992 bij mannen in Weurt 50 procent meer gevallen van kanker voorkwamen dan het landelijk gemiddelde. Er waren 33 gevallen van kanker geconstateerd, terwijl op basis van het landelijk gemiddelde 22 gevallen te verwachten waren. Weurt (gemeente Beuningen) is aan drie kanten omgeven door industrieterreinen, waar een vuilverbrandingsoven, een ijzergieterij en andere zware industrie dagelijks hun afvalstoffen lozen. Volgens de bewoners zijn de fabrieken verantwoordelijk voor de kankergevallen en steeds meer voorkomende neus, keel-‐ en oogklachten. 1. a. b.
Lees bovenstaand artikel uit NRC-‐Handelsblad van 19 januari 1995 (ingekort). Je mag aannemen dat de helft van Weurts bevolking mannelijk is. Lijkt jou het aantal keer dat kanker voorkomt in Beuningen significant hoger dan in de rest van het land? Lijkt jou dat het aangrenzende fabrieksterrein de oorzaak is van het verhoogde aantal kankergevallen in Weurt?
In deze lessen zullen we een methode behandelen om te beslissen of de inwoners van Weurt een verhoogd risico hebben op kanker. (het alternatief is dat het hogere aantal kankergevallen op toeval berust.) c. Leg uit dat je uit het artikel kunt afleiden dat onder normale omstandigheden het percentage kankergevallen onder mannen ongeveer 1,7% is. Stel dat in Weurt de kans op kanker even groot is als in de rest van Nederland, dus 0,017 per persoon. Je kunt de mannelijke bevolking van Weurt dan beschouwen als een groep van 1300 willekeurige mannen. Het aantal kankergevallen in zo’n groep noemen we X; deze X is binomiaal verdeeld. d. Wat is het " aantal herhalingen n”, wat is de “succeskans p” en wat is de verwachtingswaarde van X? e. Wat is de kans dat X niet meer dan 5 van 22 afwijkt? f. Wat is de kans dat X niet meer dan 10 van 22 afwijkt? g. Vind jij, gezien de kansen in het vorige onderdeel, een aantal van 33 uitzonderlijk hoog? h. Vind jij dat de bevolking van Weurt reden tot ongerustheid heeft? In de lessen zal de volgende vraag centraal staan: bij welke aantallen kankerpatiënten verwerp je de mogelijkheid dat zo’n aantal door toeval tot stand is gekomen. (Dit bekijken we natuurlijk ook in andere contexten).
Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14
5
Wij gaan nu allerlei situaties bekijken, waar je ook op grond van een statistisch gegeven een conclusie moet trekken. Het is de bedoeling dat je de vragen op gevoel beantwoordt; je hoeft je antwoorden dus niet te verantwoorden. Hoe je verantwoord conclusies kunt trekken, komt later aan de orde. 2. In tien worpen valt een munt zeven keer op kop. Iemand beweert daarom dat de munt vals is. a. Geef je hem gelijk? Zeg dat het aantal keer (van de tien) dat de munt op kop valt niet zeven is maar n. b. Bij welke waarden van n geef je hem gelijk?
3.
We vergroten het aantal met een factor 100: in duizend worpen valt een munt 700 keer op kop. c. Denk je dat de munt vals is? Zeg dat het aantal keer (van de duizend) dat de munt op kop valt niet 700 is maar n. d. Bij welke waarden van n concludeer je dat de munt vals is? “Ik had graag een stuk Edammer van een pond”. De kaasboer snijdt op het oog een stuk kaas voor de klant. In acht van de tien keer blijkt het meer dan 500 gram te zijn. Een klant beweert dat de kaasboer systematisch teveel snijdt. a. Geef je hem gelijk? Zeg dat het aantal keer (van de tien) dat de kaasboer te veel afsnijdt niet acht is maar n. b. Bij welke waarden van n geef je de klant gelijk?
4.
5.
6.
De consumentenbond neemt een steekproef en weegt twintig 5 kg-‐zakken aardappelen (zo staat het op de zakken) van een zekere groothandel. Ze blijken in totaal 97 kg te bevatten. a. Lijkt jou de conclusie gerechtvaardigd dat 5 kg-‐zakken van de groothandel minder dan 5 kg bevatten? b. Wat zou je nog meer willen weten, om met meer zekerheid een oordeel te kunnen vellen? Een dictator beweert dat 70% van de bevolking zijn beleid steunt. Van de eerste tien mensen die je ondervraagt zeggen er vijf dat ze het beleid van de dictator afkeuren. a. Lijkt je de conclusie gerechtvaardigd dat de dictator de zaak te gunstig voorstelt voor zichzelf? b. Wat zou je nog meer willen weten, om met meer zekerheid een oordeel te kunnen vellen? Een supermarkt zegt dat de gemiddelde wachttijd voor haar kassa’s niet meer dan 2 minuten bedraagt. De laatste vier keer heb ik bijgehouden hoe lang ik moest wachten: 3, 4, 3 en 2 minuten. Ik beweer dat de supermarkt een oneerlijk beeld schetst van de werkelijkheid. Ben jij het met mij eens? 7. Geloof je in helderziendheid? In 1968 experimenterde de parapsycholoog J. Barry om te kijken of personen met hun gedachten de groei van paddestoelen konden vertragen. Zijn experiment werd goed opgezet. Er namen tien personen aan het experiment deel. Ze werden elk in een kamer gezet; elk had een eigen maar verder identieke verzameling paddenstoelen. Elke
Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14
6
verzameling was verdeeld in tweeën: vijf paddenstoelen waren experimenteel en vijf vormden de controlegroep. Iedere proefpersoon moest zich concentreren op de experimentele paddenstoelen en ze met zijn gedachten dwingen trager te gaan groeien. Het bleek dat bij negen van de tien personen de experimentele groep paddenstoelen trager groeide dan de controlegroep. Volgens J. Barry was dit een significant resultaat. (uit: Risico’s van Peter Sprent, 1990). a. Geef commentaar. b. Wat zou jij aanbevelen om meer zekerheid te verkrijgen? 8. Op de website NOS.NL werd op 21 juni 2011 het volgende bericht geplaatst (het bericht is enigszins ingekort). Onder de 47 patiënten die op de Intensive Care van het Maasland Ziekenhuis in Rotterdam een multiresistente bacterie hebben opgelopen, zijn er 21 doden gevallen. Dat blijkt uit het onderzoek van het ziekenhuis zelf. Wetenschappers van het RIVM zijn nu bezig die onderzoeksresultaten te controleren. Het aantal besmettingen en ook doden zou dus nog kunnen oplopen. Het is heel moeilijk om te zeggen hoeveel doden daadwerkelijk het gevolg zijn van een infectie veroorzaakt door de multiresistente bacterie. Patiënten op een IC zijn altijd ernstig ziek en verzwakt. De artsen op de intensive care van het Maasstad Ziekenhuis gaan ervan uit dat alle patiënten zijn overleden aan hun eigenlijke kwaal, zegt arts microbioloog Tjaco Ossenwaarde van het Maasstad Ziekenhuis. a. Lijkt je de conclusie gerechtvaardigd dat alle 21 patiënten zijn overleden aan hun eigenlijke kwaal en niet mede aan de besmetting met de multiresistente bacterie? b. Wat zou je nog meer willen weten, om met meer zekerheid een oordeel te kunnen vellen?
Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14
7
Een eigen onderzoek doen Het is weer zover: de buren zijn weer "gezellig" een potje Mens-‐Erger-‐Je-‐Niet aan 't spelen: Hij: "Nou ja, zeg! Alwéér geen zes!!! En jij gooit stééds zessen!" Zij: "Ach ja, je kunt het of je kunt het niet..." Hij: "Maar dit is geen toeval meer!" Zij: "Wat bedoel je daarmee, schatje?" Hij: "Nou ja, gewoon; dit is niet meer normaal! Ik wil ook met die dobbelsteen gooien" Zij: "Nou ja, zeg, je wilt toch niet beweren dat ik vals speel?" Hij: "Geef mij die dobbelsteen, geef hier!" Zij: "Afblijven, dat is mijn geluksdobbelsteen, je hebt hem mij zelf gegeven op onze zilveren bruiloft" Hij: "Maar hij is vals vals vals VAAAAALS; hij gooit veel vaker zes!" Zij: "NIETES" Hij: "WELLES" Zij: "NIETES" Hij: ... Ik sta te luisteren met mijn glas tegen de muur. Ze besluiten na lang geruzie om wetenschappelijk te bewijzen of de dobbelsteen nou vaker dan normaal 6 gooit of niet. Ze gaan de steen 300 keer gooien en het aantal zessen tellen. Als de steen zuiver is zal dat in de buurt van de 50 moeten uitkomen (dat is wat ZIJ beweert). Als HIJ gelijk heeft dan zal het aantal zessen groter dan 50 zijn. Wiskundig gezien hebben we te maken met twee beweringen, die we Hypothese NUL (H0) en Hypothese EEN (H1) zullen noemen. ZIJ zegt dat de kans op een zes gelijk is aan 1/6 en HIJ zegt dat die kans groter is dan 1/6: H0: p = 1/6 (ZIJ) H1: p > 1/6 (HIJ) Ze gooien 300 keer en het aantal zessen blijkt gelijk te zijn aan 57. En tja, dan begint het gekibbel weer: HIJ: "Zie je wel! Méér dan 50 zessen!!" ZIJ: "Ach man, zeur niet zo, 't is toch ongeveer 50?" HIJ: "Nee, het is MEER" ZIJ: "Maar dat is toeval, ook als de kans per keer precies 1/6 is, dan kan het best voorkomen dat er 57 zessen in 300 keer gooien komen. De kans op 57 zessen is binompdf(300, 1/6, 57) = 0,033 maar de kans op precies 50 zessen is ook slechts binompdf(300, 1/6, 50) = 0,062, en dat is ook niet erg groot, dus zo heb je bijna altijd wel wat te zeuren. 't Is gewoon toeval! HIJ is even onder de indruk van dit wiskunde-‐geweld, en wij gaan intussen snel de zaak wat wiskundiger bekijken. Per groepje krijgen jullie twee dobbelstenen. Jullie gaan met elke dobbelsteen apart 300 keer gooien en zet de resultaten in een tabel. Wij gaan onderzoeken of er valse dobbelstenen zijn.
Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14
8
Nu eerst de theorie: Significantie
Er staat aan de rand van een grote stad een zuivelfabriek. De grootste specialiteit van deze fabriek -‐ en daaraan ontleent de fabriek zijn faam -‐ is zijn vanillevla. Deze vanillevla kun je verkrijgen in flessen van ¼, ½ en 1 liter en in emmertjes van 2½ liter. In het verband van deze inleiding kijken we naar de flessen van 1 liter. Het zal je niet verbazen dat een volle fles vanillevla het resultaat is van een geautomatiseerd proces waarin van -‐ oorspronkelijk -‐ koeienmelk middels allerlei bewerkingen vanillevla wordt gemaakt die een machine uiteindelijk in de fles laat lopen. Deze machine is niet in staat in elke fles exact een liter te laten lopen. Het resultaat is dan ook dat meting van de inhoud van een groot aantal literflessen vanillevla -‐ mits zeer nauwkeurig uitgevoerd -‐ veel verschillende resultaten oplevert. Gemiddeld zal er 1 liter vanillevla in een fles zitten en hoe nauwkeuriger de machine werkt des te kleiner zullen de afwijkingen van die liter zijn. Een maat waarin die afwijking wordt uitgedrukt, is de standaardafwijking of standaarddeviatie. Binnen de wiskunde is het symbool voor de standaardafwijking σ, hoewel er ook wel “SD” voor gebruikt wordt. Echter, bij een gemiddelde inhoud van 1 liter zal altijd de helft van de flessen te weinig vanillevla bevatten. En natuurlijk de andere helft te veel, maar dat wordt door kopers van deze flessen niet erg gevonden. Europese regels bepalen inmiddels dat niet meer dan een zeker percentage van een artikel een te laag gewicht/te geringe inhoud/…. mag hebben. Laten we nu eens kijken naar een partij flessen vanillevla die op een dag door onze fabriek is geproduceerd. En laten we eens aannemen dat er gemiddeld 1005 ml vla in een fles terecht is gekomen met een standaardafwijking van 5 ml. 9 Hoe groot is de kans dat je een fles met “te weinig” vanillevla krijgt wanneer je één fles vla uit die partij koopt? Inderdaad. Met de vuistregels van de normale verdeling weet je dat die kans ongeveer 16% is. Dat betekent dat, als de aankoop van deze fles jou zeer teleurstelt omdat je je afgezet voelt (“Ze verkopen flessen van een liter waar helemaal geen liter inzit!”), dat eigenlijk helemaal niet terecht is. Sterker nog, de kans dat er meer dan 1010 ml in die fles zit is ook ongeveer 16%. Maar ook dat wist je wel. Het is gewoon een kwestie van toeval. 10 Hoe groot is de kans dat je twee flessen met “te weinig” vanillevla krijgt wanneer je twee flessen vla uit die partij koopt? Die kans is alweer een heel stuk kleiner: 0,16 x 0,16 , dus ongeveer 2½%. En stel dat je vier flessen zou kopen, is de kans nog maar net 1/20 % op vier flessen met een inhoud van minder dan 1 liter. Het kàn nog steeds, maar àls het je zou overkomen, zou het toch wel èrg toevallig zijn.
Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14
9
In dat laatste geval zou een uitspraak als “Ze verkopen flessen van een liter waar helemaal geen liter inzit!” een veel grotere kans hebben terecht te zijn. In erg veel situaties moet een uitspraak getoetst worden. Om bij onze zuivelfabriek te blijven, natuurlijk een uitspraak als “De vulmachine vult de literflessen met gemiddeld 1005 ml vanillevla met een standaarddeviatie van 5 ml”, maar ook “De mengmachine voegt 15 mg vanille toe per 10 l melk”, “Wij hebben een marktaandeel in onze provincie van 17,6%”, enz. Het eventueel onjuist zijn van deze uitspraken kan op allerlei terrein aanzienlijke consequenties hebben: voor betrouwbaarheid van het merk, voor kostenbeheersing, voor mogelijkheden tot uitbreiden van de fabriek, voor … Maar ook het in twijfel trekken van deze uitspraken door buitenstaanders kan ernstige gevolgen hebben. Als jij, op grond van jouw aankoop van die ene fles vanillevla (“Ze verkopen flessen van een liter waar helemaal geen liter inzit!”, die bedoel ik) naar dat bekende landelijke dagblad stapt en er de volgende dag in grote letters op de voorpagina staat: “Bekende zuivelfabriek : te weinig vla in de fles!!”, dan maak je -‐ samen met dat dagblad -‐ wel wat los. Als je terugdenkt aan de kans dat dat gebeurde terwijl het gemiddelde wèl 1005 ml was, neem je wel een aanzienlijk risico om ten onrechte schade aan te richten. Want zo’n aktie kost wel: naam van de fabriek, omzet, banen en ga maar even door. Dus: je moet wel zeker van je zaak zijn! Vaak zie je dat als de een of andere uitspraak in twijfel wordt getrokken, de kans dat dit ten onrechte wordt gedaan, klein wordt gehouden.
11 Hoe groot is de kans, dat je uit de partij uit het begin van dit verhaal een fles krijgt met een inhoud onder 990 ml? Reken maar na op je GR: die kans is 0,0013, dus nèt 0,1%. De kans om een fles met zo’n inhoud te krijgen is zó klein, dat dat toch wel èrg toevallig is, onder de gegeven omstandigheden. Anders gezegd: de afwijking ten opzichte van wat je zou mogen verwachten is toch wel erg groot; of: de afwijking ten opzichte van wat je zou mogen verwachten is van aanzienlijke betekenis; of: de afwijking ten opzichte van wat je zou mogen verwachten is significant. Als een uitspraak als “De vulmachine vult de literflessen met gemiddeld 1005 ml vanillevla met een standaarddeviatie van 5 ml”, of “De mengmachine voegt 15 mg vanille toe per 10 l melk”, of “Wij hebben een marktaandeel in onze provincie van 17,6%” op juistheid onderzocht wordt, moet altijd van te voren afgesproken worden bij welke kans er nog gezegd wordt “Dit kàn gebeuren” en bij welke kans er gezegd wordt “Dit is ons té toevallig om waar te kunnen zijn”. Of, om het anders te zeggen: bij welke kans er sprake zal zijn van een significante afwijking van wat er te verwachten was. Die kans wordt over het algemeen gekozen op 1%, 5% of 10%. Er wordt in die gevallen gesproken van een significantieniveau van 1%, 5% of 10%. Dat betekent dus dat degene die uitspraak “Dit is té toevallig om waar te kunnen zijn” doet, weet dat hij een kans van 1%, 5% of 10% voor lief neemt om het tòch nog fout te hebben. Het significantieniveau wordt met de variabele α aangeduid. Het formeel opstellen van een hypothese toets Bij het oplossen van een toetsprobleem ga je als volgt te werk:
Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14
10
1. Stel een toetsmodel op 2. Bereken de overschrijdingskans 3. Je vergelijkt de overschrijdingskans met α (of 0,5 α) en trek een conclusie Wij bekijken het volgende probleem: Een verfverkoper beweert dat de met een blik te verven oppervlakte normaal verdeeld is met een gemiddelde van 10 𝑚! en een standaardafwijking van 1,2 𝑚! . Een klant twijfelt aan deze specificaties en verft 9 blikken leeg. De geverfde oppervlakte blijkt gemiddeld 9,3 𝑚! te zijn. Is de twijfel van de klant terecht? We nemen in deze vraag α = 0,05 1.Toetsmodel In ons voorbeeld gaat de verkoper er van uit dat het gemiddelde van de blikken verf gelijk is aan 10 𝑚! . Formeel zeg je dan: • De nulhypothese is 𝐻! : µ = 10 . •
De alternatieve hypothese is 𝐻! : µ < 10 ( de klant denkt dat het minder is)
•
De toetsingsgrootheid 𝑋 = de oppervlakte die gemiddeld geverfd kan worden met 9 blikken verf. 𝑋 is in dit voorbeeld normaal verdeeld met µ = 10 en σ = 0,4 (1,2 ∶ 9)
2.De overschrijdingskans Je hebt vastgesteld dat er gemiddeld 9,3 m2 met een blik geverfd is. Je gaat nu de kans berekenen op zo’n resultaat of nog erger, dus een resultaat zoals dit of een resultaat dat nog meer afwijkt van datgene dat je verwachtte, dus de kans op minder dan 9,3 m2.
Zoals je kunt zien is P( 𝑋 ≤ 9,3) ≈ 0,0401 3.De conclusie In het voorbeeld is P( 𝑋 ≤ 9,3) ≈ 0,0401 < α = 0,05. We zeggen nu: het significantieniveau wordt overschreden, dit resultaat ligt in het kritieke gebied. Dit betekent dat 𝐻! 𝑤𝑜𝑟𝑑𝑡 𝑣𝑒𝑟𝑤𝑜𝑟𝑝𝑒𝑛. Conclusie: De twijfel van de klant is terecht! Probeer het eens zelf. Kijk nog eens naar de vanillevla, maar nu naar de emmertjes van 2½ liter. In een emmertje zit iets meer dan 2½ liter, namelijk 2513 ml met een standaarddeviatie van 10 ml. Je pakt een emmertje waar 2500 ml in blijkt te zitten.
Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14
11
12 Kun je nu, met een significantieniveau van 10%, zeggen dat er gemiddeld minder dan de beloofde 2513 ml vanillevla in de emmertjes zit?
Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14
12
Nu terug naar “mens erger je niet”… Is het nu wel of geen eerlijke dobbelsteen? Dat gaan we onderzoeken. 1.Toetsmodel !
•
De nulhypothese is 𝐻! : 𝑝 =
•
De alternatieve hypothese is 𝐻! : 𝑝 >
•
De toetsingsgrootheid p = de kans dat we 6 gooien. P is in dit voorbeeld binomiaal
!
! !
!
verdeeld met 𝑛 = 300 𝑒𝑛 𝑝 = !
2.De overschrijdingskans
3.
!
We zitten niet in het kritieke gebied d us 𝐻! : 𝑝 = wordt niet verworpen. ! Conclusie: De dobbelsteen is eerlijk.
Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14
13