Op exploratie in de statistiek … nieuw en boeiend Prof. dr. Herman Callaert Centrum voor Statistiek Universiteit Hasselt
Dag van de wiskunde, 18 nov 2006, Eekhoutcentrum, Kortrijk.
Statistiek is de wetenschap die je helpt om vanuit cijfermateriaal de wereld beter te begrijpen
Universitaire opleidingen in Vlaanderen Vanaf 2004-2005 is de BaMa structuur aan de Vlaamse universiteiten gestart (bachelor–master).
bachelor (3 jaar) met ondermeer: • master in de wiskunde • master in de informatica • master in de statistiek • master in de fysica • master in de chemie • master in de biologie • ……………….
master (2 jaar)
Een primeur in de geschiedenis van het Vlaamse universitair onderwijs
♦
STATISTICUS IS EEN BEROEP zoals bioloog, ingenieur, arts,
⇒ statisticus: een gevarieerd, boeiend en toekomstgericht beroep voor de huidige kennismaatschappij voorbeeld: biostatisticus (statistiek voor medische data, ontwikkelen van nieuwe geneesmiddelen, …)
Statistiek ….. een autonome discipline met een eigen diploma een eigen beroep ⇒ implicatie voor het onderwijs: jongeren een basisvorming geven in de statistiek
Statistiek en wiskunde: raakpunten en verschillen Statistics is a mathematical science, but it is not a branch of mathematics David S. Moore
belang van context inductief redeneren focus op variabiliteit in cijfermateriaal ……..
Context ==========
In mathematics, context obscures structure (ultimately mathematicians are studying patterns)
In statistics, context provides meaning (what the patterns mean depends on their relation to the applied context)
G.W. Cobb: Discussion on “Undergraduate Statistics: What should change?” The American Statistician 1999
Roken en sterftecijfers Observational study of smoking and health comparing mortality rates for three groups of men (in deaths per year per 1000 men): Non-smokers: 20.2 Cigarette smokers: 20.5 Cigar and pipe smokers: 36.5
Dit is een correct uitgevoerde studie, de opmetingen zijn nauwkeurig geregistreerd en de steekproeven zijn groot. DUS kunnen we vanaf nu onze aandacht toespitsen op de getallen en op de geëigende statistische technieken voor toetsen en schatten ???
Voor wiskundigen die statistiek onderwijzen Let erop: • dat de conclusie van een studie op een cruciale manier afhangt van de wijze waarop de data werden verzameld • dat de klassieke wiskundige methoden in de statistiek dit aspect volledig negeren G.W. Cobb and D.S. Moore (1997). Mathematics, Statistics, and Teaching. Amer. Math. Monthly 104, 801-823.
Basisregel van de statistiek
Speel op veilig …. en vertrouw het toeval Het belang van gecontroleerd toeval bij statistische studies: een aandachtspunt in jouw les? Hoe trek je een goede steekproef ? En waarom is dat belangrijk? Steekproefmethoden http://www.scholennetwerk.be/statistiek/lesmateriaal
werktekst leerling
Een staafdiagram tekenen Het staafdiagram is de basisfiguur voor een discreet numerieke veranderlijke met een beperkt aantal verschillende uitkomsten. Het “aantal honden per gezin” is zo’n veranderlijke en dus teken je daarvoor een staafdiagram. Op de x–as duid je alle mogelijke uitkomsten aan die je had kunnen vinden, vanaf je kleinste tot je grootste observatiegetal. Dit is bijvoorbeeld 0, 1, 2, en 3. In de y– richting teken je boven elk van die mogelijke uitkomsten een staafje. Als je de lengte van dat staafje gelijk neemt aan de frequentie, dan heb je een grafische voorstelling van de eerste twee kolommen van je frequentietabel. Bij de vorige onderzoeken gebruikte je ook het staafdiagram bij kwalitatieve veranderlijken. Maar de voorstellingswijze voor nominaal en ordinaal was niet dezelfde. Nu merk je terug een verschil. De waarden op de x-as zijn discreet numeriek. Je mag hier net zoals bij de frequentietabel geen waarden overslaan! Omdat de mogelijke uitkomsten uit elkaar liggen, zullen de staafjes niet tegen elkaar getekend worden.
werktekst leerling
Laat je helpen door je GRM om een staafdiagram voor het aantal honden per gezin te tekenen. Zorg dat het programma STAAFDGR in je GRM staat. Druk q , kies STAAFDGR en druk ³ . Met de pijltjes kan je de figuur doorlopen. Druk meerdere keren op T of op V om eenzelfde staafje te doorlopen en kijk goed waar de cursor staat. Onderaan zie je telkens de waarde van x en y. Om het programma te stoppen druk je nog eens op ³ .
Teken nu je staafdiagram over in je portfolio en voorzie de assen van de juiste naam.
portfolio leerkracht (met type-oplossingen)
Een staafdiagram tekenen • Teken een staafdiagram voor het aantal honden per gezin. Voorzie de assen van de juiste naam. Als je de lengte van de staafjes gelijk neemt aan de frequentie, dan heb je een grafische voorstelling van de eerste twee kolommen van je frequentietabel.
Hint. Een discreet numerieke veranderlijke heeft een intrinsieke ordening, van klein naar groot. Daarom duid je op de x – as alle plaatsen aan die als “mogelijke” uitkomsten kunnen optreden, vanaf het kleinste tot het grootste observatiegetal. Het kan zijn dat sommige van die uitkomsten een frequentie hebben die gelijk is aan nul. Die mogen niet vergeten worden. Veel software tekent dunne balkjes in plaats van staafjes. Zolang die balkjes goed van elkaar gescheiden zijn is er geen probleem. Dan zie je goed dat de uitkomsten discrete waarden zijn. Het is goed om de leerlingen voorbeelden te tonen van dergelijke figuren.
Derde onderzoek: zelfevaluatie ====================== - “Computerapparatuur en –programmatuur in het Vlaams katholiek secundair onderwijs” is een brochure van het VVKSO over de ICT-situatie op 1 januari 2004. Het was de bedoeling om 593 onderwijsinstellingen te bevragen. Daarvan hebben er 348 geantwoord op het toegestuurde enquêteformulier. In die brochure staat daarover onderstaande tekst. Die wijst op een mogelijk probleem. Welk? Is het verstandig om daar de aandacht op te trekken? Kan je het woord “respondenten” in zijn juiste context plaatsen?
Portfolio leerkracht • “Computerapparatuur en –programmatuur in het Vlaams katholiek secundair onderwijs” is een brochure van het VVKSO over de ICT-situatie op 1 januari 2004. Het was de bedoeling om 593 onderwijsinstellingen te bevragen. Daarvan hebben er 348 geantwoord op het toegestuurde enquêteformulier. In die brochure staat daarover onderstaande tekst. Die wijst op een mogelijk probleem. Welk? Is het verstandig om daar de aandacht op te trekken? Kan je het woord “respondenten” in zijn juiste context plaatsen? Scholen hebben zelf gekozen of ze al dan niet wilden antwoorden op die enquête. Zoals de tekst zegt, is de kans groot dat scholen die wel hebben geantwoord verder staan met hun ICT uitbouw dan scholen die niet hebben geantwoord. Je kan de aldus verkregen informatie niet veralgemenen tot een “beeld voor alle scholen”. Het is zeer verstandig dat er hier in dat rapport op gewezen wordt. De lezer weet dan hoe hij de resultaten moet interpreteren. Respondent is een typisch woord dat gebruikt wordt om de “elementen” aan te duiden waarvan in een enquête allerlei gegevens worden verzameld (zie infoboekje).
1.7 Onderzoekscompetentie De leerlingen kunnen 31 onder begeleiding voor een gegeven onderzoeksprobleem onderzoeksvragen formuleren.
Wat wil je weten? 32 op basis van geselecteerde bronnen voor een gegeven onderzoeksvraag, op een systematische wijze informatie verzamelen en ordenen .
Hoe ga je meten? 33 onder begeleiding een gegeven probleem met een aangereikte methode onderzoeken.
Op speurtocht in de dataset 34 onder begeleiding onderzoeksresultaten verwerken, interpreteren en conclusies formuleren.
Wat heb je gevonden? 35 volgens een gegeven stramien over de resultaten van de eigen onderzoeksactiviteit rapporteren.
Kernachtige samenvatting van dit onderzoek 36 onder begeleiding reflecteren over de bekomen onderzoeksresultaten en over de aangewende methode.
Hoever kan je gaan in je conclusie?
Wat na exploratieve statistiek? Lesmateriaal voor de derde graad
Een eerste route (vereist dieper abstract denken) -
Kansrekenen voor statistiek • • • • •
-
Kansmodellen Modeleigenschappen Populatie en steekproef Het steekproefgemiddelde De normale verdeling
Verklarende statistiek • Proporties • Betrouwbaarheidsintervallen voor proporties
Hoe werken betrouwbaarheidsintervallen? In de verklarende statistiek is er iets wat jij volledig onder controle hebt en er is ook iets waar jij helemaal geen vat op hebt. Het eerste is het model en het tweede is de uitkomst. Je leert statistiek om te weten met welk model je moet werken en om dit model te kunnen aanpassen aan je eigen eisen. Daarna gebruik je dat model. Op basis van jouw toevallige steekproefresultaten heb jij dan een toevallige uitkomst van jouw model gevonden. Wat die uitkomst is heb jij niet in handen. Dat is nu eenmaal zo, want zo werkt statistiek.
Lesmateriaal (statistische geletterdheid - minder abstract) + onderzoekscompetentie/verdieping/keuzeonderwerpen
Een tweede route -
Interpreteren van grafieken
-
De structuur van statistisch cijfermateriaal
-
Valkuilen bij het trekken van steekproeven
-
Is er samenhang en zo ja, is die oorzakelijk ?
-
Op exploratie in bivariaat cijfermateriaal
• De grafieken uit “Exploratieve statistiek” uitgebreid met andere voorstellingswijzen zoals ze in de media voorkomen. • Gegevens en hun context • Steekproefmethoden • Studies naar samenhang • Een statistisch experiment : hoe polio werd overwonnen • Een observatiestudie : een verpleegster aangeklaagd • Correlatie • Kruistabellen • Regressie
-
Is er samenhang en zo ja, is die oorzakelijk ?
• Studies naar samenhang • Een statistisch experiment : hoe polio werd overwonnen • Een observatiestudie : een verpleegster aangeklaagd INTERDISIPLINAIR PROJECT
Knack 24 mei 2006
De populatie X van 100 oppervlakten
Eigenschappen van deze populatie - gemiddelde µ = 7.42 - standaardafwijking σ = 5.202 - niet normaal verdeeld
Het gemiddelde bij een steekproef van 5 rechthoeken (lukraak trekken met terugleggen) Eigenschappen van het steekproefgemiddelde een steekproef van grootte n = 5 - gemiddelde - standaardfout
X bij
E ( X ) = 7.42
se ( X ) = 2.279
- ??? te benaderen met ??? normale verdeling
Een simulatie met 10 000 herhalingen - Trek een steekproef van 5 rechthoeken - Bereken het gemiddelde - Herhaal dit 10 000 keer - Waar zijn die 10 000 gemiddelden terechtgekomen? -> op zoek naar een model om het gedrag van X 5 te bestuderen
Een simulatie met 10 000 herhalingen E ( X ) = 7.42 en se ( X ) =2.279 theorie: simulatie: n = 10 000 x = 7.40 s = 2.271
Deel 1. Hoe maak ik slechte grafieken Hoofdstuk 1: – zet de lezer op het verkeerde been – schep wanorde Hoofdstuk 2: – daar zit perspectief in – mag het iets meer zijn? Hoofdstuk 3: – twee voor de prijs van drie Hoofdstuk 4: – als je iets te zeggen hebt, stop dat dan weg – maar je kan het natuurlijk ook opblazen Hoofdstuk 5: – dalen of stijgen à la carte Hoofdstuk 6: – als uw gegevens helemaal geen logische volgorde hebben, maak die dan gewoon zelf Hoofdstuk 7: – de kortste weg naar de hel is de dubbele Y-as Hoofdstuk 8: – oppervlakte, volume, en leugenfactor
een goede grafiek • toont de gegevens accuraat en duidelijk • trekt niet de aandacht op zichzelf maar laat de gegevens spreken dus niet : dat is een prachtige grafiek maar wel : dat is interessante informatie is zeer moeilijk (en zeer nuttig, zowel in 2e als 3e graad) hulp: databank “grafieken uit de media” (+ bespreking) op de website van het scholennetwerk