Niet de hoogte, wel de oppervlakte Prof. dr. Herman Callaert
Aandachtspunten bij - statistische technieken voor een continue veranderlijke - de interpretatie van een histogram - de normale dichtheidsfunctie naar aanleiding van een artikel over de normale verdeling in Uitwiskeling Jaargang 18 Nummer 1 December 2001.
Histogrammen beschrijven met een dichtheidsfunctie Uitwiskeling p.17 De context van het onderzoek
Kengetallen Voor deze 5000 opmetingen van de lichaamslengte is - het gemiddelde: x 162.05 cm - de standaardafwijking: s 6.50 cm
Een histogram en een grafiek [ normalpdf = de normale dichtheidsfunctie] Uitwiskeling p. 19
Functiewaarde als benadering voor de relatieve frequentie Uitwiskeling p. 19
========================================================= Dit doe je zelf als volgt (TI–84 Plus): druk en dan 1:normalpdf(, vul in zoals aangegeven, loop naar Paste en druk 2 keer .
Antwoord: ongeveer (0.034)x(5 000)= 170 vrouwen zijn 155 cm lang.
Toepassing: lengte van volwassen mannen Uitwiskeling p.21
Men vraagt om met een “normale dichtheidsfunctie” te werken. ===================================================== Dit doe je als volgt: druk en dan 1:normalpdf(, vul in zoals aangegeven, loop naar Paste en druk 2 keer .
Antwoord: ongeveer (0.0201)x(10 000)= 201 mannen zijn 168 cm lang.
Toepassing: lengte van meikevers Uitwiskeling p.21
niet in Uitwiskeling maar wel een volledig analoge opdracht Toepassing: lengte van meikevers Er wordt gegeven dat de lengte (in mm) van 10 000 meikevers normaal verdeeld is met een gemiddelde van 24 en een standaardafwijking van 0.25. We beschikken niet over verdere gegevens en hebben dus geen frequentietabel. Schat m.b.v. een normale dichtheidsfunctie hoeveel van deze meikevers (afgerond) 24 mm lang is.
====================================================== Dit doe je als volgt: druk en dan 1:normalpdf(, vul in zoals aangegeven, loop naar Paste en druk 2 keer .
Antwoord: ………………………………………
Wat gaat er fout ?
niet in Uitwiskeling maar wel een volledig analoge opdracht Toepassing: lengte van meikevers Er wordt gegeven dat de lengte (in mm) van 10 000 meikevers normaal verdeeld is met een gemiddelde van 24 en een standaardafwijking van 0.25. We beschikken niet over verdere gegevens en hebben dus geen frequentietabel. Schat m.b.v. een normale dichtheidsfunctie hoeveel van deze meikevers (afgerond) 24 mm lang is.
====================================================== Dit doe je als volgt: druk en dan 1:normalpdf(, vul in zoals aangegeven, loop naar Paste en druk 2 keer .
Antwoord: ongeveer (1.5958)x(10 000) = 15 958 meikevers zijn 24 mm lang.
De functiewaarde van een dichtheidsfunctie verwijst NOOIT naar een relatieve frequentie een kans De functiewaarde van een dichtheidsfunctie kan groter zijn dan 1. Dat kan nooit voor een relatieve frequentie of een kans.
Bij grootheden die je “als continu” behandelt, gebruik je een histogram (grafiek bij een steekproef) een dichtheidsfunctie (model voor een populatie)
In beide gevallen bestudeer je NIET de hoogte WEL de oppervlakte
Basisafspraak voor het tekenen van een histogram
De OPPERVLAKTE van een rechthoek is recht evenredig met het aantal observaties in de klasse waarop die rechthoek staat
Nota Zelfs wanneer een klasse breedte 1 heeft, zodat het maatgetal van de hoogte gelijk is aan het maatgetal van de oppervlakte, dan nog werk je steeds met de oppervlakte en niet met de hoogte. Meer informatie over het histogram vind je in het “Infoboekje” op http://www.uhasselt.be/lesmateriaal-statistiek
Basiseigenschap van een dichtheidsfunctie Voor elke dichtheidsfunctie is de totale OPPERVLAKTE onder de curve gelijk aan 1
Basiseigenschap van een dichtheidsfunctie Voor elke dichtheidsfunctie is de totale OPPERVLAKTE onder de curve gelijk aan 1
Histogram en dichtheidsfunctie grafisch met elkaar vergelijken: –> teken een histogram waarbij de totale oppervlakte gelijk is aan 1
Basiseigenschap van een dichtheidsfunctie Voor elke dichtheidsfunctie is de totale OPPERVLAKTE onder de curve gelijk aan 1
Histogram en dichtheidsfunctie grafisch met elkaar vergelijken: –> teken een histogram waarbij de totale oppervlakte gelijk is aan 1 Histogram op de dichtheidsschaal : constructie - voor de i-de klasse is fi de frequentie, bi de breedte en hi de hoogte - de grootte van de steekproef is n - hoogte rechthoek: f /n hi i zodat oppervlakte i-de rechthoek: bi hi f i / n bi totale oppervlakte: f i / n 1
Basiseigenschap van een dichtheidsfunctie Voor elke dichtheidsfunctie is de totale OPPERVLAKTE onder de curve gelijk aan 1
Histogram en dichtheidsfunctie grafisch met elkaar vergelijken: –> teken een histogram waarbij de totale oppervlakte gelijk is aan 1 Histogram op de dichtheidsschaal : constructie - voor de i-de klasse is fi de frequentie, bi de breedte en hi de hoogte - de grootte van de steekproef is n - hoogte rechthoek: f /n hi i zodat oppervlakte i-de rechthoek: bi hi f i / n bi totale oppervlakte: f i / n 1 Histogram op de dichtheidsschaal : eigenschap - totale oppervlakte = 1 - oppervlakte rechthoek = fractie van de observaties in die klasse
Voorbeeld: lengte van 5000 vrouwen
Oppervlakte gearceerd staafje: - histogram op de dichtheidsschaal: b x h = 1 x 0.0582 = 0.0582 de klasse [ 164.5 ; 165.5 [ bevat 5.82 percent van de observaties in deze studie zijn (0.0582 x 5000) = 291 vrouwen 165 cm lang.
- normale dichtheidsfunctie oppervlakte = 0.0553 de kans om in [ 164.5 ; 165.5 [ terecht te komen is 5.53 percent.
Voorbeeld: lengte van 10 000 meikevers *
*
artificiële data
hoogte klasse frequentie rel. freq. h ( f / n)/ b lengte (in mm) i i i [ 23.00 ; 23.25 [ 18 0.0018 0.0072 [ 23.25 ; 23.50 [ 295 0.0295 0.1180 [ 23.50 ; 23.75 [ 910 0.0910 0.3640 [ 23.75 ; 24.00 [ 3777 0.3777 1.5108 [ 24.00 ; 24.25 [ 3777 0.3777 1.5108 [ 24.25 ; 24.50 [ 910 0.0910 0.3640 [ 24.50 ; 24.75 [ 295 0.0295 0.1180 [ 24.75 ; 25.00 [ 18 0.0018 0.0072
Kengetallen Voor deze 10 000 opmetingen is - het gemiddelde: x 24 mm - de standaardafwijking: s 0.25 mm
Histogram op de dichtheidsschaal samen met Normale dichtheidsfunctie met
24 en 0.25
Histogram oppervlakte = 0.3777 bij 37.77 % van de meikevers in deze steekproef valt de lengte in het gebied [23.75 ; 24[
Normale dichtheid oppervlakte = 0.34 bij 34 % van de populatie van alle meikevers valt de lengte in het gebied [23.75 ; 24[
De lichaamslengte van volwassen vrouwen
Enkele “statistische” bedenkingen in de context van deze studie:
een voorstelling van concrete data (histogram)
een model voor een populatie (dichtheidsfunctie)
De lichaamslengte van volwassen vrouwen
“Histogrammen beschrijven met een dichtheidsfunctie” Uitwiskeling p.17 “Relatieve frequenties vinden m.b.v. de normale dichtheidsfunctie” Uitwiskeling p.21
is dat wel een goed idee? (zelfs als je niet met de hoogte maar wel met de oppervlakte werkt)
De lichaamslengte van volwassen vrouwen De 5000 opmetingen zijn een STEEKPROEF. Je beschikt over concrete gegevens, zoals: er zijn hier exact 291 vrouwen die 165 cm lang zijn ( [ 164.5 ; 165.5 [ ) Waarom zou je deze concrete informatie vervangen door een benadering? De normale dichtheid zegt dat je met kans 0.0553 in [ 164.5 ; 165.5 [ terechtkomt zodat je 0.0553 5000 = 277 vrouwen verwacht die 165 cm lang zijn. Waarom zou je bij benadering 277 gebruiken als je weet dat het er 291 zijn?
Een model gebruik je niet om een concrete steekproef te benaderen.
Een grote en goed getrokken steekproef valt niet exact samen met de populatie (een nieuwe steekproef levert data die een beetje anders zullen zijn)
geeft een benaderend beeld van de populatie (kengetallen en globale vorm)
Steekproefeigenschappen geven je een idee voor een “zinvol model” voor de populatie.
Daarna gebruik je het model om uitspraken te doen over de populatie, niet om die steekproef te benaderen.
Voorbeeld: De lichaamslengte van volwassen vrouwen Data: de lichaamslengte van een steekproef van 5000 vrouwen. Bedoeling van de studie: beter passende confectiekleding voor de populatie van Nederlandse vrouwen. Data van de steekproef globale vorm histogram gemiddelde x 162.05 cm standaardafwijking s 6.50 cm
Model voor de populatie normale dichtheid gemiddelde 162.05 cm standaardafwijking 6.50 cm
Confectiekleding wordt niet ontworpen tot op een halve millimeter nauwkeurig en dus kan je evengoed (en eenvoudiger) voor het populatiegemiddelde 162 cm voorstellen.
De normale dichtheidsfunctie met gemiddelde 162 cm en met standaardafwijking 6.50 cm is een model voor de populatie van lengtes van Nederlandse vrouwen (in de periode rond 1947).
De normale dichtheidsfunctie wat betekent rood, blauw, paars en geel?
Meer uitleg over de normale verdeling kan je vinden in de tekst: “Normaal verdeelde kansmodellen” op http://www.uhasselt.be/lesmateriaal-statistiek