Basisconcepten De statistiek heeft de studie van gegevens, die kenmerken van een bevolking beschrijven, tot object. Als je zelf onderzoek wil verrichten of de resultaten van het werk van een ander wil bestuderen is het van belang dat je goed de basiscomponenten van een onderzoek kan definiëren of herkennen. Stel dat we het bioscoopbezoek van Vlaamse studenten willen onderzoeken. > Onze bevolking zal bestaan uit alle Vlaamse studenten, ook nog wel de onderzoekspopulatie genoemd. Een onderzoekspopulatie bevat (onderzoeks)elementen of (statistische) eenheden. In ons voorbeeld gaat het om Vlaamse studenten, maar een populatie kan even goed bestaan uit gebeurtenissen, collectiviteiten, voorwerpen… Het is belangrijk dat je deze eenduidig definieert! > Het bioscoopbezoek is het kenmerk van deze populatie dat we gaan onderzoeken. Een kenmerk kan variëren over de eenheden. Zo gaat de ene student maandelijks naar de bioscoop, terwijl de ander maar 1 keer per jaar gaat. Vandaar dat we in het vervolg zullen spreken van een variabele. De verzameling van alle mogelijke uitkomsten van een variabele noemen we de uitkomstenverzameling. Het bepalen van de uitkomsten gebeurt aan de hand van meten. Op deze manier wordt de waarde van een kenmerk bij een element vastgesteld, en dit aan de hand van een meetschaal. In onze casus stellen we de student de vraag hoeveel keer hij naar de bioscoop gaat en we bieden hem bijvoorbeeld een meetschaal aan die volgende categorieën bevat: jaarlijks, maandelijks, wekelijks, nooit. De gegevens worden tenslotte verzameld in een datamatrix. In de datamatrix (ook nog gegevensset of dataset genoemd) neemt elke case of statistisch eenheid een rij in. In de eerste kolom vermelden we de cases (dit kan door het invullen van de naam, maar is vaak het nummer dat aan een case wordt gekoppeld). In de kolommen die daarop volgen zetten we de vastgestelde waarde op het bestudeerde kenmerk.
In de praktijk gaat men eerder werken met numerieke codes. Aan de hand van een codeboek wordt per variabele een nummer aan een waarde toegekend. Bijvoorbeeld: Geslacht: 1=Man, 2=Vrouw, 9= Geen Idee/ Geen Antwoord. Op die manier bekom je een datamatrix met getallen die een statistische verwerking mogelijk maakt. Let wel op: hoewel we in beide gevallen dus vaak getalnotaties gebruiken, bestaat er inhoudelijk een heel belangrijk verschil tussen 'echte' waarden en 'codes'. Zo slaat de variabele Leeftijd '19' letterlijk op iemand die '19' jaar oud is. Deze waarde is dus inhoudelijk zinvol, je kan er ook echt mee rekenen. Bij Geslacht werden de codes '1' en '2' louter arbitrair toegekend. Het betekent niet dat een vrouw '1 meer waard is' dan een man. LEES MEER: Moore & McCabe: pp. 36
Meetniveau van variabelen Voor het uitvoeren van statistische bewerkingen hebben we de waarden van de te onderzoeken variabele nodig. Variabelen kunnen ofwel kwantitatief ofwel kwalitatief zijn. Voorbeelden van kwantitatieve variabelen zijn onder meer lichaamslengte en loon, terwijl woonplaats of politieke voorkeur voorbeelden zijn van kwalitatieve variabelen. Het verschil tussen beide types variabelen is gemakkelijk samen te vatten: kwantitatieve variabelen omvatten 'numerieke waarden', getallen waarmee je ook kan gaan rekenen. Kwalitatieve variabelen omvatten enkel (kwalitatief te onderscheiden) categorieën, waaraan 'codes' werden toegekend. Bijvoorbeeld Woonplaats: Centrum Gent = 1, Randgemeente van Gent = 2… Met deze codes kan je zeker niet gaan rekenen. De verzameling van de waarden die een variabele kan aannemen wordt de meetschaal genoemd. De gebruikte meetschaal bepaalt het meetniveau van de variabele en bepaalt zodoende de hoeveelheid informatie die deze variabele bevat en welke bewerkingen we met de data mogen uitvoeren.
1. Kwalitatieve/Categorische variabelen Nominale variabelen Waarden die uitsluitend dienen voor identificatie en classificatie. Men kan ze niet ordenen. Bijvoorbeeld: geslacht, TVzender, haarkleur, werelddeel,… Ordinale variabelen Waarden die we kunnen ordenen. De ene waarde is meer of minder (of kleiner of groter) dan de andere waarde, maar het is niet mogelijk om exact vast te stellen hoeveel meer of minder de ene waarde is. We kunnen er dan ook geen berekeningen op uitvoeren. Bijvoorbeeld: Opleidingsniveau gemeten aan de hand van hoogst behaalde niveau, kwaliteitsoordeel met sterretjes,…
2. Kwantitatieve/Metrische variabelen Intervalvariabelen Waarden die we kunnen ordenen én waarbij het mogelijk is om gelijke afstanden tussen de mogelijke waarden vast te stellen. Er is dus sprake van ordenbaarheid en een meeteenheid. We kunnen de waarden optellen of aftrekken van elkaar: “A is zoveel punten meer dan B”. Bijvoorbeeld: temperatuur,… Ratiovariabelen Waarden die we én kunnen ordenen, én een meeteenheid én een absoluut nulpunt hebben. Een absoluut nulpunt is een waarde die de afwezigheid van het bestudeerde kenmerk weergeeft, wat tevens de aanwezigheid van negatieve waarden uitsluit. Dit laat ons toe om verhoudingen tussen waarden te nemen. We vergelijken bijvoorbeeld de leeftijd van Tom (21 jaar) met die van Luc (42 jaar). Dan kunnen we stellen dat Tom tweemaal zo jong is als Luc. Dit kan je niet met bijvoorbeeld temperatuur omwille van de waarden onder nul. We kunnen de waarden hier niet alleen optellen of aftrekken van elkaar, maar ook vermenigvuldigen of delen. Andere voorbeelden van ratiovariabelen: budget (uitgedrukt in euro), exact tijdsverschil, lengte (gemeten in cm),… > Ratiovariabelen bevatten meer informatie dan nominale.
3. Discrete en continue variabelen Tot slot moeten we ook nog het onderscheid maken tussen discrete en continue variabelen. Het indelen van variabelen in deze twee categorieën is van belang voor sommige analysetechnieken. Discrete variabelen zijn variabelen die niet verder kunnen worden onderverdeeld, eenmaal uitgedrukt in een eenheid. We hebben te maken met een eindige uitkomstenverzameling. Bijvoorbeeld: leeftijd in verstreken jaren, aantal kinderen, aantal keer bioscoop bezocht Continue variabelen zijn variabelen waarbij we voor elke twee mogelijke uitkomsten een derde uitkomst kunnen bedenken die tussen beide uitkomsten ligt. We hebben te maken met een oneindige uitkomstenverzameling. Zo hebben we mensen die 143 cm groot zijn, maar het kan goed zijn dat er mensen zijn die 142,35 cm groot zijn of 143,6666666….cm. Het is dan ook vaak de gewoonte dat we continue variabelen voorstellen door het dichtst bijzijnde getal, bijvoorbeeld wanneer we zeggen dat iemand 180cm groot is, dan staat dit getal eigenlijk voor alle waarden tussen 179,5 en 180,499…cm. Andere voorbeelden: tijd, gewicht Let op! Ook nietnumerieke variabelen kunnen continue zijn, denk maar bijvoorbeeld aan haarkleur. LEES MEER: Moore & McCabe: pp. 4
Bevolkingsgegevens vs. steekproefgegevens 1. Bevolkingsgegevens Indien we beschikken over bevolkingsgegevens, dan hebben we informatie over de volledige onderzoekspopulatie. Als deze gegevens valide en betrouwbaar zijn, volstaat 'beschrijvende statistiek'. Beschrijvende statistiek is het samenvatten en beschrijven van een reeks gegevens. 2. Steekproefgegevens Het is echter vaak onmogelijk om alle eenheden uit een populatie te onderzoeken. Men kiest dan voor een steekproef: een selectie van eenheden uit de onderzoekspopulatie. > Steekproef: Deelverzameling van n aantal eenheden uit populatie Als we echter op de gegevens van de steekproef beschrijvende statistiek toepassen, krijgen we enkel informatie over de steekproefpopulatie. Indien we uitspraken over de volledige populatie willen doen op basis van de steekproef (wat meestal de bedoeling is), moeten we ons wenden tot 'inductieve statistiek'. Deze vorm van statistiek wendt technieken aan die ons toelaten om dergelijke uitspraken (op basis van een steekproef over een populatie) te doen. De essentie van inductieve statistiek is dat we expliciet rekening houden met de onzekerheid door het werken met een steekproef. Een bepaalde steekproef kan immers een iets anders resultaat opleveren dan mocht een andere steekproef genomen zijn. Er zal daarom een foutenmarge rond de resultaten worden opgenomen die ons toelaat om met een gekozen niveau van betrouwbaarheid te stellen dat de populatiewaarde in het berekende interval ligt. Daarnaast laat inductieve statistiek toe om concrete hypotheses m.b.t. de populatie te toetsen.
1. Univariate statistiek Doelstellingen Univariate Statistiek De univariate beschrijvende statistiek wil gegevens van 1 variabele op een overzichtelijke en synthetische wijze weergeven. Het kernbegrip hier is de frequentie waarmee de verschillende waarden van een variabele voorkomen in een steekproef of populatie. Deze beschrijvingen zullen we frequentieverdelingen noemen. In de univariate statistiek worden deze verdelingen op verschillende manieren beschreven: Frequentietabellen Grafieken Centrummaten Spreidingsmaten Niet alles is zo maar mogelijk: wat kan, is afhankelijk van het meetniveau. Een belangrijke regel is dat wat op een lager meetniveau kan ook op een hoger meetniveau kan, maar niet omgekeerd. Doel van dit hele verhaal is informatie verkrijgen. Op een grafische voorstelling zal het mogelijk zijn om het globale patroon en eventueel ongewone waarnemingen op te merken. Ook aspecten zoals het rekenkundig gemiddelde en de mediaan kunnen ons helpen bij het begrijpen van gegevens.
Frequenties Absolute, relatieve en cumulatieve frequenties, frequentietabel, in klassen gegroepeerde gegevens 1. Frequenties Het aantal keer dat een bepaalde waarde voorkomt, wordt de absolute frequentie van die waarde genoemd. Bijvoorbeeld: je wil de leeftijd weten van de 600 studenten uit de 1e bachelor pol & soc en je vindt in je onderzoek 420 studenten van 18 jaar, 120 studenten van 19 jaar en 60 studenten van 20 jaar. In absolute frequenties: de absolute frequentie van 18 jaar is 420 (= 18 jaar komt bij 420 studenten voor), de absolute frequentie van 19 jaar is 120 en de absolute frequentie van 20 jaar is 60. > Relatieve frequenties geven weer hoe vaak een waarde voorkomt t.o.v. het totaal aantal waarnemingen. In relatieve frequenties: de relatieve frequentie van 18 jaar is 70% (= 18 jaar komt bij 70% van de 600 studenten voor), de relatieve frequentie van 19 jaar is 20% en die van 20 jaar is 10%. Relatieve frequenties kan je uitdrukken in percentages op 100 (70%, 20% en 10%) of in proporties op 1 (0,7, 0,2 en 0,1). Proporties worden ook wel eens aangeduid als fracties. Om frequenties overzichtelijk weer te geven, worden ze in frequentietabellen geplaatst. Daarbij worden de woorden vervangen door symbolen: absolute frequentie wordt fi en proportie wordt pi . Het totaal aantal waarnemingen wordt n.
De i staat voor 'een bepaalde waarde'. In het voorbeeld zijn er drie i's: de waarde '18 jaar', de waarde '19 jaar' en de waarde '20 jaar'. Naast elke waarde (i) staat de absolute en relatieve frequentie van die waarde (f of p).Vb: f18 = 420 en p18 = 0,7. Leeftijd studenten 1e bachelor PSW in jaren (fictieve gegevens)
Soms kan het interessant zijn om uitspraken te doen in de stijl van “zoveel studenten zijn zo oud of jonger ”. Dat kan aan de hand van de cumulatieve frequentie. De laatste kolommen lees je als volgt: 420 studenten (of 70% van de studenten) zijn 18 jaar, 540 studenten (90%) zijn 19 jaar of jonger en 600 studenten (100%) zijn 20 jaar of jonger. In statistiektaal: de cumulatieve frequentie is het aantal (bijvoorbeeld 450) of het percentage (vb 90%) eenheden met een waarde i (vb 19) of lager.
Cumulatieve frequenties en percentages kan je pas berekenen vanaf ordinaal niveau, dus pas vanaf het moment dat je de categorieën logisch kan ordenen van laag naar hoog!
De cumulatieve frequentie van de laatste waarde is steeds gelijk aan het totaal aantal waarnemingen. Idem voor het cumulatief percentage bij de laatste waarde.
2. In klassen gegroepeerde gegevens Wanneer je te maken hebt met metrische variabelen (interval en ratio), kan het zijn dat je zodanig veel verschillende waarden hebt dat het opstellen van een frequentietabel niet echt veel bijdraagt aan de overzichtelijkheid. Stel dat je van die 600 studenten 1e bachelor pol & soc de lichaamslengte wil weten. Veel kans dat je 80 verschillende lengtes vindt. In een frequentietabel zou dat 80 rijen onder elkaar betekenen. De oplossing hiervoor is het groeperen van gegevens in klassen. Je neemt groepen van waarden samen. Lichaamslengte studenten 1e bachelor pol en soc in centimeter (fictieve gegevens)
De grenzen van de klassenindeling kan je kiezen op basis van de beschikbare gegevens en op basis van wat je met je onderzoek wil bereiken. Het gevolg van indelen in klassen is een overzichtelijker weergave, maar ook een verlies aan informatie. Zo kan je bijvoorbeeld niet zien hoe de verdeling van de eenheden is binnen elke klasse. De 80 studenten in de klasse 150 159 cm, zijn die allemaal 150 cm of liggen ze mooi gespreid over alle waarden tussen 150 en 159?
Een mogelijke procedure om gegevens in klassen in te delen:
Bepaal de variatiebreedte. Dat is de maximumwaarde min de minimumwaarde (in het voorbeeld: de grootste student – de kleinste student).
Kies het aantal gewenste klassen (meestal tussen 3 en 20 klassen, op basis van theorie en praktische overwegingen).
De breedte van de klassen: deel de variatiebreedte door het aantal klassen.
Voor de duidelijkheid best gelijke klassenbreedten en afgeronde klassen (niet bv 151168, 169176, …).
Bij de onderste en de bovenste klasse kan je eventueel kiezen om er open klassen van te maken (vb: kleiner dan 159 en groter dan 200). Zo kan je voorkomen dat je een aantal klassen krijgt met maar 1 of enkele eenheden met een extreme waarde.
Er is tevens een verschil bij het weergeven van klassengrenzen voor discrete variabelen en continue variabelen. Bij continue variabelen moeten de grenzen exclusief zijn. Er mag geen twijfel over bestaan waar iemand met een lichaamslengte van 180,3 cm bij hoort (in de vierde klasse). Vandaar de symbolen groter dan/gelijk aan en kleiner dan. Tot slot is het belangrijk om te weten dat –bij continue variabelen bij het maken van berekeningen (zie verder) gewerkt wordt met de werkelijke klassengrenzen en niet met de weergegeven klassengrenzen. In het voorbeeld zijn de weergegeven grenzen 150≤ . <160, maar de exacte zijn 149,5≤ . <159,5. Deze exacte grenzen komen overeen met het midden tussen de bovengrens van de eerste klasse en de ondergrens van de daarop volgende klasse. LEES MEER: Moore & McCabe: pp. 620
Grafische voorstelling van frequentieverdelingen Taart, staaf, stamdiagram, histogram
Frequentietabellen vertellen ons veel, maar vaak zal een grafische voorstelling een duidelijker beeld scheppen van de gegevens. We zullen hieronder enkele grafische voorstellingen beschrijven. Het is goed mogelijk dat je uiteindelijk kiest voor een variant van de hieronder beschreven voorbeelden; zolang de voorstelling de gegevens exact weergeeft is dit geen probleem. Je moet bij het opstellen van grafieken je wel aan enkele vormelijke voorschriften houden: categorieën exhaustief en exclusief titel: kort en bondig inhoud aangeven kolomkoppen, met exacte aanduiding inhoud logische ordening totalen best steeds bron vermelden, of aangeven dat het om fictieve data gaat 1. Taartdiagram In een taartdiagram worden de frequenties door cirkelsectoren voorgesteld. De oppervlakte van elke sector is recht evenredig met de relatieve frequentie. Voordeel: Een taartdiagram maakt direct de verdeling duidelijk. Nadeel: Aantal categorieën is beperkt. Zo is het weergeven van bijvoorbeeld twaalf frequenties in een taartdiagram een slechte keuze: de verschillen onderling zullen moeilijker waar te nemen zijn. Opmerking: driedimensionale taartdiagrammen kunnen ten gevolge van het perspectief misleidend zijn.
2. Staafdiagram In een staafdiagram wordt de frequentie van elke categorie weergegeven door een staaf. De staafjes staan in de grafiek los van elkaar. De hoogte van ieder staafje is recht evenredig met de absolute of de relatieve frequentie. In het geval van nominale variabelen staan de waarden nevengeschikt op de abscis. In het geval van ordinale variabelen wordt de abscis van een pijl voorzien omdat de waarden ordenbaar zijn. Voordeel: Staafdiagrammen zijn gemakkelijk te interpreteren. Opmerking: Men kan best opletten voor misleiding. Bijvoorbeeld: Een grafiek waarbij men begint met een frequentie van 65% op de Yas in plaats van met de gebruikelijke 0%. Zo lijken sommige categorieën bijzonder klein. Een staaf van 70% ziet er plots als een staafje van 5% uit.
3. Stamdiagram (stam en blad diagram) Een stam en blad diagram brengt op een snelle manier een verdeling in beeld en werkt het best voor een gering aantal waarnemingen met waarden die groter zijn dan 0. De stam van zo'n diagram is een kolom dat bestaat uit alle stamcijfers van de data (die bekom je bijvoorbeeld door het laatste cijfer te laten vallen van de waarde). Achter iedere stam in de kolom worden de 'bladeren' geplaatst, waarbij een blad staat voor het laatste cijfer. Bijvoorbeeld voor de waarde 45 is 4 de stam en 5 het blad dat hoort bij stam 4. Indien er bij de waarden getallen zoals 47 en 48 zitten, voegen we de bladeren 7 en 8 toe aan de rij achter stam 4. In een laatste fase worden de cijfers achter de stam geordend van klein naar groot.
Bijvoorbeeld: het aantal optredens dat een populaire rockgroep deed per jaar, en dit van 1990 tot en met 2005: 30 35 40 54 53 95 93 15 05 04 96 85 02 10 35 36
Op basis van deze stamdiagram kunnen we bijvoorbeeld opmaken dat ze in die 15 jaar drie jaren hebben gehad met meer dan 90 optredens. 4. Histogram Een histogram vertoont gelijkenissen met een staafdiagram maar kan enkel bij metrische variabelen. De staafjes plakken nu tegen elkaar. We hebben tevens te maken met in klassen gegroepeerde gegevens. Hier is het oppervlak per staafje recht evenredig met de (relatieve) frequentie. Voordeel: Een verdeling op metrisch niveau is visueel mogelijk. Nadeel: De verdeling is afhankelijk van de klassenindeling. Opmerking: Op de Xas vermeld je de exacte klassengrenzen, of de klassenmiddens. Let wel op dat je in dat laatste geval vermeldt dat het over waargenomen klassen gaat.
LEES MEER: Moore & McCabe: pp. 620
Maten van positie
Modus, mediaan, kwartielen, rekenkundig gemiddelde De doelstelling van de beschrijvende statistiek is de verdeling van een variabele zo compact mogelijk weer te geven. Dit kan via frequentietabellen en grafieken, maar ook door de verdeling in een beperkt aantal statistische maten weer te geven. Meer specifiek onderscheiden we drie types maten die elk een ander aspect van een verdeling samenvatten in één cijfer:
maten van positie maten van spreiding maten van vorm
We beginnen met de maten van positie. Maten van positie geven weer rond welke waarden de verdeling van een variabele gepositioneerd is. Een specifiek type van maten van positie zijn de maten van centraliteit. Die geven weer welke de meest centrale waarde van een verdeling is. Bijvoorbeeld: als je kijkt naar de punten op het examen statistiek van alle studenten uit 1e bachelor pol & soc, kan je stellen dat het gemiddelde 11/20 is. Dit houdt in dat 11 de centrale waarde of centrale positie is waarrond de punten van alle studenten gespreid liggen. Er bestaan drie verschillende maten van centraliteit. Welke maat van centraliteit je kan gebruiken, hangt af van het meetniveau van de variabele. 1. De modus Nominaal meetniveau: de modus ( Mo ) > De modus is de waarde met de hoogste frequentie. Bijvoorbeeld:
De waarde met de hoogste frequentie is ‘drama'. Dit komt 80 keer voor, terwijl de andere waarden minder voorkomen. LET OP voor één van de meest gemaakte beginnersfouten op examens: de modus is nooit een frequentie, altijd een waarde!! De modus is niet 80, de modus is ‘drama'. Bij in klassen gegroepeerde gegevens wordt gesproken over de modale klasse in plaats van over de modus. De modus en de modale klasse geven op zich niet zoveel informatie. Er wordt enkel iets gezegd over de waarde die meest voorkomt maar daarmee weet je nog niks over de verdeling van de eenheden over de andere waarden. 2. De mediaan Ordinaal meetniveau: de mediaan ( M ) De mediaan is het middelpunt van de verdeling. Het is die waarde waarvan je kan zeggen: er zijn evenveel eenheden met een waarde die lager is dan dat er eenheden zijn met een waarde die hoger is dan de mediaan. Of anders gezegd, de mediaan is de waarde die de verdeling splitst in: 50% van de waarnemingen is lager en 50% van de waarnemingen is hoger dan deze waarde.
De mediaan vind je door de waarde te zoeken die hoort bij de waarneming (n+1)/2 nadat de waarnemingen van laag naar hoog werden gesorteerd. Waar bij n staat voor het aantal waarnemingen. Bijvoorbeeld: de score van 5 studenten op het examen: 10, 10, 11, 12 en 13.
Je neemt (5+1)/2 = 3. De waarde van de derde waarneming is de mediaan: de waarde 11 (er zijn evenveel waarnemingen kleiner als groter dan 11). Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13.
Je neemt (6+1)/2 = 3,5. De mediaan ligt tussen de derde en de vierde waarneming: 11,5. 3. Kwartielen Ordinaal meetniveau: de kwartielen ( Q1, Q2 en Q3) In analogie met de mediaan, kan je de kwartielen bekijken als een waarde die de verdeling opsplitst in twee groepen. Maar waar de mediaan een 50%50% verdeling oplevert, geven de kwartielen de volgende verdeling: Q1 (het eerste kwartiel) is de waarde die de verdeling splitst in: 25% van de waarnemingen is lager en 75% van de waarnemingen is hoger dan deze waarde. Q3 (het derde kwartiel) is de waarde die de verdeling splitst in: 75% van de waarnemingen is lager en 25% van de waarnemingen is hoger dan deze waarde. Q2 (het tweede kwartiel) splitst de verdeling in 50%50% en is dan ook identiek aan de mediaan. Nog een stap verder kom je bij de percentielen uit. Bijvoorbeeld : Percentiel15 is de waarde die de groep splitst in 15% van de waarnemingen kleiner en 85% van de waarnemingen groter dan deze waarde. En zo is alles mogelijk: Percentiel32 , Percentiel78 , … Let ook hier weer op het feit dat de mediaan, de kwartielen en de percentielen steeds waarden zijn, nooit frequenties! 4. Het rekenkundig gemiddelde Metrisch meetniveau: het rekenkundig gemiddelde (
)
Het rekenkundig gemiddelde geeft het centrale punt weer (ook wel het evenwichtspunt of het zwaartepunt genoemd) van de verdeling.
Er zijn 4 methodes om het rekenkundig gemiddelde te berekenen.
met individuele waarnemingen Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. = (10+10+11+12+12+13) / 6 = 11,3
met absolute frequenties Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. = (2x10)+(1x11)+(2x12)+(1x13) / 6 = 11,3
met relatieve frequenties Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. = (10x33%)+(11x17%)+(12x33%)+(13x17%) / 6 = 11,3 (met percentages) of = (10x0,33)+(11x0,17)+(12x0,33)+(13x0,17) / 6 = 11,3 (met proporties)
met gegroepeerde gegevens Identiek aan het werken met de absolute of relatieve frequenties, maar de waarden zijn dan de gemiddelden tussen de ondergrens en de bovengrens van elke klasse (het klassemidden).
Een nadeel bij het rekenkundig gemiddelde is dat deze maat gevoelig is aan uitschieters (wat niet het geval is bij de mediaan). Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. Dit geeft een mediaan van 11,5 en een gemiddelde van 11,3. Stel dat de laatste student in plaats van 13 een 20 heeft behaald. De mediaan blijft ongewijzigd, het rekenkundig gemiddelde maakt een sprong naar 12,5. Een kenmerk van het rekenkundig gemiddelde dat later nog belangrijk wordt, is dat de som van de deviatiescores steeds gelijk is aan 0. In andere woorden: als je van alle waarden het gemiddelde aftrekt en je maakt de som van die uitkomsten, dan krijg je steeds 0. Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. = (10+10+11+12+12+13) / 6 = 11,3 (1011,3)+(1011,3)+(1111,3)+(1211,3)+(1211,3)+(1311,3) = 0 LEES MEER: Moore & McCabe: pp. 2531
Maten van spreiding
Interkwartielafstand, variantie, standaardafwijking, boxplot Maten van spreiding geven weer hoe heterogeen de waarnemingen zijn. Hoe kleiner de maat, hoe dichter de verschillende waarnemingen bij elkaar liggen. Hoe groter de maat, hoe groter de verschillen zijn tussen de waarnemingen. Of met andere woorden: hoe meer spreiding.
1. De interkwartielafstand Interkwartielafstand (IKA) (metrisch niveau) Met de kwartielen (zie het deel over maten van positie) kan je iets zeggen over een bepaalde waarde waarrond de gegevens zijn gegroepeerd. Zo heb heb je Q1(het eerste kwartiel) dat de verdeling splitst in 25% van de waarnemingen lager en 75% van de waarnemingen hoger dan de waarde van Q1,en Q3 (het derde kwartiel) dat de verdeling splitst in 75% van de waarnemingen lager en 25% van de waarnemingen hoger dan de waarde ervan. De interkwartielafstand is een spreidingsmaat gebaseerd op Q1 en Q3. Deze geeft namelijk de afstand tussen beide kwartielen weer. Bij geringe spreiding, zullen het eerste en het derde kwartiel niet ver uit elkaar liggen. Wanneer je dan Q1 aftrekt van Q3 kom je aan een klein getal, wat wijst op een kleine spreiding. Bij een grote mate van spreiding, gebeurt het omgekeerde: Q1 en Q3 liggen ver uit elkaar en het verschil van beide geeft een groot getal, wat wijst op een grote spreiding. Let op: dit gaat enkel over de centrale 50% van de waarnemingen (de waarnemingen die liggen tussen het eerste en het derde kwartiel). De IKA zegt je niks over wat er gebeurt met de 25% waarnemingen onder Q1 en de 25% waarnemingen boven Q3. Hoe de spreiding daar is en of er sprake is van uitschieters, kan je niet vatten met de IKA. Een positief gevolg hiervan is evenwel dat het een stabiele maat is die niet beïnvloed wordt door eventuele uitschieters. 2. De variantie Variantie ( s²) (metrisch niveau) Waar de interkwartielafstand iets zegt over de verschillen tussen de centrale 50% waarnemingen, kijkt de variantie naar alle waarnemingen. Meer bepaald wordt voor (van) elke waarneming nagegaan (gekeken) hoe ver die van het gemiddelde ligt. Heel letterlijk zou je de variantie kunnen opvatten als een soort (gekwadrateerde) gemiddelde afwijking tot het gemiddelde. Bijvoorbeeld: de leeftijd van 6 kinderen/jongeren uitgedrukt in jaren.
Stap 1 (kolom 1): 6 waargenomen waarden. Stap 2 (onderaan kolom 1): bereken het gemiddelde. Stap 3 (kolom 2): het verschil tussen elke waarde en het gemiddelde van de 6 waarden. Stap 4 (kolom 3): aangezien de som van de afwijkingen ten opzichte van het gemiddelde steeds 0
is (is altijd zo!), worden de verschillen gekwadrateerd. Stap 5 (onderaan kolom 3): de som van de gekwadrateerde verschillen. Om tot de variantie te komen volgt nog stap 6: het delen van de som van de gekwadrateerde verschillen door n 1: 34,84 / 61 = 6,97. Voor de formule en meer informatie hieromtrent verwijzen wij naar het boek van Moore & McCabe. 3. De standaardafwijking Het probleem met de variantie is dat door het kwadrateren de verhoudingen zijn gewijzigd en ook de meeteenheid gekwadrateerd werd (de variantie in het voorbeeld hierboven is 6,97 jaren²). Om beide problemen op te vangen wordt de vierkantswortel van de variantie genomen: 2,64 jaren. Dit getal heet de standaardafwijking s. Dit is de meest gebruikte spreidingsmaat voor metrische variabelen, en komt neer op een soort gemiddelde afwijking van alle waarnemingen tot het gemiddelde. Net zoals bij de variantie geldt dat een kleine standaardafwijking wijst op een geringe spreiding (alle waarnemingen liggen dicht bij elkaar waardoor er kleine verschillen zijn ten opzichte van het gemiddelde) en een grote s² of s wijst op een grote spreiding (grote verschillen tussen de waarnemingen waardoor er ook grote verschillen t.o.v. het gemiddelde voorkomen). Een s² of s van 0 komt voor wanneer alle waarnemingen dezelfde waarde hebben. In het bovenstaande voorbeeld: als alle 6 de eenheden bijvoorbeeld 11 jaar zouden zijn. Een nadeel echter is dat s heel gevoelig is voor de invloed van uitschieters. Door het kwadrateren krijgt het verschil van een uitschieter t.o.v. het gemiddelde een nog grotere impact dan de invloed van uitschieters bij bijvoorbeeld het berekenen van het gemiddelde. 4. De boxplot De boxplot (doosdiagram, boxandwhisker plot) is een manier om in één tekening 5 getallen die iets zeggen over de verdeling van een variabele grafisch weer te geven.
Aan de hand van een boxplot kan je iets zeggen over zowel de positie, de spreiding als de vorm van een verdeling. Zo weet je steeds dat binnen de box de centrale 50% van de waarnemingen zit, aangezien de box begrensd wordt door Q1 en Q3. En weet je ook dat binnen de box steeds 25% van de waarnemingen boven en 25% van de waarnemingen onder de mediaanlijn zit. In het voorbeeld kan je dan ook zien dat de 25% waarnemingen onder de mediaan meer van elkaar verschillen dan de 25% waarnemingen boven de mediaan: het onderste deel is veel breder dan het bovenste deel (lees: meer spreiding in het onderste deel). Dit wordt vaak gebruikt bij en is zeer handig bij de vergelijking van groepen eenheden (bijvoorbeeld het verschil tussen mannen en vrouwen in uren televisie kijken, het verschil in autodiefstallen tussen 1995 en 2005, …).LEES MEER: Moore & McCabe: pp. 3139
Vorm van een verdeling De vorm van een verdeling is een volgende bron aan informatie. We kunnen drie soorten vormen onderscheiden: > Symmetrisch Er is sprake van een spiegelbeeld. In dit geval is het gemiddelde gelijk aan de mediaan. = M
> Rechts asymmetrisch In dit geval is er sprake van een lange staart naar rechts, met hogere frequenties aan de linkerkant. Het gemiddelde is groter dan de mediaan. > M
> Links asymmetrisch In dit geval is er sprake van een lange staart naar links, met hogere frequenties aan de rechterkant. Het gemiddelde is kleiner dan de mediaan. < M
Opmerking! Het kan ook voorkomen dat je te maken hebt met een bimodale verdeling. In de vorige verdelingen was er telkens sprake van 1 modus, maar een bimodale verdeling kan 2 tot meer modi hebben. Dat merk je in het histogram: twee of meerdere waarden zullen een even grote frequentie hebben.
LEES MEER: Moore & McCabe: pp. 1618
Transformaties van variabelen Wanneer er iets verandert in de waarden van een variabele (transformatie), heeft dat een invloed op de maten van centraliteit en de maten van spreiding. Er zijn twee mogelijke scenario's: 1) Als bij elke waarde eenzelfde getal wordt bijgeteld, schuift de verdeling op. Het gevolg is een wijziging in de maten van centraliteit. De maten van spreiding wijzigen niet. Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. Dit geeft een mediaan van 11,5 en een gemiddelde van 11,3. De standaardafwijking is 1,21. Als je bij elke score 2 optelt (12, 12, 13, 14, 14 en 15), dan kom je aan een mediaan van 13,5 en een gemiddelde van 13,3. Er is dus evenveel (2) bijgekomen als de toename in de scores zelf. De standaardafwijking blijft 1,21. 2) Wanneer elke waarde vermenigvuldigd wordt met eenzelfde getal, schuift de verdeling op én wordt de spreiding groter. Zowel de maten van centraliteit als de maten van spreiding wijzigen. Bijvoorbeeld: het aantal uren televisie kijken per week van 6 mensen: 10, 10, 11, 12, 12 en 13. Dit geeft een mediaan van 11,5 en een gemiddelde van 11,3. De standaardafwijking is 1,21 Als je elke waarde vermenigvuldigt met 2 (20, 20, 22, 24, 24 en 26), kom je aan een mediaan van
23 en een gemiddelde van 22,6. De standaardafwijking wordt 2,42. Net zoals de waarden, worden de mediaan, het gemiddelde én de standaardafwijking met 2 vermenigvuldigd. LEES MEER: Moore & McCabe: pp. 3941
Dichtheidskrommen en theoretische verdelingen Een dichtheidskromme is een specifiek soort grafiek waarmee een verdeling kan worden weergegeven. Dit kan zowel een waargenomen verdeling zijn, als een theoretische verdeling. We starten met een voorbeeld. Stel dat je bij 1700 studenten de lichaamslengte hebt gemeten. Omdat er zoveel verschillende waarden zijn, hebben we ze samengenomen in klassen. Hier zijn de klassenmiddens gepresenteerd.
Grafisch kan je deze verdeling voorstellen met een histogram en een dichtheidskromme:
Het staafdiagram in dit voorbeeld omvat de werkelijk gevonden gegevens en wordt uitgedrukt in
absolute getallen. De dichtheidskromme geeft eerder een theoretische benadering en wordt uitgedrukt in proporties. De oppervlakte onder de volledige kromme kan je dus benoemen als 1. Met andere woorden '100% van alle waarnemingen zit onder de kromme'. Een dichtheidskromme heeft daarenboven ook een modus, een mediaan, kwartielen en een verwachting (wat je zou kunnen gelijk stellen met het gemiddelde) die iets vertellen over de positie van de verdeling. De spreiding van de kromme wordt vertaald in de interkwartielafstand, de variantie en de standaardafwijking. Op basis van deze gegevens kan je een dichtheidskromme benoemen als symmetrisch of asymmetrisch, ééntoppig of meertoppig, scherp of afgeplat. Vaak voorkomende soorten verdelingen (en hiermee overeenstemmende dichtheidskrommes) kunnen samengevat worden door theoretische verdelingen. Dit zijn verdelingen die volledig wiskundig beschreven zijn en waarvan de kenmerken gekend zijn. Ze zijn als het ware sjablonen die een waargenomen verdeling dicht benaderen. Het nut van een theoretische verdeling ligt in het feit dat dit een samenvatting geeft van de belangrijkste kenmerken van een verdeling in een zeer compacte vorm. Een theoretische verdeling heeft ook een aantal eigenschappen die verdere bewerkingen mogelijk maken. De meest gebruikte theoretische verdeling is de normaalverdeling. Die is symmetrisch, ééntoppig en klokvormig (zie volgende webpagina). LEES MEER: Moore & McCabe: pp. 4347
De normaalverdeling Kenmerken, standaardisering, rekenen met de standaardnormale verdeling 1. Kenmerken De normaalverdeling (ook: standaardnormaalverdeling) is een symmetrische, ééntoppige, klokvormige theoretische verdeling. Vooral het element ‘symmetrisch' is belangrijk om steeds in het achterhoofd te houden bij verdere bewerkingen met de normaalverdeling. Elke normaalverdeling heeft een gemiddelde μ en een standaardafwijking σ (notatie: N(μ, σ)).
Los van de specifieke gegevens waarop je de normale verdeling toepast, heeft elke perfect symmetrische verdeling, zoals de normaalverdeling, de eigenschap dat de mediaan gelijk is aan het gemiddelde. Je kan dan ook zeggen dat 50% van de waarnemingen onder het gemiddelde μ en 50% van de waarnemingen boven het gemiddelde μ ligt. Een bijkomende eigenschap van de normaalverdeling is de 689599,7regel:
Als je vanuit het gemiddelde 1 keer de standaardafwijking σ bijtelt en 1 keer de standaardafwijking σ aftrekt, kom je aan 68% van alle waarnemingen. Anders gezegd: 68% van alle waarnemingen ligt binnen het interval μ ± σ. Hetzelfde geldt voor het interval dat je krijgt als je ongeveer 2 keer (precies 1,96) de standaardafwijking van het gemiddelde aftrekt en bij het gemiddelde bijtelt. Binnen dat interval omvat je 95% van alle waarnemingen. Bij drie keer de standaardafwijking omvat je 99,7% van alle waarnemingen. 2. Standaardisering en de standaardnormaalverdeling In een verdere stap kan je de normaalverdeling omzetten in de standaardnormaalverdeling. Je zet elke waarde binnen een normaalverdeling letterlijk om in het aantal standaardafwijkingen dat deze waarde verwijderd ligt van het gemiddelde. Deze verdeling heeft als eigenschap dat het gemiddelde μ steeds gelijk is aan 0 en de standaardafwijking σ steeds gelijk is aan 1 (notatie: N(0,1) ). Het nut van deze standaardisatie is dat de meeteenheden (score, cm, jaar) wegvallen en dat alle waarden worden uitgedrukt in termen van ‘aantal standaardafwijkingen afwijking t.o.v. het gemiddelde' . Op die manier kan je verdelingen zonder probleem met elkaar vergelijken wat betreft spreiding, positie en vorm, ook al gaat het in oorsprong over verschillende kenmerken. Het standaardiseren van gegevens houdt in dat je deze omzet naar zscores.
Van elke waarneming trek je het gemiddelde af en die uitkomst deel je door de standaardafwijking. De bekomen zscore lees je als volgt: 'de waarneming wijkt z keer de standaardafwijking af van het gemiddelde'. Nogmaals: of het nu gaat over cm, jaar of scores, met de uitdrukking 'zoveel keer de standaardafwijking afwijkend van het gemiddelde' zeg je iets over de plaats van elke waarde en bij uitbreiding over de spreiding van de verdeling. En kan je anders niet te vergelijken gegevens toch naast elkaar zetten.
3. Rekenen met de standaardnormaalverdeling De eigenschappen van de standaardnormaalverdeling laten toe om bewerkingen uit te voeren. De twee mogelijke toepassingen zijn:
een proportie zoeken op basis van een waarde Bijvoorbeeld: wat is het percentage studenten die lager scoren dan 12/20 aanpak: waarde > zscore > proportie
een waarde zoeken op basis van een proportie Bijvoorbeeld: welke minimale score op 20 heeft de 30% beste studenten aanpak: proportie > zscore > waarde De stap tussen een waarde en een zscore, of omgekeerd, kan je maken aan de hand van de formule. En de stap tussen zscore en proportie, of omgekeerd, kan je maken aan de hand van de tabel van de standaardnormaalverdelingen (vaak ook de ztabel genoemd). Deze tabel vind je als tabel A achteraan in het boek van Moore & McCabe.
LEES MEER: Moore & McCabe: pp. 4861
Effecten van nonrespons Unit en item nonrespons
Opmerking: schakel en voorbereidingsstudenten die het vak 'methodologie' in hun curriculum hebben, zullen in de lessen van dit vak dieper ingaan op de effecten van non respons! Tot nu toe zijn we er steeds vanuit gegaan dat we alle informatie hadden van alle variabelen. Het kan echter voorkomen dat er informatie zal ontbreken. 1. Unit nonrespons Een eerste variant is de unit nonrespons. Hier ontbreekt alle informatie van een eenheid of eenheden. We bevinden ons in een situatie waarin één of meerdere eenheden uit de getrokken steekproef weigerden mee te werken, onmogelijk te contacteren waren of niet inzetbaar waren. In zo'n geval is er sprake van een dekkingsfout. Hoe groot het percentage unit nonrespons is hangt af van het steekproefdesign en het steekproefkader. We kunnen de mogelijke vertekening (zij het beperkt) inschatten door de steekproef te vergelijken met de populatie op kenmerken waarover wel informatie op populatieniveau beschikbaar is. Neem bijvoorbeeld de survey 'Cultuurparticipatie in Vlaanderen. 20032004'. Indien we de relatieve frequenties bekijken van het aantal mannen en vrouwen in leeftijdscategorieën in onze survey en die vergelijken met dezelfde gegevens gekend voor heel Vlaanderen, dan kunnen we merken dat op de meeste categorieën geen grote verschillen te merken zijn. Maar toch stellen we vast dat we 1,2% meer mannen van 14 tot en met 17 jaar hebben (4,1% in onze survey, 2,8% in Vlaanderen) of 1,8% te weinig vrouwen tussen 75 tot en met 85 jaar (2,8% in onze survey, 4,6% in Vlaanderen). Bij het interpreteren van de resultaten op andere variabelen zijn dit de categorieën die je extra in de gaten moet houden. Deze materie zal grondig worden behandeld in het vak Methodologie en is het kader van deze online cursus minder relevant. Zij die dit vak niet moeten volgen maar hierover meer willen lezen kunnen het boek van "Billiet, J. & Waege, H. (eds) (2003). Een samenleving onderzocht. Methoden van sociaalwetenschappelijk onderzoek. Antwerpen: Standaard Uitgeverij" raadplegen.
De mogelijke vertekening kan ook (beperkt) ingecalculeerd worden via wegingprocedures. In deze cursus gaan wij hier niet dieper op in; ook dit onderdeel wordt behandeld in de cursus Methodologie. 2. Item nonrespons In dit geval hebben we te maken met informatie die ontbreekt op bepaalde variabelen: eenheden die bepaalde topics weigeren te beantwoorden, het antwoord niet weten of eenvoudigweg geen mening over de topic hebben. Hoe groot het percentage item nonrespons is hangt af van het type vraag, de verwoording van de vraag,… De eenheden worden bij de analyse van de variabele waarop de informatie ontbreekt niet opgenomen. Er bestaat wel een mogelijkheid om via (complexe) technieken ontbrekende data te imputeren. Ook hier moet je enkel het bestaan afweten van deze technieken. Vaak vind je bij de resultaten ook het aantal missings (de eenheden die niet in de analyse van de variabele werden opgenomen). Opmerking: Zowel bij de unit nonrespons als de item nonrespons gaan wij uit van 'missing completely at random'. Dit betekent dat er geen sprake is van systematische fouten in de survey.
2. Bivariate beschrijvende statistiek Doelstellingen Bivariate Beschrijvende Statistiek In het vorige onderdeel hebben we ons geconcentreerd op de beschrijving (frequentieverdeling) van één variabele, maar in de sociale wetenschappen zijn we meestal geïnteresseerd in de relatie tussen twee of meer variabelen. Aan de hand van bivariate beschrijvende statistiek onderzoeken we of er al dan niet een samenhang is tussen twee variabelen. > Samenhang: verdeling van ene variabele verschilt naargelang de waarden van een andere variabele. De manier waarop we de samenhang gaan beschrijven hangt af van het meetniveau. De samenhang tussen categorische variabelen zullen beschreven worden aan de hand van een kruistabel, conditionele verdelingen, percentageverschil, oddsratio en associatiematen. De samenhang tussen metrische variabelen zullen beschreven worden aan de hand van een spreidingsdiagram en correlatie en regressieanalyse. Het blijft dus van belang dat je op voorhand weet wat voor types variabelen je met elkaar wilt vergelijken (categorisch met categorisch, categorisch met metrisch, metrisch met metrisch). In dit onderdeel gaan we opnieuw enkel beschrijven. Het nagaan of een geobserveerde relatie met betrekking tot een steekproef veralgemeend kan worden voor de volledige populatie behoort tot het domein van de inductieve statistiek. Vooraleer we de relaties tussen categorische variabelen gaan behandelen, wijzen we op een belangrijk onderscheid in relaties: Enerzijds hebben we symmetrische relaties waarbij er sprake is van een wederzijdse samenhang.
Anderzijds hebben we asymmetrische relaties waarbij er sprake is van een effectrelatie. De ene variabele heeft een invloed op de andere of deze relatie kan ook een oorzaakgevolg relatie zijn. We wijzen erop dat X de onafhankelijke variabele is, en Y de afhankelijke variabele.
Bijvoorbeeld: Het gebruiken van de verkiezingsuitslag voor het voorspellen van de volgende uitslag X = verkiezingsuitslag van de vorige gemeenteraadsverkiezingen Y = de uitkomst van de komende gemeenteraadsverkiezingen LEES MEER: Moore & McCabe: pp. 6567
Relaties tussen categorische variabelen Kruistabel, percentageverschil, oddsratio 1. Kruistabel Gegevens over de samenhang tussen twee variabelen worden niet langer in twee afzonderlijke frequentietabellen gepresenteerd, maar kan je samenvoegen tot een gezamenlijke frequentieverdeling: de kruistabel. Bijvoorbeeld: geslacht en inkomen
In de kolommen staat de variabele ‘geslacht' die bestaat uit twee categorieën: man en vrouw. In de rijen staat de variabele inkomen die ook bestaat uit twee categorieën: laag inkomen en hoog inkomen. Je kan uiteraard ook kruistabellen hebben met meer rijen en kolommen. Zo zou je hier het inkomen kunnen opsplitsen in zeer laag, laag, midden, hoog en zeer hoog. Het gevolg is een kruistabel met 5 rijen en 2 kolommen. 'Rijen' wordt afgekort als r, 'kolommen' als k. Het bovenstaande voorbeeld is een 2*2tabel, bij meerdere rijen of kolommen wordt gesproken van een r*ktabel. In een kruistabel staan verschillende gegevens:
celfrequenties Bij de 2*2 tabel voor geslacht en inkomen heb je 4 cellen. Elke cel geeft je informatie over de twee variabelen. Zo toont de cel met ‘3049' aan dat er 3049 mannen zijn met een laag inkomen. Op dezelfde manier kan je zien dat er 118 vrouwen zijn met een laag inkomen, 3688 mannen met een hoog inkomen en 606 vrouwen met een hoog inkomen.
marginale verdelingen Deze vind je terug in de laatste kolom en in de onderste rij. Deze cijfers geven de univariate verdeling aan van de twee afzonderlijke variabelen. In de onderste rij zie je dat er 6737 mannen zijn en 724 vrouwen. En deze verdeling zegt je niks over hoe die mannen en vrouwen verdeeld zijn wat betreft het inkomen. Idem voor de laatste kolom: je kan daar lezen dat er 3167 mensen zijn met een laag inkomen en 4294 met een hoog inkomen, maar dit zegt je niks over mannen en vrouwen. conditionele verdelingen Hierbij kijk je hoe één van beide variabelen verdeeld is binnen 1 enkele categorie van de andere variabele. We noemen dit een conditionele verdeling. Als je kiest voor conditie 'man', zie je dat de 6737 mannen verdeeld zijn over 3049 mannen met een laag inkomen en 3688 mannen met een hoog inkomen. Bij de conditie ‘vrouw' wordt de conditionele verdeling 118 vrouwen met een laag inkomen en 606 vrouwen met een hoog inkomen. Je kan dit ook in de andere richting bekijken. Als je kiest voor de conditie 'laag inkomen', dan is de conditionele verdeling van de 3167 mensen met een laag inkomen verdeeld over 3049 mannen met een laag inkomen en 118 vrouwen met een laag inkomen.
2. Relaties tussen categorische variabelen, uitgedrukt in een cijfer Conditionele verdelingen op basis van absolute frequenties zeggen niet veel over de relatie tussen twee variabelen. Absolute frequenties zijn daarvoor te veel afhankelijk van het totaal aantal
eenheden en van de univariate verdelingen van de afzonderlijke variabelen. Om relaties te bestuderen tussen twee categorische variabelen gebruiken we daarom relatieve conditionele verdelingen, die ons informatie geven over de percentageverschillen. Naast percentageverschillen kunnen ook oddsratio's en andere associatiematen gebruikt worden. Welke maat je best neemt, hangt af van het aantal categorieën van beide variabelen (2*2 of r*k), van de relatie tussen de variabelen (symmetrisch of asymmetrisch) en van het meetniveau (waarbij het laagste meetniveau van beide variabelen beslissend is). Op deze pagina behandelen we enkel het percentageverschil en de oddsratio. Voor de informatie over andere associatiematen, verwijzen wij je naar het boek van Moore & McCabe. 2.1. Percentageverschil Het percentageverschil geeft het verschil in percentagepunten aan tussen 2 conditionele verdelingen. Bijvoorbeeld: geslacht en inkomen
Bij de mannen hebben 3049 van de 6737 mannen een laag inkomen, wat overeenkomt met 45,26%. Bij de vrouwen hebben 118 van de 724 vrouwen een laag inkomen: 16,3%. Het verschil tussen beide: 45,26% 16,3% geeft 28,95 percentagepunten. Deze 28,95 percentagepunten geeft aan wat het verschil is tussen mannen en vrouwen in het hebben van een laag inkomen. Hoe kleiner het percentageverschil, hoe minder verschil er is tussen mannen en vrouwen. Met andere woorden, hoe minder invloed er is van geslacht op inkomen. Een percentageverschil van 0 percentagepunten duidt dan ook op het ontbreken van een samenhang tussen beide variabelen. Percentages kunnen zowel in de rijen ( rijpercentages ) als in de kolommen ( kolompercentages ) berekend worden. In het eerste geval worden de rijmarginalen op 100% gezet. In het tweede geval worden alle kolommarginalen op 100% gezet. Bij asymmetrische relaties dienen de percentages berekend te worden binnen de categorieën van de onafhankelijke variabele. Anders worden foutieve conclusies getrokken (omdat het percentageverschil dan bepaald wordt door de univariate verdeling van de onafhankelijke variabele). Indien de onafhankelijke variabele bijvoorbeeld in de kolommen staat (zoals in het voorbeeld hierboven) worden kolompercentages berekend. Het percentageverschil wordt dan berekend door de kolompercentages te vergelijken binnen elke rij. 2.2. Oddsratio Een andere manier om een univariate frequentieverdeling weer te geven dan percentages, zijn odds. Bij een percentage zet je het aantal eenheden met een bepaald kenmerk af tegenover het totaal aantal eenheden. Zo zie je in het onderstaande voorbeeld dat er 3167 mensen met een laag inkomen zijn tegenover 7461 mensen in totaal. De interpretatie: 42,44% van alle mensen hebben een hoog inkomen. Bijvoorbeeld: geslacht en inkomen
Bij de odds zet je het aantal eenheden met een bepaald kenmerk af tegenover het aantal eenheden in een andere categorie van dezelfde variabele. Zo zien we in het voorbeeld dat er 4294 mensen zijn met een hoog inkomen tegenover 3167 mensen met een laag inkomen. De verhouding (ratio) tussen die twee bedraagt: 4294/3267 = 1,36. Interpretatie: er zijn 1,36 keer meer mensen met een hoog dan met een laag inkomen. De odds die we hier berekenden zijn marginale odds (berekend in de marginalen, dus gebaseerd op de univariate verdeling van een variabele). Daarnaast kunnen ook conditionele odds berekend worden. Die geven de odds binnen een categorie van de andere variabele. Door conditionele odds met elkaar te vergelijken krijgen we informatie over de samenhang tussen de twee variabelen. Bij mannen wordt dat 3049 mannen met een laag inkomen tegenover de 3688 mannen met een hoog inkomen. Het resultaat van 3049 / 3688 geeft 0,83. De interpretatie: mannen hebben 0,83 keer meer kans om een laag inkomen te hebben dan om een hoog inkomen te hebben. Je kan het ook omkeren: 6388/3049 = 1,21. Wat betekent: mannen hebben 1,21 keer meer kans om een hoog inkomen te hebben dan om een laag inkomen te hebben. Dit is de conditionele odds voor mannen op het hebben van een hoog vs. laag inkomen. Je kan de odds ook berekenen voor vrouwen (kans dat een vrouw een laag inkomen heeft ten opzichte van een hoog inkomen of omgekeerd), voor laag inkomen (kans dat iemand met een laag inkomen een vrouw is ten opzichte van dat die een man is of omgekeerd) en voor hoog inkomen. Met de conditionele odds zeg je enkel iets over 1 conditionele verdeling. Een stap verder is de oddsratio, waarmee je iets zegt over verschillende conditionele verdelingen en daardoor over de samenhang tussen beide variabelen. De naam zegt het al, het is de ratio (breuk) van twee odds. vb: (zie tabel hierboven) 1) de kans dat een man een laag inkomen heeft tov een hoog inkomen is 3049/3688. 2) de kans dat een vrouw een laag inkomen heeft tov een hoog inkomen is 118/606. 3) de ratio tussen beide: (3049/3688) / (118/606) = 4,25. 4) interpretatie: mannen hebben 4,25 keer meer kans dan vrouwen om een laag inkomen te hebben tov een hoog inkomen. Een oddsratio van 1 wijst erop dat er geen samenhang is tussen beide variabelen. Hoe meer de oddsratio van 1 afwijkt (naar 0 of naar +oneindig toe), hoe groter de samenhang. Een groot probleem echter is het ontbreken van een eindpunt. Wanneer kan je spreken van een grote odds? Is dat bij 2, bij 4,25, bij 60? Dat hangt per geval af van de verhoudingen en de schaal. Ook de aanwezigheid van 0cellen vormt een probleem bij de berekening en de interpretatie van de oddsratio. LEES MEER: Moore & McCabe: pp. 395404
Relaties tussen metrische variabelen Spreidingsdiagram, correlatie en regressieanalyse 1. Het spreidingsdiagram Een kenmerk van metrische variabelen (interval en ratio) is de aanwezigheid van een meeteenheid. Eén van de gevolgen hiervan is dat je de gegevens van die variabelen grafisch kan weergeven op een as. Werk je met twee variabelen, dan wordt dat een assenstelsel met een Xas voor de ene variabele en een Yas voor de andere variabele. Binnen de tweedimensionale ruimte die ontstaat door de Xas en de Yas (het spreidingsdiagram), kan je elke waarneming plaatsen als een punt. Het resultaat vormt een puntenwolk.
In bovenstaand voorbeeld staan gegevens van 406 auto's: kracht van de motor (Xas: 'horsepower') en snelheid van 0 naar 100 km/u (Yas: 'time to accelerate from 0 to 60mph'). Elk punt staat voor 1 auto. En bij elk punt kan je twee zaken aflezen: zak je verticaal uit het punt naar beneden, dan weet je iets over de kracht van de motor. Schuif je horizontaal op naar links, dan weet je iets over de snelheid. Naast de 406 individuele punten, kan je het geheel ook bekijken als een puntenwolk. Daaruit kan je al op zicht een aantal zaken afleiden zoals: hoe krachtiger de motor, hoe sneller (een dalende puntenwolk). Deze trend geldt in het algemeen, maar niet voor alle auto's. Er zijn bijvoorbeeld auto's met een kracht 150 die 15 seconden nodig hebben, terwijl er andere auto's zijn met bijvoorbeeld kracht 100 die maar 10 seconden nodig hebben. Er is dus wel een associatie, maar geen perfecte. Bij een perfecte associatie vormt de puntenwolk een lijn. De puntenwolk is het vertrekpunt bij de analyse van de relatie tussen metrische variabelen. Een samenvatting van de puntenwolk levert je 1 cijfer op waarmee je iets kan zeggen over de associatie. Dit kan via regressieanalyse (zegt iets over de richting van de samenhang) en via het berekenen van de correlatie (zegt iets over de sterkte van de samenhang).
2. Regressieanalyse Via de regressieanalyse kan je iets zeggen over de richting van de samenhang: positief (naar rechts oplopend) of negatief (naar rechts aflopend), steil of plat. Voluit heet deze techniek om iets te zeggen over de asymmetrische (!) relatie tussen twee variabelen de ‘enkelvoudige lineaire regressie' • enkelvoudig: het gaat over een relatie met slechts 1 onafhankelijke variabele • lineair: de eenvoudigste manier om een puntenwolk samen te vatten is via een rechte • regressie: is de techniek om de juiste positie van die lijn in de puntenwolk te bepalen Het bepalen van de regressierechte kan aan de hand van twee gegevens: • het intercept (symbool: a)
a=
–b
o geeft de plaats aan waar de rechte de Yas snijdt. o anders gezegd: het is de waarde op Y wanneer X gelijk is aan 0. • de richtingscoëfficiënt (symbool: b) b = Sxy / S²x o geeft aan wat de helling is van de rechte. o anders gezegd: het geeft aan hoeveel er bij Y bijkomt, wanneer je 1 eenheid bij X optelt. o het geeft dus aan hoe groot het effect is op Y van X. o wel even opletten: uitschieters in de gegevens hebben een grote invloed en trekken de rechte naar zich toe. Bijvoorbeeld: koffie (X) en de prijs die je daarvoor betaalt (Y). 1 tas koffie kost 1,5 €. Als je 2 tassen koffie drinkt, betaal je 3 €. De toename van 1 eenheid bij X (1 tas koffie bij) veroorzaakt een toename van 1,5 bij Y. De richtingscoëfficiënt is 1,5 Een minder interessante eigenschap van de richtingscoëfficiënt is dat deze schaalgevoelig is. Als je bij dezelfde gegevens de richtingscoëfficiënt berekent, maar je verandert euro in cent, dan krijg je een ander resultaat (150 ipv 1,5). De oplossing bestaat erin alle waarden te standaardiseren en pas daarna de richtingscoëfficiënt te berekenen. Het resultaat hiervan wordt B genoemd, de gestandaardiseerde richtingscoëfficiënt. Deze is niet gevoelig aan de schaal en heeft een vaste interpretatie waardoor vergelijken van effecten van verschillende variabelen mogelijk wordt. De gestandaardiseerde richtingscoëfficiënt is in een enkelvoudige lineaire regressie gelijk aan de correlatiecoëfficiënt (zie verder op deze pagina). Voor standaardiseren: zie het deel over 'de normaalverdeling' (onder 'Univariate Beschrijvende Statistiek'). 3. Correlatieanalyse Via de correlatieanalyse kan je iets zeggen over de sterkte van de samenhang: deze is sterk (alle punten dicht bij de regressierechte, een smalle puntenwolk) of zwak (een brede puntenwolk). Dit gaat dus met andere woorden over de spreiding van de puntenwolk. De correlatie is een symmetrische maat.
Voor het berekenen van de correlatie heb je drie elementen nodig: de variantie van x, de variantie van y en de covariantie van x en y samen. De univariate spreidingsmaat voor metrische variabelen is de variantie. Daarbij wordt voor elke waarneming gekeken hoe ver die van het gemiddelde ligt. Grote afwijkingen wijzen op een grote spreiding, en omgekeerd. Daarnaast kan je de spreiding van de twee variabelen samen bekijken. Dat kan aan de hand van de covariantie (Sxy). Deze toont aan in hoeverre de twee variabelen samen (= co) variëren.
De interpretatie: • Een 0 wijst op geen samenhang tussen beide variabelen. • Hoe groter de covariantie, hoe groter de spreiding van de puntenwolk. • Het probleem is ook hier dat er geen eindpunt is: wat is een grote covariantie en wat een kleine? Dit probleem wordt opgelost door een stap verder te zetten: op basis van de covariantie wordt de correlatie berekend. De correlatiecoëfficiënt (r) krijg je door de covariantie te delen door het product van de standaardafwijking van x en de standaardafwijking van y. De interpretatie (tussen 1 en +1): • Een 0 wijst op geen samenhang tussen beide variabelen. • +1 wijst op een perfecte positieve correlatie (als de waarden van x stijgen, stijgen ook de waarden van y). • 1 wijst op een perfecte negatieve correlatie (als de waarden van x stijgen, dalen de waarden van y). Een mogelijke laatste stap is het berekenen van de determinatiecoëfficiënt (r²). Het symbool toont het al: deze verkrijg je door de correlatiecoëfficiënt te kwadrateren. Het bekomen cijfer lees je als 'proportie van de variantie in Y die verklaard wordt door X'. Bijvoorbeeld: Stel dat de determinatiecoëfficiënt bij de relatie tussen 'kracht van de motor' en ‘snelheid' 0,85 is, dan wil dit zeggen dat 85% van de verschillen in snelheid tussen de auto's veroorzaakt wordt door de verschillen in de kracht van de motor. Dat betekent ook dat er nog voor 15% andere factoren spelen: gewicht van de auto, vaardigheden van de chauffeur, weersomstandigheden, … We merken hierbij op dat we hier met beperkingen rekening moeten houden door het werken met slechts twee variabelen (zie deel 'Beperkingen van de bivariate statistiek'). Andere variabelen kunnen immers ook een invloed uitoefenen op deze relatie. Voor uitgewerkte voorbeelden bij het berekenen van covariantie, correlatie en determinatie verwijzen we naar het boek van Moore en McCabe. LEES MEER: Moore & McCabe: pp. 6774, 77109
Beperkingen van bivariate statistiek
Effectrelatie vs. causaliteit, relaties tussen meer dan 2 variabelen Indien we via bivariate beschrijvende statistiek een relatie tussen twee variabelen vaststellen die we kunnen interpreteren als een effectrelatie, laat deze vaststelling geenszins toe om met zekerheid te stellen dat X de oorzaak zou zijn van Y. > Bivariate effectrelatie ≠ causale relatie Eén van de belangrijkste redenen hiervoor is volgende: we houden geen rekening met (effecten van) andere, verborgen, variabelen. In een bivariate analyse neem je per definitie slechts twee variabelen op, en zullen verbanden van X en Y met andere variabelen verborgen blijven. Andere redenen waarom het onmogelijk is om op basis van bivariate beschrijvende statistiek tot causale uitspraken te komen, hebben bijvoorbeeld te maken met het louter beschrijvende (niet inductieve) karakter van de techniek, en het specifieke onderzoeksopzet (dikwijls beschikt men over crosssectionele in plaats van longitudinale data). De verborgen variabele (Z) kan ervoor zorgen dat X en Y een schijnrelatie hebben en Z aan de basis ligt van de samenhang tussen X en Y. Er kan dus sprake zijn van een relatie tussen meerdere variabelen. Hieronder schetsen we vier types van mogelijke verbanden tussen drie variabelen. De gestippelde lijnen staan symbool voor statistische samenhang (op basis van de correlatiecoëfficiënt, associatiemaat,...), de volle lijnen voor een oorzaakgevolgrelatie. Type 1: Gemeenschappelijke afhankelijkheid/wederzijdse oorzaak > De waargenomen samenhang tussen de variabelen X en Y wordt verklaard door een verborgen variabele Z.
Bijvoorbeeld: Een klassiek voorbeeld is dat van enkele 19e eeuwse gemeenten waar het aantal ooievaars (X) een effect leek te hebben op het aantal geboortes (Y). De oorzaak was echter de derde variabele verstedelijking. In meer verstedelijkte gebieden kwamen minder ooievaars voor, maar kregen koppels ook minder kinderen dan in landelijke gebieden. Type 2: Intermediaire variabele > De waargenomen samenhang is een combinatie van het effect dat X heeft op de verborgen variabele Z, die op zich een effect heeft op Y.
Bijvoorbeeld: Opleidingsniveau > leeftijd bij geboorte van eigen eerste kind (of opleidingsniveau van je kinderen) > leeftijd bij geboorte van eerste kleinkind. Hoger opgeleiden beginnen gemiddeld genomen later aan kinderen. Opleidingsniveau oefent rechtstreeks nooit een effect uit op de leeftijd die je hebt bij de geboorte van je eerste kleinkind,
maar wel onrechtstreeks via, bijvoorbeeld, de leeftijd waarop je eerste kind geboren werd en daarnaast bijvoorbeeld ook op het opleidingsniveau van je kinderen, die daardoor ook zelf weer op latere leeftijd aan kinderen beginnen,... Type 3: Verstrengeling > Verschillende elementen geven elk een stukje van de verklaring. 2 variabelen zijn verstrengeld als hun effect op een te verklaren variabele Y met elkaar vermengd is. Zowel X als Z kunnen de te verklaren variabele Y beïnvloeden. Omwille van de verstrengeling van X met Z kunnen we niet zeggen hoe sterk het directe effect van X op Y is.
Bijvoorbeeld: We kunnen ons afvragen of studenten die naar een oefensessie komen (X) ook een beter examen (Y) afleggen. Dit blijkt het geval, maar we moeten er de variabele Z bijnemen. Zij staat voor de ijverigheid die deze studenten typeert. Het maken van een beter examen is dus zowel het gevolg van de ijver van de studenten als het mee volgen van de oefensessie. Type 4: Interactieeffect > Variabele Z heeft geen effect op X of Y afzonderlijk, maar op de relatie tussen beide.
Bijvoorbeeld: Stel dat X staat voor wanneer je ten opzichte van je eventuele broers of zussen geboren bent en Y voor de mate van creativiteit. Men zou durven stellen dat eerstgeborenen creatiever zijn dan laatstgeborenen. Deze directe invloed wordt echter beïnvloed door een andere variabele namelijk geslacht. Geslacht zorgt er niet voor of je eerst of laatste geboren wordt noch of je creatief bent of niet. Wel is er vastgesteld dat eerstgeboren jongens creatiever zijn dan laatstgeboren jongens. Dit in contrast met meisjes waarbij de eerstgeboren meisjes minder creatief zijn dan de laatstgeboren. Dit voorbeeld illustreert tevens de paradox van Simpson. > De paradox van Simpson betreft de omkering van de richting van een samenhang wanneer data uit verschillende groepen gecombineerd worden tot een enkele groep. Voor meer uitleg hieromtrent verwijzen wij naar het boek van Moore & McCabe. Meer algemeen dan de paradox van Simpson houdt een interactieeffect in dat de relatie tussen 2 variabelen anders is naargelang de waarden van een derde variabele. Bivariate beschrijvende statistiek laat dan niet toe met zekerheid uitspraken te doen over de relatie tussen twee variabelen, omwille van de mogelijke invloeden van derde variabelen. Via meer complexe multivariate analysetechnieken kunnen relaties tussen twee variabelen statistisch uitgezuiverd worden (gecontroleerd worden voor) de relaties met andere variabelen. Multivariate analyse valt buiten het bestek van deze inleidende tekst. LEES MEER: Moore & McCabe: pp. 111117
De limieten van beschrijvende statistiek In het geval van meer dan twee variabelen moeten we multivariate analysetechnieken hanteren. Bij multivariate analyse onderzoeken we de eventuele samenhang tussen de afhankelijke variabele en meer dan twee onafhankelijke variabelen. (Zie ook 'Beperkingen van bivariate statistiek') Multivariate analyse zou ons nettoeffecten kunnen opleveren. Toch moeten we ook daar, ondanks een correcte toepassing van de multivariate technieken, aandacht hebben voor: • crosssectioneel versus longitudinale data Met behulp van longitudinaal onderzoek kan je bijvoorbeeld ook nagaan of X (onafhankelijke variabele) Y (afhankelijke variabele) voorafging in de tijd en / of veranderingen in X daadwerkelijk veranderingen in Y voorafgingen)... Vaak wordt echter gebruik gemaakt van crosssectionele onderzoeksopzetten (deze zijn veel goedkoper, en vragen niet om een jarenlange inspanning van de onderzoeksinstelling). Bijvoorbeeld: je stelt op basis van een crosssectioneel surveyonderzoek (uit het jaar 2000) vast dat jongeren beduidend meer naar rockmuziek luisteren dan ouderen. In je analyse controleer je voor diverse andere onafhankelijke variabelen, en je blijft een betekenisvol effect van leeftijd op frequentie van luisteren naar rockmuziek terugvinden. Toch is het heel moeilijk te stellen dat 'hoe ouder men wordt, hoe minder men naar rockmuziek zal luisteren', dat 'leeftijd dus een oorzaak is van het minder of meer luisteren naar rockmuziek'. Waarom? Omdat we op één moment (2000) verschillende leeftijdsgroepen met elkaar vergelijken. Het zou best kunnen dat de jongeren van nu binnen dertig jaar nog steeds even frequent naar rockmuziek zullen luisteren, terwijl die muziek bij de mensen die nu 6080 jaar oud zijn gewoon nooit populair is geweest (ook niet toen zij jong waren), dat hun smaak ook niet zoveel veranderd is doorheen de tijd. Longitudinaal onderzoek kan dit soort zaken wel nagaan. • de mogelijkheid van verborgen variabelen (zie deel 'Beperkingen van de bivariate statistiek') • inductieve versus beschrijvende statistiek (verbanden aan toevallige steekproefschommelingen te wijten of mogen deze worden veralgemeend naar populatie?) Toch kunnen we spreken van een sterke indicatie voor een causale relatie indien er sprake is van een sterke samenhang, we statistische controles uitoefenen op andere kenmerken en de samenhang consistent wordt gevonden in vele onderzoeken. Uiteraard hoort ook de vermeende oorzaak vooraf te gaan aan het effect. Hier wordt in de schakel en voorbereidingsprogramma's van de communicatiewetenschappen en de sociologie nog dieper op ingegaan.
3. Inductieve statistiek Studie van de systematiek van het toeval: Kansrekenen 1. Toeval en kans In deze hoofdstukken verlaten we de beschrijvende statistiek voor de inductieve statistiek. De inductieve statistiek laat ons toe om uitspraken te doen over een volledige populatie, op basis van een steekproef. Vooraleer we de inductieve statistiek verkennen, is het van belang om stil te staan bij de systematiek van het toeval en het kansrekenen. Aan de hand van kansrekenen wordt een patroon van toevallige uitkomsten beschreven. Wij kunnen deze manier van kansrekenen aanwenden in de statistiek. We beginnen met een eenvoudig voorbeeld. Een teerling X heeft zes waarden (xi waarbij i = 1,2,3,4,5,6). Bij een niet getrukeerde teerling heeft elke waarde een gelijke kans om het resultaat te zijn van een worp: 1 kans op 6. Ook een spel kaarten leent zich tot een dergelijke statistische beschrijving. Hier is bijvoorbeeld de kans op harten aas of ruiten heer 1 op 52.
Het is onmogelijk om te voorspellen welk cijfer we gooien of welke kaart we zullen trekken, maar wat wel vast staat is dat na vele herhalingen er een regelmatig patroon in de uitkomsten naar voren komt. Dit heet in de statistiek het toevalsverschijnsel. Dit maakt dat we kunnen stellen welke kans we maken op het trekken van een bepaalde kaart. Kans zullen we in dit licht omschrijven als de relatieve frequentie bij oneindig aantal pogingen. > Kansrekenen (= het wiskundig beschrijven van toevalsverschijnselen). Relevantie Kans ligt aan de basis van inductie: we gaan op zoek naar de achterliggende logica of regelmaat van een verschijnsel op basis van ogenschijnlijk willekeurige gevallen.
We willen uitspraken doen over een volledige populatie, maar we moeten hiervoor vaak terugvallen op steekproeven. Het beste wat we dan kunnen doen is gebruik te maken van een toevalsprocedure om de eenheden te selecteren: we trekken een toevalssteekproef. Op deze manier vermijden we systematische vertekening en kunnen we de kansen op een atypische steekproef beter inschatten. Voor meer uitleg verwijzen wij naar het vak Methodologie, of het boek "Een samenleving onderzocht" van Billiet en Waege. 2. Kansmodellen In dit onderdeel gaan we het begrip toeval wiskundig beschrijven. We doen dit op twee manieren: aan de hand van de verzameling van alle mogelijke uitkomsten van het toevalsverschijnsel en aan de hand van een kans voor elke uitkomst. A) verzameling van alle mogelijke uitkomsten > = uitkomstenruimte S: { …, …, …,…, …, …, …} (ook nog sample space S genoemd) Enkele voorbeelden: Teerling S = {1, 2, 3, 4, 5, 6} Enquêtevraag naar geslacht S = {man, vrouw} Aantal keer munt bij het eenmaal opwerpen van een muntstuk S = {0, 1} Aantal keer munt bij het tweemaal opwerpen van een muntstuk S = {0, 1, 2, 3, 4} B) een kans voor elke uitkomst Elk element uit S (uitkomst) heeft een bepaalde theoretische kans. > Dit zijn kansen gedefinieerd in termen van veelvuldig herhalen. De experimentele wet stelt immers dat naarmate het aantal herhalingen van een toevalsproces toeneemt, de kansen van de elementen van S zich meer en meer zullen stabiliseren. Bij een groot aantal herhalingen krijgen we een stabiele waarde die beschouwd zal worden als de kans dat element uit S zich zal voordoen. Kans korten we af als P. Naast het toekennen van kansen aan enkelvoudige uitkomsten, kunnen we ook kansen toekennen aan verzamelingen van uitkomsten. Dit laatste noemen we een gebeurtenis. Met andere woorden een deelverzameling van de uitkomstenruimte. S kan meerdere deelverzamelingen A bevatten, bijvoorbeeld de even getallen waar een teerling op kan neerkomen, de hartenkaarten in een kaartspel, … Basisregels: > A bestaat dus uit: geen, één of een combinatie van mogelijke waarden uit uitkomstenruimte S. > Elke gebeurtenis heeft kans P(A), waarbij we kans omschrijven als het aantal herhaalde pogingen waarbinnen een gebeurtenis plaatsvindt. > Elke kans P(A) is een getal tussen 0 en 1. (0 ≤ P(A) ≥ 1) > De som van de kansen op alle mogelijke uitkomsten P(S) moet precies 1 zijn. Bijvoorbeeld: Bij het opwerpen van een muntstuk waarbij we twee mogelijke uitkomsten kunnen hebben. M = munt en K = kruis.
P(M) = 0,5 en P(K) = 0,5 De teerling: P(5) = 1/6 of P(3) = 1/6 enz. > Disjuncte gebeurtenissen: Gebeurtenissen die geen gemeenschappelijke uitkomst hebben (ofwel A ofwel B). Kunnen daardoor nooit tegelijkertijd optreden. Bijvoorbeeld: richting: politieke, sociologie, communicatiewetenschappen uitkomst één teerlingworp eenmalig trekken van kaart uit kaartspel Als A en B disjunct zijn dan geldt de volgende rekenregel: P (A of B) = P (A) + P (B) = de optelregel voor disjuncte gebeurtenissen We kunnen ons kaartspel als voorbeeld nemen. Indien we de kans op het trekken van een harten aas, een ruiten aas, een schoppen aas of een klaveren aas optellen (telkens 1/52) komen we aan 4/52 of 1/13. We kunnen ook alle kansen op het trekken van harten optellen en dan komen we aan 1/4. > Complement: Als A zich voordoet dan heet de gebeurtenis dat A zich niet voordoet Ac . Rekenregel: P(Ac ) = 1 – P(A) = complementregel Bijvoorbeeld: Kans op het niet trekken van een heer. 1 4/52 = 48/52 = 12/13 > Onafhankelijkheid: Gebeurtenissen A en B komen allebei samen voor maar het feit dat A gebeurt, verandert niets aan de kans dat B gebeurt. Rekenregel:P(A en B) = P(A) * P(B) = productregel Bijvoorbeeld: Kans op het trekken van een rode kaart en een kaart met een boer op. = P(rood) * P(boer) 1/2 * 1/13 = 1/26 LEES MEER: Moore & McCabe: pp. 164179
Stochastische variabelen
Kansverdeling, verwachting en variantie, wet van de grote aantallen 1. De kansverdeling We beginnen dit hoofdstuk met een eenvoudig voorbeeld. We willen nagaan hoeveel keer je met een teerling het getal 3 gooit in vijf worpen. De eerste vijf worpen leveren 1, 4, 3, 5, 3 op. Hierbij is X = 2, aangezien we twee keer het getal 3 gooiden. De volgende vijf worpen leveren 2, 2, 6, 3, 6 op. Hierbij is X = 1. We beseffen goed dat bij een volgende worp X vermoedelijk een andere waarde kan aannemen. X kan immers de waarden 0, 1, 2, 3, 4 en 5 aannemen. X is een goed voorbeeld van een stochastische variabele.
> Stochastische variabelen of kansvariabelen zijn variabelen waarvan de waarde een numerieke uitkomst is van een toevalsverschijnsel. Ook steekproefgrootheden (bijvoorbeeld het steekproefgemiddelde) zijn stochastische variabelen. We noteren ze vervolgens als kansvariabelen X, Y, Z met als uitkomst xi, yi, zi. Andere voorbeelden: aantal keer 'ja' op een enquêtevraag aantal keer naar de bioscoop Indien we een toevalsverschijnsel beschrijven aan de hand van een stochastische variabele, kunnen we dit aan de hand van de uitkomstenverzameling S. In dit geval is dit een verzameling van alle mogelijke numerieke waarden van de variabele. We kunnen ook kansen toekennen aan waarden van stochastische variabelen. Dit doen we aan de hand van een kansverdeling. Er zijn twee alternatieve manieren om kansen toe te kennen aan uitkomsten. De juiste manier hangt af van het type variabele. Ofwel hebben we te maken met een discrete variabele, ofwel een continue variabele. A. DISCRETE KANSVARIABELEN Discrete kansvariabelen nemen een eindig aantal waarden aan (x1, x2, x3, …, xk ). We verkrijgen het kansmodel door aan deze uitkomsten kansen pi toe te kennen. > P(X=xi) = pi Voor de kansen pi geldt 1. 0 ≤ pi ≥ 1 2. p1+ p2 + … + pk = 1 Opnieuw kan gerekend worden met kansen. Bijvoorbeeld P(X in A) = som pi 's van xi 's die A (een willekeurige gebeurtenis) vormen. Een voorbeeld ter verduidelijking: een docent van een grote klas vraagt zich af wat de kans is op het trekken van een leerling met een bepaalde score op een test (op 10). Bijvoorbeeld wie een 8 of hoger heeft gehaald. We weten dat 15% een 9 heeft, 30% een 8, 30% een 7, 15% een 6 en 10% een 5.
We berekenen dit als volgt: P(X ≥ 8) = 0,30 + 0,15 = 0,45 met andere woorden heeft de docent 45% kans op het trekken van een leerling die een 8 of meer heeft gehaald. We kunnen de kansverdeling van een discrete stochastische variabele ook weergeven op een grafische manier. Hiervoor gebruiken we een kanshistogram, waarbij we kans weergeven door de oppervlakte. In feite is dit een histogram van de relatieve frequenties van de waarden bij een zeer groot aantal pogingen. Opmerking: • Het is mogelijk dat alle xi dezelfde kans hebben. Dan spreken we van discreet uniform. • Ook is het mogelijk dat de kansverdeling discreet gelijkmatig verdeeld is. In dit geval is er sprake van een spiegelbeeld in het kanshistogram. Bijvoorbeeld: het aantal keer kruis (K) bij vier worpen.
B. CONTINUE KANSVARIABELEN Continue kansvariabelen hebben een oneindig aantal mogelijke uitkomsten. Zo kan een stochastische variabele elke waarde tussen 0 en 1 aannemen. We merken echter een probleem als we bijvoorbeeld de kans willen bepalen dat de uitkomst in het interval [0,3; 0,7] ligt. We kunnen moeilijk aan alle afzonderlijke waarden kansen toekennen en deze dan optellen. Daarom opteren we voor de oppervlaktes onder een kromme. De oppervlaktes van de kolommen in een kanshistogram worden niet langer aangewend om alleen kansen uit te beelden; we gaan ze gebruiken om kansen toe te kennen. We beginnen bij een eenvoudig voorbeeld. Stel dat alle uitkomsten uniform gespreid liggen: in dit geval heeft iedere waarde dezelfde kans. De totale hoogte en breedte van het kanshistogram bedraagt 1,wat overeenkomt met kans = 1. Stel nu dat we willen weten wat de kans is op een uitkomst in het interval [0,3; 0,7] of in het interval [0; 0,5] of de kans op een uitkomst buiten het interval [0,5; 0,8]. > P(0,3 ≤ xi ≤ 0,7) = 0,4 P (xi ≤ 0,5) = 0,5 P (xi ≤ 0,5 of xi ≥ 0,8) = 0,7
In bovenstaand voorbeeld zijn we uitgegaan van een uniforme kansverdeling. Het principe voor de andere continue stochastische kansverdelingen blijft hetzelfde. > De dichtheidskromme beschrijft de kansverdeling van een continue kansvariabele. De kans is die oppervlakte die zich bevindt onder de dichtheidskromme en boven het interval van uitkomsten (gebeurtenis A). Ook hier geldt dat de totale oppervlakte = 1 en voor alle x geldt dat p(x) ≥ 0
Bijvoorbeeld als we zouden willen nagaan hoeveel kans een Nederlander maakt om tussen de 75
en 80,5 kg te wegen, kunnen we dit doen aan de hand van deze oppervlakte onder de kromme. Aangezien we niet te maken hebben met uniforme verdelingen, moeten we onze kansen op een andere manier berekenen. We kunnen gebruik maken van integraalrekenen, maar we kunnen ook met ideaaltypische (theoretische) kansdichtheidsfuncties werken, met als bekendste voorbeeld daarvan de normaalverdeling N(µ,σ). Andere theoretische kansverdelingen zijn bijvoorbeeld: de Bernouilliverdeling, de binomiale verdeling, de multinomiale verdeling, de geometrische verdeling, de hypergeometrische verdeling, de Poissonverdeling, de exponentiële verdeling,… 2. Verwachting en variantie We beschrijven een kansverdeling via verwachting en variantie. A. Verwachting van een kansvariabele (μX) De verwachting van een kansvariabele is het gemiddelde van een kansverdeling. We hebben hier echter niet te maken met een gewoon rekenkundig gemiddelde. Niet iedere uitkomst is even waarschijnlijk. Dit gemiddelde is een gewogen gemiddelde (gewogen op kansen). Bijvoorbeeld: We hebben een loterij waarbij er 1000 mogelijke nummers zijn en slechts één nummer (dat aselect gekozen wordt) wint. Een lot kost € 1. De winnaar met het juiste nummer wint € 500. 1 kans op 1000 dat men wint. Als X het bedrag is dat men wint, dan is de kansverdeling als volgt:
We kunnen er niet van uitgaan dat de verwachte winst overeenkomt met het rekenkundig gemiddelde, want dan zou € 250 de verwachte winst zijn; het winnen van € 500 is echter veel minder waarschijnlijk dan de winst van € 0. Men wint in feite, op lange termijn, maar 1 op 1000 keer € 500 maar wint daarnaast 999 op 1000 keer niets (€ 0). > € 500 * + € 0 * = € 0,50 De verwachte winst is dus € 0,50. De formule lijkt op deze voor het gewoon rekenkundig gemiddelde, behalve dat we de waarden hier niet met de juiste frequenties, maar wel met de bijhorende kans op voorkomen, vermenigvuldigen. Formule: μX= x1p1 + x2p2 + … + xkpk Rekenregels: Als X en Y stochastische variabelen zijn dan μX+Y = μX + μY Met constante optellen of vermenigvuldigen: μa+bX = a + bμX B. Variantie van een kansvariabele (σ2X ) Naast het beschrijven van een centrummaat (de verwachting) hebben we ook nood aan een maat die de spreiding van de verdeling beschrijft. Doordat we verwachting als centrummaat hebben, is de variantie de logische spreidingsmaat. De formule van de variantie van een kansvariabele is analoog aan de formule van de variantie van een gegevensverzameling, met dit verschil dat elke uitkomst (zoals bij de berekening van het gemiddelde van een kansvariabele) wordt gewogen met zijn kans, om zo rekening te houden met uitkomsten die niet even waarschijnlijk zijn.
σ2X = (x1 μX)2p1 + (x2 μX)2p2 + … + (xk μX)2pk Regels voor varianties : Indien X en Y onafhankelijke stochastische variabelen zijn: σ2X+Y= σ2X + σ2Y σ2XY = σ2X + σ2Y Optellen/vermenigvuldigen met constante: σ2a+bX = b2σ2X C. Wet van de grote aantallen We kunnen deze wet best uitleggen aan de hand van een eenvoudig voorbeeld. Nemen we de gemiddelde lengte van de Belgen. Indien we een steekproef nemen van 10 000 Belgen en van hen het gemiddelde berekenen, berekenen, hebben we een grotere kans dat dit gemiddelde dichter ligt bij het gemiddelde van alle (10 miljoen) Belgen dan als de gemiddelde lengte berekend wordt op basis van een steekproef van 100 Belgen. Naarmate de steekproef groter wordt, neemt de kans toe dat het steekproefgemiddelde dicht bij het populatiegemiddelde komt. Indien je meer uitleg wilt hierover, verwijzen we naar het handboek van Moore & McCabe. LEES MEER: Moore & McCabe: pp. 179204
Studie van de systematiek van het toeval: Steekproevenverdeling van aantallen, fracties en gemiddelden 1. Algemeen We weten reeds dat steekproefgrootheden kansvariabelen zijn en dat kansvariabelen een bepaalde kansverdeling hebben. Bij steekproefgrootheden noemen we deze kansverdeling de steekproevenverdeling. Ter herhaling: Steekproefgrootheden zijn alle mogelijke samenvattende maten voor één steekproef die we bij beschrijvende statistiek reeds overlopen hadden. Bijvoorbeeld: het gemiddelde voor een bepaalde variabele binnen een steekproef, het percentage dat tot een bepaalde categorie behoort binnen een steekproef, de standaardafwijking binnen een steekproef,… > Steekproevenverdeling: Deze verdeling geeft weer hoe steekproefgrootheden variëren bij een onbeperkt aantal herhaalde steekproeftrekkingen (= een theoretische verdeling) uit de zelfde populatie met zelfde n. Bijvoorbeeld: de steekproevenverdeling van het percentage leden van Greenpeace in Vlaanderen. Je trekt alle mogelijke steekproeven (indien we er van uitgaan dat het realistisch is om alle mogelijke steekproeven uit de populatie te trekken), je probeert vervolgens het percentage 'leden' binnen iedere steekproef te bepalen en in een histogram kan je dan nagaan hoe vaak ieder percentage terugkwam. Opmerking!: Hou de steekproefverdeling, de steekproevenverdeling en de populatieverdeling goed uit elkaar!
> De steekproefverdeling is de verdeling van een variabele in één steekproef uit een populatie. > De populatieverdeling is de verdeling van een variabele in een volledige populatie... > ... terwijl een steekproevenverdeling het gedrag van een steekproefgrootheid (bv. percentage) weergeeft bij een onbeperkt aantal steekproeftrekkingen. Let goed op: een steekproevenverdeling is als enige van de drie verdelingen een puur theoretische verdeling. 2. Relevantie van de steekproevenverdeling? In de inductieve statistiek zullen wij aan de hand van steekproefgrootheden populatiegrootheden (parameters) schatten. De basislogica hiervoor komt voort uit het principe van 'zuivere schatter'. Een zuivere schatter houdt in dat de verwachting van de steekproevenverdeling overeenkomt met de populatiegrootheid. Letterlijk kan je dit principe van de 'zuivere schatter' interpreteren als: een steekproef biedt je een schatting van wat je in de populatie zal terugvinden. Je verwacht telkens wanneer je een steekproef trekt, in het beste geval hetzelfde gemiddelde, percentage,… als in de populatie terug te vinden. Een steekproef kan echter afwijken (door toeval) van de populatie. Mocht je echter heel veel (oneindig veel) steekproeven kunnen trekken, dan zouden al deze steekproefgrootheden (uitgezet in een steekproevenverdeling) gemiddeld genomen wel gelijk zijn aan de populatiegrootheid. > Steekproefverdeling: (in dit voorbeeld heeft deze steekproef een gemiddelde leeftijd van 46 j.)
> Populatieverdeling: (de populatie waaruit de vorige steekproef getrokken is in dit voorbeeld heeft een gemiddelde van 44,5j.)
> Steekproevenverdeling:
Een steekproevenverdeling bezit ook spreiding. We meten deze aan de hand van de standaardafwijking (σ). Bijvoorbeeld: Stel dat we 1000 enkelvoudige aselecte steekproeven trekken van 1785 personen. De standaardafwijking komt overeen met 0,01 Dan kunnen we stellen, op basis van onderstaand histogram, dat 95% van de steekproeven een resultaat in het interval [0,58 , 0,62] zal opleveren.
Ook neemt de spreiding van de steekproevenverdeling af naarmate de steekproefomvang groter wordt!
In de praktijk komt het er vooral op neer om te werken met een goed steekproefontwerp en een voldoende grote steekproef. Zo is de kans groter dat we te maken hebben met een zuivere schatter en een steekproevenverdeling met een kleine standaardfout. 3. Studie van steekproevenverdelingen van gangbare steekproefgrootheden 3.1. AANTAL EN FRACTIE Twee belangrijke steekproefgrootheden zijn: • Aantal > Aantal keer bepaalde respons (X) Bijvoorbeeld een steekproef met 1850 mensen waarvan 780 positief antwoorden op de vraag 'studeert u nog?': X= 780 • Fractie > Aantal keer bepaalde respons in verhouding tot het aantal waarnemingen ( = X/n) Bijvoorbeeld 1000 van 1500 mensen stelden dat zij tevreden waren met een nieuw televisieprogramma: = 1000/1500 = 0,66 We gaan in dit onderdeel op zoek naar de steekproevenverdeling van deze steekproefgrootheden. 3.1.1. Binomiaalverdeling A. Algemeen Een eerste verdeling is de binomiale verdeling. Maar het is van belang dat er voldaan wordt aan bepaalde voorwaarden vooraleer we te maken hebben met een binomiale verdeling: Er is een vast aantal waarnemingen (n) De n waarnemingen zijn onafhankelijk Elke waarneming kan 2 waarden aannemen met elk een bepaalde kans: ofwel kans op gebeurtenis (succes) (= p), ofwel kans op nietgebeurtenis (mislukking) (= q). p (kans op succes) is voor elke waarneming gelijk > De binomiaalverdeling is de verdeling van het aantal successen X in de binomiale situatie met parameters n en p. Parameter n slaat op het aantal waarnemingen, p op de kans op elke individuele waarneming. X volgt B(n,p) Bijvoorbeeld: 20 worpen met een teerling: X = 6 gooien: n= 20 p= 1/6 = 0,17 B(20 , 0,17) Opmerkingen! We hebben te maken met een discrete kansverdeling. Opletten voor afhankelijkheid! We willen bijvoorbeeld een steekproef trekken van 10 personen uit een populatie van 20 personen, waarbij we 'X = vrouw zijn' willen nagaan. We weten dat p= 0,50 is. De kans dat de eerste persoon een vrouw is, is p= 0,50 (want 10/20). De kans dat de tweede persoon die getrokken wordt een vrouw zal zijn is al iets kleiner (p=0,47368 want 9/19). De waarnemingen zijn hier dus niet onafhankelijk, aangezien de kans van de tweede persoon om vrouw te zijn afhangt van het feit of de eerste persoon al dan niet een vrouw was. Dit verschil verdwijnt indien we een grotere populatie nemen. Nemen we opnieuw een steekproef van 10 personen, maar uit een populatie van 20.000. Aangezien p nog steeds 0,50 is kunnen we uitgaan van 10.000 vrouwen. De kans dat de eerste persoon tot het vrouwelijke geslacht behoord
is 0,50 (want 10.000/20.000). De kans dat de tweede persoon een vrouw is dan 0,49997 (9.999/19.999). De kansen zijn dus nog steeds niet precies even groot, maar de verschillen worden nu wel verwaarloosbaar klein. > Algemeen kunnen we op basis van dit voorbeeld besluiten dat de steekproevenverdeling van X bij benadering binomiaal is als de populatie groot genoeg is in verhouding tot de steekproef die eruit getrokken wordt. Vuistregel: populatie hoort tien maal groter te zijn dan de steekproef. B. Binomiale kansen We kunnen uiteraard ook berekenen wat de kans is dat de binomiale kansvariabele een bepaalde waarde aanneemt. Er bestaan formules voor (aan de hand van tabel C: zie achterin het boek van Moore & McCabe) maar in de praktijk kan men hier software voor aanwenden. Tabel C gebruiken we als volgt: we willen de kans bepalen dat X= k m.a.w. P(X = k). Laten we er van uitgaan dat X = aantal jongeren dat op school moest zitten, en dat we een leerkracht hebben die spijbelaars wil opsporen die op café zitten. Hij plant een jongerencafé binnen te wandelen en 10 cafégangers te controleren of het geen studenten van hem zijn. Laten we ervan uit gaan dat p = 0,10. Hoeveel kans heeft hij dat niet meer dan één spijbelaar gevonden wordt? > B(10, 0,1) P (X ≤ 1) = P (X = 1) + P (X = 0) = 0,3874 + 0, 3487 = 0, 7361 Deze gegevens lezen we af in tabel C: We kijken naar n = 10 en naar de kolom p = 0,10.
We kunnen stellen dat ongeveer 74% van alle steekproeven niet meer dan één spijbelaar zal hebben. 35% zal helemaal geen spijbelaar hebben. C. Verwachting en variantie Bij binomiale verdelingen is het berekenen van verwachting en variantie eenvoudiger dan bij kansvariabelen in het algemeen: Als X de B(n,p) verdeling heeft, dan: μx= np
σ2x=np (1p) Geïllustreerd aan de hand van een voorbeeld: Er wordt een onderzoek opgestart dat de effectiviteit van een geneesmiddel tegen hartaanvallen nagaat. Het is van belang dat de steekproefgrootte voldoende groot is zodat er genoeg hartaanvallen kunnen worden waargenomen. Het onderzoek plant om aan 2000 mannen het geneesmiddel te geven (dat cholesterol verlaagt en het aantal hartaanvallen zou kunnen doen afnemen) en aan 2000 mannen een placebo. Indien zij het geneesmiddel niet toegediend krijgen, hoeveel hartaanvallen zouden wij dan kunnen waarnemen in een groep als deze, wetende dat het onderzoek 5 jaar zal duren en de kans op een hartaanval in deze periode voor mannen uit deze leeftijdscategorie 0,04 is? > Het aantal hartaanvallen X heeft de verdeling B(2000, 0,04). Wat betekent: binomiaal verdeeld, met 2000 eenheden in de steekproef en een kans op “succes” in de populatie van 0,04 μx= np = 2000*0,04 = 80 σ2x= np(1p) = 2000*0,04*0,96 = 76,8 σx= 8,76 Het verwachte aantal hartaanvallen is groot genoeg om conclusies te mogen trekken omtrent de effectiviteit van het geneesmiddel. D. Steekproeffracties Voor het schatten van de fractie successen p in onze populatie, gaan we als volgt te werk: = aantal successen in de steekproef (X) / steekproefomvang (n) = X/n Formules: μ *
= ^p
σ *
=
Maar een fractie (^p) is niet binomiaal verdeeld, een aantal (X) wel. Toch kunnen we kansberekeningen maken over door herformulering in termen van het aantal X en gebruik te maken van een binomiale verdeling. We vertalen in feite de fractie naar een aantal: een steekproeffractie van 52% op bijvoorbeeld 1000 man wordt dan 520. Indien we willen nagaan wat de kans is dat een EAS van 1000 volwassen Belgen minstens 52% vrouwen bevat, met een p van 0,50, dan: > B(1000, 0,5) > P(^p≥ 0,52) = P(X ≥ 520) = P(X=520)+ P(X=521)+ … + P(X=1000) De oplossing van deze bewerking besparen we je want wat we hier vooral wilden aantonen is dat de berekening hiervan bijzonder omslachtig is. Er bestaat een eenvoudigere oplossing, en dat is de normale benadering. Die hanteren we zodra onze n > 20 (Zo zal je n > 20 niet terugvinden in tabel C). De binomiale verdeling gebruiken we bij een kleinere n én indien uiteraard voldaan is aan de voorwaarden van de binomiale situatie.
3.1.2. Normaalbenadering Bij grote n (> 20) benadert de steekproevenverdeling van
(binomiaal) de normale verdeling N(
). Dit geldt ook voor een aantal: X: N(
)
Deze twee normale benaderingen stellen in feite dat en X normaal verdeeld zijn met hun gewone verwachting en standaardafwijking. Indien deze verdelingen nauwkeurig horen te zijn, zal dit vooral het geval zijn wanneer er een grote n is. Ook als de p dicht bij 0,5 ligt, is deze benadering het meest nauwkeurig. De normaalbenadering is minder aan te raden wanneer: n kleiner is p sterker afwijkt van 0,5, dus dicht bij ofwel 0 ofwel 1 ligt 3.2. STEEKPROEFGEMIDDELDEN Nemen we van alle steekproeven die we uit een populatie zouden kunnen trekken het gemiddelde van de steekproefgemiddeldes, en plaatsen we ze allemaal in onze steekproevenverdeling dan zal de verwachting van de steekproevenverdeling overeenkomen met het gemiddelde van de populatie (zuivere schatter). > Indien het gemiddelde is van een EAS (enkelvoudige aselecte steekproef) van omvang n uit een populatie met verwachting μ en standaardafwijking σ, dan geldt: Waarmee we bedoelen dat, indien een zuivere schatter, de verwachting van de steekproevenverdeling van het gemiddelde gelijk zal zijn aan het populatiegemiddelde. Anders gezegd: het gemiddelde van de steekproevenverdeling van de steekproefgrootheid 'gemiddelde' moet, bij een oneindig aantal steekproeftrekkingen, gelijk worden aan het populatiegemiddelde. σ2x = σ/√n Net zoals voor fracties zal je merken dat de grootte van de standaardfout ook hier afhankelijk is van de grootte van de steekproef. Hoe groter de steekproef (hoe groter n), hoe groter en hoe kleiner σ2x of de standaardfout dus zal zijn. Dit is ook logisch, want steekproefgrootheden uit grotere steekproeven benaderen de populatieparameter beter. Is je steekproevenverdeling dus een verdeling van steekproefgrootheden uit kleine steekproeven, dan zal je een grotere spreiding (standaardfout) terugvinden dan wanneer je steekproevenverdeling teruggaat op grote steekproeven. De vorm van de steekproevenverdeling zelf volgt deze van de populatieverdeling: Als de populatieverdeling N(μ,σ) is, dan volgt de steekproevenverdeling N(μ, σ/√n). Opgelet: De centrale limietstelling (CLS) Bij een grote n, ook al is de populatieverdeling niet normaal verdeeld is, volgt de steekproevenverdeling van
bij benadering een normaalverdeling.
Ter illustratie: De CLS in actie (steekproevenverdeling met achtereenvolgens n=1, n=2, n= 10)
LEES MEER: Moore & McCabe: pp. 148156, 221237, 240250
Betrouwbaarheidsintervallen De resultaten die je terugvindt in een (representatieve) steekproef uit een populatie, kunnen door toeval afwijken van het 'werkelijke' resultaat in de volledige populatie. Meestal willen we echter op basis van één steekproef uitspraken doen over de volledige populatie waaruit een steekproef getrokken is. Hiervoor kunnen we één van de twee basistools van de inductieve statistiek gebruiken: betrouwbaarheidsintervallen en significantietoetsen. In dit hoofdstuk behandelen we de betrouwbaarheidsintervallen. Stel dat je de gemiddelde lichaamslengte van alle Belgische kinderen tussen 10 en 14 wil weten. Je kan ze moeilijk allemaal meten, dus neem je een representatieve steekproef van bijvoorbeeld 1000 kinderen. Uit deze steekproef blijkt een gemiddelde van bijvoorbeeld 135 cm met een standaardafwijking van 20 cm. Gewoon op basis van deze steekproef zeggen dat de gemiddelde lichaamslengte van alle kinderen tussen 10 en 14 jaar 135 cm is, is onjuist. We weten immers al dat een steekproefgrootheid een kansvariabele is: het resultaat in een aselecte steekproef kan – door toeval afwijken van het werkelijke resultaat in de populatie (zie ‘Steekproevenverdelingen'). We weten wel dat, bij een correct toegepast steekproefdesign, de steekproefgrootheid een zuivere schatter is van de ‘werkelijke' waarde in de populatie. Of anders uitgedrukt: de verwachting van de steekproevenverdeling van de steekproefgrootheid is gelijk aan de ‘werkelijke' waarde in de populatie. Steekproefgrootheden variëren niet willekeurig, ze variëren rond de populatiewaarde. Bovendien kennen we ook de kenmerken van de steekproevenverdeling: vorm (=normaalverdeling bij grote n), verwachting (=populatiewaarde) en standaardafwijking ( σ / √ n of s / √ n ). Van deze kennis maken we gebruik om een betrouwbaarheidsinterval op te stellen. Met een betrouwbaarheidsinterval maak je van een puntschatting (135 cm) een meer veilige intervalschatting. Dat houdt in dat je rond het steekproefresultaat een interval opbouwt: een stuk naar beneden en een even groot stuk naar boven. Het stuk dat we bijtellen en aftrekken van de steekproefgrootheid noemen we de foutenmarge. Op die manier calculeer je de onzekerheid in door het werken met een steekproef. De foutenmarge kan je bepalen op basis van
de standaardafwijking uit je steekproef (als schatting voor de standaardafwijking in de populatie) de gewenste betrouwbaarheid (90%, 95%, …) (met de bijhorende z of tscore die we aanduiden als de 'kritieke zscore of kritieke tscore').
Mocht de populatiespreiding σ gekend zijn, en in het geval van een correcte steekproeftrekking, dan zou de steekproevenverdeling van het gemiddelde een normaalverdeling volgen (zie ‘Steekproevenverdelingen'). Deze steekproevenverdeling van het gemiddelde heeft dan een verwachting μ en een spreiding of standaardfout σ/√n. Het is echter zeer onwaarschijnlijk dat deze populatiespreiding exact gekend is. Een oplossing is om de spreiding s van de steekproef te gebruiken als schatting voor σ. Dit geeft echter een bijkomende onzekerheid. Deze extra onzekerheid kan je opvangen door te werken met de t verdeling, in plaats van met de z(standaardnormaal) verdeling. Altijd wanneer je s als schatter neemt voor σ, moet je tverdeling gebruiken. Het is wel zo dat wanneer n groot wordt, de tverdeling heel sterk op de zverdeling gaat lijken. Maar niettemin blijft de regel: werk met t als je populatiestandaardafwijking niet kent (m.a.w.: in realiteit praktisch altijd) want je schat de populatiestandaardafwijking en bouwt daarmee extra onzekerheid in. We gaan vanaf nu dus uit van de situatie waarin enkel s gekend is, en vertrekken bij deze theoretische tkansverdeling als steekproevenverdeling van het gemiddelde. In elke tverdeling bij df= 999 (10001) zal 95% van de waarnemingen zich tussen 1,98 en +1,98 standaardafwijkingen of standaardfouten van het gemiddelde bevinden. In het voorbeeld kunnen we de standaardafwijking van de steekproevenverdeling van het steekproefgemiddelde schatten als: 20 / √1000 = 0,63. D e kans dat het gemiddelde uit je steekproef maximaal 1,25 (1,98*0,63) punten afwijkt van μ zal dan gelijk zijn aan 95%. Nog anders gesteld: we mogen er met 95% betrouwbaarheid van uitgaan dat de verwachting uit onze
populatie maximaal 1,25 punten hoger of 1,25 punten lager is dan het steekproefresultaat dat we vonden. De foutenmarge die we bij het steekproefresultaat optellen/van het steekproefresultaat aftrekken om tot een intervalschatting te komen, in het geval de populatiespreiding (zoals in het voorbeeld) niet gekend is, wordt: t * s / √n Op basis van de formule van de foutenmarge weten we nu dat
Betrouwbaarheidsintervallen groter worden als de spreiding in de populatie of de spreiding in de steekproef (als schatter voor de spreiding de populatie) groter is. Betrouwbaarheidsintervallen kleiner worden naarmate de steekproefomvang (n) groter is. Betrouwbaarheidsintervallen kleiner worden naarmate de betrouwbaarheid van de schatting kleiner wordt (en de bijhorende kritieke zscore of kritieke tscore kleiner is), maar groter worden naarmate de betrouwbaarheid van de schatting toeneemt.
Omgezet naar het voorbeeld (en uitgaande van 95% betrouwbaarheid, met een bijhorende tscore van 1,98), wordt de foutenmarge dus: 1,98 * 20 / √ 1000 = 1,25 Deze term wordt gebruikt om het interval op te stellen: 135 – 1,25 = 133,75 135 + 1,25 = 136,25 Wat de volgende conclusie oplevert: Op basis van de steekproef, en met 95% betrouwbaarheid, schatten we dat de gemiddelde lichaamslengte van alle Belgische kinderen tussen 10 en 14 jaar ligt tussen 133,75 cm en 136,25 cm. Conclusie:
Er is altijd een spanning tussen betrouwbaarheid en informativiteit. Je kan kiezen voor een 99,99% betrouwbare uitspraak, maar dan krijg je een zeer breed interval waar je niks van informatie uithaalt (iets in de stijl van 'het gemiddelde ligt tussen 100 cm en 170 cm'). Of je kan kiezen voor een uitspraak met veel informatie (vb het gemiddelde ligt tussen 134,8 en 135,2) maar dat gaat ten koste van de betrouwbaarheid.
Nog enkele aandachtspunten:
De interpretatie is gebaseerd op 'betrouwbaarheid' en niet op 'kans'. We spreken dus ook liever over 'betrouwbaarheid' dan over 'zekerheid'.
Dezelfde logica kan je nu gaan toepassen voor: • een verschil tussen verwachtingen (gemiddelden) Berekening betrouwbaarheidsinterval:
• fracties Berekening betrouwbaarheidsinterval:
• een verschil tussen fracties Berekening betrouwbaarheidsinterval:
• + nog veel meer, maar bovengenoemde zijn diegene behandeld in Statistiek 1
De nodige formules voor standaardfouten en foutenmarges vind je terug in het handboek van Moore & McCabe. LEES MEER: Moore & McCabe: pp. 256269
Significantietoetsen Waar je bij een betrouwbaarheidsinterval vertrekt vanuit een steekproef, neem je bij een significantietoets een theoretische veronderstelling als uitgangspunt. Aan de hand van de vergelijking van je steekproefresultaat met het theoretische uitgangspunt, kan je iets zeggen over de veralgemeenbaarheid van het steekproefresultaat. Anders gezegd: bij een betrouwbaarheidsinterval wil je aan de hand van een intervalschatting uit een steekproef een populatieparameter schatten, bij een significantietoets gebruik je een puntschatting uit een steekproef als bewijsmateriaal om een bewering over de populatie te evalueren. Een concreet voorbeeld. Stel dat je uit de resultaten van ander onderzoek, en vertrekkende vanuit theoretische veronderstellingen, kan vermoeden dat de gemiddelde lichaamslengte van kinderen tussen 10 en 14 in de voorbije 10 jaar is toegenomen. Tien jaar geleden bedroeg de gemiddelde lengte in die leeftijdsgroep 135 cm. In een steekproef van 100 kinderen die we vandaag nemen, meten we een lichaamslengte van 140 cm, met een standaardafwijking van 3,5. Dat we een hoger gemiddelde vinden dan 10 jaar geleden kan er inderdaad op wijzen dat de lichaamslengte van deze kinderen gemiddeld is toegenomen, maar kan evengoed te wijten zijn aan toeval door het werken met een steekproef. Hoe sterk is ons bewijsmateriaal? Dit kunnen we nagaan door een significantietoets. In de eerste stap formuleren we een nulhypothese (H0). Dit is de hypothese waartegen we bewijs willen vinden (die we willen verwerpen) en wordt meestal geformuleerd als het tegenovergestelde van wat we denken te kunnen aantonen. In het voorbeeld vermoeden we een toename van de gemiddelde lichaamslengte. Als nulhypothese formuleren we dan ook het omgekeerde: de lichaamslengte is gelijk gebleven (op een gemiddelde van 135 cm). Dus: H0 : μ =35.In de volgende stappen zoek je bewijs TEGEN deze H0. Hoe sterk dat bewijs is tegen de nulhypothese wordt uitgedrukt door de significantietoets. In de tweede stap bepaal je de alternatieve hypothese (Ha ). Dit is de hypothese waarvan je vermoedt dat ze waar is. In het voorbeeld is dit dat de gemiddelde lichaamslengte in de populatie van jongeren tussen 10 en 14 nu hoger is dan 135 cm: Ha : μ > 135 Het belang van de alternatieve hypothese schuilt vooral in het bepalen van de richting waar bewijs tegen de nulhypothese moet gezocht worden. In het voorbeeld vermoeden we een afwijking van 135 cm in slechts één richting (hoger dan 135 cm). Dit leidt tot een eenzijdige toets . Mochten gewoon maar een verschil t.o.v. 135 cm verwacht hebben (zonder te vermoeden of het nu groter dan wel kleiner is dan 135 cm) zouden we een tweezijdige toets gebruiken. In dit voorbeeld gaan we uit van een verschil in de opwaartse richting, dus zullen we een eenzijdige toets uitvoeren. Merk op dat we voor significantietoetsen (net als bij betrouwbaarheidsintervallen) steeds verwijzen naar populatiegrootheden. We willen immers uit de steekproef iets zeggen over de populatie. Merk ook op dat in de nulhypothese steeds wordt uitgegaan van één concrete verwachte waarde (bijvoorbeeld μ = 135 cm). De alternatieve hypothese wordt dan geformuleerd in termen van een afwijking tot die concrete verwachte (in feite groter dan, kleiner dan of verschillend aan de verwachte waarde). In de derde stap volgt de evaluatie: hoe sterk is het bewijsmateriaal tegen de nulhypothese? Hiervoor berekenen we de kans dat als de nulhypothese waar is, we een resultaat in een steekproef vinden dat zo sterk (of sterker) afwijkt van hetgeen we in de nulhypothese formuleerden. We noemen deze kans de overschrijdingskans. Is die kans groot, dan is het waarschijnlijk dat het gevonden verschil tussen de nulhypothese en het steekproefresultaat kan toegeschreven worden aan toeval door het werken met een steekproef. We kunnen de nulhypothese dan ook niet verwerpen (hebben er geen voldoende bewijsmateriaal tegen). Is de overschrijdingskans zeer klein dan is de kans dat het beschouwde verschil aan toeval te wijten is zeer klein en hebben we sterk bewijsmateriaal tegen de nulhypothese.
Hoe berekenen we nu deze overschrijdingskans? Hiervoor grijpen we terug naar de basislogica omtrent steekproevenverdelingen als kansverdelingen van steekproefgrootheden. In het voorbeeld moeten we een overschrijdingskans berekenen voor een gemiddelde uit een steekproef, uitgaande van een nulhypothese over het gemiddelde in de populatie (“μ”). De steekproevenverdeling volgt in dit voorbeeld een tverdeling met als verwachte waarde μ 135 cm , bij 99 (1001) vrijheidsgraden. De standaardfout van deze steekproevenverdeling bedraagt s/√n of 3,5/√100 of 0,35 (zie ook ‘Steekproevenverdelingen' en ‘Betrouwbaarheidsintervallen') De toetsingsgrootheid die we in dit geval moeten berekenen is een twaarde, aangezien we van de tverdeling uitgaan. Deze t wordt berekend als (gemiddelde in de steekproef – verwachte waarde, uitgaande van de nulhypothese)/standaardfout van de steekproevenverdeling Of t= (140135)/ 0,35= 14,29 De kans op dergelijke twaarde, volgens de tverdeling bij df=99, is kleiner dan 0,0005. Voor meer uitleg omtrent de concrete berekeningen en tabellen met kansen verwijzen we naar het handboek van Moore & McCabe. Hoe klein moet die kans zijn om te spreken van een statistisch significant resultaat? Dit wordt bepaald door het gekozen significantieniveau. In de sociale wetenschappen is het gangbaar te werken met een significantieniveau van 0,05 (of 5%). Dit impliceert dat we bereid zijn om het risico te lopen in 5% van alle mogelijke steekproeven de nulhypothese verkeerderlijk te verwerpen (verwerpen terwijl ze eigenlijk waar is). Voor het gevonden verschil tussen 140 cm en 135 cm vinden we een overschrijdingskans die kleiner is dan 0,0005. Dit wil dat zeggen dat als de nulhypothese waar is ( μ =135) we in minder dan 0,05% van alle mogelijke steekproeven die we uit de populatie kunnen trekken een afwijking vinden die zo groot is als waargenomen (140 cm t.o.v. 135 cm) of groter. Die kans is klein (ook kleiner dan 5%) dus kunnen we op het 5% of 0,05 significantieniveau besluiten om de nulhypothese te verwerpen. We vinden wel degelijk een statistisch significant verschil t.o.v. 135 cm in de opwaartse richting, en dus een aanwijzing voor de alternatieve hypothese. Dezelfde logica kan je gaan toepassen voor:
een verschil tussen verwachtingen (gemiddelden)
Berekening toetsingsgrootheid:
fracties
Berekening toetsingsgrootheid:
een verschil tussen fracties
Berekening toetsingsgrootheid:
het verband tussen twee variabelen: de chikwadraattoets. Hiervoor verwijzen we naar de volgende pagina.
(+ nog veel meer, maar bovengenoemde zijn diegene behandeld in Statistiek 1).
Merk uiteraard op dat zowel de formulering van de nulhypothese (en alternatieve hypothese), als de steekproevenverdeling en bijhorende toetsingsgrootheid, verschillen naargelang de steekproefgrootheid waarvoor je een toets uitvoert. De nodige formules en tabellen met kansverdelingen vind je terug in Moore & McCabe. LEES MEER: Moore & McCabe: pp. 271287
De chikwadraattoets Om de samenhang tussen twee categorische of kwalitatieve variabelen grafisch weer te geven, maken we gebruik van kruistabellen (zie ‘Relaties tussen categorische variabelen’) Binnen de inductieve statistiek kunnen we deze samenhang tussen twee categorische variabelen bovendien ook statistisch toetsen. Er wordt daarbij steeds uitgegaan van dezelfde nulhypothese. H0: Er bestaat in de populatie geen enkel verband tussen de twee variabelen. Ha: In de populatie is er sprake van een verband tussen beide variabelen. Hierbij zullen we gebruik maken van een zeer specifieke toetsingsgrootheid en bijhorende kansverdeling (steekproevenverdeling): de chikwadraatverdeling (χ2verdeling). χ2 is met andere woorden de toetsingsgrootheid waarmee we zullen kunnen nagaan of er sprake is van een ‘statistisch significant verband’ tussen twee categorische of kwalitatieve variabelen. Daartoe trachten we voldoende bewijs te vinden tegen de nulhypothese, die stelt dat er geen enkele vorm van associatie bestaat tussen de twee variabelen, dat ze statistisch onafhankelijk zijn. In de berekening van toetsingsgrootheid χ2 vertrekken we dan ook bij deze veronderstelling van‘statistische onafhankelijkheid’. χ2 drukt het verschil uit tussen de waargenomen celfrequenties en de celfrequenties die we mogen verwachten bij volkomen statistische onafhankelijkheid. Formule:
Waarbij f(o)= geobserveerde celfrequentie en f(e)= verwachte celfrequentie bij statistische onafhankelijkheid Een voorbeeld maakt het duidelijk. We beschouwen een enkelvoudige aselecte steekproef van 1454 Belgische volwassenen, en bekijken wie tijdens het afgelopen jaar ontslagen werd. We maken de opsplitsing naar leeftijd: jonger dan 40 jaar en 40 jaar of ouder. In dit geval willen we nagaan of leeftijd samenhangt met het al dan niet ontslagen worden, en of dit verband statistisch significant is. We zullen dit doen aan de hand van een chikwadraattoets. Tabel met geobserveerde frequenties
Jonger dan 40 jaar
40 jaar of ouder
16
82
98
Niet ontslagen
585
771
1356
Totaal
601
853
1454
Ontslagen
Totaal
Vanuit de tabel met geobserveerde frequenties zullen we vervolgens de celfrequenties bepalen, die we zouden mogen verwachten mocht er geen enkel statistisch verband bestaan tussen beide variabelen. Deze verwachte celfrequenties bereken je aan de hand van de marginale verdelingen, namelijk: f(e) = rijtotaal * kolomtotaal/totaal Op die manier komt de verdeling in de ene variabele (bijvoorbeeld ‘Al dan niet ontslag gekregen’) totaal los te staan van de verdeling in de andere variabele (‘Leeftijdscategorie’) Tabel met verwachte celfrequenties Ontslagen Niet ontslagen
Jonger dan 40 jaar
40 jaar of ouder
40,5076
57,4924
560,4924
795,5076
De verwachte en geobserveerde celfrequenties zal je vervolgens met elkaar gaan vergelijken, namelijk door voor elke cel het gekwadrateerde verschil tussen beide frequenties te berekenen. Dit gekwadrateerde verschil deel je vervolgens door de verwachte celfrequentie. Voor de eerste cel (ontslagen, jonger dan 40 jaar) wordt dat: (1640,5076)2/40,5076 = 14,83 Tabel met [f(e) f(o)]2 / f(e). Ontslagen Niet ontslagen
Jonger dan 40 jaar
40 jaar of ouder
14,83
10,45
1,07
0,76
χ2 wordt dan berekend door de som te nemen van deze laatste waarden. In dit geval:
χ2 = 14,83 + 10,45 + 1,07 + 0,76 = 27,11 Vervolgens zullen we de berekende waarde opzoeken in de tabel met χ2verdelingen (kansverdelingen voor χ2), waarbij de verdeling telkens afhankelijk is van het aantal vrijheidsgraden. Dit aantal vrijheidsgraden wordt bepaald door (r1) * (k1) (=(aantal rijen – 1) * (aantal kolommen – 1)). Onderstaande figuur toont een aantal χ2verdelingen, telkens voor een bepaald aantal vrijheidsgraden. We merken dat de spreiding groter wordt naargelang het aantal vrijheidsgraden toeneemt. In ons voorbeeld geval bedraagt het aantal vrijheidsgraden, df, dus ‘1’ (=(2 – 1) * (2 – 1). We zoeken vervolgens de waarde 27,11 op in de tabel met χ2 verdelingen. Bij df 1 is de kans op een χ2 van 27,11 of groter, kleiner dan p= 0,0005, wat ons doet besluiten dat het verband tussen beide variabelen statistisch significant is op het 0,01significantieniveau en zelfs op het 0,001 of 0,0005 significantieniveau (zie onderstaande afbeelding).
Chikwadraat vormt verder de basis voor een heleboel andere associatiematen, maten die de sterkte en eventueel ook de richting van de samenhang tussen twee variabelen in 1 cijfer statistisch weergeven. De nodige tabellen met kansverdelingen vind je terug in Moore & McCabe. LEES MEER: Moore & McCabe: pp. 395427
Gebruik en misbruik van inductieve statistiek Het is belangrijk te beseffen dat je significantietoetsen en betrouwbaarheidsintervallen niet ondoordacht kan gebruiken. > Zo moet de kwaliteit van de steekproef in orde zijn: representatieve, correct getrokken steekproef waarbij de trekkingskans voor de eenheden gekend is opletten voor uitschieters n voldoende groot > Vervolgens moet het significantieniveau doordacht gekozen worden. Dit hangt af van: Hoeveel zekerheid is nodig? Met andere woorden wat is de sterkte van het bewijs waar je naar op zoek bent? In principe geldt: hoe kleiner het significantieniveau hoe meer zekerheid, maar dat levert dan weer verlies aan informatie op... (zie vorige pagina's) Steekproefomvang Relativiteit significantieniveau. Stel dat je bijvoorbeeld een resultaat vindt met 5,2 % overschrijdingskans… In zo'n geval moet je goed beseffen dat de 5% significantieregel maar een hulpmiddel is en je als onderzoeker zelf moet durven oordelen in specifieke situaties. > Let ook op bij herhaaldelijk toetsen: het komt hier op neer dat indien je heel veel verschillende toetsen uitvoert op bijvoorbeeld het 5% significantie niveau, je uiteindelijk kansen gaat 'kapitaliseren'. Wat is dan nog de waarde van het 'significante resultaat' dat je gevonden had? Onthoud dat statistische significantie bewijskracht levert voor het verwerpen van H0, niet voor ultiem bewijs. Wetenschappelijk inzicht spruit voort uit herhaaldelijk vinden van vergelijkbare resultaten. Soms moet je een beslissing nemen en dan kan het zijn dat je een fout maakt: Ofwel is het een fout van type I: hierbij verwerp je H0 terwijl ze juist is. Ofwel is het een fout van type II: hierbij aanvaard je H0 terwijl Ha juist is. Beslissing op grond van steekproef:
LEES MEER: Moore & McCabe: pp. 288293