2de bach PSW
Statistiek 2 Smvt
Q B20
uickprinter Koningstraat 13 2000 Antwerpen www.quickprinter.be
7.50 EUR
1 Frequentieverdelingen en beschrijvende statistiek 1.1 Statistiek en sociaal-wetenschappelijk onderzoek 1.1.1
Fasen in sociaal-wetenschappelijk onderzoek
RAPPORTAGE
PROBLEEMSTELLING
ONDERZ OEKSONTWERP
DATA-ANALYSE
DATAVERZ AMELING
(zie slides voor uitgewerkt vb.) Probleemstelling: vergt substantiële (inhoudelijke) kennis van het vakgebied Onderzoeksontwerp en dataverzameling: onderzoeksmethoden, overzicht van courante onderzoeksdesigns in vakgebied, sterkte en zwakte van verschillende designs Data-analyse: Beschrijvende statistiek, inductieve statistiek, multivariate statistiek,.. Rapportering: wetenschapsmethodologie, literatuur opzoeken, refereren, wetenschappelijk taalgebruik
1.2 Doelstellingen statistiek 1.2.1 Beschrijvende statistiek Synthetiseren van een grote hoeveelheid gegevens (bv. 12000 enquêtes,…) tot enkele maten: bv. percentages, mediaan, kwantielen, gemiddelde, standaardafwijking, correlatiecoëfficiënt,… . We maken geen onderscheid tussen de beschrijving van de populatie of een steekproef. Mest voor de hand liggende procedure om beschrijvende informatie te krijgen over een variabele is door het opvragen van een frequentietabel. In SPSS wordt naast frequentieverdeling in absolute aantallen ook nog twee andere relatieve verdelingen berekend onder de noemers:
1
x x
Percent: weerspiegelt het aandeel v. elke waarde of categorie in het totaal, inclusief de categorieën die als missing werden gedefinieerd Valid percent: weerspiegelt het aandeel in het totaal van de geldige categorieën, exclusief de categorieën die als missing werden gedefinieerd
Laatste kolom bevat de cumulatieve relatieve frequentieverdeling berekend op basis van de kolom (valid percent) 1.2.2 Inductieve statistiek Uitspraken doen over de volledige bevolking op basis van resultaten van een steekproef uit die bevolking (bv. Veiligheidsmonitor, verkiezingsonderzoek, PSBH, …): veralgemeenbaarheid van steekproefresultaten naar de populatie waaruit de steekproef werd getrokken. 1.2.3 Statistische analyse Gericht op de verklaring van vastgestelde verschillen: bv. zijn verschillen in kijkgedrag tussen personen te wijten aan verschillen in opleidingsniveau, inkomen,… . Hoe belangrijk is elk van deze factoren in de verklaring van (verschillen in) kijkgedrag.
1.3 Maten van centrale tendens en spreiding Voor variabelen met groot # categorieën is frequentietabel weinig overzichtelijke Ö In sommige gevallen kan men gebruik maken van centrum- en spreidingsmaten om verdeling v/e variabele te typeren. Meetniveau v/d variabele = v. groot belang bij keuze gepaste maat x
Non-parametrische variabelen (nominale & ordinale): geen meeteenheid en algebraïsche bewerkingen zoals berekenen v. verschil tussen waarden of het berekenen v. gemiddelde geen betekenis. Waarden die aan categorieën wordt toegekend moet men interpreteren als kengetallen (nominale) of rangnummers (ordinale) o Nominale veranderlijken: eenheden w in categorieën ingedeeld op basis v. gelijkheid of ongelijkheid. Waarde die men toekent is arbitrair. Volgorde v/d categorieën heeft geen betekenis of belang. Categorieën kunnen in frequentie- en kruistabellen willekeurig v. plaats veranderd w. Men maakt gebruik v. modus als maat v. centrale tendens. ¾ Modus = categorie met hoogste frequentie Aangezien categorieën v. plaats verwisseld kunnen w Ö niet echt maat voor spreiding o Dichotome nominale veranderlijken: men kan gebruik maken v. een 0/1-codering. Deze variabelen w dummy-variabelen genoemd en kunnen behandeld w als variabelen v. interval- en rationiveau. Gemiddelde v/e dummy-variabele geeft de proportie respondenten weer in de hoogste categorie (= categorie met waarde 1) o Nominale veranderlijken met k categorieën: kunnen omgezet w naar een set van (k-1) dummy-variabelen o Ordinale veranderlijken: aanwezige rangorde heeft intrinsieke betekenis (gelijke gevallen in dezelfde categorie ¼ voor andere gevallen: kan men zeggen of men Kof scoort MAAR! Door ontbreken v. meeteenheid kan men niet zeggen of hoeveel de ene respondent K/ scoort dan de andere). 2
x
Waarde die men toekent ≠ arbitrair: toegekende getallen weerspiegelen de rangordening die aanwezig is tussen de opeenvolgende categorieën. Men maakt gebruik v. mediaan als maat v. centrale tendens ¾ Mediaan = middelste waarneming: waarde waar 50% v/d eenheden onderligt en 50% boven ligt ¾ Kwartielen: verdelen eenheden in 4 groepen: 1e kwartiel = 25% en 75% K, 2e kwartiel = mediaan, 3e kwartiel = 75% en 25% K ¾ Interkwartielafstand = verschil tussen 3e kwartiel en het 1e ¾ Range = het verschil tussen hoogste en laagste waarde Worden gebruikt als maten voor spreiding Parametrische variabelen (interval en ratio): sprake v. meeteenheid & metingen w uitgedrukt in benoemde getallen o Interval variabelen: sprake v/e arbitrair nulpunt (graden °C,..) zodat enkel verschillen betekenisvol zijn o Ratiovariabelen: sprake v/e absoluut nulpunt (inkomen, #inwoners,..) zodat ook verhoudingen betekenisvol zijn o Voor meeste kwantitatieve onderzoeksmethoden = onderscheid tussen beide weinig relevant o Gemiddelde = maat voor centrale tendens & standaardafwijking = maat v. spreiding voor beiden
MEETNIVEAU
INFORMATIE
BETEKENIS V/D WAARDEN
NOMINAAL bv. woonplaats
CLASSIFICATIE:
KENGETAL, GEEN VERDERE WISKUNDIGE BEWERKINGEN
ORDINAAL bv. diploma
ORDENING:
INTERVAL bv. °C, IQ
ORDENING + MEETEENHEID
INTERVAL (A-B) IS BEPAALD, NULPUNT IS ARBITRAIR; WISKUNDIGE BEWERKINGEN MOGELIJK
RATIO bv. Inkomen, crime rates,…
ORDENING, MEETEENHEID & ABSOLUUT NULPUNT:
RATIO OF VERHOUDING A/B IS BEPAALD; WISKUNDIGE BEWERKINGEN MOGELIJK
=, ≠ <, =, >
WAARDEN WEERSPIEGELEN BESTAANDE ORDENING; GEEN WISKUNDIGE BERWERKINGEN
1.4 Meten en meetniveaus 1.4.1 Wat is meten? 1. Verdeling van de populatie P in equivalentieklassen Ek: Deelverzameling van de populatie P die alle elementen (statistische eenheden) groepeert die voor het bestudeerde kenmerk als equivalent (gelijkwaardig) kunnen worden beschouwd 2. Kenmerken of ‘schalen’ van de equivalentieklassen aan de hand van een variabele: Toekennen van een eigen waarde (kwalitatief of kwantitatief) aan elke equivalentieklasse van het ongeschaalde kenmerk. De verzameling X der waarden wordt de meetschaal van de variabele genoemd: een variabele is een afbeelding van een bevolking P in een verzameling X van waarden. 3
Voorbeeld: VERZAMELING EENHEDEN
ONGESCHAALDE VARIABELE
GESCHAALDE VARIABELE
P x
Karen x
Serge
x
Filip
x
Ann
x
x
Karen x Filip
x
Bea
x
‘Antwerpen’ E2 = Oost-Vlaanderen
x
‘Oost-Vlaanderen’
Ann E3 = Waals-Brabant
x
Karel x
E1 = Antwerpen
x
Serge Bart
‘Waals-Brabant’
Bea Bart
x
Karel
E4 = Limburg
EQUIVALENTIEKLASSEN (PROVINCIE VAN VERBLIJF)
VERZAMELING EENHEDEN
ONGESCHAALDE VARIABELE
‘Limburg
KWALITATIEVE WAARDEN OF MODALITEITEN
GESCHAALDE VARIABELE
P x
Karen x
Serge
x
Filip
x
Ann
x
x
x
x
1. (Antwerpen)
Filip E2 = Oost-Vlaanderen
x
Bea x
2. (Oost-Vlaanderen)
Ann x
Karel x
E1 = Antwerpen
Karen
E3 = Waals-Brabant Serge x Bart
Bart
x
Karel
E4 = Limburg
EQUIVALENTIEKLASSEN (PROVINCIE VAN VERBLIJF)
1.4.2 x x
3. (Waals-Brabant)
Bea 4. (Limburg)
KWANTITATIEVE WAARDEN
Kwantitatieve versus kwalitatieve waarden In sociale wetenschappen doorgaans kwantitatieve waarden Voordelen van kwantitatieve waarden: o Verwerking van kwantitatieve waarden via computer vlotter o Kwantitatieve waarden eenduidiger dan kwalitatieve waarden: Vaak wordt bij beschrijving gebruik gemaakt van synoniemen of halfsynoniemen. Moeilijker af te leiden in hoeverre het om equivalente gevallen gaat. o Kwantitatieve waarden meer mogelijkheden tot analyse: Gegevens kunnen worden samengevat in simpele beschrijvende maten Relaties tussen kenmerken kunnen als algebraïsche functies uitgedrukt worden (cfr. regressie- en correlatiecoëfficiënten)
1.4.3 Meten en meetschalen Toekennen van getallen aan equivalentieklassen. Hoe? x x
Aan elke waarde van het ongeschaalde kenmerk wordt een eigen, specifiek getal toegekend De waarden die aan equivalentieklassen werden toegekend, weerspiegelen de relaties die in realiteit bestaan tussen de equivalentieklassen, en énkel die relaties.
Voorbeeld:
4
Woonplaats:
Opleiding:
Inkomen:
1.4.4 Eigenschappen van variabelen of meetschalen 1. Ordenbaarheid: a. De variabele of meetschaal X is ordenbaar wanneer, voor elk paar elementen x1 en x2 Î X, kan besluiten: x x1 > x2 (“groter dan”) x x1 < x2 (“kleiner dan”) bv. opleidingsniveau, leeftijd, lengte, inkomen zijn ordenbaar bv. woonplaats is niet ordenbaar b. Merk op: De ordenbaarheid van de waarden weerspiegelt een bestaande ordening tussen de equivalentieklassen van het bestudeerde kenmerk. 2. Het bestaan van een meeteenheid: a. Zelfde verschillen tussen de waarden van X weerspiegelen zelfde verschillen in de intensiteit van het bestudeerde kenmerk. Slechts van toepassing op kwantitatieve variabelen. bv. temperatuur in °Celsius (°C) of °Fahrenheit (°F) b. Merk op: x De gekozen meeteenheid kan arbitrair zijn (bv. °C of °F)
5
x De aanwezigheid van een 0 heeft geen bijzondere betekenis. Ratios of verhoudingen zijn betekenisloos: bv. 10 °C = 50 °F 20 °C = 68 °F ratio 20/10 ≠ ratio 68/50 3. Het bestaan van een absoluut nulpunt: a. Een absoluut nulpunt is een waarde (0) die de afwezigheid van het bestudeerde kenmerk weergeeft. bv. lengte: absoluut nulpunt (i.e. geen lengte) bv. °Kelvin: absoluut nulpunt (i.e. afwezigheid van Brownse beweging) b. Merk op: x Negatieve waarden komen niet voor wanneer een absoluut nulpunt bestaat x Ratios of verhoudingen zijn bepaald bv. 1000 BEF = 24,79 EUR 2000 BEF = 49,58 EUR ratio 2000/1000 = ratio 49,58/24,79 1.4.5
Hiërarchie van de meetschalen of meetniveaus
Merk op: Bewerkingen toegelaten voor variabelen v/e bep. meetniveau mogen w toegepast op variabelen v/e hiërarchisch hoger meetniveau, maar niet op variabelen van een lager meetniveau.
2 Univariate beschrijvende statistiek 2.1 Definities en notaties x
N is de steekproefgrootte of het effectief van de bestudeerde steekproef of populatie. bv. Veiligheidsmonitor 2004, N = 12000 Wave 9 PSBH, N = 5459 o De N waargenomen waarden worden weergegeven als: x1, x2,…, xj,…, xN o Er worden n verschillende waarden waargenomen: x1, x2,…, xi,…, xn Merk op dat: n ≤ N
6
x
Absolute frequentie (Fi) is het aantal keer dat een bepaalde waarde xi werd waargenomen. Men heeft: o x1, x2,…,xi,…, xn o F1,F2,…, Fi,…,Fn o De som van de absolute frequenties is gelijk aan de steekproefomvang of het n effectief:
¦F
i
N
i 1
x
De relatieve frequentie (fi) wordt bekomen door de absolute frequentie te delen door de steekproefomvang of het effectief:
x
Merk op dat:
n
¦f i 1
i
fi
Fi N
F1 F2 F ... n N N N
N N
1
2.2 Schikking van gegevens op nominale schaal De waarden van een nominale schaal zijn niet geordend: x
De volgorde waarin waarden worden opgenomen is willekeurig: o Volgens numerieke of alfabetische volgorde o Volgens stijgende/dalende overeenkomende frequenties.
2.2.1
Grafische voorstelling van nominale schaal
2.2.1.1 Histogram x Elke waarde xi w door een rechthoek voorgesteld, waarv. de oppervlakte recht evenredig is met de frequentie x Rechthoeken hebben dezelfde basis en w best gescheiden 2.2.2 x
Cirkeldiagram Elke waarde xi w door een cirkelsector voorgesteld, waarv. de oppervlakte recht evenredig is met de frequentie
2.2.3 x
Pictogram Grootte v/d figuur of het aantal maal dat een figuur w herhaald is recht evenredig met de frequentie v. elke waarde xi Gewest
3000
2500
2000
1500
1000
500
0 Vlaanderen
Wallonië
Brussel
7
2.3 Schikking van gegevens op ordinale schaal Frequentietabel w opgesteld zoals bij nominale variabelen, maar de volgorde v/d frequenties i/d frequentietabel is bij ordinale variabelen gebaseerd op de ordening van de waarden xi: x1 < x 2 < … x i < … < x n Gegeven de ordening van waarden xi kunnen cumulatieve frequenties worden berekend: x
x
x
Absolute cumulatieve frequentie:
K ( xi )
Relatieve cumulatieve frequentie: k ( xi )
Merk op dat:
k ( xi )
¦F
x j d xi
¦f
x j d xi
j
j
K ( xi ) N
2.3.1
Grafische voorstelling van ordinale schaal
2.3.2 x
Staafdiagram Elke waarde xi w door een staafje voorgesteld, waarv. de hoogte recht evenredig is met de absolute of relatieve frequentie Abscis (X-as) is gericht, maar staafjes w op gelijke afstand geplaatst (géén meeteenheid!)
x
2.3.3 x x x 2.3.4 x x x x x
Histogram Elke waarde xi w door een rechthoek voorgesteld, waarv. de oppervlakte recht evenredig is met de frequentie Abscis (X-as) is gericht Rechthoeken hebben dezelfde basis en w best gescheiden Cumulatieve frequentiefunctie Grafische voorstelling v/d absolute of relatieve cumulatieve frequenties De cumulatieve frequentiefunctie is voor iedere waarde xi gedefinieerd Cumulatieve frequentiefunctie is voor een ordinale variabele een trapfunctie (zoals voor elke discrete variabele) Grote trappen wijzen op hoge frequenties Eigenschappen cumulatieve frequentiefunctie: o De cumulatieve frequentiefunctie is gedefinieerd voor elke -¥ < xi < ¥ o K(-¥) = 0; K(¥) = N k(-¥) = 0; k(¥) = 1 o De cumulatieve functies zijn niet-strikt monotoon stijgend
8
2.4 Schikking van gegevens op interval- of ratioschaal 2.4.1 x
x
Niet in klassen gegroepeerde gegevens: Meeteenheid: o Verschillen tussen waarden hebben nu een betekenis. Deze verschillen moeten door recht evenredige verschillen worden voorgesteld op de abscis (X-as) Omdat verschillen tussen waarden op de abscis (X-as) een betekenis hebben, krijgen ook oppervlakten onder functies een betekenis. Dit laat gebruik toe van frequentieveelhoeken (en gebruik van lineaire interpolatie wanneer gegevens in klassen worden gegroepeerd).
2.4.2
Grafische voorstelling van interval- of ratioschaal
2.4.2.1 x x x
Staafdiagram Abscis (X-as) is gericht en heeft meeteenheid Staafjes w op de abscis op correcte afstand geplaatst Elke waarde xi w door een staafje voorgesteld, waarv. de hoogte recht evenredig is met de frequentie
2.4.2.2 x x x x
Frequentiepolygoon Abscis (X-as) is gericht én heeft meeteenheid Oppervlakten onder een functie krijgen betekenis Rechtlijnig verbinden v. toppen in staafjesdiagram Niet gebruiken bij sterk verspreide waarden (cfr. staafjesdiagram)
2.4.2.3 Histogram x Abscis is gericht en heeft een meeteenheid x Intervallen waarbij ondergrens (bovengrens) w gegeven door het midden v/d beschouwde waarde en de vorige (volgende) waarde x Oppervlakte evenredig met absolute (relatieve) frequentie in het interval
2.4.2.4 Cumulatieve frequentiefunctie x Abscis (X-as) is gericht en heeft meeteenheid x Trapfunctie i/h geval v. discrete variabelen
9
2.4.3 In klassen gegroepeerde gegevens Het aantal verschillende waargenomen waarden (n) is vaak erg groot. In dat geval is het onoverzichtelijk of onmogelijk de klassen apart te beschouwen. Continue variabelen worden vaak in klassen ingedeeld. Klassengrenzen zijn vaak inhoudelijk ingegeven, bv. voor de berekening v. afhankelijkheidsratio’s w volgende leeftijdsklassen gehanteerd: tot 18 jaar, 18-65 jaar, 65 jaar en ouder. x
Meeteenheid: o Verschillen tussen waarden hebben nu een betekenis. Deze verschillen moeten door recht evenredige verschillen wo voorgesteld op de abscis (X-as) o Omdat verschillen tussen waarden op de abscis (X-as) een betekenis hebben, krijgen ook oppervlakten onder functies een betekenis. Dit laat gebruik toe van frequentieveelhoeken en lineaire interpolatie
Samennemen van gegevens in klassen (intervallen). Bepaling van de klassen: x
Variatiebreedte (V) of range: geeft het verschil tussen de grootste en de kleinste waargenomen waarde: V max x min x i
i
x
x
1
log10 N
3
Klasselengte (l) o Klassen v. gelijke lengte aangeraden o In geval van klassen van gelijke lengte, is de klasselengte bij benadering: l
x
i
Aantal klassen (k) o We veronderstellen dat alle waarden i/e klasse equivalent zijn. Hypothese geldt enkel als verschillen niet te groot zijn o Tussen 5 en 15 klassen o Empirische regel: 10
k
x
i
V k
Variatiebr eedte Aantal klassen
Klassegrenzen: voorbeelden van klassen: 30 x < 40 ; 30 x 40 ; 30 < x 40 ; 30 < x < 40 Klassemidden (xi): o Bepalen v. exacte klassengrenzen Discrete veranderlijken: elke discrete waarde w vervangen door het overeenkomstige continue interval: bv. 23 wordt vervangen door het continue interval [22,5;23,5[ 24 wordt vervangen door het continue interval [23,5;24,5[ … DISCRETE VERANDERLIJKE
Waarnemingsklasse 30 30 30 30
d d
x x x x
d d
40 40 40 40
Exacte klasse 29,5 30,5 29,5 30,5
d d d d
x x x x
40,5 39,5 39,5 40,5
Klassemidden 35 35 34,5 35,5
10
Continue veranderlijken: de exacte klasse komt overeen met de waarnemingsklasse CONTINUE VERANDERLIJKE
Waarnemingsklasse 30 30 30 30
o
d d
x x x x
d d
40 40 40 40
Exacte klasse 30 30 30 30
d d
x x x x
d d
40 40 40 40
Klassemidden 35 35 35 35
Klassemidden w berekend als het gemiddelde v. exacte klassegrenzen (zowel bij discrete als continue veranderlijken)
Voorbeeld zie slides p.9 2.4.3.1 Frequentietabel x Klassemidden geeft een representatieve waarde voor de beschouwde klasse bij berekening v. gemiddelde,… x Bovengrens v. klasse w gebruikt voor cumulatieve frequenties Leeftijdscategoriën
Valid
2.4.3.2 x x x
17 - 23 jaar 24 - 30 jaar 31 - 37 jaar 38 - 44 jaar 45 - 51 jaar 52 - 58 jaar 59 - 65 jaar 66 - 72 jaar 73 - 79 jaar 80 - 86 jaar 87 - 93 jaar 94 - 100 jaar Tot al
Frequency 577 571 763 987 640 552 398 450 327 151 40 3 5459
Percent 10, 6 10, 5 14, 0 18, 1 11, 7 10, 1 7, 3 8, 2 6, 0 2, 8 ,7 ,1 100,0
Valid Percent 10, 6 10, 5 14, 0 18, 1 11, 7 10, 1 7, 3 8, 2 6, 0 2, 8 ,7 ,1 100,0
Cumulat iv e Percent 10, 6 21, 0 35, 0 53, 1 64, 8 74, 9 82, 2 90, 5 96, 4 99, 2 99, 9 100,0
Histogram Abscis is gericht en heeft meeteenheid Intervallen w door de klassen bepaald Oppervlakte (cfr. klassen v. verschillende lengte) v. rechthoeken is recht evenredig met absolute of relatieve frequentie.
2.4.3.3 Frequentieveelhoek x Abscis is gericht en heeft meeteenheid x Klassemiddens op de hoogte v/d toppen v/d rechthoeken i/h histogram w rechtlijnig verbonden
11
2.4.3.4 x x x x
Diagram van cumulatieve frequenties Abscis is gericht en heeft meeteenheid Hypothese: waarnemingen zijn homogeen binnen elke klasse verdeeld Diagram van cumulatieve frequenties is daardoor een gebroken lijn Lineaire interpolatie
2.5 Samenvatting
2.6 Parameters Frequentietabellen en grafieken zijn vaak onvoldoende om de informatie vervat i/d brutowaarnemingen te vatten. Om de gegevens te synthetiseren w verder gebruik gemaakt v. kenmerkende waarden of kenwaarden: deze w parameters genoemd. 3 klassen parameters: x x x
Parameters van ligging (o.m. centraliteitsparameters of centrummaten) Parameters van spreiding Parameters van vorm
2.6.1 Parameters van ligging (parameters van positie) x Laten toe de verdeling op de abscis of X-as te situeren
12
x x x
Moet steeds tussen de kleinste en de grootste waargenomen waarde liggen (met één van de waarden overeenkomen in het geval van nominale veranderlijken) De keuze voor een parameter (bv. modus, gemiddelde, mediaan,…) om een verdeling te beschrijven is afhankelijk van het meetniveau v/d beschouwde verdeling Laten toe om efficiënt groepen te vergelijken; bv. kijken vrouwen meer televisie dan mannen, verschilt kijkgedrag naar opleidingsniveau,…
2.6.1.1 Centraliteitsparameters of centrummaten = deelverzameling v/d liggingsparameters x x
Geven aan rond welke waarde op de abscis of X-as de verdeling gecentreerd is, geeft aan welke waarde representatief is voor een verdeling Keuze v/e centrummaat of centraliteitsparameter is afhankelijk v/h meetniveau v/e veranderlijke
1. Modus x0: a. Brutowaarnemingen: waargenomen waarde met hoogste frequentie
x0
^ xk
Fk
max Fi i
`
b. In klassen gegroepeerde gegevens: modale klasse = klasse met de hoogste frequentie, of, modus = klassenmidden v/de klasse met de hoogste frequentie c. Voordeel: modus is makkelijk te bepalen obv frequentietabel d. Nadelen: x Modus of modale klasse is niet noodzakelijk uniek ¾ Bv.: meerdere waarden of klassen kunnen dezelfde hoogste frequentie hebben (i.e. binomiale verdeling) x Houdt geen rekening met de andere waargenomen waarden. Enkel hoogste frequentie bepaalt modus: erg verschillende verdelingen hebben mog. toch dezelfde modus
13
2. Mediaan: a. Waarde v/d variabele die toelaat de waarnemingen in 2 gelijke delen op te delen zodat er evenveel waarnemingen de mediaan zijn als er zijn. Uitgedrukt adhv cumulatieve frequenties: ~ N
x
^ xk
K ( xk )
2
`
b. Brutowaarnemingen: als het # waarnemingen even is kan de mediaan tussen 2 waarden vallen, we nemen in dat geval het gemiddelde v. beide waarden c. In klassen gegroepeerde gegevens: mediaan w bepaald dmv lineaire interpolatie (homogeneïteitshypothese): x Bepalen eerst klassen waarin K(x) = N/2 x Vervolgens: bereken we de mediaan: ~ x
x' m
N / 2 K ( x' m ) l Fm
Waarbij: x’m : ondergrens v/d klasse waarin K(x) = N/2 K(x’m) : absolute cumulatieve frequentie voor de ondergrens v. deze klasse : absolute frequentie v. deze klasse Fm l : lengte v. deze klasse d. Eigenschappen: x Afhankelijk v/d orde v/d waarnemingen: ¾ Niet alle waargenomen waarden w dus in rekening gebracht ¾ Maakt mediaan minder gevoelig voor extreme waarden dan bv. het gemiddelde 3. Rekenkundig gemiddelde (interval): a. Definitie: het rekenkundig gemiddelde is gelijk a/d som v. alle waarnemingen gedeeld door het effectief 1 N b. Berekening adhv brutowaarnemingen: x xj
N
¦ j 1
1
n
¦
n
¦
Fi
xi Fi xi c. Berekening adhv in klassen gegroepeerde gegevens: x N i1 N i 1 xi = klassenmiddens d. Eigenschappen: x Waarden v. alle waarnemingen w gebruikt bij berekening v/h gemiddelde (niet zo bij Mo & Me) x Gemiddelde = meest gebruikte centrummaat voor interval- en ratioveranderlijken x Gemiddelde laat toe om ≠ groepen (bv. geslacht, leeftijd,..) efficiënt te vergelijken wat betreft hun score voor een bep. Kenmerk (bv. opleidingsniveau,..) x Regressie-analyse zal later w gebruikt om bv. gemiddelde kijkduur naar leeftijd te beschrijven: E(kijkduur)i = …. + … * leeftijdi
n
¦x f
i i
i 1
14
4. Meetkundig gemiddelde G (ratio, strikt positieve waarden): a. Berekening adhv brutowaarnemingen: G N x x ... x 1 2
N
ª N º N1 « x j » x j ! 0 ; j 1,2,..., N ¬j1 ¼
b. Berekening adhv in klassen gegroepeerde gegevens:
G
N
F1 1
F2 2
Fn n
x . x ... x
ª n Fi º « xi » ¼ ¬i 1
1 N
xi ! 0 ; i 1,2,..., n
Xi = klassenmiddens x Voorbeelden zie slides p. 17 c. Toepassing en eigenschappen: x Wordt o.a. toegepast voor berekening v. gemiddelde groeivoeten en in statistische analyse x Logaritme v. meetkundig gemiddelde = rekenkundig gemiddelde v/d logaritmen v/d oorspronkelijke waarnemingen: 1 N
ª F º log « xi i » ¬i1 ¼ n 1 ª F º log « xi i » N ¬i 1 ¼ 1 n ¦ (log xi ) Fi N i1 n
log G
5. Harmonisch gemiddelde H (ratio, xi > 0) a. Definitie: inverse v/h rekenkundige gemiddelde berekend op de inverse v/d waarnemingen N N b. Berekening adhv brutowaarnemingen: H N
1 1 1 ... x1 x2 xN
1
¦x j 1
j
c. Berekening adhv in klassen gegroepeerde waarnemingen: Xi = klassemiddens N N
H
F1 F2 F ... n x1 x2 xn
n
Fi
¦x i 1
i
d. Wordt zelden gebruikt in de statistiek 6. Kwantielen: a. Definitie: q-kwantiel is de waarde v/e variabele die de waarnemingen in 2 gedeelten scheidt zodat een proportie q v/d waarnemingen een waarde aan het q-kwantiel heeft en een proportie (1-q) v/d waarnemingen een waarde aan het q-kwantiel heeft b. Bijzondere gevallen: x Kwartielen: verdelen de geordende gegevens in 4 gelijke delen i. N ¾ K ^ x ` i 1,2,3,4 K ( xk ) i k 4 ¾ Berekening kwartielen voor in klassen gegroepeerde gegevens: i. N K2 = mediaan K ( x' )
Ki
x 'k 4
k
Fk
l
15
x Decielen: verdelen de geordende gegevens in 10 gelijke delen i. N ¾ di ^ xk ` i 1,2,...,10 K ( xk ) 10 ¾ Berekening decielen voor in klassen gegroepeerde gegevens: d5 = K2 = mediaan i. N
x 'd 10
di
K ( x 'd )
l
Fd
x Percentielen: verdelen de geordende gegevens in 100 gelijke delen i. N ¾ p ^ x ` i 1,2,...,100 K ( xk ) i k 100 ¾ Berekening percentielen voor in klassen gegroepeerde gegevens: p50 = d5 = K2 = mediaan i. N
x ' p 100
pi
K ( x' p )
l
Fp
7. Momenten van rang m.b.t. constance c (interval): a. Berekening adhv brutowaarnemingen: zk ( c )
1 N
N
¦(x
c)k
j
j 1
b. Berekening adhv in klassen gegroepeerde gegevens:
zk ( c )
1 N
n
¦ ( x c)
k
i
Fi
i 1
8. Momenten rond de oorsprong ak (gewone momenten): a. c = 0 b. Berekening adhv brutowaarnemingen: ak
zk (0)
1 N ( x j 0) k ¦ N j1
1 N ( x j )k ¦ N j1
c. Berekening adhv in klassen gegroepeerde gegevens: ak
zk (0)
1 N
n
¦ ( x 0) i
i 1
k
Fi
1 N
n
¦x F k i
i
i 1
d. Het rekenkundige gemiddelde is het moment v. rang 1 rond de oorsprong 9. Momenten m.b.t. het rekenkundig gemiddelde (centrale momenten): a. c = x b. Berekening adhv brutowaarnemingen: mk
zk ( x )
1 N
N
¦(x
j
x )k
j 1
c. Berekening adhv in klassen gegroepeerde gegevens: 1 n mk zk ( x ) ( xi x )k Fi ¦ N i1 2.6.2
Parameters van spreiding
2.6.2.1 Het begrip spreiding x Verwijst naar de verschillen die w vastgesteld tussen waarnemingen (bv. respondenten, steden,..) voor een onderzocht kenmerk (bv. kijkgedrag,..) 16
x
x
Wnr w vastgesteld dat er verschillen zijn tussen personen wat betreft bv. kijkgedrag (i.e spreiding voor het kenmerk kijkgedrag), komt de vraag naar de oorzaak v. die verschillen & de verkl. v. die verschillen (leeftijd, geslacht,..) Spreiding & spreidingsmaten spelen een bel. rol in analysetechnieken die gericht zijn op de verkl. v. dergelijke verschillen
2.6.2.2 Spreidingsmaten Geven weer in welke mate eenheden (bv. respondenten, steden,..) v. elkaar verschillen voor een bep. Kenmerk of variabele door weer te geven in hoeverre eenheden geconcentreerd liggen rond de centrummaat (modus, mediaan, gemiddelde), dan wel gespreid liggen over de hele range v/e variabele Ö keuze v/e spreidingsmaat bep. door het meetniveau v/e veranderlijke 2.6.2.3 Spelregels voor spreidingsmaten x Wnr alle waarnemingen eenzelfde waarde hebben (i.e. geen spreiding of verschillen tussen waarnemingen), dan moet spreidingsmaat gelijk zijn aan 0 x Spreidingsmaat w groter naarmate waarnemingen meer gespreid zijn of onderling meer verschillen 2.6.2.4 Soorten
1. Variatiebreedte V of range: a. Spreidingsmaat voor kwantitatieve ordinale veranderlijken b. Brutogegevens: V geeft het verschil tussen de grootste & de kleinste waargenomen waarde: V max x min x i
i
i
i
c. In klassen gegroepeerde gegevens: V is het verschil tussen de bovengrens v/d hoogste klasse en de ondergrens v/d laagste klasse 17
2. Interkwartielafstand l: a. Spreidingsmaat voor kwantitatieve ordinale veranderlijken b. Q1 is de waarde waar 25% v/d waarnemingen onder valt. Q3 is de waarde waar 75% v/d waarnemingen onder valt. De interkwartielafstand l = (Q3 – Q1) geeft dus aan tussen welke waarden de middelste 50% v/d waarnemingen vallen Q1
(exacte ) 1 / 4 N cum. freq bij ondergrens ondergrens * klassebreedte frequentie in klassebreedte klasse
Q3
(exacte ) 3 / 4 N cum. freq bij ondergrens ondergrens * klassebree dte frequentie in klassebree dte klasse
3. Interdecielafstand D: a. Spreidingsmaat voor kwantitatieve ordinale veranderlijken b. D1 is de waarde waar 10% v/d waarnemingen onder valt. D9 is de waarde waar 90% v/d waarnemingen onder valt. De interdecielafstand D = (D9- D1) geeft dus aan tussen welke waarden de middelste 80% van de waarnemingen vallen D1
(exacte ) 1 / 10 N cum. freq bij ondergrens ondergrens * klassebree dte frequentie in klassebree dte klasse
D9
(exacte ) 9 / 10 N cum. freq bij ondergrens ondergrens * klassebree dte frequentie in klassebree dte klasse
4. Gemiddelde absolute afwijking e (intervalvariabelen) a. Defintie: e is het (rekenkundig) gemiddelde v/d absolute waarden v/d afwijkingen v/h gemiddelde b. Berekeningen obv brutowaarnemingen:
e
N
1 N
¦x
j
x
j 1
c. Berekeningen obv in klassen gegroepeerde gegevens:
e
1 N
n
¦x xF i
i
i 1
d. Intuïtief erg duidelijk, maar weinig bruikbaar in verdere analyse 5. Variantie s² (intervalvariabelen) a. Definitie: s² weerspiegelt de gemiddelde gekwadrateerde afwijking v/h gemiddelde b. Berekening obv brutowaarnemingen:
s2
1 N
¦ x N
x
2
j
j 1
c. Berkening obv in klassen gegroepeerde gegevens:
s2
1 N
n
¦ F x x
2
i
i
i 1
d. Merk op: de variantie is het 2de moment rond het gemiddelde: s² = m2 e. Intuïtief minder duidelijk, maar speelt bel. rol in regressie- en variantie-analyse om na te gaan in hoeverre de spreiding v/e variabele verklaard kan w door de spreiding v/e andere variabele 18