SAMENVATTING STATISTIEK I
Gebaseerd op de cursus ‘statistiek I 2005-2006’ van Thierry Marchant
Gemaakt door Sven Mettepenningen
1 Inleiding. Beschrijvende statistiek: Verzameling van technieken om data synthetisch voor te stellen of samen te vatten. Inductieve statistiek: Observaties van de steekproef naar de populatie veralgemenen met een bekend risico. Kansberekening: Gebied van de wiskunde dat het redeneren met kansen bestudeert, noodzakelijk om verkeerde redeneringen te begrijpen en te ontdekken.
BESCHRIJVENDE STATISTIEK 2 Basisbegrippen. 2.1 Populatie en steekproef. Populatie: Gehele groep personen of objecten waarover informatie wordt gewenst. Steekproef: Gedeelte van populatie dat wordt onderzocht om informatie te vergaren. Elementen: Individuele leden van populatie. 2.2 Variabele. Definitie: Eigenschap die bij de elementen van de populatie of van de steekproef varieert. Numeriek: De mogelijke waarden van numerieke variabelen zijn getallen. Continu: Tussen elke 2 willekeurige waarden van variabele moet 3 de waarde liggen. Als een variabele niet continu is, dan is ze discreet. Kwantitatief: Beeldt een hoeveelheid af. Als een variabele niet kwantitatief is, dan is ze kwalitatief. 3 Budget voor boeken. 3.1 Ordeningstechnieken. Frequentie: aantal malen dat bepaald verschijnsel voorkomt bij populatie van waarnemingseenheden of aantal malen dat waarde van variabele voorkomt. Frequentieverdeling: systematische opstelling van waarden van variabele met daarbij behorende frequenties. Ongegroepeerde en gegroepeerde frequentieverdeling: Ongegroepeerde frequentieverdeling: hierbij worden alle voorkomende waarden weergegeven met hun frequenties. Gegroepeerde frequentieverdeling: hierbij worden de waarden gebundeld in categorieën of klassen en wordt frequentie van iedere klasse weergegeven. Relatieve frequentieverdeling: Om 2 of meer frequentieverdelingen met verschillende aantallen waarnemingen onderling te vergelijken: (absolute frequentie / totaal aantal waarnemingen) * 100 3.2 Reductietechnieken. 3.2.1 Centrale tendentie. 3.2.1.1 De modus (mo): Definitie: Meest voorkomende waarde Ongegroepeerde gegevens modus Gegroepeerde gegevens modale klasse: klasse met hoogste frequentie Opmn.: Bij de modale klasse moeten alle klassen een gelijke breedte hebben. Modale klasse minder gevoelig dan modus.
2
3.2.1.2 Het rekenkundig gemiddelde (R.G.): Basisformule: Verkorte schrijfwijze:
x
x1 x2 ... xn n
x
nx
1 xi n i 1
Met behulp van frequenties:
x
1 p fi xi n i 1
Hierbij gelden volgende afspraken: x = variabele; xi = i-de element; n = steekproefgrootte;
x = gemiddelde van x x1 , x2 ,..., x p = verschillende geobserveerde waarden (van klein naar groot); Opm: x1 x1 p = aantal verschillende geobserveerde waarden van X f1 = frequentie die geassocieerd wordt met x1
3.2.2 Spreiding. 3.2.2.1 Variatiebreedte: Definitie: verschil tussen hoogste en laagste getalswaarden in een reeks: v x p x1 Opm: Deze parameter laat zich makkelijk vertekenen door extreme waarden. 3.2.2.2 Spreiding t.o.v. het gemiddelde: Gemiddelde van alle afstanden t.o.v. gemiddelde:
1 p fi ( xi x ) 0 n i 1
Deze spreiding is altijd 0 want de negatieve waarden heffen de positieve waarden op. Gemiddelde afwijking ( ga x ), dit is het gemiddelde van alle absolute afstanden:
1 p f i xi x n i 1 Hierbij stelt a de absolute waarde van a voor (het getal zonder teken).
Variantie ( s ), dit is het gemiddelde van alle kwadratische afstanden 2
s2
1 n ( xi x )2 n i 1
4 Pas op de wielrenners. 4.1 Inleiding tot de meettheorie. 4.1.1 Schaalfamilies. Elk karakteristiek dat we willen meten -> verschillende schalen, als verkeerde schaal gebruikt wordt -> zinloze bewering. Zinvolle bewering: bewering die waar blijft met alle schalen uit geassocieerde familie. 4.2
De verschillende meetniveaus.
Duidelijke kenmerken Meeteenheid Oorsprong Toegelaten bewering Vb:
Absolute schaal
Ratio-schaal
Interval-schaal
Ordinale schaal
Nominale schaal
Vast nulpunt
Vast nulpunt
Vaste afstand
Enkel volgorde
Geen orde
Vast Vast
Variabel (x cte) Vast Moet kloppen voor elke schaal
Variabel (x cte) Variabel (+ cte) Moet kloppen voor elke schaal Jaartal, temperatuur
Variabel (x cte) Variabel (+ cte) De volgorde moet bewaard blijven
Variabel (x cte) Variabel (+ cte) De identiteit moet bewaard blijven Geslacht, kleur, nationaliteit
Alle Koeien tellen
Prijs, leeftijd
Sociale status
3
5 Ordeningstechnieken. Als je een variabele X in een steekproef met grootte waarden van die variabele
n observeert krijg je een reeks van
x1 , x2 ,..., xn , die we data noemen.
x1 x2 Je kan data ordenen in 2 soorten vectoren: Rijvector: a ( x1 , x2 ,..., xn ) ; Kolomvector b ... x n T Een kolomvector in een rijvector transformeren noemen we transponeren: a b . T Data noteren we als volgt x ( x1 , x2 ,..., xn ) (vectoren zullen we altijd vet noteren) Opmerking: met vectoren kan je rekenen: Scalair product van 2 vectoren (≠ vermeninigvuldigen): Als a een rijvector is en b kolomvector met dezelfde dimensie, dan is het scalair product:
b1 k b ab (a1 , a2 ,..., ak ) 2 a1b1 a2b2 ... ak bk aibi ... i 1 bk Zo kan je een nieuwe formule (vectornotatie) opstellen voor het gemiddelde:
x1 x2 1 n 1 1 1 1 x xi ( x1 x2 ... xn ) (1x1 1x2 ... 1xn ) (1,1,...,1) 1T x ... n n i 1 n n n xp En ook voor de variantie kan je zo een formule opstellen:
x1 x x2 x 1 1 n 1 2 2 sx ( xi x ) ( x1 x , x2 x ,..., xn x ) ( x x .1)T ( x x .1) ... n n i 1 n xn x 5.1 Frequentieverdelingen. Noem de verschillende geobserveerde waarden x1 , x2 ,..., x p , dan is p het aantal verschillende waarden (merk op dat
p n ).
Een frequentieverdeling noemen we nu een paar
bijbehorende frequenties: f f1
f 2 ...
fp .
x , f , waarbij
x T x1
x2 ... x p en de
5.1.1 Gegroepeerde frequentieverdelingen. 5.1.1.1 Waarom gegroepeerde frequentieverdelingen gebruiken? Om leesbaarheid te verhogen Met continue variabelen -> onmogelijk waarden van variabele perfect te meten Vb: reactie tijd met chronometer (altijd afgerond) Elke waarde mag maar in 1 klasse frequentieverdeling van klassen:
k T (k1 , k2 ,..., k p )
Gegroepeerde frequentieverdeling: een paar ( k, f ): reeks klassen van variabele samen met overeenkomende frequenties.
4
5.1.1.2 Variabelen van tenminste ordinaal niveau. Klassen van tenminste ordinaal niveau intervallen: elke klasse heeft onder –en bovengrens. De bovengrens noteren we ui en de ondergrens li . 5.1.1.3 Vuistregels voor het indelen in klassen. Meestal is het beter klassen van gelijke breedte te kiezen, behalve dan voor de 2 uiterste klassen (om eventuele outliers in op te nemen). Het aantal varieert van 8 tot 20 (kies je zelf). 5.1.2 Cumulatieve frequentieverdelingen. Definitie: De cumulatieve frequentie die bij de waarde
x hoort is het totaal aantal elementen die de waarde x een of kleinere waarde hebben. We noteren deze met F x . vector
FT ( F ( x1 ), F ( x2 ),..., F ( x p )) .
Een Cumulatieve frequentieverdeling is dan het paar (x , F) . 5.1.3
Cumulatieve gegroepeerde frequentieverdelingen.
Vector van de cumulatieve gegroepeerde frequentieverdelingen: met
FT ( F (u1 ), F (u2 ),..., F (u p )) ,
F (ui ) het aantal elementen in klasse i plus het aantal elementen in lagere klassen.
5.1.4 Relatieve frequentieverdelingen. De relatieve frequentie is een rationaal getal tussen 0 en 1, die de proportie van de elementen in een steekproef die een bepaalde eigenschap hebben uitdrukt. Verschillende soorten relatieve frequenties:
fi met f i de frequentie van x i (of van ki bij gegroepeerde) n F ( x) Cumulatieve relatieve frequentie: met F x als cumulatieve frequentie van x . n Relatieve frequentie:
6 Reductietechnieken. 6.1 Maten van centrale tendentie. 6.1.1
Het rekenkundige gemiddelde :
In formulevorm x
x
n
1 xi . n i 1
Meetniveaus: interval, ratio, absoluut. Gevoelig voor outliers. 6.1.2 De mediaan
De mediaan :
md
md x is de middelste waarde. In formulevorm F md x
n . 2
Meetniveaus: ordinaal, interval, ratio, absoluut. Niet gevoelig voor outliers. 6.1.3
De modus :
mo
De modus is de waarde die het meeste voorkomt, of de klasse met de grootste frequentie. Meetniveaus: nominaal, ordinaal, interval, ratio, absoluut. Niet gevoelig voor outliers.
5
6.2 6.2.1
Maten van spreiding. Variantie
In formulevorm sx 2
1 n ( xi x )2 . n i 1
Meetniveaus: interval, ratio, absoluut. Zeer gevoelig voor outliers. 6.2.2
Interkwartiele afstand (niet echt een spreidingsmaat)
In formulevorm
Q P75 P25 . Hierbij zijn de percentielen gedefinieerd als F Pk
k . 100
Meetniveaus: interval, ratio, absoluut. Ongevoelig voor outliers. 6.2.3 Variatie-breedte Meetniveaus: interval, ratio, absoluut. Supergevoelig voor outliers. De variatiebreedte is de grootse min de kleinste waarde: x p x1 , of gegroepeerd u p l1 . 6.2.4
De spreidingsmaat
d
Meetniveaus: deze spreidingsmaat mag gebruikt worden bij alle meetniveaus.
f mo n . Ze wordt gedefinieerd als d 1 1 p 1
De maat varieert van 0 (alle observaties zijn gelijk) tot 1 (alle observaties zijn verschillend). 7 Bivariate statistiek. 7.1 Hoeveel kinderen? Frequentieverdeling bij bivariate statistiek: Hier heb je twee frequentieverdelingen: één van X (x , f x ) en één van Y (y , f y ) 7.1.1 De biavariate frequentieverdeling: Kruistabel: Bij een bivariate frequentieverdeling heb je een reeks waarden van variabele X en een reeks waarden van variabele Y met overeenkomende frequenties we noteren dit in een matrix
f . ij
7.1.2 Het spreidingsdiagram of scatter plot: Hoe groter de stip op een scatter plot, hoe meer dit punt voorkwam: de grootte de stip is in verhouding tot f i , j 7.2 7.2.1
Associatie-technieken Covariantie
In formulevorm: cov xy
1 p q 1 n cov of ( x x )( y y ) fi, j ( xi x)( y j y) i xy i n i 1 j 1 n i 1
Meetniveaus: interval, ratio, absoluut. Dit is een maat voor lineair verband.
6
7.2.2
Correlatiecoëfficiënt
In formulevorm:
rxy
cov xy sxsy
Meetniveaus: interval, ratio, absoluut. Dit is een maat voor lineair verband, onafhankelijk van de meeteenheid. 7.2.2.1 Regressielijn Dit is de meest passende rechte door de puntenwolk. De vergelijking van de regressielijn van Y op X wordt gegeven door:
Y b0 b1 X , met b1 rxy
sy sx
en
b0 y b1 x .
De vergelijking van de regressielijn van X op Y wordt gegeven door:
Y b0 b1 X , met b1
1 sy en b0 y b1 x . rxy s x
Deze twee rechten zijn identiek als rxy 1 . De regressielijnen gaan altijd door het punt x, y . 7.2.3 Kendall’s Tau Hierbij vergelijk je alle koppels van 2 variabelen: 1 ste beter dan 2de -> +1, anders –1; in geval van gelijkheid schrijven we 0 (dit doe je zowel voor de X als voor de Y variabele). Dan maak je een kolom met de producten van de 2 toegekende waarden per koppel. C noem je het aantal positieve producten (concordant), D het aantal negatieve (discordant). De formule luidt dan:
CD n(n 1) 2
Meetniveaus: ordinaal, interval, ratio, absoluut. Dit is een maat voor monotoon verband. Ze gebruikt niet de waarden van de variabelen zelf. 7.2.4 Rangcorrelatie – coëfficiënt (Spearman) Hier gebruiken we ook niet de waarden van de variabelen zelf maar de rangen (rangschikken van groot naar klein). Doe dit zowel voor de X als voor de Y variabele. Dan maak je een kolom Di met de verschillen van de 2 toegekende waarden per paar. n
De formule luidt dan:
rs 1
6 Di2 i 1
n(n² 1)
Meetniveaus: ordinaal, interval, ratio, absoluut. Dit is een maat voor monotoon verband. Ze gebruikt niet de waarden van de variabelen zelf.
KANSREKENING 8 Toevalsvariabelen en kansverdelingen. 8.1 Toevalsproces en gebeurtenis. Toevalsproces: Proces waarvan uitkomst onvoorspelbaar is. Gebeurtenis: verzameling van mogelijke uitkomsten voor toevalsproces. Zekere gebeurtenis E: verzameling van alle mogelijke uitkomsten, doet zich altijd voor.
7
8.1.1 Bewerkingen met gebeurtenissen. Unie: verzameling van alle elementen die in A of in B (of in beide) zijn.
A B uitkomsten a | a A of a B
Doorsnede: verzameling van alle elementen die in A en in B zijn.
A B uitkomsten a | a A en a B
Complementaire gebeurtenis A*: doet zich voor als en slechts als A zich niet voordoet. A A* en A A* E 8.2 Toevalsvariabele. Definitie: dit is een variabele waarvan de waarde in een toevalsproces onvoorspelbaar is. Realisatie: waarde van toevalsvariabele in een bepaalde herhaling van een proces. 8.3 Kansen. De kans van een gebeurtenis A bij een toevalsproces definiëren we als de relatieve frequentie van deze gebeurtenis als we het toevalsproces eindeloos zouden herhalen:
P( A) lim
n
fA , merk dus op dat 0 P( A) 1. n
Kans op de unie van 2 gebeurtenissen: P( A B) P( A) P( B) P( A B) . Afhankelijke gebeurtenissen: 2 gebeurtenissen A en B zijn afhankelijk als het voorkomen van de ene de kans van de andere beïnvloedt. Onafhankelijke gebeurtenissen: 2 gebeurtenissen zijn onafhankelijk als ze niet afhankelijk zijn. Voorwaardelijke kans: De kans dat een gebeurtenis A zich voordoet onder voorwaarde dat een gebeurtenis B zich ook voordoet. We noteren deze kans als A en B zijn onafhankelijk als en slechts als geldt:
P( A B) .
P( A B) P( A) .
Kans van doorsnede van 2 gebeurtenissen: Onafhankelijke gebeurtenissen: P(A B) P(A) P(B) Afhankelijke gebeurtenissen: P( A B) P( A | B) P( B) P( B | A) P( A) Merk dus op dat bij afhankelijke gebeurtenissen geldt:
P( A|B)
P( A B) P( B)
Kans van complementaire gebeurtenissen: P( A*) 1 P( A) 8.4 8.4.1
Kansverdelingen. Kansverdeling van discrete variabelen x1 , x 2 ,..., x p : verschillende mogelijke waarden van de toevalsvariabele X.
X x1 een gebeurtenis met bijhorende kans P1 P( X x1 ) . , P) , dus de reeks mogelijke De Kansverdeling van discrete variabelen noemen we het paar (x Dan is
waarden van de variabele samen met overeenkomende kansen. De Cumulatieve frequentieverdeling F ( x) is dan de kans dat de waarde van de toevalsvariabele
X in een toevalsproces kleiner dan of gelijk aan x is: F ( x) P( X x) . 8.4.2 Kansverdeling van continue variabelen Bij de kansverdeling van continue variabelen geldt voor alle waarden van
x dat P( X x) 0 .
De Cumulatieve frequentieverdeling F ( x) P( X x) is nu geen trapsgewijze functie meer, wat in het discrete geval wel zo was.
8
8.4.3
De dichtheidsfunctie.
We definiëren de dichtheidsfunctie als de afgeleide van de verdelingsfunctie: 8.4.4
Eigenschappen van de dichtheidsfunctie.
Merk op dat:
f x F '( x) .
x2
x1
f x dx F ( x2 ) F ( x1 ) P( x1 X x2 )
De kans dat variabele X zich in het interval
x1 , x2
bevindt is dus gelijk aan de
f x tussen de twee waarden x1 en x2 . Een dichtheidsfunctie is positieve functie, dus x : f ( x) 0 . De oppervlakte onder een dichtheidsfunctie tussen en is gelijk aan 1. oppervlakte onder de dichtheidsfunctie
8.4.5 < of ≤? Bij continue toevalsvariabelen geldt P( X x) P( X x) , bij discrete toevalsvariabelen NIET! 8.5 Reductietechnieken. 8.5.1 Discrete toevalsvariabelen. 8.5.1.1 Het gemiddelde. Het gemiddelde van een toevalsvariabele noemen we de verwachtingswaarde en noteren we: p
E x Px i i
.
Soms gebruiken we hiervoor ook het symbool
i 1
8.5.1.2 De variantie. De variantie van een toevalsvariabele noteren we: p
V ( X ) Pi ( xi E ( X )) 2 i 1
Soms noteren we dit ook als
2
.
De standaardfout is dan de vierkantswortel van de variantie: 8.5.2
Continue toevalsvariabelen.
Hier verlopen de definities analoog, alleen moeten we het moeten we P vervangen door 8.5.2.1
f x .
-teken vervangen door
, en
Het gemiddelde.
E( X )
8.5.2.2
2 V X
f x xdx
De variantie.
V ( X ) f X ( x)( xi E ( X )) 2 dx
9
8.6 Bivariate kansverdelingen. 8.6.1 Discrete toevalsvariabelen. Deze soort bivariabele toevalsvariabele kan je voorstellen in een tabel Pi , j , waarvoor geldt:
Pi , j P X xi en Y yi
De som van alle cellen is 1:
p
p
P i 0 j 0
i, j
1
De marginale kansen bereken je als volgt: p
o
Pi P X xi Pi , j (de volledige rij die bij X xi hoort optellen). j 0
Pj P Y y j Pi , j (de volledige kolom die bij Y yi hoort optellen). p
o
i 0
8.6.2 Continue toevalsvariabelen. Deze kan je niet in de vorm van een tabel voorstellen, maar ook hier kunnen we definiëren: De bivariate verdelingsfunctie: FX ,Y ( x, y ) P( X x en Y y ) .
8.6.3
f X ,Y ( x, y )
De dichtheidsfunctie:
d d FX ,Y ( x, y ) . (afleiden naar x én y ). dx dy
Onafhankelijke toevalsvariabelen.
x1 X x2 en y1 Y y 2 onafhankelijk zijn, voor alle mogelijke keuzen van de waarden x1 , x2 , y1 , y 2 . Is 2 continue (discrete) variabelen X en Y zijn onafhankelijk als de gebeurtenissen dit niet het geval dan zijn ze afhankelijk.
Onafhankelijk (cont) :
P x1 X x2 en y1 Y y2 P x1 X x2 .P y1 Y y2 .
Onafhankelijk (disc) :
P X x1 en Y y1 P X x1 .P Y y1
Om nu een verwachtingswaarde te berekenen moet je alle marginale kansen optellen: p
p
i 0
j 0
E X Px i i en E Y Pj y j 8.6.4 De voorwaardelijke verwachting. Om een voorwaardelijke verwachting te berekenen moet je de voorwaardelijke kansen optellen:
E X | Y y j P x xi | Y y j xi en E Y | X xi P y y j | X xi y j p
p
i 0
j 0
8.7 Associatietechnieken. 8.7.1 Discrete toevalsvariabelen. Ook hier kunnen we covariantie en correlatiecoëfficiënt berekenen: p
q
COV ( X , Y ) Pi , j ( x i E ( X ))( y j E (Y )) en X , Y i 1 j 1
COV ( X , Y )
XY
8.7.2 Continue toevalsvariabelen. Dan geldt:
COV(X,Y)
f X ,Y ( x, y)( x E ( X ))( y E (Y ))dxdy
10
8.7.3
Correlatie en afhankelijkheid. De covariantie van onafhankelijke toevalsvariabelen is altijd nul. De correlatiecoëfficiënt van onafhankelijke toevalsvariabelen is altijd nul.
8.8
Enkele nuttige stellingen. Gemiddelde van een constante maal een variabele: E (a. X ) a.E ( X )
Gemiddelde van een som: E ( X Y ) E ( X ) E (Y )
Gemiddelde van een product: E (Z ) E ( X ).E (Y ) (opm.: X en Y zijn onafhankelijk)
Variantie van een som: V ( X Y ) V ( X ) V (Y ) 2COV ( X , Y )
Variantie van een aftrekking: V ( X Y ) V ( X ) V (Y ) 2COV ( X , Y )
9 Bijzondere kansverdelingen. 9.1 Binomiale variabele (met teruglegging). Deze wordt gebruikt in het geval van n onafhankelijke waarnemingen elk resulterend in succes of mislukking (slechts twee mogelijke uitkomsten), en elk met eenzelfde kans π op succes. We noteren deze kansverdeling met
B n, .
n nk k successen wordt dan gegeven door P B n, k . k . 1 , k n n! waarbij geldt: k k !(n k )! De kans op
9.1.1
Eigenschappen van de binomiale variabele.
Verwachting van binomiale variabele:
Variantie van binomiale variabele:
9.2
E B n, n
V B n, n 1
De normale variabele.
Dit is een continue toevalsvariabele, genoteerd met dichtheidsfunctie:
9.2.1
N , en gedefinieerd door zijn
( x )² 1 f N ( , ) ( x) e 2 ² 2
Eigenschappen van de normale verdeling
E N ,
Verwachting van normale variabele:
Variantie van normale variabele:
Opmn bij de grafiek van dichtheidsfunctie: o hoogste punt van de functie wordt bereikt als x o
V N ,
De horizontale afstand tussen de top en de buigpunten is
De dichtheidsfunctie is nergens gelijk aan nul: x : f N ( , ) ( x) 0
De som van twee normale variabelen is terug normaal:
N ( 1 , 1 ) N ( 2 , 2 ) N (1 2 , 1 2 ) 2
2
11
9.2.2 Hoe gebruikt men de normale verdeling? Vermits het onmogelijk is om voor alle normale verdelingen een tabel op te stellen, zullen we onze normale variabele moeten standaardiseren tot het algemene geval waar 0 en 1 :
N ( , )
N (0,1) Er is dus een eenvoudige relatie tussen
X
N , en N 0,1 , voor alle waarden van en .
Voor de kansen geldt dus: P N ( , ) x P N (0,1)
x .
9.2.3 Waarom is de normale variabele belangrijk? Dit komt door de centrale limietstelling die zegt dat de som vele onafhankelijke variabelen altijd normaal verdeeld is (of toch zo goed als). Zijn X1 , X 2 ,..., X n onafhankelijke toevalsvariabelen, met respectievelijk de verwachtingen
1 , 2 ,..., n
en varianties
normaal verdeeld met
1 , 2 ,..., n . n
Z i
en
i 1
Laat
Z X 1 X 2 ... Xn . Als n , dan is Z
n
Z2 i2 . i 1
9.2.4 De normale verdeling als benadering van de binomiale verdeling. De centrale limietstelling zegt dat als n nadert naar , de binomiale verdeling een normale verdeling wordt.
lim B(n, ) N (n , n (1 )) N ( , )
n
In de praktijk zal n echter nooit oneindig en gebruiken we dus een benadering. We mogen dit doen als volgende twee voorwaarden voldaan zijn: n 5 én n(1 ) 5 9.3
De
² -verdeling.
Zijn X 1, X 2,..., X onafhankelijke standaardnormale variabelen
N 0,1 , dan definiëren we de
het aantal vrijheidsgraden van
chi-kwadraat variabele als volgt:
X X ... X 2
2 1
2 2
2
met
de variabele. Ze is een positieve variabele omdat ze de som is van kwadraten. ² -verdeling is asymmetrisch: hoe kleiner het aantal vrijheidsgraden, hoe meer asymmetrisch de kromme is. 9.3.1
2
is een continue variabele. Eigenschappen van de chi-kwadraat verdeling
² -variabele: E ( 2 ) 2 Variantie van ² -variabele: V ( ) 2 Modus van ² -variabele voor 2 is 2 2 2 2 De som van 2 ² variabelen is nog een ² variabele: 1 2 ( v1 v2 ) Verwachting van
12
9.4
De student of t - verdeling.
N 0,1 , dan definiëren we
Zijn X 1, X 2,..., X en Y onafhankelijke standaardnormale variabelen de t - variabele als volgt:
9.4.1 9.5
Y
T
1
( X 12 X 22 ... X 2 )
is het aantal vrijheidsgraden van de variabele. De t - verdeling is symmetrisch: om x 0 . t – variabele is een continue variabele. De standaardnormale verdeling is een goede benadering vanaf 30 .
Eigenschappen van de t - verdeling Verwachting, gemiddelde, mediaan en modus:
E (T ) 0 Variantie van de t – variabele (voor 2 ) : V (T ) 2 De F - verdeling.
Zijn
X 1, X 2,..., X 1 en Y1 , Y2 ,..., Y 2 onafhankelijke standaardnormale variabelen N 0,1 , dan
definiëren we de F - variabele met
1
en
2 1
( X 12 X 22 ... X 21 )
F 1, 2 1 1
2 9.5.1
vrijheidgraden als volgt:
(Y12 Y22 ... Y22 )
is het aantal vrijheidsgraden van de variabele F -verdeling is asymmetrisch. F - variabele is een continue positieve variabele, ze komt niet in de natuur voor De waarden van de verdelingsfunctie -> tabel Eigenschappen van de F - verdeling De verwachting van de F - verdeling (voor
2 2 ) = E ( F , ) 1
2
2 22
( 1)
9.6 De parameters (reële getallen) Als je weet van welk type een kansverdeling is, weet je daarom nog niet de precieze waarden van de kansverdeling zoals de variantie, het gemiddelde, het aantal vrijheidsgraden, de proportie, … Om de kansverdeling volledig te bepalen moeten we zijn parameters specificeren: Binomiale variabele Normale variabele
2 -verdeling t – verdeling F – verdeling
n en en 1 en 2
13
9.7 De steekproevenverdelingen. 9.7.1 Definities. Een steekproefgrootheid is een combinatie van toevalsvariabelen (som, variantie, gemiddelde,…). Een steekproevenverdeling is de kansverdeling van een steekproefgrootheid. Het is dus niet de verdeling van een bepaalde variabele in een steekproef (= frequentieverdeling). 9.7.2 9.7.2.1
Enkele steekproevenverdelingen: De steekproevenverdeling van het gemiddelde, met teruglegging:
E( X ) E( X ) V (X ) ² De variantie van steekproefgrootheid X : V ( X ) n n Als X een normale variabele is, dan is X normaal verdeeld. De verwachting van steekproefgrootheid X :
9.7.2.2
De steekproevenverdeling van de variantie, met teruglegging:
De verwachting van steekproefgrootheid S : E ( S ²) 2
Als X een normale variabele is, dan is
n 1 ² n
nS ² een ² -variabele met n 1 vrijheidsgraden. ²
INDUCTIEVE STATISTIEK 10 Inleiding tot de inductieve statistiek. Meestal vertrokken van een random steekproef die we dan generaliseren naar hele populatie. Het steekproefgemiddelde is heel zelden (of nooit) gelijk aan populatiegemiddelde, maar we kunnen het wel gebruiken voor het schatten van populatiegemiddelde. Hiervoor zijn er verschillende manieren. Puntschatting: één enkel getal populatiegemiddelde. Maar hoe kunnen we zeker zijn van de juistheid van dit getal? Intervalschatting: betrouwbaarheidsinterval in het midden van dit interval bevindt zich het steekproefgemiddelde en de grenzen ervan worden berekend. Dit geeft meer zekerheid. Het Populatiegemiddelde is niet meer gelijk zijn aan één getal maar mag tussen twee bepaalde getallen liggen. De betrouwbaarheid wordt er altijd bij vermeld (90%, 95%, …). Hoe groter de betrouwbaarheid, hoe groter het interval. 11 Puntschatting 11.1 Definties. Om een parameter te schatten berekenen we een steekproefgrootheid: de schatter S . Alle schatters hebben dus een steekproevenverdeling. Op basis van een steekproef berekenen we dan de waarde van S , deze waarde noemen we de schatting toevalsvariabele, een schatting niet. 11.1.1
ˆ .
Een schatter is dus een
Eigenschappen van een goede schatter
Een schatter
S van een parameter is zuiver als E S
De verwachting van een zuivere schatter is gelijk aan de te schatten parameter. Een schatter S van een parameter is efficiënt als zijn variantie minimaal is. De schatter is nooit perfect, maar we willen dat de afwijking zo klein mogelijk is.
14
11.2 Principe van de grootste aannemelijke methode Bij deze manier kiezen we een schatter S die de kans dat de geobserveerde steekproef eigenlijk wordt getrokken, maximaliseert. Deze methode geeft altijd efficiënte schatters. 11.3 Enkele schatters Zie hier een aantal zuivere en efficiënte schatters: In populatie
Gebruikte schatter
Want…
p (proportie)
B n, n
(verwachting)
X
B n, E n EX
n 2 S n 1
n 2 E S 2 n 1
2
(variantie)
12 Intervalschatting. 12.1 Een betrouwbaarheidsinterval voor de verwachting. 12.1.1 Inleiding. Meer betrouwbaarheid groter betrouwbaarheidsinterval verlies nauwkeurigheid Meer nauwkeurigheid kleiner betrouwbaarheidsinterval verlies betrouwbaarheid Om de nauwkeurigheid op te drijven moet de steekproefgrootte dus vergroten. 12.1.2 Definities Een betrouwbaarheidsinterval is een toevalsinterval met als grenzen steekproefgrootheden. Hij bevat de te schatten parameter met een bepaalde kans. Betrouwbaarheid: De kans dat de realisatie van ons toevalsinterval de parameter bevat. Zijn symbool is 1 (van alle op deze manier gevonden intervallen is er een proportie 1 die de gezochte parameter bevat). Onbetrouwbaarheidsdrempel of significantieniveau: Dit is de kans . 12.1.3 12.1.3.1
Betrouwbaarheidsintervallen voor de verwachting X is normaal verdeeld (of niet maar dan n > 30),
X N , en het B.I. wordt gegeven door n 12.1.3.2
nS 2
2
/2 , x z / 2 x z . n n
X is normaal verdeeld (of niet maar dan n > 30), is niet bekend:
X Tn 1 en het B.I. wordt gegeven door S n 1 12.2 12.2.1
is bekend:
S S /2 , x tn/12 x tn 1 . n 1 n 1
Betrouwbaarheidsinterval voor variantie X is normaal verdeeld
nS ² nS ² n21 en het B.I. wordt gegeven door , /2 . k / 2,n 1 kn 1
15
12.2.2
X is niet normaal verdeeld
Niet behandeld in de cursus! 12.3 12.3.1
Betrouwbaarheidsinterval voor proportie Betrouwbaarheidsinterval voor π bij kleine n.
Met behulp van de grafiek vind je de 95%-betrouwbaarheidsintervallen door cross-referencing. 12.3.2 Als
Betrouwbaarheidsinterval voor π bij grote n.
1 1 n 5 én n(1 ) 5 dan is het B.I. p z / 2 p(1 p); p z / 2 p(1 p) n n
13 Toetsen. 13.1 Toetsingsprocedure 13.1.1 Theoretische hypothese: Dit kunnen we beschouwen als het formuleren van een vraag. 13.1.2 Statistische hypothese Ha of alternatieve hypothese. De theoretische hypothese wordt vertaald in de taal van de kansrekening. eenzijdige toets: …>… of …<… tweezijdige toets: ... ... 13.1.3 Nulhypothese H0 De nulhypothese moet tegenstrijdig zijn met de alternatieve hypothese. Als H 0 juist is, moet Ha verkeerd zijn en omgekeerd. Onder H0 -> mogelijk zijn om kansen te berekenen => H 0 niet vorm …<… kan hebben. 13.1.4 Toetsingsgrootheid G De steekproefgrootheid moet afhankelijk zijn van hypothesen de toetsingsgrootheid mag dus geen onbekende parameters bevatten en zijn steekproevenverdeling moet bekend zijn. 13.1.5 Betrouwbaarheid 1- Dit is de kans om de alternatieve hypothese te verwerpen als de nulhypothese juist is, of dus ook de kans om de nulhypothese te aanvaarden als ze juist is.
16
De onbetrouwbaarheidsdrempel of het significantieniveau is de kans om de nulhypothese te verwerpen als ze juist is. Bij een eenzijdige toets geldt:
P x1 G 1 of P G x 2 1 naargelang de richting.
Bij een tweezijdige toets geldt: De intervallen waartoe
Px1 G x2 1
G behoort noemt men de kritieke gebieden.
13.1.6 Beslissing Als G in het kritieke gebied ligt of een kritieke waarde is, dan wordt de alternatieve hypothese verworpen. 13.2 Keuze van toetsingsgrootheid 13.2.1 Toetsen van hypothese betreffende verwachting μ Men wil toetsen of de verwachting van een toevalsvariabele verschillend is van een bepaalde waarde (deze bepaalde waarde is vaak de verwachting van een andere variabele). 13.2.1.1
X is normaal verdeeld (of niet maar dan n > 30), is bekend:
Toetsingsgrootheid:
X
, deze is standaard normaal verdeeld.
n 13.2.1.2
X is normaal verdeeld (of niet maar dan n > 30), is niet bekend:
Toetsingsgrootheid:
13.2.2 13.2.2.1 13.2.2.1.1
X , deze heeft een t-verdeling met n 1 vrijheidsgraden. S n 1
Toetsen van hypothese betreffende het verschil tussen twee verwachtingen Onafhankelijke waarnemingen X , Y zijn normaal verdeeld (of niet maar dan n > 30), X , Y is bekend:
Toetsingsgrootheid:
13.2.2.1.2 Toetsingsgrootheid:
X Y , deze is standaard normaal verdeeld. 2 2 X . Y nX nY X , Y zijn normaal verdeeld (of niet maar dan n > 30), X Y is onbekend:
X Y nX S nY SY2 1 1 ( ) nX nY 2 nX nY 2 X
, deze heeft een t-verdeling met
nX nY 2 vrijheidsgraden.
13.2.2.2 Afhankelijke waarnemingen Hierbij moet je de twee groepen afhankelijken herleiden tot één enkele groep observaties: je definieert het verschil tussen elk paar di xi yi Je krijgt dus een steekproef van
d -waarden die een nieuwe toevalsvariabele D definieert.
17
De toetsingsgrootheid is dan
D SD
, deze heeft een t-verdeling met
n 1 vrijheidsgraden.
n 1
13.2.3 Toetsen van hypothese betreffende een proportie Stel dat men wil toetsen of een proportie in een populatie verschillend van een bepaalde waarde is (vaak een proportie in een andere populatie). Als
nP n standaard normaal. n (1 )
n 5 én n(1 ) 5 dan is de toetsingsgrootheid
13.2.4 Toetsen van hypothese betreffende het verschil tussen twee proporties Men wil toetsen of de proporties in twee populaties identiek zijn, maar geen van beide proporties is bekend (anders gebruik je de vorige methode) Als geldt dat
n1ˆ1 5 , n1 (1 ˆ1 ) 5 , n2ˆ2 5 en n2 (1 ˆ2 ) 5 dan is de toetsingsgrootheid P1 P2
n1 P1 n2 P2 n1 P1 n2 P2 n1P1 n2 P2 n1P1 n2 P2 1 1 n1 n2 n1 n2 n1 n2 n1 n2 n1 n2
standaard normaal verdeeld.
13.3 De 2 soorten fouten De fout van de eerste soort is dat de nulhypothese ten onrechte verworpen wordt. De kans is . De fout van de tweede soort is dat de alternatieve hypothese ten onrechte verworpen wordt. De kans om deze fout te maken wordt genoemd. Deze kans kan soms berekend worden (zie
Statistiek II).
Nulhypothese is …
Juist
Verkeerd
Verworpen
FOUT
JUIST
1-
Aanvaard
JUIST
FOUT
1-
Nulhypothese wordt …
18