Vrije Universiteit Brussel Faculteit Wetenschappen
Waarschijnlijkheidsrekening en Statistiek
P. de Groen
Syllabus voor het college in Waarschijnlijkheidsrekening en Statistiek in de Tweede Kandidaturen Wetenschappen, Informatica, Toegepaste Informatica, Natuurkunde, Scheikunde, Biotechnologie, Biologie, Geologie en Geografie in het jaar 2003.
Inhoudsopgave 1
2
3
Inleiding 1.1 Waarschijnlijkheidsrekening versus statistiek . . 1.2 Beschrijvende statistiek . . . . . . . . . . . . . . 1.2.1 Variabelen en datatypen . . . . . . . . . 1.2.2 Het Histogram . . . . . . . . . . . . . . 1.2.3 Percentielen en de mediaan. . . . . . . . 1.2.4 Gemiddelde en standaarddeviatie. . . . . 1.2.5 Meerdimensionale data . . . . . . . . . . 1.2.6 Het rekenen met experimentele resultaten
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
4 4 6 6 7 8 10 11 15
Inleiding tot de Kanstheorie 2.1 Rekenen met kansen . . . . . . . . . . . . . . . . . . . 2.1.1 Inleiding . . . . . . . . . . . . . . . . . . . . . 2.1.2 Het verzamelingsmodel . . . . . . . . . . . . . 2.1.3 Voorwaardelijke waarschijnlijkheid . . . . . . . 2.1.4 De formule van Bayes . . . . . . . . . . . . . . 2.2 Stochastische variabelen en hun kansverdeling . . . . . . 2.2.1 Stochastische variabelen . . . . . . . . . . . . . 2.2.2 Eigenschappen van een verdelingsfunctie . . . . 2.2.3 Continue en discrete verdelingen . . . . . . . . . 2.2.4 Percentielen . . . . . . . . . . . . . . . . . . . . 2.3 Kansvectoren en onafhankelijke stochastische variabelen 2.4 Verwachtingswaarde en standaardafwijking . . . . . . . 2.5 Kentallen van locatie, schaal en vorm . . . . . . . . . . 2.5.1 Kentallen van locatie . . . . . . . . . . . . . . . 2.5.2 Kentallen van schaal . . . . . . . . . . . . . . . 2.5.3 Kentallen van vorm . . . . . . . . . . . . . . . . 2.6 Covariantie en correlatieco¨effici¨ent . . . . . . . . . . . . 2.7 Empirische en theoretische grootheden, een overzicht . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
18 18 18 19 20 21 22 22 24 25 26 27 32 37 37 39 40 42 44
Belangrijke Verdelingen 3.1 De Binomiaalverdeling . . . . . . . . . . . . . . . . . 3.1.1 Bernoulli-experimenten . . . . . . . . . . . . 3.1.2 Permutaties en de formule van Stirling . . . . . 3.1.3 Combinaties . . . . . . . . . . . . . . . . . . 3.1.4 De Binomiaalverdeling . . . . . . . . . . . . . 3.1.5 De wet van de grote getallen (de Moivre 1718) 3.2 De hypergeometrische verdeling . . . . . . . . . . . . 3.3 De Geometrische verdeling . . . . . . . . . . . . . . . 3.4 De Poissonverdeling en Poissonincidentenstromen . . . 3.4.1 De Poissonverdeling . . . . . . . . . . . . . . 3.4.2 Poissonincidentenstromen . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
45 45 45 46 47 48 50 50 53 54 54 56
. . . . . . . .
. . . . . . . .
. . . . . . . .
1
. . . . . . . . . . .
INHOUDSOPGAVE 3.5
2
. . . . . . . . . . . . . . . . . . . .
59 59 60 61 62 62 63 63 64 64 65 66 67 71 72 74 77 77 80 83
4
Inleiding tot de Statistiek 4.1 Parameterschattingen en betrouwbaarheidsintervallen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Methoden voor het bepalen van schatters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Het schatten van de verwachtingswaarde van een normale verdeling als σ bekend is . . . . . . . . . . . . . 4.1.3 Het schatten van de variantie van een normale verdeling . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.4 Het schatten van het gemiddelde van een normale verdeling . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.5 Het schatten van een percentage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Hypothesetoetsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 De t-toets voor e´ e´ n groep . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 De χ 2 -toets voor de variantie in e´ e´ n groep . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 De F-toets, het vergelijken van varianties in twee groepen . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.4 De t-toets voor het vergelijken van gemiddelden in twee groepen (Eng. two-group t-test) . . . . . . . 4.2.5 Verbonden steekproeven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 De macht van een toets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 voorbeeld 1: de tweezijdige t-toets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Voorbeeld 2: de paranormale begaafdheid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 De chi-kwadraat toets op een kansverdeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 De chi-kwadraat toets op een kansverdeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2 Toets op een verdeling met geschatte parameters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.3 Kruistabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 De Kolmogorov-Smirnov Toets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86 86 87 89 91 94 95 96 97 99 101 103 106 107 107 111 112 112 114 115 117
5
Correlatie- en regressieanalyse 5.1 Kleinste-kwadratenproblemen . . . . . . . . . . . . . . 5.2 Meetkundige interpretatie . . . . . . . . . . . . . . . . . 5.3 Verbetering van de numerieke stabiliteit . . . . . . . . . 5.4 Een stochastisch model met e´ e´ n onafhankelijke variabele
119 121 122 123 124
3.6
3.7
3.8
De exponenti¨ele verdeling . . . . . . . . . . . . . . . . . . . . . 3.5.1 De exponenti¨ele verdeling . . . . . . . . . . . . . . . . . 3.5.2 De risico verhouding . . . . . . . . . . . . . . . . . . . . 3.5.3 De Gamma-verdeling . . . . . . . . . . . . . . . . . . . . Uniforme verdelingen en random getallen . . . . . . . . . . . . . 3.6.1 De discrete uniforme verdeling . . . . . . . . . . . . . . . 3.6.2 De continue uniforme verdeling . . . . . . . . . . . . . . 3.6.3 Random getallen . . . . . . . . . . . . . . . . . . . . . . De Normale Verdeling . . . . . . . . . . . . . . . . . . . . . . . 3.7.1 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.2 De standaard-normale verdeling N 0 1 . . . . . . . . . . 3.7.3 De algemene normale verdeling N µ σ . . . . . . . . . 3.7.4 Benaderingen met de normale verdeling . . . . . . . . . . 3.7.5 Transformatie van de dichtheidsfunctie van een kansvector 3.7.6 Normaal verdeelde random getallen . . . . . . . . . . . . 3.7.7 De normale verdeling in verscheidene dimensies . . . . . De Chi-kwadraat, Student-t en Fisher-Snedecor Verdelingen . . . 3.8.1 De Chi-kwadraat verdeling . . . . . . . . . . . . . . . . . 3.8.2 De t-verdeling . . . . . . . . . . . . . . . . . . . . . . . 3.8.3 De Fmn -verdeling . . . . . . . . . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . .
6
Oefeningen
126
7
Software 153 7.1 SPSS, Een summier overzicht van een aantal faciliteiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
INHOUDSOPGAVE
7.2
8
7.1.1 Inleiding . . . . . . . . . . . . . . . . . . . . . . 7.1.2 Het werkblad (data editor) . . . . . . . . . . . . . 7.1.3 Het FILE-menu . . . . . . . . . . . . . . . . . . . 7.1.4 Aanmaken van kolommen en invoeren van data . . 7.1.5 Wegen en selecteren van data . . . . . . . . . . . 7.1.6 Transformatie van data . . . . . . . . . . . . . . . 7.1.7 Grafische weergave van de data . . . . . . . . . . 7.1.8 Beschrijvende statistiek . . . . . . . . . . . . . . 7.1.9 t-Toetsen . . . . . . . . . . . . . . . . . . . . . . 7.1.10 Toetsen met de χ 2 –verdeling . . . . . . . . . . . . 7.1.11 Regressie en correlatieanalyse . . . . . . . . . . . 7.1.12 De Kolmogorov-Smirnov toets . . . . . . . . . . . 7.1.13 Het Syntax Window . . . . . . . . . . . . . . . . Statistische faciliteiten in Excel . . . . . . . . . . . . . . . 7.2.1 Inleiding . . . . . . . . . . . . . . . . . . . . . . 7.2.2 Het invoeren van data . . . . . . . . . . . . . . . . 7.2.3 Beschrijvende Statistiek . . . . . . . . . . . . . . 7.2.4 F- en t-Toetsen . . . . . . . . . . . . . . . . . . . 7.2.5 Kruistabellen en de χ 2 -toets op een kansverdeling 7.2.6 Het berekenen van statistische functies . . . . . .
3
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Tabellen 8.1 Inleiding, afrondfouten en lineaire interpolatie . . . . . . . . . . . . . . . . . . 8.1.1 Afrondfouten, afwijkingen tussen de exacte waarde en de tabelwaarden 8.1.2 Lineaire interpolatie . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 De binomiaalverdeling X Bn p . . . . . . . . . . . . . . . . . . . . . . . 8.3 De Poissonverdeling X Pλ . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4 De standaard normale verdeling Z N 0 1 . . . . . . . . . . . . . . . . . . . 8.5 De χ 2 -verdeling X χn2 ; n is het aantal vrijheidsgraden . . . . . . . . . . . 8.6 De t-verdeling T tn ; n is het aantal vrijheidsgraden . . . . . . . . . . . . . 8.7 De F-verdeling F Fnm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Index
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
153 153 153 154 154 154 155 156 156 157 158 158 158 159 159 159 160 161 161 161
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
162 162 162 162 164 171 173 174 176 177 181
Hoofdstuk 1
Inleiding 1.1 Waarschijnlijkheidsrekening versus statistiek Waarschijnlijkheidsrekening is een wiskundige discipline, ontwikkeld als abstract model en gebaseerd op axioma’s; conclusies worden deductief afgeleid uit de basisprincipes. In de statistiek gaan we inductief na of een zeker kanstheoretisch model toepasbaar is op onze waarnemingen; absolute zekerheid hierbij kunnen we nooit bereiken. Als we bijvoorbeeld onze winstkansen berekenen voor een dobbelspel met “eerlijke” stenen (iedere uitkomst heeft kans 16 ) zijn we bezig met waarschijnlijkheidsrekening. Als we echter tijdens het spel merken dat de zes te vaak uitkomt en gaan twijfelen aan de eerlijkheid van een dobbelsteen, behandelen we een statistisch probleem. Kansrekening geeft antwoorden op vragen als: wat is de kans dat ik een zes gooi bij het dobbelen? wat is de kans dat ik met een munt de elfde maal “kop” gooi als ik al tien maal “kop” gegooid heb? wat is de kans dat ik slaag voor mijn examen statistiek (=1 als ik goed studeer)?
De volgende vragen zijn van meer statistische aard: ik heb 100 maal met een munt gegooid en vond 60 maal “kop”. Is die munt “eerlijk” (kans op “kop” of “munt” is 12 )? een met kunstmest behandelde akker brengt 5.8 ton per hectare op en een zonder maar 4.9 ton/ha. Is dit verschil significant? zijn de geconstateerde leukemiegevallen in de dorpen rond Sellafield (GB) en La Hague (F) te wijten aan toevallige (overal voorkomende) oorzaken of is er daar sprake van een statistisch significant groter risico op deze ziekte?
Voor een degelijk antwoord op een statistische vraag is het noodzakelijk een goed kanstheoretisch model ter beschikking te hebben voor het berekenen van een antwoord en voor het inschatten van de mate van relevantie ervan, zoals blijkt uit het volgende voorbeeld. Twee docenten, Stef en Pieter, beoordelen beide onafhankelijk van elkaar hetzelfde statistiekexamen van twaalf studenten met het volgende resultaat: Jan Veerle Wim Monique Kees Tanja
Pieter 7 10 16 12 14 12
Stef 8 9 18 13 13 13
Rudger Eva Herwig Ivo Fred Dirk 4
Pieter 16 14 12 11 10 14
Stef 18 16 11 13 12 16
HOOFDSTUK 1. INLEIDING
5
Bij het zien van deze uitslagen komt de vraag op of Pieter (gemiddeld) even hoge cijfers geeft als Stef. We kunnen niet verwachten dat de beoordeling van ieder examen apart een gelijk resultaat zal opleveren als beiden even streng zijn. We kunnen wel verwachten dat (in dat geval) de kansen op een positief of negatief verschil gelijk zullen zijn. M.a.w. het experiment, “Laat Pieter en Stef ieder het examen van een student beoordelen en kijk of het verschil 0 dan wel 0 is”, is te modelleren met het werpen van een “eerlijke” munt met kans 12 op “kop”. De kans op de gebeurtenis “Pieter geeft bij 12 examens driemaal of minder een cijfer groter of gelijk aan dat van Stef” is dan gelijk aan de kans op het gooien van drie of minder maal “kop” bij twaalf worpen met een munt. De kans hierop is (zoals we later zullen zien):
12 1211 121110 212 1 1
2
23
299 73% 4096
We concluderen dat kennelijk de kans, dat Pieter examens even streng als of milder dan Stef beoordeelt, 7.3% is. Met vrij grote zekerheid (92.7%) geeft hij dus lagere cijfers. In dit voorbeeld hebben we alleen gekeken naar de keren dat het cijfer groter of gelijk dan wel kleiner was en daarop ons model gebouwd zonder te letten op de grootte van de verschillen; we hebben een zogenaamde “verdelingsvrije” statistiek gebruikt. We zouden ook kunnen kijken naar de grootte van de verschillen en een uitspraak proberen te doen over het “gemiddelde verschil” maar dan moeten we veronderstellingen gaan maken over de kansen op alle mogelijke verschillen. De statistische uitspraken kunnen dan veel preciezer worden, maar misschien zijn ze gebouwd op los zand doordat de veronderstellingen niet kloppen! Dit voorbeeld laat zien dat een statistische uitspraak gedaan wordt aan de hand van een (abstract) model uit de waarschijnlijkheidsrekening. De geldigheid van van de uitspraak staat of valt met de toepasbaarheid van het model, maar zonder model zijn er helemaal geen uitspraken te doen. Het gevolg is dat een groot deel van deze syllabus (tweederde) gewijd is aan modellen uit de kansrekening die we nodig hebben in statistische toepassingen uit het laatste deel.
HOOFDSTUK 1. INLEIDING
6
1.2 Beschrijvende statistiek 1.2.1 Variabelen en datatypen De methoden om systematisch empirische kennis te verwerven zijn in alle wetenschappen dezelfde. We doen waarnemingen aan of experimenten met het object van onze studie en trachten er met mathematische en statistische methoden uitspraken over te doen, classificaties te maken en verbanden te zoeken. De verzamelde gegevens kunnen zeer verschillend van aard zijn. Neem bijvoorbeeld een groep 2K studenten. We noteren naam (X0 ), geboortejaar (X1 ), een aantal fysieke kenmerken zoals geslacht (X2 ), kleur haar (X3 ), kleur ogen (X4 ), gewicht (X5 ), lengte (X6 ), een aantal studiekenmerken zoals studierichting (X7 ), gemiddeld examencijfer in 1K (X8 ), gemiddeld examencijfer bij het eindexamen HSO (X9 ), en nog veel meer. Deze gegevens kunnen we ordenen in een tabel van de vorm: X0 naam
Jan Janssen Irma Douce .. .
X1
X2
X3
X4
X5
X6
X7
X8
X9
geboorte jaar
sexe
haarkleur
kleur ogen
gewicht
lengte
studie
gem. 1K
gem. HSO
V=0 M=1
zwart=0 bruin=1 blond=2 rood=3
bruin=0 blauw=1 grijs=2 groen=3
kg
cm
info=0 nat=1 sch=2 bio=3
op 20
op 100
1983 1985 .. .
1 0 .. .
0 2 .. .
0 3 .. .
83.7 62.1 .. .
187 165 .. .
0 3 .. .
18 12 .. .
75 62 .. .
Tabel 1.1: Een multivariate dataset De gegevens in deze tabel zijn zeer verschillend van aard. De eerste kolom X0 bevat een rij karakters, die de menselijke lezer associeert met de naam van een persoon maar die voor de statistische verwerking betekenisloos is. De kolommen (of variabelen) X1 X4 en X7 hebben discrete waarden (duiden categorie¨en aan) maar alleen de waarden van X1 hebben een natuurlijke ordening, bij de anderen is de keuze van de waarden 0 1 of 0 1 2 3 volledig arbitrair. We noemen X2 X3 X4 en X7 daarom nominale variabelen of categorale variabelen en X1 een ordinale variabele. De variabelen X5 X6 (lengte en gewicht) en X8 X9 (gemiddelde examencijfers) kunnen als continu beschouwd worden (eventueel binnen een gegeven interval). Er is echter een verschil tussen X5 X6 enerzijds en X8 X9 anderzijds. De uitspraak dat “een man gemiddeld 15% zwaarder is dan een vrouw” of dat “Jan 22 cm groter is dan Irma” zijn zinvol, maar de uitspraak dat “het gemiddelde examencijfer van Jan 50% beter is dan dat van Irma” is nonsens. Continue variabelen zoals X8 X9 noemen we interval variabelen en X5 X6 noemen we schalende variabelen of ratio variabelen. Samenvattend, in de statistiek onderscheiden we de volgende datatypen: nominaal of categoraal ordinaal . . . . . . . . . . interval . . . . . . . . . . . ratio of schalend . . . .
de waarden duiden een klein aantal categorie¨en aan zonder natuurlijke ordening, er is een klein aantal waarden met een natuurlijk ordening, maar de verschillen hebben geen betekenis, de waarden vari¨eren continu binnen een interval, de verschillen hebben een kwantitatieve betekenis, maar verhoudingen niet de waarden vari¨eren continu en verschillen zowel als verhoudingen zijn zinvol.
In deze cursus zullen we vrijwel uitsluitend ratio variabelen gebruiken.
HOOFDSTUK 1. INLEIDING
7
1.2.2 Het Histogram Stel, we hebben de lengten van 100 personen gemeten en de resultaten, afgerond tot op hele centimeters, afgedrukt in tabel 1.2. We hebben dus een steekproef uit de verzameling van lengten (b.v. van volwassen mannelijke inwoners van Belgi¨e) met een steekproefomvang n 100. 1.74 1.74 1.75 1.65 1.77 1.84 1.50 1.86 1.45 2.01 1.62
1.70 1.70 1.75 1.72 1.85 1.81 1.80 1.90 1.59 1.97 1.42
1.77 1.77 1.52 1.53 1.70 1.84 1.63 1.67 1.86 1.63 1.58
1.68 1.68 1.90 1.58 1.82 1.84 1.47 1.62 1.72 1.62 1.73
1.65 1.65 1.88 1.79 1.78 1.75 1.87 1.83 1.87 1.55 1.67
1.80 1.80 1.67 1.89 1.96 1.94 1.67 1.99 1.73 1.74 1.49
1.77 1.77 1.68 1.81 1.47 1.62 1.62 1.86 1.62 1.86 1.79
1.57 1.57 1.77 1.81 1.45 1.57 2.00 1.69 1.91 1.61 1.79
1.77 1.77 1.88 1.57 1.79 1.76 1.57 1.66 1.71 1.75 1.68
1.50 1.50 1.91 1.57 1.52 1.78 1.90 1.53 1.56 2.15 1.64
Tabel 1.2: Honderd lengtemetingen Erg veel informatie geeft zo’n tabel van ruwe gegevens niet; met name is het uit deze tabel moeilijk af te lezen wat de meest voorkomende lengte is en waar de uitersten liggen. Dezelfde gegevens, maar nu gesorteerd op grootte zoals in tabel 1.3, geeft veel meer informatie. We zien onmiddellijk dat alle metingen in het interval 142 215 liggen en dat waarden in de buurt van 1.75 het meest voorkomen. 1.42 1.45 1.45 1.47 1.47 1.49 1.50 1.50 1.52 1.52
1.53 1.53 1.55 1.56 1.57 1.57 1.57 1.57 1.57 1.58
1.58 1.59 1.61 1.62 1.62 1.62 1.62 1.62 1.62 1.63
1.63 1.64 1.65 1.65 1.66 1.67 1.67 1.67 1.67 1.68
1.68 1.68 1.69 1.70 1.70 1.71 1.72 1.72 1.73 1.73
1.74 1.74 1.75 1.75 1.75 1.75 1.76 1.77 1.77 1.77
1.77 1.77 1.78 1.78 1.79 1.79 1.79 1.79 1.80 1.80
1.81 1.81 1.81 1.82 1.83 1.84 1.84 1.84 1.85 1.86
1.86 1.86 1.86 1.87 1.87 1.88 1.88 1.89 1.90 1.90
1.90 1.91 1.91 1.94 1.96 1.97 1.99 2.00 2.01 2.15
Tabel 1.3: Dezelfde honderd lengtemetingen gesorteerd Voor een overzicht is het beter de gegevens in een aantal klassen (meestal 5 tot 30) in te delen. Hiertoe kiezen we een klassebreedte, b.v. 0.1, we verdelen het relevante interval in halfopen deelintervallen van deze lengte, b.v. 140 150 ; 150 160 ; en we tellen de frequenties, d.w.z. het aantal keren dat een meting in een bepaald deelinterval valt, zie tabel 1.4. Klasse 1 2 3 4 5 6 7 8
Ondergrens () 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1
Bovengrens () 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2
Frequentie 8 14 23 25 21 7 1 1
Percentage 8% 14% 23% 25% 21% 7% 1% 1%
modale klasse
Tabel 1.4: 100 lengtemetingen verdeeld in 8 klassen, klassebreedte 0.1 Grafisch kunnen we deze klassenindeling weergeven in een histogram. Op ieder deelinterval richten we een rechthoek op waarvan het oppervlak evenredig is met de frequentie van de betreffende klasse. In
HOOFDSTUK 1. INLEIDING
8
figuur 1.1 zijn histogrammen afgebeeld, behorend bij de data van tabel 1.2. Links is klassebreedte 0.1 gekozen en rechts 0.05. Zoals U ziet kan de vorm van het histogram vrij sterk van de keuze van de klassebreedte afhangen. Voor de gegeven dataset van tabel 1.2 kunnen we ook de empirische verdelingsfunctie tekenen. Bij gegeven dataset x1 x2 xn van n metingen wordt deze gedefinieerd door Fn x :
#xi xi x n
(1.1)
in woorden : het aantal metingen x gedeeld door het totale aantal. In figuur 1.2 is deze weergegeven voor de data van tabel 1.2. Deze functie is een “trapfunctie” die in de punten xi een sprong maakt. Als we alle metingen op een briefje schrijven, alle briefjes in een hoed stoppen en er (ongezien) een uit trekken, dan is Fn x de kans dat het briefje een getal bevat x. klassebreedte 0.1
klassebreedte 0.5
30
15
20
10
10
5
0
1.4
1.6
1.8
2
0
2.2
1.4
1.6
1.8
2
2.2
Figuur 1.1: Histogrammen van de 100 lengtemetingen met klassebreedten 0.1 resp 0.05.
1
0.8
0.6
0.4
0.2
0 1.3
1.4
1.5
1.6
1.7
1.8
1.9
2
2.1
2.2
2.3
Figuur 1.2: De empirische verdelingsfunctie voor de lengtemetingen van tabel 1.2.
1.2.3 Percentielen en de mediaan. In de praktijk willen we vaak een antwoord op de omgekeerde vraag: “voor welke waarde van x is 25% (of 50% of 90%) van de metingen kleiner dan of gelijk aan x”. We maken bijvoorbeeld deuren zo hoog dat (minstens) 99.9% van de mensen zijn hoofd niet zal stoten en we moeten dus weten waar die grens ligt. Bij gegeven α zouden we het α %-percentiel met 0 α 100 willen defini¨eren als het punt ξα waarbeneden α % van de metingen liggen; we zoeken dus de inverse funktie van de funktie Fn uit (1.1). Omdat we maar een eindig aantal metingen hebben en Fn constant is tussen ieder tweetal opeenvolgende metingen, bestaat zo’n inverse funktie echter niet (of minstens niet overal). Als we bijvoorbeeld
HOOFDSTUK 1. INLEIDING
9
de mediaan (dit is het 50%-percentiel) van de 100 metingen van tabel 1.3 willen bepalen, dan vinden we x50 173 en x51 174, zodat voor iedere x tussen deze twee waarden het percentage metingen ter linker zijde gelijk is aan 50%. Voor een eenduidige waarde kiezen we in dit geval het midden tussen deze twee punten als mediaan. Als we echter in deze dataset de laatste meting x100 215 schrappen, omdat deze lengte zeer uitzonderlijk is en het getal in deze tabel dus waarschijnlijk een meet- of typefout is, dan houden we 99 metingen over; 50% ervan geeft aanleiding tot het beschouwen van schimmige “halve” metingen. Bovendien is er geen punt ξ te vinden zo, dat precies 50% van de metingen kleiner dan of gelijk aan ξ is en ook 50% groter dan ξ . In dit geval defini¨eren we de mediaan dan als het punt waar de sprong van kleiner dan 50% naar groter gemaakt wordt: Dus, als x1 x2 xn dan defini¨eren we
x n med : 1 2 x nx 1 2
1 2
1 2
1 2n
1
als n oneven als n even
(1.2)
De mediaan is dus in feite de “middelste” waarneming, waarbij we dit begrip middelste interpreteren als het gemiddelde van de twee middelsten als het aantal waarnemingen even is. Voor een definitie van het (empirische) α %-percentiel ξα doen we in feite hetzelfde. We defini¨eren α n 1-de waarneming. Als p : α n 1 geheel is, is dit dus x . Als dit getal niet geheel dit als de 100 p 100 α n 1 en het “overschot” ρ : α n 1 p van bepalen. Het is kunnen we er het gehele deel p : 100 100 punt ξα zal dan ergens tussen xp en x p1 in liggen en wel zo dat de afstand tussen deze punten “eerlijk” verdeeld wordt naar rato van het overschot ρ . We defini¨eren het α %-percentiel ξα dus als
α n 1 en ρ : α n 1 p ξα : x p ρ x p1 x p met p : 100 100
100 n Merk op, dat het geen zin heeft om te spreken van een α %-percentiel met α n100 1 of α n1 . Tenslotte kunnen we in plaats van procenten ook fracties (tussen nul en een) beschouwen; we spreken dan van quantielen. Het 0.2–quantiel is dus het 20%–percentiel.
1.42
1.62
1.735
1.838
2.15
Figuur 1.3: Boxplot voor de data van tabel 1.2 De meest gebruikte empirische percentielen zijn die op 50% (de mediaan), 25% en 75% (het linkerresp. rechter kwartiel). Het verschil tussen het linker en rechter kwartiel heet het “(empirische) interkwartiel” en is een maat voor de spreiding van de metingen. Grafisch kunnen we deze tesamen met het totale bereik van de metingen samenvatten in een “box-plot”. Hierbij wordt (horizontaal of vertikaal) een as getekend gaande van de kleinste meting naar de grootste (dit is de totale variatiebreedte), op deze as worden de mediaan en de 25%– en 75%–percentielen aangegeven met een dwarse streep en van het stuk tussen de 25%– en 75%–percentiel wordt een doosje gemaakt, zie figuur 1.3. Hiermee geven we op zeer compacte wijze visueel weer wat de totale variatiebreedte is tegenover de breedte van de middelste 50% (het empirische interkwartiel). Vooral als we verscheidene datasets met elkaar willen vergelijken, zoals in figuur 1.4, kan dit een goed visueel hulpmiddel zijn voor het weergeven van plaats en schaal van de verschillende datasets. In SPSS en andere softwarepakketten, wordt dit nog iets verfijnd. De doorgetrokken assen rechts
HOOFDSTUK 1. INLEIDING
10
en links van het doosje, omvatten alleen de datapunten die minder dan 1.5 maal het interkwartiel verwijderd zijn van het rechter resp. het linker kwartiel. Metingen buiten dit gebied (ter lengte van vier maal het interkwartiel) worden als “uitschieters” (of “uitbijters”; Eng. “outliers” of “extremes”) beschouwd en afzonderlijk aangeduid. Tenslotte vermelden we, dat de modus van een steekproef de meest voorkomende waarneming is. De modale klasse bij een frequentieverdeling of een histogram is de klasse die de meeste waarnemingen bevat.
1.2.4 Gemiddelde en standaarddeviatie. Meer nog dan mediaan en interkwartiel worden gemiddelde en standaarddeviatie gebruikt voor het geven van compacte informatie over de ligging van de data en de schaal ervan. In publicaties beperkt men zich meestal tot het geven van gemiddelde en standaardafwijking, zodat de lezer de afzonderlijke metingen niet eens kent. Gemiddelde en standaardafwijking worden zo vaak gebruikt wegens hun prettige rekenkundige eigenschappen, zoals lineariteit, zie 1.2.6. Naderhand zullen we ook zien dat de meest gebruikte verdeling, de “normale verdeling” volledig gekarakteriseerd is door gemiddelde en spreiding en dat steekproefgemiddelde en standaarddeviatie de natuurlijke schatters voor normaal verdeelde data zijn. Definitie: Het gemiddelde x (steekproefgemiddelde) van de gegevens x1 x2 xn is x :
1 n xi n i∑ 1
(1.3)
In het voorbeeld van tabel 1.3 is de modus 1.62, de mediaan 1.735 en het gemiddelde 1.724. De modus behoeft niet eenduidig te zijn; het kan voorkomen dat verscheidene waarden even vaak voorkomen. Het gemiddelde is het gemakkelijkst te berekenen maar erg gevoelig voor fouten of uitschieters. Voor het bepalen van de mediaan moeten we onze gegevens sorteren, maar deze grootheid is wel het meest robuust. Als we bijvoorbeeld in tabel 1.3 een fout maken en de decimale punt in de laatste waarneming vergeten, dan verschuift het gemiddelde onmiddelijk naar 3.853 terwijl de mediaan niet verandert. Om de schaal van de gegevens (of de grootte van de “puntenwolk” rond gemiddelde of mediaan) weer te geven gebruiken we meestal de variantie (of de wortel daarvan, de standaardafwijking). De (empirische) variantie (Eng. sample variance) of steekproefvariantie van een steekproef x1 x2 xn is s2 :
1 n xi x2 n 1 i∑ 1
x
1 n xi n i∑ 1
(1.4)
waarbij x het steekproefgemiddelde is zoals gedefinieerd in (1.3). Om een grootheid te hebben, die een gelijke dimensie heeft als de gegevens zelf gebruiken we vaak de standaardafwijking, standaarddeviatie of spreiding s (Eng. standard deviation) , welke de wortel is uit de variantie s2 . Als bijvoorbeeld onze gegevens lengten zijn, uitgedrukt in “inch”, dan wordt s (de standaardafwijking) een lengte eveneens uitgedrukt in “inch” terwijl de variantie dan een oppervlak is; als we de gegevens vervolgens herschalen naar “cm” door ze te vermenigvuldigen met 2.54 moeten we s met dezelfde factor vermenigvuldigen, terwijl de variantie met het kwadraat van 2.54 vermenigvuldigd moet worden. Een slechte maar veelgebruikte alternatieve manier om de steekproefvariantie te berekenen is s : 2
immers,
1 n 1
n 2 2 ∑ xi n x i1
n
n
n
n
n
i1
i 1
i1
i 1
i1
(1.5)
∑ xi x2 ∑ x2i 2x ∑ xi ∑ x2 ∑ x2i 2xnx nx2
In sommige boeken wordt deze formule zelfs aangeprezen als superieur aan (1.4), omdat er minder optellingen voor nodig zijn. Zij heeft echter een probleem, dat het resultaat zeer onnauwkeurig kan zijn ten gevolge
HOOFDSTUK 1. INLEIDING
11
x x d de afronding van het gemiddelde noteren en deze afgeronde waarde van afronding. Als we met
gebruiken om de steekproefvariantie te berekenen dan vinden we x2 ∑ni1 xi
2 x ∑ni1 x2i n
∑ni1 xi x d 2 ∑ni1 xi x2 2d ∑ni1 xi x nd 2 ∑ni1 x2i n x d 2 ∑ni1 x2i x2 2nxd nd2
a b
De tweede term in het rechterlid van (a) is nul, zodat de fout in de som ten gevolge van de afronding nd2 is. De tweede term in het rechterlid van (b) is niet nul (tenzij x 0 en kan zeer groot zijn als het gemiddelde x groot is t.o.v. de steekproefvariantie. Alleen al de afronding van x geeft in (b) dus extra bijdrage aan de fout t.o.v. (a). Maar zelfs als je het gemiddelde exact kunt berekenen, heb je in (b) nog altijd het cijferverlies ten gevolge van de aftrekking van twee grote positieve en bijna gelijke getallen als het gemiddelde groot is t.o.v. de steekproefvariantie. Formule (b) is dus altijd inferieur aan (a) en kan beter niet gebruikt worden in de praktijk. Een belangrijke eigenschap van het koppel formules voor gemiddelde x en steekproefvariantie s2 , is de “kleinste kwadraten”–eigenschap, dat het gemiddelde x de som van gekwadrateerde afwijkingen J g :
1 n xi g2 n 1 i∑ 1
(1.6)
minimaliseert en dat dit minimum precies gelijk is aan s2 . Omdat de afgeleide in het minimum nul is, vinden we door differentiatie inderdaad 2 n dJ g
xi g 0 dg n 1 i∑ 1
g
1 n xi n i∑ 1
We kunnen dit ook bewijzen door het gewoon uit te schrijven xi g xi x x g,
n n n ∑ xi g2 ∑ xi x2 2xi xx gx g2 ∑ xi x2 nx g2 ;
i1
i 1
i1
de som van de dubbele producten is nul en x g2 is altijd positief en nul in het minimum g x . Andere gebruikelijke kentallen van schaal zijn het bovenvermelde (empirische) interkwartiel, de afstand tussen het 25%– en het 75%–kwartiel, en de mediane absolute afwijking (“Median Absolute Deviation” of MAD) en de gemiddelde absolute afwijking (“mean absolute deviation” of MeanAD), de mediaan resp. het gemiddelde van de (absolute) afwijkingen t.o.v. de steekproefmediaan:
MAD : mediaanxi medni1
en
MeanAD :
1 n xi med n i∑ 1
(1.7)
Ga na dat de helft van de waarnemingen tussen med MAD en med MAD ligt en dat ook de MAD dezelfde dimensies heeft als de data.
1.2.5 Meerdimensionale data In tabel 1.5 staan de cijfers die studenten Informatica (I1–I31) en Biotech (B1–B22) behaalden bij het schriftelijk examen en bij de computerproef in april ’98. Deze data zijn tweedimensionaal omdat er voor iedere student twee cijfers zijn; bovendien betreft het twee groepen studenten. In 4.2 zullen we methoden behandelen om de twee cijferreeksen en de twee groepen met elkaar te kunnen vergelijken. De kentallen bij deze dataset vinden we in tabel 1.6. De resultaten van de groepen Informatica en Biotech uit deze tabel kunnen we kwalitatief snel met elkaar vergelijken door er een boxplot van te maken, zie figuur 1.4: Tot onze verbazing zien we dat de informaticastudenten juist de computerproef gemiddeld veel slechter deden dan de biotechstudenten en dat ook de resultaten van het schriftelijk examen iets lager lagen. In 4.2
HOOFDSTUK 1. INLEIDING St B01 B02 B02 B04 B05 B06 B07 B08 B09 B10 B11
CP 7 17 5 15 6 15 14 14 10 14 10
SE 11 10 6 15 12 18 16 14 9 12 11
12
St B12 B13 B14 B15 B16 B17 B18 B19 B20 B21 B22
CP 17 17 14 11 15 18 13 12 14 16 15
SE 7 13 16 16 15 16 9 11 13 13 17
St I01 I02 I02 I04 I05 I06 I07 I08 I09 I10 I11
CP 11 10 16 17 18 9 15 6 12 11 15
SE 8 15 16 15 16 10 13 11 12 11 13
St I12 I13 I14 I15 I16 I17 I18 I19 I20 I21 I22
CP 8 13 11 15 7 15 8 13 14 4 4
SE 12 10 11 14 7 16 11 14 8 6 7
St I23 I24 I25 I26 I27 I28 I29 I30 I31
CP 17 7 13 11 10 6 14 8 14
SE 14 14 14 13 9 5 13 10 13
Tabel 1.5: Geanonymiseerde resultaten van het schriftelijk examen (SE) statistiek en de computerproef (CP) in april ’98 voor studenten Informatica en Biotech. Info CP SE 11.4 11.6 3.91 3.05 11 & 15 13 & 14 4 5 8 10 11 12 15 14 18 16
gemiddelde standaarddeviatie modus minimum 25%-percentiel mediaan 75%-percentiel maximum
BioIr CP SE 13.1 12.7 3.62 3.27 14 16 5 6 10.75 10.75 14 13 15.25 16 18 18
Algemeen CP SE 12.1 12.1 3.86 3.16 14 & 15 13 4 5 9.5 10 13 13 15 14.5 18 18
Tabel 1.6: Kentallen voor de data in tabel 1.5. zullen we technieken behandelen om te kunnen beslissen of de verschillen significant zijn, d.w.z. niet te wijten aan het toeval. Tussen de cijfers die eenzelfde student behaalt voor het schriftelijk examen en de computerproef, verwachten we een verband. In figuur 1.5 is voor iedere student het cijfer van het schriftelijk examen uitgezet tegen dat van de computerproef. We zien grofweg een verband; studenten die goede cijfers behaalden voor het een, behaalden ook goede cijfers voor het ander. Numeriek kunnen we dit verband uitdrukken door de (empirische) covariantie en de correlatieco¨effici¨ent (Eng. sample covariance, sample correlation). Als x : xi i 1 n en y : yi i 1 n twee series van n metingen zijn (we kunnen ze beschouwen als vectoren in de n-dimensionale ruimte IRn ) met gemiddelden x en y en standaarddeviaties sx resp. sy , zie (1.4), dan zijn covx y :
n
x xyi y n1 ∑ i 1
i1
en
ρ x y :
covx y sx sy
(1.8)
de empirische covariantie resp. correlatie tussen x en y. Twee datasets x en y heten ongecorreleerd als ρ x y 0; anders heten ze gecorreleerd. Op dezelfde manier als in stelling 2.6.2 kunnen we laten zien dat ρ 1 ; dit is niets anders dan de ongelijkheid van Cauchy-Schwartz in de lineaire algebra. Meetkundig is de correlatie ρ gewoon de cosinus van de hoek tussen de vectoren x x en y y (in IRn ). In 5 zullen we laten zien hoe we bij deze data de “best passende” rechte y a bx (regressierechte) kunnen bepalen zo, dat de residuele (empirische) variantie ∑ni1 yi a bxi 2 minimaal is. Analoog aan (1.5) kunnen we de covariantie ook berekenen met de alternatieve formule
n x y nxy covx y : n1 ∑ i i 1
i1
Om dezelfde reden als tevoren is het gebruik hiervan af te raden.
(1.9)
HOOFDSTUK 1. INLEIDING
13
CP-Info
SE-Info
CP-Bir
SE-Bir
18
18
18
16
16 15.25
15 14
14 13
12 11
10.75
10.75 10
8 6 5
5
4
Figuur 1.4: Boxplot van de cijfers van het schriftelijk examen (SE) statistiek in april ’98 en de computerproef (CP) voor de studenten Informatica (Info) en Biotech (Bir).
20 x: Info 18
+: Bir
16 14 12 10 8 6 4 2 2
4
6
8
10
12
14
16
18
Figuur 1.5: Cijfers van het schriftelijk examen statistiek in april ’98 (verticaal) uitgezet tegen die van de computerproef (horizontaal) voor de studenten Informatica () en Biotech (); correlatieco¨effici¨ent ρ 060 .
Meer algemeen kunnen we de situatie tegenkomen waarin we n onafhankelijke waarnemingen hebben van p grootheden. Als voorbeeld geven we hier de bekende historische dataset van Bumpus uit 1898 met metingen van lichaamskarakteristieken van een aantal (volwassen) mussen. tabel 1.7 hieronder bevat een deel van deze gegevens. Van iedere mus zijn vijf lichaamskarakteristieken gegeven. We noteren deze waarnemingen als een n p–matrix X met componenten xi j i 1 n j 1 p . Dus de rij xi 1 xi p bevat de p componenten van de i–de meting en de kolom x1 j xn j bevat de n (onafhankelijke) metingen van de j–de component. Als we simultaan een uitspraak willen doen over p componenten van een (p–dimensionale) grootheid, zullen we meer dan p metingen moeten doen; dus n p . Het gemiddelde berekenen we per kolom,
x j :
1 n xi n i∑ 1
j
(1.10)
De empirische covariantiematrix defini¨eren we als de p p–matrix S, waarvan het j k–element de (empirische) covariantie bevat tussen de j–de en k–de kolom van de datamatrix X, S jk : covx j xk :
1 n xi j x j xik xk n 1 i∑ 1
(1.11)
HOOFDSTUK 1. INLEIDING nummer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
14 tot.lengte 155 156 160 152 160 155 157 165 153 162 162 159 159 155 162 152 159 155 163 163 156 159 161 155 162 153 162 164
spanwijdte 240 240 242 232 250 237 245 245 231 239 243 245 247 243 252 230 242 238 249 242 237 238 245 235 247 237 245 248
kop+bek 31.4 31.5 32.6 30.3 31.7 31.0 32.2 33.1 30.1 30.3 31.6 31.8 30.8 30.9 31.9 30.4 30.8 31.2 33.4 31.0 31.7 31.5 32.1 30.7 31.9 30.6 32.5 32.3
humerus 18.0 18.2 18.8 17.2 18.8 18.5 19.5 19.8 17.3 18.0 18.8 18.5 18.1 18.5 19.1 17.3 18.2 17.9 19.5 18.1 18.2 18.4 19.1 17.7 19.1 18.6 18.5 18.8
sternum 20.7 20.6 21.7 19.8 22.5 20.0 21.4 22.7 19.8 23.1 21.3 21.7 19.0 21.3 22.2 18.6 20.5 19.3 22.8 10.7 20.3 20.3 20.8 19.6 20.4 20.4 21.1 20.9
Tabel 1.7: Lichaamskarakteristieken van een aantal mussen volgens Bumpus (1898) We zien dat S een symmetrische matrix is, Sjk Sk j of ST de empirische variantie van de j–de kolom van X bevat, S j j : s2j
S en dat het j–de diagonaalelement Sj j van S
1 n xi j x j 2 n 1 i∑ 1
De empirische correlatiematrix R krijgen we door de elementen van S te herschalen met de standaarddeviaties van rij en kolom, S jk (1.12) R jk : S j j Skk
tot.lengte spanwijdte kop+bek humerus sternum
gemiddelden 158.4 241.6 31.5 18.4 20.9
15.07 17.19 2.24 1.75 1.24
covariantiematrix 17.19 2.24 1.75 32.55 3.38 2.95 3.38 0.73 0.47 2.95 0.47 0.43 3.91 0.74 0.63
1.24 3.91 0.74 0.63 5.00
1.000 0.776 0.674 0.682 0.143
correlatiematrix 0.776 0.674 0.682 1.000 0.692 0.785 0.692 1.000 0.834 0.785 0.834 1.000 0.306 0.388 0.431
0.143 0.306 0.388 0.431 1.000
Tabel 1.8: Gemiddelden, covariantiematrix en correlatiematrix van Bumpus’ data uit tabel 1.7 In het voorbeeld van Bumpus, tabel 1.8, zien we, dat de eerste vier variabelen sterk met elkaar correleren en dat de correlatie van de afmetingen van het sternum met de andere afmetingen vrij klein is. In tabel 1.8 merken we op, dat alle getallen in de covariantiematrix boven de diagonaal onder de diagonaal terugkomen vanwege de symmetrie en dat in de correlatiematrix bovendien de diagonaal uit enen bestaat. In publicaties wordt daarom de ruimte in de covariantiematrix onder de diagonaal vaak gebruikt om de niet-triviale elementen van de correlatiematrix neer te schrijven, zoals in tabel 1.9.
HOOFDSTUK 1. INLEIDING
15 gemiddelden
tot.lengte spanwijdte kop+bek humerus sternum
158.4 241.6 31.5 18.4 20.9
15.07 0.776 0.674 0.682 0.143
covariantiematrix correlatiematrix cursief 17.19 2.24 1.75 32.55 3.38 2.95 0.692 0.73 0.47 0.785 0.834 0.43 0.306 0.388 0.431
1.24 3.91 0.74 0.63 5.00
Tabel 1.9: Gemiddelden, covariantiematrix en correlatiematrix (cursief) van Bumpus’ data uit tabel 1.7
1.2.6 Het rekenen met experimentele resultaten In de praktijk hebben we vaak het probleem, dat we de resultaten van een of meerdere series metingen moeten gebruiken in een berekening. Noteer met X en Y de te meten grootheden en met x : xi i 1 n en y : yi i 1 n de metingen ervan. Eigenlijk zijn we alleen ge¨ınteresseerd in de gemiddelden x en y en standaarddeviaties sx resp. sy van onze metingen. In het dagelijkse laboratoriumwerk willen we de individuele metingen het liefst zo gauw mogelijk vergeten en ons beperken tot “de waarde x van X met fout sx ” (in 4.1.2 — 4.1.5 zullen we als preciezere terminologie het betrouwbaarheidsinterval introduceren). Het is dus wel nuttig om te weten wat er gebeurt met “de fout”, als we de som of het verschil x y, het product x y of een functie f x van de meetresultaten willen berekenen. Om met het laatste te beginnen, we wensen f x te gebruiken in plaats van het gemiddelde f van fi : f xi i 1 n om niet f xi te hoeven uitrekenen voor iedere afzonderlijke meetwaarde. Wat is dus de relatie tussen f en f x? Voor het verschil geldt: 1 n f f x ∑ f xi f x n i 1 Als f tweemaal differentieerbaar is, kunnen we f xi met een stukje Taylorontwikkeling benaderen, f xi f xxi x f x 12 xi x2 f ξi
ξi tussenpunt tussen xi en x
(1.13)
1 n 1 n 1 n f x
f x f x x
x (1.14) ∑ ∑ f ξixi x2 i i n i∑ n 2 n 1 i1 i1 De eerste term van het rechterlid is per definitie nul. Als de tweede afgeleide van f begrensd is door M op het relevante interval (tussen mini xi en maxi xi ), dan is de tweede term begrensd door 12 M maal de empirische variantie: f f x 12 M s2x M : max f ξi (1.15)
zodat
f f x
i
van f1 fn te bepalen, rekenen we liever de som van In plaats van de (echte) steekproefvariantie gekwadrateerde afwijkingen t.o.v. f x uit, ten eerste omdat we deze waarde willen gebruiken in plaats van het (echte) gemiddelde f en ten tweede omdat het een eenvoudiger expressie geeft. Volgens (1.6) kan deze som nooit kleiner zijn dan s2f . Met de middelwaardestelling vinden we een tussenpunt ηi tussen xi en x , zodat f xi f x xi x f ηi . Met D : maxi f ηi vinden we dan de ongelijkheid s2f
s2f
2 1 n 2 n 1 f xi f x xi x f ηi D2 s2x ∑ ∑ n 1 i1 n 1 i1
(1.16)
Als we voor D het maximum nemen van f x op een interval dat alle datapunten omvat, dan is deze bovengrens voor de standaarddeviatie, sf D sx , meestal meer dan voldoende. Onder enige beperkende voorwaarden kunnen we een preciezer verband vinden, namelijk dat de verandering van de standaarddeviatie door het toepassen van f op de data (ongeveer) evenredig is met de helling
HOOFDSTUK 1. INLEIDING
16
van f in x , s f f x sx . Als we de tweede orde Taylorontwikkeling (1.13) gebruiken, vinden we de preciezere formule (zie ook het tweede bewijs van (1.6)) s2f
2 n 1 f x
f i n 1 i∑ n1 2 n 1 f x
f x
f f x2 i n 1 i∑ n
1 n1 2 n 1 xi x f x 12 xi x2 f ξi
f f x2 ∑ n 1 i1 n 1
(1.17)
f x2 s2x
Als nu xi x f ξi veel kleiner is dan f x voor alle i, dan is de som van kwadraten vrijwel gelijk aan f x2 s2x . De tweede term in het laatste rechterlid is verwaarloosbaar t.o.v. de eerste volgens (1.15), als M 2 s2x klein is t.o.v. f x2 . We concluderen dat meestal voldaan is aan de gebruikelijke vuistregels, gemiddelde van f xi is gelijk aan f x en standaarddeviatie van f xi is gelijk aan f x sx . Je moet je er wel van bewust zijn dat er uitzonderingen zijn, met name als f x klein en/of sx groot is. Als we de mediaan prefereren als kental van locatie en de gemiddelde absolute afwijking t.o.v. de mediaan als kental van schaal, kunnen we eenzelfde analyse doen als f monotoon is op het interval dat alle data bevat. Onder deze voorwaarde van monotonie is de mediaan van f xi gelijk aan f med, omdat f de volgorde niet verandert (of omdraait). Met gebruik van D uit (1.16) vinden we dat de gemiddelde afwijking van f xi t.o.v. f med begrensd is door D maal de gemiddelde afwijking in xi , 1 n f xi f med n i∑ 1
n
n
i1
i1
1n ∑ xi med f ηi D n1 ∑ xi med
(1.18)
Zoals in (1.17) kunnen we – onder voorwaarden – laten zien dat de gemiddelde afwijking van f xi ongeveer gelijk is aan f med maal de gemiddelde afwijking in xi (doe zelf). Vraag: wat is het verband tussen de MAD van f xi en die van xi ? Betreffende optellen en vermenigvuldigen zullen we alleen gemiddelde en standaarddeviatie beschouwen voor de tweedimensionale dataset xi yi i 1 n. Als we niets over de relatie tussen de volgorden van xi en yi weten, kunnen we niets zeggen over de volgorde van som/verschil xi yi en product xi yi (ga na!). Som en verschil van gemiddelde is gelijk aan het gemiddelde van som resp. verschil (zoals je allang weet), 1 n 1 n 1 n x y ∑ xi yi ∑ xi ∑ yi x y (1.19) n i1 n i1 n i1 Voor de steekproefvarianties van som en verschil geldt s2xy
1 n xi yi x y2 n 1 i∑ 1 n n 1 n 1 2 2 2 x
x y
y xi xyi y i i n 1 i∑ n 1 i∑ n 1 i∑ 1 1 1 s2x s2y 2 covx y
(1.20)
Aangezien het rechterlid altijd positief is (zoals het linkerlid), is 2 covx y s2x s2y . Dus vinden we in alle gevallen de bovengrens (1.21) s2xy 2s2x s2y Als x en y niet gecorreleerd zijn, is er gelijkheid: s2xy s2x s2y
(1.22)
HOOFDSTUK 1. INLEIDING
17
Als x en y niet gecorreleerd zijn, is het product van de gemiddelden gelijk aan het gemiddelde van het product, want n
n
n
n
i1
i1
i1
i1
0 ∑ xi xyi y ∑ xi yi y x ∑ yi y ∑ xi yi n x y Om een idee te krijgen van de variantie van het product gebruiken we de identiteit xi yi x y xyi y yxi xxi xyi y en nemen we aan dat de derde term xi xyi y hierin te verwaarlozen is t.o.v. de andere twee (d.w.z. de standaarddeviaties van x en y zijn klein t.o.v. x en y). Voor de empirische variantie van het product vinden we dan: 2 2 2 2 2 1 n 1 n 2 x y
x y x y
y y x
x x sy y sx s2xy i i i i n 1 i∑ n 1 i∑ 1 1 De som van het dubbele product is nul onder de voorwaarde dat x en y niet gecorreleerd zijn. Dus s2x y x2 s2y y2 s2x als x en y niet gecorreleerd zijn en hun standaarddeviaties klein zijn t.o.v. hun gemiddelden. Zie ook de analoge formules (2.46)-(2.47)-(2.48).
(1.23)
Hoofdstuk 2
Inleiding tot de Kanstheorie 2.1 Rekenen met kansen 2.1.1 Inleiding U heeft een intu¨ıtief idee van het begrip “kans”. De weerman zegt dat de kans dat het morgen regent 25% is; de sportjournalist zegt dat “wij” (of “ons” elftal) 40% kans hebben om van de Hollanders te winnen; u gooit met een dobbelsteen en zegt dat de kans op een “6” gelijk is aan 1/6; u trekt een knikker uit een hoed met vijf witte en 11 zwarte knikkers en zegt dat de kans op een witte 5/16 is. In de hoed van het laatste voorbeeld kunnen we knikkers toevoegen tot we er nW witte, nR rode, nZ zwarte, etc... hebben. Als N nW nR nZ dan kunnen we uitrekenen dat de kans om een witte knikker te trekken gelijk is aan nW N en de kans op een rode nR N. Het trekken van een rode knikker is een “gebeurtenis” die plaats grijpt met kans nR N en evenzo voor zwart en wit met resp. kansen nZ N en nW N. De kans op een “witte of zwarte” knikker is kennelijk nW nZ nW nZ (2.1) N N N en dus gelijk aan de som van de kansen afzonderlijk. Het optellen van kansen mag niet altijd: in een groep van 50 studenten, waarvan er 15 biologie en 35 scheikunde studeren, zijn er 20 meisjes; wat is de kans dat een (willekeurig gekozen) student uit deze groep vrouwelijk is of biologie studeert? Het enige wat we kunnen zeggen is, dat deze kans minstens 2/5 en hoogstens 7/10 is; zomaar optellen van de kans op een biologiestudent en de kans op een meisje is er niet meer bij omdat vrouwelijke biologiestudenten (de doorsnede van beide groepen) dan dubbel geteld zouden worden. We kunnen hier de terminologie van de verzamelingenleer toepassen. Als Ω de betreffende groep studenten is met M en V de verzamelingen van mannelijke en vrouwelijke studenten en met S en B resp. de scheikundeen biologiestudenten, dan geldt S B M V Ω Als x Ω een willekeurig gekozen student is, dan is de kans, dat x een scheikunde student is, gelijk aan 35/50; we noteren de kans dat x S (dus, dat x een scheikunde student is) met: PS 07 en evenzo:
PM 06
PV 04
PB 03
De kans uit Ω een student te trekken is kennelijk 1 en de kans op een niet-student nul (wat is de kans dat x Ω niet studeert?), zodat (2.2) PΩ 1 P0/ 0 18
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
19
De deelverzamelingen M en V zijn elkaars complement (evenals S en B) en we zien PM 1 PV
(2.3)
Om de kans Px V B uit te rekenen moeten we het aantal studenten in deze verzameling kunnen bepalen: dit hangt af van het aantal vrouwelijke biologiestudenten NV B : NV B NV NB NV B
Hieruit volgt de algemene optelregel Px V B Px V Px B Px V B
(2.4)
In het bijzondere geval (2.1) hebben W en Z een lege doorsnede.
2.1.2 Het verzamelingsmodel Zoals boven gesuggereerd kunnen we het rekenen met kansen modelleren met verzamelingen waarop een kansfunctie P is gedefinieerd. Laat Ω de verzameling van uitkomsten of elementaire gebeurtenissen zijn van een experiment (b.v. bij het werpen met een dobbelsteen: Ω 1 2 3 4 5 6), dan is een “gebeurtenis” A een deelverzameling van Ω A Ω. Voor iedere gebeurtenis A is er een kans(functie) PA gedefinieerd met waarden tussen 0 en 1. We hebben de volgende eigenschappen (axioma’s) nodig: (een collectie deelverzamelingen van Ω) zo, dat
1. Er is een collectie gebeurtenissen a. 0/ en Ω zijn gebeurtenissen: 0/
en Ω
,
b. als A een gebeurtenis is, dan is ook zijn complement een gebeurtenis, A
Ac Ω A
c. A en B gebeurtenissen, dan is ook A B een gebeurtenis, A B 2. Er is een kansfunctie P op
gedefinieerd met de eigenschappen:
a. 0 PA 1 voor alle A
b. P0/ 0 en PΩ 1, c. A B
AB
,
en A B 0/ PA B PA PB.
Voorbeeld 2.1.1 Bij een worp met een dobbelsteen is Ω 1 2 3 4 5 6 de verzameling uitkomsten. De kans op een elementaire gebeurtenis, b.v. P3, gelijk aan 1/6. Ga zelf na dat dit model voldoet aan de boven gegeven regels. Opmerking 2.1.2 Als Ω oneindig veel elementen bevat zal de collectie in het algemeen niet alle mogelijke deelverzamelingen van Ω bevatten. We moeten dan uitbreiden tot aftelbare verenigingen: 1c . Ai 2c . Ai
i 1 2 3 i∞1 Ai
,
en Ai A j 0/ i j 1 2 i j P
∞ Ai
i1
Uit genoemde eigenschappen of axioma’s volgt: 1. Als A en B gebeurtenissen zijn, dan ook A B Ac Bc c ,
∞
∑ PAi. i1
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
20
2. Een bewijs van de optelregel gaat als volgt: AB
A B A B met A B A B 0/ A B B met A B B 0/
P A B
PA B PB PA PB PA B
A zodat
3. Een bewijs van de complementregel gaat als volgt: Ω A Ac en A Ac 0/ zodat 1 PΩ PA PAc Voorbeelden 2.1.3 1) Een kaart trekken uit een kaartspel: 4 131 Paas 52 4 1 4 Pharten of boer Pharten Pboer Phartenboer 13 52 52 52 13 2) Werpen met twee dobbelstenen: Ω 1 11 22 16 6 en bevat 36 elementen. 5 Psom der ogen = 6 P1 52 43 34 25 1 36 Psom der ogen is even of een drievoud ?
2.1.3 Voorwaardelijke waarschijnlijkheid Hoe groot is de kans dat een student uit de reeds vermelde groep van 50 biologie- en scheikundestudenten een meisje is als ik al weet dat ze biologie studeert? Kennelijk moet ik mijn telwerk nu beperken tot de (deel-)groep van 15 biologiestudenten. Om de kans te weten moet ik het aantal vrouwelijke biologiestudenten delen door het totale aantal; we noteren: PV B :
PV B PB
vrouwelijke biologiestudenten aantal totale aantal biologiestudenten
(2.5)
We noemen dit de voorwaardelijke kans op het optreden van gebeurtenis V als de gebeurtenis B plaats heeft gevonden (en PB 0). Voorbeeld 2.1.4 We werpen met twee dobbelstenen; wat is de kans op een even aantal ogen als een van beide dobbelstenen een 1 toont? Antwoord: Peen van beide dobbelstenen toont een 1
1136 Peen steen toont een 1 en de som is even P1 11 33 11 55 1 536 zodat
Paantal ogen even een steen toont 1 511
Bij een voorwaardelijke kans PAB PA BPB beperken we de verzameling van gebeurtenissen in feite tot de deelverzameling B. Aangezien weer moet gelden PBB 1 moeten we alle kansen hernormaliseren door te delen door PB. Definitie 2.1.5 Twee gebeurtenissen A en B heten (stochastisch) onafhankelijk als het voor de kans op A niet uitmaakt of B al dan niet gebeurd is: A en B onafhankelijk PA B PA PB
(2.6)
Bewijs zelf dat A en B onafhankelijk zijn als en alleen als PA PAB PAB c Let wel, dat afhankelijkheid in principe g´ee´ n oorzakelijk verband impliceert: b.v.
(2.7)
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
21
- In het begin van de 20ste eeuw (toen er nog veel ooievaars waren in de Lage Landen) nestelden de meeste ooievaars op het platteland, waar ook de gemiddelde gezinsgrootte het grootst was. - De kans dat een willekeurig gekozen getal uit 1 2 100 deelbaar is door 4 is 14 ; de kans dat het 1 1 . De kans dat het deelbaar is door 4 en 10 is 20 ; er is dus afhankelijkheid, deelbaar is door 10 is 10 waarom? Voorbeeld 2.1.6 In een hoed stop ik drie identiek gevormde kaarten, waarvan de eerste aan beide zijden rood is, de tweede aan beide zijden wit en de derde aan een zijde rood en aan de andere wit is. Vervolgens trekken we er een willekeurige kaart uit en leggen deze op tafel. Als de bovenkant rood is, wat is dan de kans dat de onderkant ook rood is? Antwoord 1: De kans op het trekken van de witte (ww), de wit-rode (wr) of de rode kaart (rr) is 13 . De kans dat rood boven ligt is 12 . Volgens (2.5) vinden we de voorwaardelijke kans Prr rood boven
Prr en rood boven 13 1 2 Prood boven
23
(2.8)
Antwoord 2: Een alternatieve manier is de volgende beschouwingswijze: we trekken uit de hoed niet alleen een kaart maar ook een zijde die boven komt te liggen. Als we dus de voor- en achterzijde van iedere kaart nummeren met 1 en 2 moeten we willekeurig trekken uit de volgende verzameling: r2 r w w1 w2 boven r1 onder r2 r1 w r w2 w1 Als er een rode zijde boven ligt, beperken we ons tot de eerste drie elementen en we zien dat er met kans 23 ook rood onder ligt. Opmerking: Een intu¨ıtief acceptabele maar misleidende redenering is de volgende: omdat rood boven ligt, ligt de rode of de roodwitte kaart op tafel, ieder met kans 12 en dus is de kans dat de achterzijde rood is, slechts 12 ! Waar zit de fout? Voorbeeld 2.1.7 Wat is de kans dat twee of meer personen in een groep van N dezelfde verjaardag hebben? Antwoord: Draai de vraagstelling om en definieer pn als de kans dat g´ee´ n twee personen in een groep van n dezelfde verjaardag hebben. Kennelijk geldt p1 1; de eerste heeft alle dagen van het jaar tot zijn beschikking voor zijn verjaardag. De tweede heeft alle dagen min een tot zijn beschikking en dus p2 364 365 . Voegen we een derde aan de groep toe, dan heeft deze alle dagen min twee tot zijn beschikking zodat p3 363 365 p2 . Voegen we aan een groep van n personen, met onderling verschillende verjaardagen n 365, er een toe, dan zijn er nog 365 n dagen onbezet, zodat pn1 pn
365 n 365
en dus
p23
364 363 343 365 365 365
04927
(2.9)
De kans dat er in een groep van 23 personen minstens twee dezelfde verjaardag hebben is dus 1 p23 05073 en is groter dan een half!
2.1.4 De formule van Bayes Met het toenemen van de medische diagnose-technieken keert herhaaldelijk de discussie terug of het houden van een globaal bevolkingsonderzoek, b.v. naar baarmoederhalskanker, naar seropositiviteit, ..., nuttig, kosteffectief en/of sociaal aanvaardbaar is. De gebruikelijke HIV-testen zijn zeer betrouwbaar met Ppositief ge¨ınfecteerd 0999 Ppositief niet ge¨ınfecteerd 001 Naar schatting is 1ÆÆÆ van de Belgische bevolking ge¨ınfecteerd.
(2.10)
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
22
Bij een bevolkingsonderzoek is het van belang te weten hoe vaak een vals positieve diagnose gesteld wordt; immers een persoon, bij wie een vals positieve diagnose wordt gesteld, wordt zonder reden opgezadeld met een immens sociaal probleem. We willen dus berekenen P(niet ge¨ınfecteerd positief). Uit (2.10) kunnen we berekenen: Ppositief en ge¨ınfecteerd Ppositief ge¨ınfecteerd Pge¨ınfecteerd 0000999
(2.11)
Analoog rekenend voor de andere drie mogelijkheden geeft dit de tabel: positief negatief ge¨ınfecteerd 0000999 0000001 niet ge¨ınfecteerd 000999 099 0999 We leiden hieruit af: P(positief) = 0.000999 + 0.00999 = 0.010989, zodat Pniet ge¨ınfecteerd positief
000999 91% 0010989
We kunnen dit resultaat ook afleiden door herhaald gebruik te maken van (2.5): P A B
PB A PB
PB APA PB A PB Ac PB APA PB APA PB A c PAc
(2.12)
Dit resultaat heet “de regel van Bayes”. Voor een generalisatie gebruiken we het “theorema van de totale waarschijnlijkheid”: Laat A1 A2 een partitie van Ω zijn, d.w.z. Ai A j 0/ Dan geldt voor iedere gebeurtenis B Ω dat
voor i j
PB P
∞
B A i
i 1
en
Ai Ω ∞
(2.13)
i1
∞
∞
i1
i1
∑ PB Ai ∑ PB AiPAi
(2.14)
Als Ω opgesplitst wordt in een aantal disjunkte delen, dan is de totale kans op B gelijk aan de som van de kansen op B binnen zo’n deel vermenigvuldigd met de kans op zo’n deel. Nu kunnen we ook eenvoudig de generalisatie van (2.12) neerschrijven: PAi B
PAi B PB
∑∞PPAiAPBPBAiA j 1
j
(2.15)
j
2.2 Stochastische variabelen en hun kansverdeling 2.2.1 Stochastische variabelen Men kan aan elk element van de steekproefruimte Ω een (re¨ele) getalwaarde toekennen, bv. - bij het werpen met een dobbelsteen het aantal ogen dat we gooien, - bij het werpen van een munt, 0 voor kop en 1 voor munt, - bij een onderzoek van de inwoners van Belgi¨e, de lengte of het gewicht of het jaarinkomen enz... van iedere persoon.
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
23
Zo’n getalwaarde is een re¨ele functie op Ω en we noemen zo’n functie X van Ω naar een stochastiek (of een stochastische variabele of toevalsveranderlijke) als deze afbeelding compatibel is met de struktuur van de collectie van deelverzamelingen in Ω: voor ieder re¨eel getal a is de verzameling ω Ω X ω a een deelverzameling van Ω. Voor de genoemde compatibiliteit wordt ge¨eist dat deze deelverzameling een element is van de collectie , ω Ω X ω a (2.16) Als Ω eindig is en de collectie van alle deelverzamelingen is, is hieraan automatisch voldaan. Een stochastiek X op Ω projecteert de klasse dus op een klasse van deelverzamelingen van . De kansen, gedefinieerd op de elementen van projecteren gewoon mee: PX a Pω Ω X ω a
(2.17)
Meestal interesseren we ons meer voor de getalwaarde X ω dan voor de elementen ω van de onderliggende verzameling Ω. Als ik schoenen wil verkopen in dit land, is de “verdeling” van voetlengten (en breedten) het enige wat ik van zijn inwoners wil weten om de goede hoeveelheden van de verschillende maten te kunnen inkopen; ik wil dus iets weten over de getallen X ω voor iedere inwoner ω Ω. Definitie 2.2.1 Als X een stochastische variabele is, dan heet de functie FX , FX a PX a
(2.18)
de verdelingsfunctie van X (ook wel cumulatieve verdelingsfunctie genoemd).
Ω
Voorbeeld 2.2.2 : de dobbelsteen
X P
1 X
1 6 etc
2 etc
Voor de kansen PX a vinden we PX
1 0 PX 1 16 PX 2 PX 2 26 PX 3 etc en we vinden een verdelingsfunctie FX zoals geschetst in figuur 2.1. Dit is een trapfunctie die in de punten 1, 2, 3, 4, 5 en 6 een sprong van 1/6 maakt. Deze verdeling is duidelijk “discreet”. Voorbeeld 2.2.3 De verdeling van lichaamslengten van volwassen mannelijke inwoners van Belgi¨e is in figuur 2.1 geschetst. Neem een willekeurige volwassen mannelijke inwoner X en lees in de tabel de kans af dat deze kleiner is dan 190 cm. In theorie is ook deze verdeling discreet, maar de groep mannen (en dus Ω) is zo groot dat we doen alsof deze continu is.
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
24
1
1
0.5
0.5
0
0 0
5
200
150
Figuur 2.1: De verdelingsfunctie van een dobbelsteen, en de verdelingsfunctie van de lengteverdeling van mannen.
2.2.2 Eigenschappen van een verdelingsfunctie Vooreerst merken we op dat
0 FX a 1
(2.19)
Alle kansen liggen immers tussen nul en een. Bovendien is FX monotoon niet dalend: a b FX a FX b
(2.20)
Immers, bij vergroting van de verzameling gebeurtenissen kan de kans niet afnemen. De kans op een half-open interval wordt gegeven door Pa X b PX b PX a FX b FX a
PX
a 1 PX a 1 FX a
(2.21) (2.22)
De volgende eigenschappen verdienen wel een serieus bewijs. Eerst onderzoeken we de continu¨ıteit van FX .
Stelling 2.2.4 FX is rechts continu: lim FX a ε FX a ε 0
Bewijs. Kies een rij εn die naar nul daalt. Dan is
∞ a n∞1 ∞ a εn zodat, vanwege de σ -additiviteit : FX a PX ∞ a lim PX ∞ a εn lim FX a εn n∞
n∞
Stelling 2.2.5 FX is niet noodzakelijk overal linkscontinu: bij nadering van links kunnen we tegen een sprong oplopen. Als PX a 0, dan is FX wel continu in a. Algemeen hebben we lim FX a ε PX a FX a
ε 0
(2.23)
Bewijs. Neem εn een naar nul dalende rij zoals in het vorige bewijs. Dan is
∞ a n∞1 ∞ a εn zodat
FX a PX
a P X ∞ a nlim PX ∞ a εn lim FX a εn ∞ n∞
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
25
Stelling 2.2.6 De limieten naar ∞ en ∞ zijn: lim FX x 1 en
lim FX x 0
x∞
(2.24)
x∞
Bewijs. Neem een stijgende rij Mn zodanig dat lim Mn ∞, dan is n∞
∞
n1
∞ Mn
lim FX x P 1
zodat
x∞
De andere bewering wordt op analoge manier bewezen.
Stelling 2.2.7 Als we een lineaire (eigenlijk affiene) transformatie uitvoeren op een stochastiek X, dan transformeert de verdelingsfunctie mee: als Y aX b, dan geldt met a 0:
y b FY y PY y PaX b y P X a Als a 0, dan draait de ongelijkheid om:
y b FY y P X a
1 P
X
y b a
1 FX
FX
y b a
P
y b
(2.25)
a
X
y b a
(2.26)
Opmerking: Voor het vervolg van deze syllabus zullen we bij het gebruik van het begrip “stochastische variabele” abstraheren van de onderliggende verzameling gebeurtenissen Ω. Een stochastiek X staat voor een re¨ele variabele (zoals x in de definitie f x : x sin x); als we in een experiment voor X een willekeurige waarde x trekken, is de kans, dat de getrokken waarde kleiner dan of gelijk aan a is, gegeven door FX a.
2.2.3 Continue en discrete verdelingen Bij een diepgaande mathematische behandeling van verdelingsfuncties zouden we geen verschil hoeven te maken tussen discrete en continue verdelingsfuncties, voor de eenvoud zullen we dit wel doen. Definitie 2.2.8 We noemen een stochastiek X discreet als X slechts een eindig of aftelbaar oneindig aantal verschillende waarden kan aannemen. Dat wil zeggen dat er een verzameling (re¨ele) getallen xi i 1 2 is, zo dat PX
xi pi
∞
en
∑ pi 1
i1
(2.27)
We kunnen de kansen dan grafisch weergeven door een staafdiagram; op het punt xi richten we een staafje op van lengte pi . De verdelingsfunctie FX is dan stuksgewijs constant met sprongen in de punten xi i 1 2 van grootte pi . Als voorbeeld is in figuur 2.2 links een staafdiagram op 10 punten geschetst met rechts de bijbehorende verdeling. Definitie 2.2.9 We noemen een stochastische variabele X continu als de verdelingsfunctie FX een continue en overal1 differentieerbare functie is (behalve eventueel in een eindig aantal punten). Dit is een vrij zware eis, maar zij maakt het ons wel mogelijk om de kansdichtheid (of dichtheidsfunctie) fX te defini¨eren als de afgeleide van FX , x d f t dt (2.28) fX x : FX x en dus ook FX x dx ∞ X Omdat FX monotoon is, moet gelden fX x 0 x en moet het oppervlak onder de staarten van fX naar nul gaan: A ∞ fX t dt 0 en lim fX t dt 0 (2.29) lim A∞
∞
B∞ B
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
26
0.15
1
0.1 0.5 0.05 0
0 0
1
0
1
Figuur 2.2: Een staafdiagram op 10 punten en de bijhorende verdelingsfunctie 1.2
1
0.8
0.6
0.4
0.2
0
-0.2
0
1
2
3
4
5
6
Figuur 2.3: Grafiek van een vrij kunstmatige continue verdeling —— met haar kansdichtheid - - - -
Voorbeeld van een continue verdeling: zie figuur 2.3 Opmerking: fX kan een vrij wild gedrag hebben, maar door de eis van differentieerbaarheid (en dus continu¨ıteit) van FX voor continue verdelingen sluiten we de sprongen in FX expliciet uit, zodat PX a PX a voor alle beschouwde continue verdelingen. functies van stochastieken en hun verdelingsfunctie kunnen we defini¨eren analoog aan (2.17). Als g een re¨ele continue functie is en X een stochastiek (continu of discreet), dan is gX de stochastiek met de verdelingsfunctie (2.30) FgX a : PgX a Pω Ω gX ω a is.
Ga zelf na, wat de kansdichtheid van FgX is, als X continu en g monotoon stijgend en differentieerbaar
2.2.4 Percentielen In de praktijk willen we voor een stochastiek X vaak een antwoord op de omgekeerde vraag: “voor welke waarde van x is 25% (of 50% of 90%) van de uitkomsten kleiner dan of gelijk aan x?” (zie ook 1.2). α , voor De algemene vraag luidt dus: “gegeven een percentage α 0 α 100 of een kans p : 100 1 Dit
is een vrij sterke beperking, maar verdelingen die hieraan niet voldoen en ook niet discreet zijn, zijn voornamelijk van wiskundig belang.
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
27
welke x geldt FX x PX x p?”. In de figuur betekent dit dat we grafiek van FX op zijn kant moeten zetten, d.w.z. dat we abcis en ordinaat moeten verwisselen, oftewel het plaatje moeten spiegelen om de lijn y x, zoals in figuur 2.4, waar de percentielen (d.i. de inverse functie) van de (vrij kunstmatige) continue kansverdeling van figuur 2.1 wordt geschetst. De intervallen waar de verdeling constant is, geven een sprong in de inverse funktie. 6
5
4
3
2
1
0
*
0
0.2
0.4
0.6
0.8
1
Figuur 2.4: Kwantielen van de verdeling van figuur 2.3 Als in een punt x met p : FX x geldt p FX y als x y en p FX y als x y, d.w.z. dat FX strikt stijgend is in x, dan is x het enige punt met FX x p en dan defini¨eren we x als het 100 p %-percentiel van X (dit is dus het p–de quantiel). Dit percentiel is dus gewoon de waarde van de inverse funktie FX1 p in p. Als er geen punt x is waarvoor FX x p, dan is FX discontinu en maakt deze ergens een sprong van een waarder kleiner dan p naar een waarde groter dan p. Het 100 p %-percentiel van X is dan het punt waarin FX deze sprong maakt. Als echter FX x p constant is voor alle x in een interval a b, dan zouden we ieder element van dat interval het p-de percentiel van X kunnen noemen. Voor en eenduidige definitie maken we dan de volgende afspraak: 1o . Als FX x 0 voor alle x a en FX x 0 voor alle x a, dan heet a het 0%-percentiel van X; a is dus het punt vanaf waar FX niet triviaal is.
2o . Als FX x 1 voor alle x b en FX x 1 voor alle x b, dan heet b het 100%-percentiel van X; b is dus het punt vanaf waar FX weer triviaal is.
3o . Als FX x p voor alle x c d , FX x p voor alle x c en FX x p voor alle x d, dan kiezen we het midden 12 c d als het 100 p %-percentiel van X.
Deze definitie lijkt niet consistent met die van empirische percentielen in 1.2. Dit is echter maar schijn, omdat de empirische percentielen gebaseerd zijn op slechts eindig veel waarnemingen. Op grond van de wet van de grote getallen, stelling 3.1.2, kunnen we het volgende laten zien: Als x1 x2 xn onafhankelijke waarnemingen zijn van een stochastiek X, dan convergeert de empirische verdelingsfunktie van deze waarnemingen naar FX voor n ∞ en convergeren de empirische percentielen naar de hierboven gedefinieerde percentielen van X.
2.3 Kansvectoren en onafhankelijke stochastische variabelen In vele gevallen kan men aan een element van een steekproefruimte Ω meer dan e´ e´ n re¨ele getalwaarde toekennen. Bijvoorbeeld, bij een onderzoek van de inwoners van Belgi¨e is men zowel ge¨ınteresseerd in de lengte als het gewicht van elke inwoner.
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
28
Als we n eigenschappen gelijktijdig beschouwen, hebben we een vectorfunctie Z : Ω n . Indien de componenten X1 X2 Xn van deze vectorfunctie stochastische variabelen zijn, dan noemen we Z een n-dimensionale stochastische variabele, of kansvector. Voor de eenvoud zullen we ons in wat volgt beperken tot het geval n 2. De verdelingsfunctie FZ van een tweedimensionale kansvector Z X Y wordt gedefinieerd als volgt: FZ a b
PX a en Y b Pω Ω : X ω a en Y ω b
(2.31)
Net zoals in het voorgaande hoofdstuk zullen we onderscheid maken tussen continue en discrete kansvectoren. We noemen Z discreet, indien er een eindig of aftelbaar aantal punten z1 x1 y1 , z2 x2 y2 , z3 x3 y3 in 2 bestaat, zodat PZ zi pi , voor zekere pi 0 1, met ∑i pi 1 en PZ z 0 voor alle andere punten z x y 2 . Aan continue kansvectoren zullen we in deze syllabus steeds de extra eis opleggen, dat alle tweede (n-de in n dimensies) gemengde parti¨ele afgeleiden van de verdelingsfunctie continu moeten zijn. De dichtheidsfunctie fZ wordt dan gegeven door de tweede parti¨ele afgeleide: fZ
∂ 2 FZ ∂x ∂y
(2.32)
Indien fZ bekend is, kunnen we de verdelingsfunctie FZ terugvinden door integratie: x y du fZ u v dv; FZ x y
∞
∞
bijgevolg kunnen we voor iedere (meetbare) deelverzameling A 2 de kans bepalen, dat Z A: fZ x y dx dy PZ A
(2.33)
A
Veronderstel nu dat Z X Y een kansvector is, en dat de verdelingsfunctie FZ bekend is. Dan kunnen we voor a de kans op X a ongeacht de waarde van Y uitrekenen als de limiet: FX a PX a PX a en Y
∞ y lim FZ a y ∞
(2.34)
De verkregen verdeling heet de marginale kansverdeling van X. Analoog vinden we voor b de marginale kansverdeling van Y : FY b lim FZ x b x∞
Voor een continue verdeling kunnen we de dichtheidsfuncties van de marginale verdeling gemakkelijk terugvinden: x ∞ du fZ u v dv FX x lim FZ x y y∞
∞
∞
en dus is de marginale kansdichtheid fX x
∞ d F x f x v dv dx X ∞ Z
(2.35)
Voorbeeld 2.3.1 We werpen met twee dobbelstenen en beschouwen de volgende stochastische variabelen: X: het aantal enen dat gegooid wordt; Y : het aantal zessen dat gegooid wordt.
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
29
Z X Y is dan een kansvector, die enkel paren gehele waarden i j met 0 i j 2 kan aannemen. Verifieer, dat P0 0
42 62
P1 0
P1 1
P2 0
1 4 P0 1 2 6 6 2 36 1 P0 2 36
16 36 368
De grafiek van de verdelingsfunctie wordt gegeven in figuur 2.5 4 3 25/36 35/36 F = 1 2 24/36 34/36 F = 35/36 1 16/36 24/36 F = 25/36 0 F=0 -1
0
2
4
Figuur 2.5: Driedimensionale tekening en hoogtelijnen van de kansverdeling Voorbeeld 2.3.2 We hernemen voorbeeld 1, maar we werpen nu met drie dobbelstenen in plaats van twee. Z X Y is nu een kansvector, die enkel paren gehele waarden i j met 0 i j 3 kan aannemen. Verifieer dat P0 0
43 63
P1 0
P1 1
P2 0
P2 1
P3 0
1 4 4 P0 1 3 6 6 6 24 63 1 1 4 P0 2 3 6 6 6 1 1 1 P1 2 3 6 6 6 1 P0 3 3 6
48 63 12 63 633
Aanwijzing: het aantal mogelijke gevallen is steeds 63 ; zoek met behulp van kombinatieleer steeds het aantal gunstige gevallen. Voorbeeld 2.3.3 Men kiest willekeurig en onafhankelijk van elkaar twee getallen tussen 0 en 1. Laat X het eerste getal, Y het tweede en Z de kansvector X Y zijn. Dan is duidelijk fZ x y
1 0
als 0 x y 1
anders
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
30
De verdelingsfunctie wordt gegeven door de formules
0 xy FZ x y x y 1
als x 0 of y 0 als 0 x y 1
als 0 x 1 en y 1 als 0 y 1 en x 1 als x 1 en y 1
1 0.8
1
0.6
0.8 0.6
0.4
0.4
0.2 0.2
0 2
0 2
1 0 -1
-1
-0.5
0
0.5
1
1.5
2 1 0 -1
-1
-0.5
0
0.5
1
1.5
2
Figuur 2.6: Dichtheidsfunctie en verdelingsfunctie van de uniforme verdeling In bovenstaand voorbeeld lieten we het woord “onafhankelijk” vallen. In formule (2.6) defini¨eerden we onafhankelijkheid van gebeurtenissen. Wat betekent het, dat twee stochastische variabelen onafhankelijk zijn? Definitie 2.3.4 Twee stochastische variabelen X en Y heten onafhankelijk als de gebeurtenissen
a1 X b1 en a2 Y b2
onafhankelijk zijn voor alle ai bi , of, equivalent, als
Pa1 X b1 a2 Y b2 Pa1 X b1 Pa2 Y b2
(2.36)
De stochastische variabelen uit voorbeeld 2.3.3 hierboven zijn onafhankelijk, maar die uit voorbeeld 2.3.2 niet! Immers, 75 15 3 PX 1 3 PY 2 3 maar PX 1 en Y 2 3 6 6 6 Stelling 2.3.5 De componenten van een tweedimensionale kansvector Z X Y zijn onafhankelijk als en slechts als de verdelingsfunctie van Z het product is van de marginale verdelingsfuncties. Bewijs. Veronderstel dat X en Y onafhankelijk zijn. Door in de definitie (2.36) de limiet te nemen voor a1 ∞ en a2 ∞ volgt dat FZ b1 b2 FX b1 FY b2 Omgekeerd, veronderstel dat voor alle b1 b2 ,
FZ b1 b2 FX b1 FY b2
dan geldt (maak zelf een tekening om dit te zien) Pa1 X b1 a2 Y b2
PX b1 Y b2 PX b1 Y a2
PX a1 Y b2 PX a1 Y a2 FZb1 b2 FZb1 a2 FZa1 b2 FZa1 a2 FX b1 FY b2 FX b1 FY a2 FX a1 FY b2 FX a1 FY a2 FX b1 FX a1 FY b2 FY a2 Pa1 X b1 Pa2 Y b2
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
31
en X en Y zijn dus inderdaad onafhankelijk. In het continue geval hebben we een gelijkaardige eigenschap van de dichtheidsfuncties.
Stelling 2.3.6 De componenten van een tweedimensionale continue kansvector zijn onafhankelijk als en slechts als de dichtheidsfunctie het product is van de marginale dichtheidsfuncties.
Bewijs. Oefening. Toepassing: De som van twee onafhankelijke stochastische variabelen
Bij een halte passeert om de tien minuten een tram. U neemt elke dag deze tram op een willekeurig tijdstip. De wachttijd T op de eerstvolgende tram bezit dan de volgende dichtheidsfunctie: fT t
1
10
als 0 t 10
0
anders
We noemen zo’n T uniform verdeeld over 0 10, zie 3.6. Als U nu tweemaal de tram neemt, hoelang moet U dan in het totaal wachten; m.a.w. wat is de dichtheidsfunctie fT1 T2 van de som T1 T2 , als T1 en T2 de eerste resp. tweede wachttijd aan de halte zijn. Dit probleem is een speciaal geval van het volgende: veronderstel dat X en Y twee onafhankelijke continue stochastische variabelen zijn, met dichtheidsfuncties fX en fY . Hoe vinden we fX Y ? Dit gebeurt als volgt; we bepalen eerst de verdelingsfunctie FX Y van de som: ∞ xu fZ u v du dv f u v dv du FX Y x PX Y x uvx ∞ ∞ Z ∞ xu f X u fY v dv du
∞
∞
(maak een tekening van het integratiegebied). Afleiden naar x geeft (in de veronderstelling dat we differentiatie en integratie mogen verwisselen): ∞ ∞ xu d f u f v dv du f u fY x u du fX Y x dx ∞ X ∞ Y ∞ X fX fY x (2.37)
In deze formule is fX fY de gebruikelijke notatie voor het convolutieproduct. Hieruit kunnen we besluiten:
Stelling 2.3.7 Als X en Y twee onafhankelijke stochastische variabelen zijn met continue verdeling, dan is de dichtheidsfunctie van X Y de convolutie van de dichtheden van X en Y , fX Y
fX fY
(2.38)
Keren we nu terug naar de toepassing hierboven. Met behulp van bovenstaande stelling 2.3.7 kunnen we de dichtheidsfunctie van T1 T2 bepalen: ∞ 1 10 fT1 u fT2 t u du f t u du fT1 T2 t 10 0 T2 ∞ We onderscheiden nu vier gevallen: 1. t 0. Voor 0 u 10 geldt dan dat fT t u 0, zodat 2
fT1 T2 t 0 Dit is uiteraard wat we verwachten: een negatieve wachttijd kan nooit optreden.
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
32
2. 0 t 10. Dan is t u 10. Voor u gelegen tussen 0 en t hebben we bovendien dat t u 0, zodat 1 t 1 t du fT1 T2 t 10 0 10 100 3. 10 t 20. Nu is t u 0, en bovendien geldt voor u gelegen tussen t 10 en 10 dat t u 10, zodat fT1 T2 t
1 10 1 20 t du 10 t 10 10 100
4. t 20. Dan is t u 10, zodat fT2 t u 0 voor u tussen 0 en 10 zodat, net als in het eerste geval fT1 T2 t 0 Inderdaad is het onmogelijk dat we een totale wachttijd hebben die langer duurt dan 20 minuten. De grafiek van fT T wordt gegeven in figuur 2.7. Bepaal zelf de verdelingsfunctie FT T en teken de grafiek. 1
2
1
2
0.12
0.1
0.08
0.06
0.04
0.02
0
-0.02
0
5
10
15
20
Figuur 2.7: Kansdichtheid voor de som van de wachttijden van twee tramritten.
2.4 Verwachtingswaarde en standaardafwijking Bij een loterij zijn er 1000 loten van 1 Euro. Het winnende nummer is goed voor 400 Euro en er zijn 5 troostprijzen van 20 Euro. Wat is de waarde die U aan zo’n lot kunt toekennen? Op voorhand weten we natuurlijk niet op welk lot de hoofdprijs gaat vallen en dus welk lot een grote waarde heeft. We kunnen wel een soort “gemiddelde” waarde van een lot bepalen. Stel, dat we alle loten zouden kopen, dan zijn we 1000 Euro kwijt en we winnen 500 Euro aan prijzen; het verlies is dus gemiddeld 0.50 Euro per lot. Aan ieder lot kunnen we dus een “waarde” toekennen van 050 Euro. We noemen dit de verwachtingswaarde van een lot uit de betreffende loterij. Dit voorbeeld suggereert de definitie: Definitie 2.4.1 Voor een gegeven stochastische variabele X defini¨eren we de verwachtingswaarde E X (Eng.: expectation) door E X
indien X discreet verdeeld ∑j xj pj ∞ ∞ x fX x dx indien X continu verdeeld
(2.39)
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
33
Merk op dat E X niet altijd bestaat; het is inderdaad mogelijk dat de reeks of oneigenlijke integraal divergeert.
Voorbeeld 2.4.2 Bij de boven vermelde loterij is Ω de verzameling van de 1000 loten en X ω is de winst die U maakt bij het kopen van e´ e´ n ervan:
4000 10 X ω 200 10
voor het winnende lot voor de troostprijzen
10
Bijgevolg is
E X
voor de andere loten
∑ x j p j 4000 10 1000 200 10 1000 10 1000 5 1
5
994
j 1
en vinden we een negatieve verwachtingswaarde. Voorbeeld 2.4.3 Men werpt een dobbelsteen. X is het aantal ogen dat bovenaan komt te liggen. Dan is E X
6
∑6 j
j 1
21 6
35
Neem nu een (continue) functie g : , dan kunnen we een nieuwe stochastische variabele gX defini¨eren voor een gegeven stochastiek X als de stochastiek met de verdelingsfunctie FgX z : PgX z zie formule (2.30). Voor X discreet vindt men gemakkelijk dat E gX ∑ gx j p j
(2.40)
j
Inderdaad, voor y heeft men PgX y ∑ p j : gx j y j
Sommatie over alle verschillende gxj geeft het resultaat. Voor een continu verdeelde stochastische variabele X heeft men, op analoge manier ∞ gx fX x dx E gX
∞
Opgave: Bewijs zelf de volgende eigenschappen: 1. E aX a E X , voor elke a met a 0; 2. E X b E X b, voor elke b ; 3. E b b, voor elke b ; 4. E X E X .
(2.41)
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
34
Veronderstel dat we E X en E Y kennen van twee stochastische variabelen X en Y . Wat is dan E X Y ? Om hier een antwoord op te kunnen geven hebben we een veralgemening van de eigenschappen (2.40) en (2.41) nodig. Veronderstel dat X en Y twee stochastische variabelen zijn en dat g : 2 een (continue) functie is. Dan is ∞ ∞ gx y fX Y x y dx dy E gX Y E gX Y
∞ ∞
∑ ∑ gxi y j PX xi Y y j i
(2.42)
j
in het continue respectievelijk het discrete geval. Net zoals voor (2.40) en (2.41) is het bewijs eenvoudig in het discrete geval. Het bewijs in het continue geval laten we hier achterwege. Met deze formule (2.42) kunnen we eenvoudig laten zien, dat de verwachtingswaarde van de som van twee stochastieken altijd de som van de verwachtingswaarden is: Stelling 2.4.4
E X Y E X E Y
(2.43)
Bewijs. E X Y
E X
E Y
∞ ∞
∞ ∞ ∞ ∞ ∞ ∞
x y fX Y x y dx dy
x fX x dx y fY y dy
∞ ∞
∞ ∞ ∞ ∞ ∞ ∞
x fX Y x y dx dy
y fX Y x y dx dy
Optellen van de laatste twee vergelijkingen geeft de eerste. Voor onafhankelijke veranderlijken X en Y geldt een analoge gelijkheid voor het product, zie (2.46), E XY E X E Y
Definitie 2.4.5 De variantie van X is de verwachtingswaarde van het kwadraat van de afwijking t.o.v. het gemiddelde E X VarX E X E X 2 (2.44) Zij bestaat alleen, als de bijbehorende integraal of oneindige som (zie (2.39)) niet divergeert, ∞ ∞ x E X 2 fX x dx ∞ of ∑ pk xk E X 2 ∞
∞
k 0
De standaardafwijking van X is de vierkantswortel van de variantie:
σX
VarX
(2.45)
De variantie geeft aan hoe snel X varieert rond zijn verwachtingswaarde. Hoe groter de kans is, dat X ω dicht bij E X ligt, hoe kleiner VarX is. Merk ook op dat σX en X dezelfde dimensies hebben. In voorbeeld 2.4.2 (de loterij) hebben we VarX
39952 1952 5 52 994 1000
Opgave: Bewijs zelf de volgende eigenschappen: 1) VaraX a2 VarX
(voor a 0)
16175
en σX
1272
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
35
2) VarX b VarX 3) Varb 0 Analoog aan (2.43) kunnen we variantie van de som en het product van twee stochastieken in verband proberen te brengen met de som en het product van de varianties. Dit is echter alleen mogelijk onder de extra voorwaarde, dat beide stochastieken onafhankelijk zijn. Stelling 2.4.6 Als X en Y onafhankelijke stochastische variabelen zijn, dan geldt: 1
E XY E X E Y
3
VarXY VarX VarY E X VarY VarX E Y
2
(2.46)
VarX Y VarX VarY
2
(2.47) 2
(2.48)
Bewijs. Veronderstel dat X en Y continu verdeeld zijn. Het discrete geval laten we als oefening. ∞ ∞ ∞ ∞ xy fX Y x y dx dy xy fX x fY y dx dy E XY ∞ ∞ ∞ ∞ ∞ ∞ x fX x dx y fY y dy E X E Y
∞
VarX Y
want
∞
E X Y E X Y 2 E X E X Y E Y
2
E X E X E Y E Y 2E X E X Y E Y VarX VarY 2
2
E X E X Y E Y E X E X E Y E Y 0
als X en Y onafhankelijk zijn. De derde eigenschap bewijzen we op analoge manier.
Opmerking: Analoog aan (1.5) kunnen we de variantie ook met de volgende formule berekenen: VarX E X 2 E X 2 want
E X E X 2 E X 2 2E X E X E X 2 E X 2 E X 2
Voorbeelden 2.4.7 1) Werp met een dobbelsteen en beschouw volgende stochastische variabelen X Y
aantal ogen dat geworpen wordt 1 als het aantal ogen even is, 0
als het aantal ogen oneven is.
Dan zijn X en Y afhankelijk: P X
3 en Y 1 0
terwijl PX
3 PY 1 16 12 121
Voor de verwachtingswaarde van de som geldt inderdaad E X Y E X E Y 4
(2.49)
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
36
(verifieer door beide leden uit te rekenen). Voor de verwachtingswaarde van het product en voor de variantie van de som hebben we echter E XY 2 E X E Y 35 05 en
VarX Y
22 35 1 VarX VarY 6 12 4
196
2) We werpen met twee dobbelstenen en kiezen de stochastieken X en Y als volgt: X Y
aantal ogen van de eerste dobbelsteen 1 als het aantal ogen van dobbelsteen 2 oneven is 0
als het aantal ogen van dobbelsteen 2 even is
X en Y zijn nu onafhankelijk. Verifieer dat E X Y E X E Y 4 E XY E X E Y 175 VarX Y VarX VarY
38 12
Momenten In de mechanica worden bij een gegeven object bestaande uit massapunten xi met gewichten pi de begrippen totale massa, zwaartepunt en traagheidsmoment (t.o.v. het zwaartepunt) gedefinieerd als m ∑ pi g ∑ pi xi i
en
i
∑xi g2 pi i
Deze begrippen zijn volledig analoog met de definities van totale kans (=1), verwachtingswaarde en variantie in de waarschijnlijkheidsrekening. Algemeen kunnen we (zoals in de mechanica) het ruwe moment en het centrale moment van orde k defini¨eren alsvolgt: Definitie 2.4.8 Voor elke k 0 1 2 defini¨eren we het ruwe moment αk en het centrale moment µk van orde k door αk X E X k en µk X E X E X k (2.50) Opgave: Bewijs zelf de volgende eigenschappen: 1 2 3
4
α1 X E X µ1 X 0 µ2 X VarX α2 X α1 X 2 µ3 X α3 X 3α1 X α2 X 2α1 X 3
(2.51) (2.52) (2.53) (2.54)
De momenten van orde drie en vier worden verder behandeld in 2.5. De variantie geeft een maat voor de grootte van het gebied, waar we het grootste deel van de “kansmassa” kunnen verwachten. Dit wordt ge¨ıllustreerd door het volgende belangrijke resultaat: Stelling 2.4.9 (formule van Chebyshev) Als X een stochastische variabele is met gemiddelde α1 en variantie µ2 σ 2 , dan geldt voor elke λ PX α1 λ
σ2 λ2
0: (2.55)
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
37
Bewijs. We bewijzen enkel het geval waarin X continu verdeeld is. Het geval waarin X discreet verdeeld is laten we als oefening.
σ2
∞
x α12 fX x dx ∞
α λ 1
∞
x α12 fX x dx
∞
α1 λ
x α12 fX x dx
Voor x α1 λ zowel als voor x α1 λ geldt x α1 2 λ 2 . Bovendien is fX x nergens negatief. Dus:
σ2 λ2
α λ 1
∞
fX x dx λ 2
∞
α1 λ
fX x dx
λ 2 PX α1 λ λ 2 PX α1 λ λ 2 PX α1 λ
2.5 Kentallen van locatie, schaal en vorm De verwachtingswaarde van een stochastische variabele geeft ons informatie over de locatie of ligging van de kansverdeling; de variantie vertelt ons iets over de spreiding, of schaal van de verdeling. In dit hoofdstuk bespreken we deze en enige andere grootheden die informatie geven over de locatie, de schaal en de vorm van de kansverdeling: de mediaan, de modus, het interkwartiel, de mediane absolute afwijking (MAD of median absolute deviation), de scheefheidsco¨effici¨ent en de kurtosis.
2.5.1 Kentallen van locatie a. Het rekenkundig gemiddelde Dit is niets anders dan de verwachtingswaarde. Deze grootheid bezit prettige eigenschappen voor een wiskundige analyse, zoals lineariteit2 , maar heeft verder enkele nadelen: het is mogelijk dat E X niet bestaat. Zo heeft de Cauchy-verdeling FX , FX x :
1 1 1 arctanx met kansdichtheid fX x : 2 π π π x2
(2.56)
geen verwachtingswaarde, omdat de volgende integraal divergeert:
lim
a∞ b∞
a
b
x dx bestaat niet 1 x2
Verder kan de waarde van E X sterk be¨ınvloed worden door een relatief kleine hoeveelheid kansmassa die op grote afstand ligt van het centrum van de kansmassa. Men zegt dat het gemiddelde niet “robuust” is en gevoelig is voor uitschieters (Eng: outliers), vergelijk de opmerking op pagina 10 over robuustheid van het steekproefgemiddelde. b. De mediaan De mediaan is het 50%-percentiel (zie 2.2.4). Dit is (ruwweg) het punt op de x-as dat zo gelegen is, dat er aan weerszijden een even grote kansmassa ligt (vergelijk met de empirische mediaan (1.2)). Om precies te zijn onderscheiden we drie gevallen: 2 de
verwachtingswaarde van een som is de som van de verwachtingswaarden, zie (2.43).
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
38
1. Er is precies e´ e´ n punt m zodat FX m 12 , zoals geschetst in figuur 2.8. In dat geval defini¨eren we:
medX : FX1
1 2
(2.57)
2. Er is g´ee´ n punt m zodat FX m 12 , zoals geschetst in figuur 2.9 (linker grafiek). In dat geval is FX discontinu en maakt deze ergens een sprong van een waarde kleiner dan 12 naar een waarde groter dan 12 . We defini¨eren medX dan als het punt, waar FX die sprong maakt.
3. De verzameling punten xFX x 12 , ook wel aangeduid met FX1 12 , bevat meer dan e´ e´ n punt. Omdat FX stijgend (niet dalend) is, is FX1 12 dan een interval. De mediaan is dan niet eenduidig bepaald volgens bovenstaande definitie en we defini¨eren hem dan als het middelpunt van het interval FX1 12 , zie figuur 2.9 (rechter grafiek). 1
0.3
0.8 0.6
0.2
0.4 0.1
0.2 50%
0 -5
0
50% 0
5
mediaan=0
-5
0
5
Figuur 2.8: Dichtheidsfunctie en mediaan van de Cauchy-verdeling.
1
1
0.5
0.5 mediaan=1.5 mediaan=1
0 -1
0
1
0 2
3
0
2
4
Figuur 2.9: Mediaan van de binomiale verdelingen B2 05 en B3 05, zie (3.12) voor de definitie. De mediaan bezit niet de aangename eigenschappen van het gemiddelde, zoals de lineariteit, en het berekenen ervan kost i.h.a. veel meer werk. Hij is wel veel robuuster: de aanwezigheid van kleine kansmassas op een grote afstand be¨ınvloedt de mediaan niet al te veel. In voorbeeld 2.4.2 (de loterij) is de verwachtingswaarde gelijk aan 5 en de mediaan 10; als we de hoofdprijs verhogen tot 800 Euro, stijgt de verwachtingswaarde naar 1, terwijl de mediaan onveranderd op 10 blijft staan (reflecterend dat de meeste deelnemers aan de loterij inderdaad 10 F verliezen). Voorbeelden 2.5.1 1) Neem de uniforme discrete verdeling op 1 5, d.w.z. PX i 15 voor i 1 2 3 4 5. Dan is medX 3, immers, met FX 3 35 , en lim FX x 25 maakt FX in x 3 een sprong van 25 naar 35 . Teken x3
zelf de verdelingsfunctie van X. We zijn hier in het tweede geval. 2) Neem nu de uniforme discrete verdeling op 1 2 3 4 5 6 met PX i 16 . Ditmaal is FX1 12 3 4, zodat medX 3 12 . Dit is het derde geval.
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
39
Opmerking: Indien de verdeling van X symmetrisch is, d.w.z. indien er een c is zodat fX c x fX c x PX c x PX c x
als X continu als X discreet dan is medX c. Bovendien geldt dan in dat geval E X c, indien E X bestaat. continue functie is, dan is gmedX medgX (ga na).
(2.58) Als g een monotone
c. De modus Dit is de “meest voorkomende waarde”. Voor X discreet is dit de xj waarvoor p j PX x j maximaal is. Voor X continu is modX het punt waarbij fX zijn absolute maximum bereikt. De modus is niet steeds eenduidig! fX kan meerdere absolute maxima hebben en pj kan zijn maximum aannemen voor verscheidene waarden van j (zoals bijvoorbeeld bij de dobbelsteen). Indien de modus uniek is, dan zeggen we dat de verdeling unimodaal is. De Cauchy-verdeling in fig. 7.1 is duidelijk unimodaal evenals de verdeling B2 05 in fig. 7.2a. De verdeling B3 05 in fig. 7.2b is bimodaal en de dobbelsteen (fig. 4.1) is multimodaal.
2.5.2 Kentallen van schaal a. De variantie en de standaardafwijking Deze werden ingevoerd in 2.4. Ze hebben dezelfde voor- en nadelen als het rekenkundig gemiddelde: wiskundig het eenvoudigst, maar weinig robuust. Als de verwachtingswaarde van een kansverdeling niet bestaat, zal de variantie zeker niet bestaan. Het is echter wel mogelijk, dat het gemiddelde bestaat, maar de standaardafwijking niet; b.v. de t2 -verdeling met kansdichtheid f2 x : 12 1 x2 3 2 heeft verwachtingswaarde 0 maar de integraal voor de variantie divergeert.
b. Het interkwartiel 1.2 mediaan: 4.098
MAD: 0.804
interkwartiel: 4.548 - 2.52 = 2.028
1
verwachtingswaarde: 3.408 0.8
0.6
0.4
0.2
0
-0.2
0
1
2
3
4
5
6
Figuur 2.10: Mediaan, interkwartiel en MAD van de verdeling van figuur 2.3 met bijhorende dichtheid
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
40
Dit is het verschil tussen het 75%-percentiel en het 25%-percentiel (zie 2.2.4). Als de verdelingsfunctie continu en strikt stijgend (en dus bijectief) is, dan vinden we voor het interkwartiel interkwartiel : FX1
3 4
FX1
1
(2.59)
4
Een voorbeeld is geschetst in figuur 2.10 (zie ook figuur 2.3): c. De mediane absolute afwijking (Eng: median absolute deviation of MAD) Dit is de mediaan van de absolute afwijking ten opzichte van de mediaan van de verdeling (zie fig. 7.3):
MADX med X medX
(2.60)
Uit de definitie volgt, dat 50 % van de kansmassa zich bevindt tussen med MAD en med MAD, of FX med MAD FX med MAD 12
(2.61)
Voor een verdeling met bijectieve verdelingsfunctie kan (2.61) bewezen worden als volgt. Stel Y X medX , dan is MADX FY1 12, zodat
FY MADX PX medX MADX P MADX X medX MADX P med X MADX X medX MADX FX medX MADX FX medX MADX
1 2
Merk op dat de MAD nog robuuster is dan het interkwartiel. Voor symmetrische kansverdelingen zijn 2 MAD en interkwartiel aan elkaar gelijk.
2.5.3 Kentallen van vorm a. De scheefheid Veronderstel dat de verdeling van de stochastische variabele X symmetrisch is t.o.v. E X , d.w.z. fX E X x fX E X x PX E X x PX E X x 1
1
0.9
0.9
0.8
verwachtingswaarde: 1
voor een continue verdeling voor een discrete verdeling verwachtingswaarde: 1
0.8
0.7
variantie: 1/3
0.7
variantie: 1/3
0.6
standaardafwijking: 0.5774
0.6
standaardafwijking: 0.5774
0.5
scheefheidscoefficient: -1.155
0.5
scheefheidscoefficient: 1.155
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0 -3
-2
-1
0
1
2
3
0 -1
(2.62)
0
1
2
3
4
5
Figuur 2.11: Voorbeelden van verdelingen met negatieve (links) en positieve(rechts) scheefheidsco¨effici¨ent
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
41
dan is het centrale moment van orde 3 gelijk aan nul (als het bestaat):
µ3 X E X E X 3 0 (bewijs zelf als oefening). Deze eigenschap geldt voor een symmetrische verdeling trouwens voor elk centraal moment van oneven orde. Indien de dichtheidsfunctie niet symmetrisch is en een brede lange staart naar rechts heeft, dan zullen de positieve afwijkingen in X E X 3 overwegen en zal µ3 positief zijn. Omgekeerd, indien de grafiek van de dichtheidsfunctie een langere en bredere staart naar links vertoont, dan zal µ3 X negatief zijn. Als voorbeeld zijn in figuur 2.11 verdelingen geschetst met de kansdichtheden: 27 x 22 e3x2 2 27 frechts x : x2 e3x 2
flinks x :
voor x 2 voortgezet met nul elders voor x 0 voortgezet met nul elders
Beide hebben ze verwachtingswaarde 1 en variantie 13 . We kunnen het derde centrale moment µ3 X dus als een maat voor de scheefheid beschouwen. Omdat deze grootheid µ3 X de dimensie van X 3 heeft en omdat we de voorkeur geven aan een dimensieloze grootheden voor dit soort maten, herschalen we µ3 door deze te delen door de derde macht van de standaarddeviatie. (Ga na, dat dit hetzelfde is als het derde centrale moment van de genormaliseerde verdeling X σX berekenen). We defini¨eren de scheefheidsco¨effici¨ent (Eng. coefficient of skewness) γ1 dus door:
γ1 X :
µ3 X σX3
(2.63)
Voorbeeld 2.5.2 In voorbeeld 2.4.2 (de loterij) hebben we de volgende kentallen: E X 5
xj
pj
-10 190 3990
0.994 0.005 0.001
VarX
3
∑ x j 52 p j 16 175
j 1
12723 µ3 X ∑ x j 53 p j 63 797 250 j 1 γ1 3101 σ
b. De kurtosis Vanwege de vermenigvuldigingsfactor x E X 4 in de integraal voor het vierde centrale moment is de bijdrage van de staarten veel groter dan in lagere momenten zoals de variantie. Als de staart “dik” is, zoals b.v. bij de eerste verdeling in figuur 2.12, zal µ4 relatief groot zijn, en als de staart “dun” is, zoals bij verdeling 3 in dezelfde figuur, zal ze relatief klein zijn. De “ideale” staartdikte is die van de normale verdeling, geschetst in verdeling 2. Om evenals bij de scheefheid hierboven een dimensieloze grootheid te krijgen, delen we µ4 door de vierde macht van de standaardafwijking. De parameter om dit verschijnsel te meten wordt b2 genoemd:
µ4 X σX4
(2.64)
µ4 X
3 σX4
(2.65)
b2 X :
Deze grootheid is uiteraard altijd positief. De co¨effici¨ent van kurtosis3 γ2 X voor de verdeling van X verkrijgen we dan door van dit quoti¨ent het overeenkomstige quoti¨ent voor de normale verdeling af te trekken. Aangezien dit laatste altijd 3 is vinden we:
γ2 X 3 Kurtosis
is Grieks voor “welving”.
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
42
Een verdeling met positieve γ2 heeft “dikke” staarten en wordt ook wel “platycurtic” genoemd; een verdeling met negatieve γ2 heeft “dunne” staarten en wordt ook wel “leptocurtic” genoemd:
γ2 0 : leptocurtic γ2 0 : mesocurtic γ2 0 : platycurtic
1.2
1
0.8
0.6
0.4
0.2
0 -3
-2
-1
0
1
2
3
Figuur 2.12: Drie kansverdelingen en hun dichtheid met co¨effici¨enten van kurtosis positief, nul en negatief. Alle drie zijn geschaald, zodat de varianties gelijk zijn aan 1.
2.6 Covariantie en correlatieco¨effici¨ent Neem twee stochastische variabelen X en Y . Als X en Y onafhankelijk zijn, dan geldt, zoals we gezien hebben, dat σX2 Y σX2 σY2 . In het algemeen (voor afhankelijke stochastieken) hebben we:
σX2 Y
E X Y αX αY 2
E X αX 2 Y αY 2 2X αX Y αY
σX2 σY2 2E X αX Y αY
(2.66)
Het verschil, de term 2E X αX Y αY , geeft dus een idee van de mate van onderlinge afhankelijkheid van X en Y . Dit leidt tot de begrippen covariantie en correlatie: Definitie 2.6.1 De covariantie van X en Y wordt gegeven door covX Y E X αX Y αY
(2.67)
de correlatieco¨effici¨ent defini¨eren we door
ρ
covσXσ Y
(2.68)
X Y
Stelling 2.6.2 De correlatieco¨effici¨ent ρ is begrensd:
1 ρ 1
(2.69)
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
43
Bewijs. Beschouw de volgende semidefiniet positieve kwadratische vorm in a en b: a b :
0 E aX αX bY αY 2 a2 σX2 b2 σY2 2 ab covX Y
De discriminant van deze kwadratische vorm moet dus negatief zijn : covX Y 2 σX2 σY2 0
ρ2 1
oftewel
Opmerking. Analoog aan formule (2.49) kunnen we de covariantie op een alternatieve (en potentieel numeriek instabiele) manier berekenen door de formule covX Y E XY E X E Y
(2.70)
want covX Y
E X αX Y αY E XY E X αY E Y αX αX αY
E XY E X E Y
Definitie 2.6.3 Twee stochastische variabelen X en Y heten niet gecorreleerd als covX Y 0
of
E XY E X E Y
of
σX2 σY2
σX2 Y
(2.71)
Merk op dat twee onafhankelijke stochastische variabelen niet gecorreleerd zijn. Het omgekeerde geldt echter niet, zoals blijkt uit het volgende voorbeeld: Voorbeeld 2.6.4 covX Y 0 impliceert niet dat X en Y onafhankelijk zijn. Neem voor Z X Y de tweedimensionale uniforme verdeling over de cirkel, d.w.z. fZ x y
1
als x2 y2 1
π
als x2 y2 1
0
X en Y zijn niet gecorreleerd want E X E Y 0 en: E XY
1 π
xydxdy
1 π
2π 0
cos ϑ sin ϑ d ϑ
Anderzijds zijn X en Y niet onafhankelijk, want
P X
2 Y 2
2 0 en P X 2
1 0
2 P Y 2
r3 dr 0
2 0 2
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
44
2.7 Empirische en theoretische grootheden, een overzicht Nogal wat studenten verwarren de begrippen gemiddelde van een dataset en verwachtingswaarde van een (theoretische) kansverdeling empirische variantie en variantie van een kansverdeling. In de volgende tabel worden deze begrippen tegenover elkaar geplaatst. EMPIRISCHE GEGEVENS
THEORETISCHE VERDELING
x1 x2 xn IR
discrete verdeling Y :
continue verdeling Y :
gesorteerd:
Er zijn re¨ele getallen
x1 x2 xn
∞ yi ∞ i1 en kansen pi i1
met kansdichtheid fY ∞ fY t dt 1
empirische verdelingsfunctie
met ∑ pi 1
Fn x :
#xi x n
zodat PY
yi pi
∞
VERWACHTINGSWAARDE ∞
n
E Y : ∑ pi yi
1 xi n i∑ 1
E Y :
i1
EMPIRISCHE VARIANTIE
s2x :
en kansverdeling x FY x : fY t dt
i1
GEMIDDELDE
x :
∞
∞
n
1 xi x2 n 1 i∑ 1
VARIANTIE ∞
VarY : ∑ pi yi E Y 2
VarY :
i1
MODUS
EMPIRISCH PERCENTIEL
ξα of
empirisch QUANTIEL qp als k : p n 1
en ρ : p n 1 k dan
q p : xk ρ x p1 x p
EMPIRISCHE MEDIAAN
1
medx : ξ50 q 1
x x 1 als n is even, 2 2
n 2
n 2
x n1 als n is oneven, 2
∞
∞
∞
∞
t fY t dt
t E Y 2 fY t dt
MODUS
meest voorkomende meting
ξα
langste staaf in staafdiagram THEORETISCH PERCENTIEL
maximum van fY
ξα of QUANTIEL q p (α 100 p
q p : FY1 p als dit punt uniek is, ab als a b FY1 p , d.w.z. qp : 2 als FY x p constant is op het interval a b , q p : a als FY a p en FY x p x a , d.w.z. als FY in a
springt van een waarde p naar een waarde p. MEDIAAN
medY : ξ50 q 1 . 2
Hoofdstuk 3
Belangrijke Verdelingen 3.1 De Binomiaalverdeling 3.1.1 Bernoulli-experimenten Bij ieder binair kenmerk, zoals kop/munt – geslaagd/gezakt – roker/niet-roker – man/vrouw – wit/zwart – nul/een – winst/verlies kunnen we de kans bestuderen, dat het ene dan wel het andere alternatief optreedt. We noemen de bijbehorende kansruimte een Bernoulli-experiment; dit is een kansruimte met slechts twee uitkomsten, d.w.z. Ω bevat slechts twee elementen, die we meestal aangeven met de codes 0 en 1: Ω 0 1. Wanneer 1 optreedt met kans p, dan treedt het alternatief 0 op met kans q : 1 p. We hebben zo dus een (discrete) stochastische variabele X op Ω, die alleen de waarden 0 of 1 kan aannemen: Ω 0 1 PX
1 P1 p
en PX
0 P0 q 1 p
(3.1)
We zeggen dat X een Bernoulli-verdeling heeft met kans op “succes” p en we noteren dit door X B1 p
(3.2)
De grafiek van de verdelingsfunctie en het staafdiagram is getekend in figuur 3.1: 0.8 1
0.6 0.4
0.5
0.2 0
0 -0.2 -0.5
0
0.5
1
1.5
-0.5
0
0.5
1
1.5
Figuur 3.1: De Bernoulli verdeling met p 23 en het bijhorende staafdiagram Opgave: Verifieer de volgende formules voor de Bernoulli-stochastiek X B1 p: 1
2
E X p en VarX p1 p 1 als p : medX 0 en modX 0 2 1 1 als p : medX en modX 0 1 niet eenduidig 2 2 45
(3.3)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN als p
46
1 : medX 1 en modX 1 2
Opmerking 3.1.1 In iedere kansruimte Ω P kan men een Bernoulli-experiment cre¨eren door een gete nemen en het optreden van deze gebeurtenis als een “succes” te beschouwen. Voor beurtenis A ω Ω heeft men dus: 1 als ω A, X ω A. 0 als ω Voor X geldt dus: p : PX 1 PA en PX 0 PAc 1 p, zodat X B1 p. Voorbeelden: 1. Ω verzameling van stemgerechtigden in een land en A ja-stemmers bij een referendum. 2. Ω = de groep van 12 studenten uit het voorbeeld van 1.1 en A is de deelgroep van studenten die van Pieter een hoger cijfer kregen dan van Stef.
3.1.2 Permutaties en de formule van Stirling Op hoeveel manieren kan je n voorwerpen op een rij zetten? Antwoord: n! (zeg n-faculteit), waarbij n! gedefinieerd is als het product: n! : n n 1 n 2 2 1 oftewel : n! n n 1! met 0! 1! 1
(3.4)
We bewijzen dit met volledige inductie: 1o : Een voorwerp kun je op een manier op een rij zetten. 2o : Als we een rij van n 1 voorwerpen hebben, dan kunnen we het n-de voorwerp ervoor, erachter of op n 2 plaatsen ertussen zetten; voor n voorwerpen vinden we dus n maal zoveel mogelijkheden als voor n 1 voorwerpen.
In plaats van het aantal mogelijke volgordes spreken we ook wel van het aantal permutaties. Om n! uit te rekenen bestaat er de formule van Stirling die een zeer goede benadering geeft voor n 10: 1 2nπ nn en n! 2nπ nn en 1 (3.5) n! 2nπ nn en of beter : 4n Een elementair bewijs is hetvolgende. Beschouw het quotient an :
n!
nn 2 en en laat zien, dat dit convergeert naar een positief getal ρ . De waarde van deze constante volgt onder andere uit het bewijs van de stelling van DE M OIVRE, zie stelling 3.7.2. Voor twee opeenvolgende quotienten geldt 1
n! n 1n3 2 en1 1 n 1 1 n e n 1! nn1 2 en Met behulp van de Taylorontwikkeling log1x x 12 x2 13 x3 Ox4 vinden we 1 2
an an1
an log an log an1 log a
n1
n 12 1n 2n12
n 12 log1 1n 1
3n13
O n14 1 121n2
O n13
(3.6)
hetgeen positief is voor voldoend grote n, zeg als n no . Hieruit volgt dat log an log an1 , zodat de rij log an op den duur monotoon daalt. Bovendien is het verschil tussen twee opeenvolgende termen van de rij zo klein, dat de rij niet naar ∞ kan weglopen. Omdat ∞ ∞ ∞ ∞ dx 1 dx 1 1 1 1 1 en dus ook O 2 (3.7) ∑ ∑ 2 2 2 2 n1 n n n n1 x n x kn1 k kn k
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
47
heeft de rij een limiet β en geldt: 1 1 O 2 log an β 12 n n
zodat
an ρ
1 1 1 O 2 12 n n
met ρ : eβ .
(3.8)
3.1.3 Combinaties Op hoeveel manieren kunnen we k voorwerpen kiezen uit een collectie van n (k n) voorwerpen? Antwoord: We kunnen de n voorwerpen op n! manieren op een rij zetten en de eerste k elementen van deze rij nemen. Als we de eerste k echter onderling van plaats wisselen (dit kan op k! manieren), blijven we dezelfde verzameling van k objecten houden; evenzo kunnen we de laatste n k objecten op n k! manieren onderling verwisselen. Het aantal mogelijk verschillende manieren om k uit n te kiezen vinden we dus door het totale aantal permutaties te delen door alle mogelijke interne permutaties in de deelgroepen van k en n k elementen: n n! (3.9) : Cnk : k!n k! k
Het getal nk (spreek uit: n over k) noemt men het aantal combinaties van k elementen uit n. Voor dit getal vond Pascal de volgende recursie:
n n 0
n
1
en
n 1 n k1
k1
k
n
als 0 k n
(3.10)
Met formules (3.4) en (3.9) kunnen we de juistheid van (3.10) eenvoudig uitrekenen. Een alternatieve manier is de volgende. Een greep van k 1 elementen uit n 1 kunnen we op twee manieren samenstellen, nl. door k uit n te kiezen en het n 1-ste element aan de eerste groep toe toe voegen, of door k 1 uit n te kiezen en het n 1–ste element aan de rest toe te voegen. Hieruit volgt
n 1 n
k1
k
k1 n
De zo verkregen getallen heten de binomiaalco¨effici¨enten. Ze kunnen geordend worden in de welbekende driehoek van Pascal, waarin ieder element de som is van de twee elementen uit de rij erboven, die er links en rechts boven staan: 1 1 1 1 1 1
2 3
4 5
1
3 6
10
1 1 4 10
etc
1 5
1
Figuur 3.2: De driehoek van Pascal Deze Binomiaalco¨effici¨enten komen ook voor bij de berekening van de machten van een som, het zogenaamde Binomium van Newton:
a b2
a2 2ab b2
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
a b3 a b4 a bn
48
a3 3a2 b 3ab2 b3 a4 4a3 b 6a2b2 4ab3 b4 n ∑ nk ak bnk k0
(3.11)
Voor het bewijs (met inductie) schrijven we a bn1 a ba bn en passen we formule (3.11) toe op de n-de macht. We zien, dat de co¨effici¨ent van ak1 bnk de som is van de co¨effici¨enten van ak1 bnk1 en ak bnk in de ontwikkeling van de n-de macht. De co¨effici¨enten voldoen dus precies aan de recursie (3.11) voor de binomiaalco¨effici¨enten. Opgave. Ga de volgende gelijkheden na: a. b.
n k
0
n n k
n n n
1
voor elke k. en
n
1
n n 1
n.
3.1.4 De Binomiaalverdeling We kunnen het Bernoulli-experiment, b.v. het gooien van een munt, n maal herhalen en ons dan afvragen, wat de kans is op k maal kop in die serie van n worpen. Als we na n 1 worpen k 1 maal kop gegooid hebben, kunnen we k maal kop uit n worpen krijgen door in de n-de beurt nog eens kop te gooien; als we in n 1 beurten reeds k maal kop hadden gegooid, kunnen we k maal kop uit n worpen krijgen door in de n-de beurt munt te gooien. De kans op k maal kop uit n worpen is dus gelijk aan de kans op kop maal de kans op k 1 maal kop uit n 1 worpen plus de kans op munt maal de kans op k maal kop uit n 1 worpen. We zien dus ook hier weer de binomiaalco¨effici¨enten terug.
o o o o o o o o o o o
o o
o
o o
o
o
o
o
o o
o o
o o
o o
o
o o
o o
o
o
o o
o
o
o
o o
o
o
o o
o o
o
o o
o o
o
o o
o o
o o
o o
o
o o
o
Figuur 3.3: Het bord van Galton Een bekend experiment is het ”bord van Galton”, zie figuur 3.3. Op een vertikaal geplaatst bord zijn in een gelijkbenige driehoek pinnen geplaatst in horizontale rijen van 1, 2, 3, ... lang, zodat een pin in rij n precies in het midden boven twee pinnen in rij n 1 staat. Aan de bovenzijde kunnen balletjes door een trechter geworpen worden, zodat ze precies midden op de bovenste pin vallen. Vandaar vallen ze naar links of rechts precies midden op een pin van een rij lager, enzovoorts, tot ze in een van de opvangbakken aan de onderzijde terechtkomen. Als de kans om naar links of rechts te vallen even groot is (en dus gelijk aan 12 ), is de kans om op pin k op niveau n te vallen gelijk aan 12 maal de kans om vanaf niveau n 1 op een van de
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
49
pinnen k 1 of k te vallen. Als er n niveaus zijn, is de kans dat een balletje in het k-de bakje valt dus gelijk aan nk 12 n . Zo’n vallend balletje voert dus een rij Bernoulli-experimenten uit, door bij iedere volgende pin weer te kiezen voor rechts of links met kans p 12 . Als we n onafhankelijke Bernoulli-experimenten (met uitkomsten 0 of 1) met kans p doen en de uitkomsten optellen krijgen we een som Y van n Bernoulli-stochastieken X1 , X2 , , Xn , alle verdeeld volgens dezelfde theoretische verdeling B1 p. Deze som-stochastiek geeft het aantal “successen” in n pogingen. Zij neemt dus gehele waarden aan tussen 0 en n. We noemen deze stochastiek binomiaal of Bn p verdeeld: Y
X1 X2 Xn
en Y Bn p
(3.12)
Voor deze discrete stochastiek geldt dus: 1 2
3 4
n
k k pk 1 pnk k 0 1 2 n E Y E X1 X2 Xn E X1 E X2 E Xn np VarY VarX1 X2 Xn VarX1 VarXn npq ϕY t peit qn PY
(3.13) (3.14) (3.15) (3.16)
In tabel 1 achteraan vinden we tabellen voor de kansen PY
k
n
0.25
k
pk 1 pnk
1
0.2 0.15 0.5
0.1 0.05 0
0 0
5
10
0
5
Figuur 3.4: Staafdiagram en verdelingsfunctie van B10 05
10
De modus (de getallen j met grootste pj ) kunnen we vinden door naar de quoti¨enten pj p j1 te kijken: n! j 1!n j 1! p j 1 pn j p n j 1 p j1 j!n j! n! p j1 1 pn j1 1 p j Hieruit volgt, dat p j p j1 als j n 1 p. We zien dus, dat p j de grootste is, als np p niet geheel is en j het grootste gehele getal kleiner dan np p is (notatie: j np p ). Als j np p geheel is, dan zijn pj
p j en p j1 gelijk en zijn ze beiden modi. Dus modY
np p
j 1 j
als np p niet geheel is,
als j : np p geheel is.
(3.17)
In de figuren 3.4 en 3.5 zijn voorbeelden van een binomiale verdeling geschetst. In figuur 3.4 met p 12 zien we een verdeling die symmetrisch is rond de verwachtingswaarde terwijl figuur 3.5 met p 15 nogal scheef is.
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
50
1
0.3 0.2
0.5 0.1 0
0 0
5 10 0 5 Figuur 3.5: Staafdiagram en verdelingsfunctie van B10 02
10
3.1.5 De wet van de grote getallen (de Moivre 1718) Als er een referendum wordt uitgeschreven over een brandende politieke kwestie, dan zullen opiniepeilers vooraf in een steekproef onder de bevolking het percentage ja-stemmers (= de kans p op een ja-stem) proberen te bepalen. In zo’n peiling zal niet iedereen ondervraagd (kunnen) worden, maar we hebben het idee, dat we een goed beeld kunnen krijgen van de waarde van p als we voldoende veel personen ondervragen. Ieder antwoord in de peiling kunnen we opvatten als een onafhankelijk Bernoulli-experiment X met kans p op ja, dus X B1 p. Een peiling Y X1 X2 Xn onder n personen is dan binomiaal Bn p-verdeeld en Y n geeft de fractie van ja-stemmen met verwachtingswaarde p. Wat is de kans dat de werkelijke uitkomst van een steekproef onder n personen hiervan sterk afwijkt? De wet van de grote getallen zegt dat deze kans willekeurig klein is als n voldoende groot is.
Stelling 3.1.2 Als de stochastische variabelen X1 X2 Yn X1 X2 Xn , dan geldt lim P
n∞
Yn n
Xn onafhankelijk en B1 p-verdeeld zijn en als
p ε
0
(3.18)
p1nε 2 p
(3.19)
Bewijs. Uit de formule (2.55) van Chebyshev volgt: P
Yn n
p ε
Var Ynn ε2
voor alle n en voor alle (vaste) ε 0. Voor n ∞ gaat het rechterlid naar nul.
3.2 De hypergeometrische verdeling We nemen een vaas met N knikkers, waarvan P rode en Q : N P witte. Wanneer we hieruit n maal een willekeurige knikker trekken, de kleur ervan noteren en de knikker vervolgens weer terug leggen, doen we n opeenvolgende Bernoulli-experimenten. Het aantal rode knikkers na n trekkingen zal dus Bn p-verdeeld zijn, met p : PN. Als we echter in een greep n knikkers trekken, of (wat hetzelfde is) n knikkers achtereen trekken zonder teruglegging, zal de uitkomst anders zijn. Bij het trekken van de tweede en volgende knikkers zal de verhouding rood/wit in de vaas zich steeds wijzigen, naar gelang de de vorige uitkomsten. Noem de uitkomst van de trekking van de j-de knikker Xj met X j 1 als de knikker rood is en Xj 0 als de knikker wit is. Het aantal rode knikkers noemen we Y : X1 X2 Xn . Als P n en Q n, dan kan Y alle waarden 0 1 n aannemen. Om de kans PY j uit te rekenen P verdelen we de P rode knikkers uit de vaas in een groep van j en een restgroep van P j; dit kan op j manieren, zie (3.9). Evenzo kunnen
we de Q witte knikkers in groepen van n j en Q n j knikkers verdelen op nQ j manieren en kunnen
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
51
we uit de gehele verzameling van N knikkers op Nn manieren n knikkers afzonderen. De gevraagde kans is dus: P Q n N n j n j j N NP j (3.20) PY j n P
Als we de binomiaalco¨effici¨ent mj de waarde 0 geven voor j 0 en j m, blijkt deze formule ook geldig voor de gevallen P n en Q n; immers, als P n, dan is PY j 0 voor j P. Definitie 3.2.1 De kansverdeling van Y , die voldoet aan (3.20), noemen we de hypergeometrische verdeling, notatie: P (3.21) Y H N p n met p : N Stelling 3.2.2 De verwachtingswaarde en variantie van Y H N p n worden gegeven door: E Y
np
VarY
npq NN
n1
(3.22)
Bewijs. Het bewijs voor de verwachtingswaarde is eenvoudig: E Y E X1 X2 Xn E X1 E X2 E Xn np omdat de verwachtingswaarde van een som gelijk is aan de som van de verwachtingswaarden, ook als er afhankelijkheid is, zie formule (2.43). Het bewijs voor de variantie gaat als volgt: als X H N p n, en q : 1 p dan geldt
N p Nq n N p N p1 Nq E X ∑ k k N nk ∑ k k N k1N 1 nk k0 k1 n n n1 N p1 n1 n1 Nq nNN p ∑ m N1n1m np ∑ PY m n
m0
m0
n1
np
waar Y een stochastische variabele is die H N 1 NNp11 n 1-verdeeld is. Om de variantie te berekenen herleiden we op analoge wijze:
N p Nq E X X 1 ∑ k k 1 k N nk n
k0
N p2 Nq k2 nk ∑ k k 1 N2 N N 1 k2 n n1 N p2 n2 Nq n2 nNN p n1NN1p1 ∑ m N2n2m n
Np k
n
Nkp11
m0
nN p N
n1N p1 N 1
n2
n2
Np 1 ∑ PY m n 1np N 1
m0
waar Y een stochastische variabele is die H N 2 NNp22 n 2-verdeeld is. Uit de gelijkheid E X X 1 E X 2 E X vinden we VarX
E X 2 E X 2 E X X 1 E X E X 2 n 1np NNp
11 np n2 p2
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
52
np N p 1n 11 npN 1 N 1 np N pn 11 np n 1 1 np N 1 np N 1 p n1 p N 1 N n npq N 1
Voorbeeld 3.2.3 Een lampenwinkel koopt bij groothandel dozen van 100 lampen. Bij levering worden uit iedere doos 5 willekeurig gekozen lampen getest. Stel dat er in een gegeven doos 5 kapotte exemplaren zijn, wat is de kans dat er minstens een van gevonden wordt. Antwoord:
5 95
PY
1
PY
2
5 92 93 94 95 234 1 4 5 5 92 93 94 95 2114% 196 97 1 98 100 99 100 96 97 98 99 100 12345 5 5 5 8 93 94 95 184% PY 3 01% 96 97 98 99 100
zodat PY 1 23%. Eenvoudiger is het uit te rekenen: PY 1 1 PY
0
met PY
95 0 9691979298939994100
Dit vindt zijn toepassing bij kwaliteitscontrole van massaprodukten. In het bovengenoemde voorbeeld is het ondoenlijk om iedere lamp in iedere doos afzonderlijk te testen. We nemen een steekproef van n lampen uit een doos; als er geen defekte lamp in zit accepteren we deze doos. In figuur 3.6 is de kans op acceptatie uitgezet tegen het percentage defekte lampen. Voorbeeld 3.2.4 Een ecoloog wordt nogal eens geconfronteerd met het probleem, het aantal dieren te schatten in een habitat, b.v. het aantal vissen in een vijver. Hierbij kan gebruikt gemaakt worden van de zogenaamde “capture/recapture” techniek. Laat de vijver N vissen bevatten. We vangen n vissen, merken ze
1
kans dat steekproef geen defekte lampen bevat
0.9 0.8
test van 5 exemplaren per partij van 100
0.7
test van 10 exemplaren per partij van 100
0.6 0.5 0.4 0.3 0.2 0.1 0
0
10
20
30
40
50
60
aantal defekte exemplaren in een partij van 100 lampen
Figuur 3.6: Percentage defekte lampen in een doos vs. de kans op geen defekten in een steekproef.
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
53
en zetten ze weer uit in de vijver. Enige dagen later vangen we m vissen waarvan er k gemerkt zijn. Op voorwaarde dat de tweede vangst willekeurig is, is het aantal gemerkte vissen bij de tweede vangst hypergeometrisch verdeeld met verwachtingswaarde mp, waar p de verhouding nN van gemerkte vissen t.o.v. het totaal is. We kunnen mp schatten met de waargenomen waarde k, zodat mp mnN k. Hieruit vinden we N nmk. Opmerking 3.2.5 De kansen, gegeven in formule (3.20), zijn co¨effici¨enten in een “hypergeometrische” reeks. Hieraan dankt de verdeling zijn naam.
3.3 De Geometrische verdeling Op een atol in de Stille Oceaan is de leefruimte en de hoeveelheid voedsel beperkt. Om overbevolking te voorkomen wil de stammoeder het aantal kinderen beperken. Om de andere vrouwen, die allen graag dochters zouden hebben, niet de mogelijkheid te ontnemen om een dochter te baren, bepaalt zij, dat een vrouw na het baren van een dochter niet meer zwanger mag worden. Zal zij in haar opzet slagen en hiermee het totale aantal geboorten beperkt houden? Laten we voor het beantwoorden van deze vraag veronderstellen, dat de kans op het baren van een zoon of een dochter even groot is en laten we kindersterfte e.d. verwaarlozen. De kans dat een vrouw als eerste kind een dochter baart, is een half. De kans dat zij een tweede kind mag baren en dat dit een dochter is, is dus een kwart. De kans dat zij een derde kind mag baren en dat dit een dochter is, is een achtste, etc. In het algemeen vinden we dus voor k 0 1 2 : Pk1-ste kind is een dochter en de eerste k kinderen zijn zonen
1 k1 2
(3.23)
Het gemiddelde aantal kinderen per vrouw (= verwachtingswaarde, zie (3.27)) komt dus uit op m 1
1 2 14 3 18 4 161 5 321 2
2
(3.24)
De maatregel werkt dus perfekt (onder de gegeven vereenvoudigingen). Een kansverdeling zoals gegeven in (3.23) waarvan de kansen afnemen als een meetkundige rij heet een geometrische verdeling. Bij een gegeven oneindige rij Bernoulli-experimenten X1 , X2 , X3 , , die alle onafhankelijk en B1 p-verdeeld zijn (met dezelfde p), kijken we naar het eerste “succes” na k keer falen. Aangezien de kans op k keer falen gelijk is aan qk met q : 1 p, zal er vroeg of laat een “succes” optreden. De kans hierop noemen we pk k 0 1 2 , PY
k
pk : PXk1 1 en X1 0 X2 0 Xk 0
pqk
(3.25)
Deze kansen vormen een meetkundige rij en hun som voldoet aan de voorwaarde ∞
∑
k0
qk p
p
1 1 q
1
In figuur 3.7 is een voorbeeld van een geometrische verdeling geschetst. De kansverdeling FY is een trapfunctie met FY j
j
∑
k0
qk p
p
1 q j1 1 q
1 q j1 j 0 1 2
Verwachtingswaarde en variantie kunnen we alsvolgt bepalen. Als we de meetkundige reeks ∞
∑ xk 1 x
k0
1
met x
1
(3.26)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
54
1
0.3 0.2
0.5 0.1 0
0 0
10
0
10
Figuur 3.7: Kansverdeling en staafdiagram van een geometrische verdeling met p 03. term per term afleiden, dan vinden we met een- en tweemaal differenti¨eren ∞
∑ kxk1
k1
∞
1 1 x2
∑ kk 1xk2 1 x3
en
2
k 2
We verkrijgen voor de verwachtingswaarde E Y
∞
∞
k0
k1
∑ kpqk pq ∑ kqk1
pq 1 q2
qp
(3.27)
Evenzo vinden we E Y Y 1 zodat
∞
∞
k0
k2
∑ kk 1 pqk pq2 ∑ kk 1qk2
2pq2 1 q3
2
2qp2
2q2 q q2 q
2 2 2 p p p p Uit de figuur 3.7 zien we onmiddelijk in, dat modY 0. Bepaal zelf de mediaan van Y ! VarY E Y 2 E Y 2 E Y Y 1 E Y E Y 2
(3.28)
3.4 De Poissonverdeling en Poissonincidentenstromen 3.4.1 De Poissonverdeling Per dag worden er in Belgi¨e N ( 400?) kinderen geboren. Laten we aannemen dat de kans om op een bepaalde dag geboren te worden niet afhangt van het seizoen en voor iedere dag hetzelfde is. Kunnen we dan iets zeggen over de fluctuaties in de dagelijkse aantallen? D.w.z., als Y de stochastische variabele is, die het aantal geboorten op een dag geeft met E Y N, kunnen we dan de spreiding σY bepalen? Op het eerste gezicht lijkt dit een gekke vraag, immers als we alleen het gemiddelde van een grootheid zoals de lengte van alle inwoners kennen, kunnen we onmogelijk iets zeggen over de spreiding erin. Voor het aantal geboorten per dag is de situatie echter anders. Het tijdstip van iedere geboorte is een onafhankelijke stochastische gebeurtenis, waarvan we weten, dat er per dag gemiddeld N gebeuren, per week dus gemiddeld 7N en per uur N 24; m.a.w. het gemiddelde aantal is evenredig met de lengte van de observatietijd. Laat τ een fractie van de dag zijn, dan is de stochastiek Xτ het aantal geboorten dat in zo’n fractie plaats vindt en er geldt: E Xτ τ N. Kies nu de observatietijd τ zo klein, dat er in die periode hoogstens e´ e´ n geboorte plaats vindt, dan neemt Xτ alleen de waarden 0 en 1 aan en is dus (ongeveer) binomiaal B1 p-verdeeld met p E Xτ τ N en VarXτ τ N 1 τ N . Als Y het aantal geboorten op een dag is en een dag is opgedeeld in n stukjes van lengte τ 1n dag, dan geldt: n
Y
∑
k 1
Xτ k
als nτ
1
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
55
Hierbij is Xτ k het aantal geboorten in het k-de tijdsinterval met lengte τ . De stochastische variabelen Xτ 1 Xτ 2 Xτ n zijn onafhankelijk, en hebben allen dezelfde verdeling. Bijgevolg geldt:
E Y nE Xτ nτ N N
VarY nVarXτ nτ N 1 τ N N 1 τ N
en
Nemen we nu de limiet voor τ 0 en dus (tegelijk) voor n ∞, dan wordt de gelijkheid exact en vinden we VarY N. De gezochte spreiding is dus N. Er is nog meer: we kunnen alleen op grond van de aannamen, dat de verwachtingswaarde per tijdsinterval constant in de tijd is en dat de aantallen gebeurtenissen in twee tijdsintervallen met lege doorsnede onafhankelijke stochastieken zijn, de kansverdeling volledig karakteriseren. Deze kansverdeling heet de Poissonverdeling naar Simon Poisson, 1781-1840, hoewel deze verdeling waarschijnlijk al bekend was aan De Moivre een eeuw eerder. De Poissonverdeling Pλ (met intensiteit λ ) kunnen we dus vinden uit Bn λ n door de limiet voor n ∞ te nemen; dus als Y Pλ , dan PY
k nlim ∞
n λ k
1
n
k
λ nk n
λ n λ k n! λk 1
1
k k! n n k! n n
nlim ∞
Als we nu de volgende limieten (geldig voor vaste k) gebruiken: lim
n ∞
1
λ n n
eλ
en
lim
n∞ nk
n! n k!
1
λ k n
1
dan vinden we de kansen voor de Poissonverdeling: PY
k
λ k λ e k!
(3.29)
Hun som is inderdaad gelijk aan 1: ∞
∑
k0
PY
k
eλ
∞
λk ∑ k0 k!
eλ eλ 1
De verdelingsfunctie van de Poissonverdeling wordt gegeven in tabel 2 achteraan. De verwachtingswaarde is (zoals we al weten) E Y
∞
∑
k0
kPY
∞
k eλ ∑ k λ 1! k1 k
eλ λ eλ
λ
(3.30)
Om de variantie uit (3.29) af te leiden gebruiken we: E Y Y 1 zodat
∞
∞
∑ kk 1PY k eλ ∑ k λ 2! k 0 k2
VarY
k
eλ λ 2 eλ
E Y 2 E Y 2 E Y Y 1 E Y E Y 2 λ
λ2
(3.31)
Een belangrijke eigenschap van de Poissonverdeling is: Stelling 3.4.1 Als X en Y onafhankelijk en Poissonverdeeld zijn met parameters λ resp. µ , dan is hun som opnieuw Poissonverdeeld met parameter λ µ : X Pλ en Y Pµ onafhankelijk X Y Pλ µ
(3.32)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
56
0.3 1 0.2 0.5
0.1
0
0 0
10 0 10 Figuur 3.8: Kansverdeling en staafdiagram van een Poissonverdeling met λ =2.5.
Bewijs. Bij definitie geldt (met het binomium van Newton): PX Y n
n
λ k µ nk λ µ e k0 k! n k ! n
∑ PX k & Y n k ∑
k0
λ n!µ
n
eλ µ
waaruit (3.32) volgt.. Voorbeeld 3.4.2 In figuur 3.8 is een Poissonverdeling geschetst.
Voorbeeld 3.4.3 Het Rutherford-Geiger-Marsden experiment (1910) Dit is een beroemd experiment uit de begindagen van de studie van de radioactiviteit waarbij gedurende 2608 tijdsintervallen van 8 minuten aantallen alfa-deeltjes uit een stukje (radioactief) polonium werden waargenomen. De data zijn verzameld in tabel tabel 3.1 en in een histogram in figuur 3.9: Verderop in deze syllabus aantal alfa-deeltjes per tijdsinterval van 8 minuten 0 1 2 3 4 5 6 7 8 9 10 11 en meer
waargenomen aantal tijdsintervallen 57 203 383 525 532 408 273 139 45 27 10 6
verwachte aantal op grond van de Poissonverdeling 54 211 407 526 508 394 254 140 68 29 11 6
Tabel 3.1: Het Rutherford-Geiger experiment en de best-bijpassende Poissonverdeling met λ = 3.87. zullen we zien hoe we met een χ2 -toets de mate van overeenstemming tussen theorie en experiment kunnen beoordelen.
3.4.2 Poissonincidentenstromen We zullen nu de Poisson-verdeling op een andere manier invoeren. Veronderstel dat een bepaald incident zich in de loop der tijd een aantal keer voordoet : - een huis, verzekerd door een verzekeringsmaatschappij met zeer veel polissen, brandt af;
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
57
600
600
400
400
200
200
0 -5
0
5
10
0 -5
15
0
5
10
15
Figuur 3.9: Histogram van de waarnemingen van Rutherford-Geiger (links) en de best bijpassende Poissonverdeling met λ
3 87 (rechts).
- een radioaktief deeltje valt in een Geigerteller; - in een gegeven winkel komt een klant binnen; - een wagen rijdt voorbij een bepaald punt op een autosnelweg; - etc. . . . Met elk tijdsinterval s t kunnen we dan een stochastische variabele Xs t laten overeenstemmen. Laat Xs t het aantal incidenten zijn dat zich voordoet tijdens het tijdsinterval s t . We defini¨eren voor n N de kans gn s t , dat zich tijdens het interval s t juist n incidenten voordoen:
gn s t PXs t
n
Veronderstel nu dat we de volgende hypothesen kunnen maken, die plausibel zijn voor bovenstaande voorbeelden: / dan zijn Xs t en Xu v onafhankelijke stochastische variabelen. 1. Als s t u v 0,
2. Als t s v u, dan zijn de verdelingsfuncties van Xs t en Xu v dezelfde.
PXs sh 1
0. Ruwweg betekent deze veronderstelling dat de tijdsduur tussen twee opeenh volgende incidenten strikt groter dan nul is.
3. lim
h0
Hypothese 2 heeft als gevolg:
∂ gn s t is constant onafhankelijk van t ∂ t st want
∂ gn s t ∂ t st
1 PXs t h n PXs t h 0 h lim
n st
1 ∂ gn u v PXu vh n PXu v n h 0 h uv ∂ v uv lim
Voor n 1 zullen we deze constante λ noemen,
λ :
∂ g1 s t ∂ t st
(3.33)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
58
Ruwweg betekent dit, dat de kans dat er zich tussen t en t h een incident voordoet gelijk is aan hλ voor voldoend kleine h. Hypothese 3 heeft als gevolg:
∂ gn s t ∂ t st
0
voor n 1 en
∂ g0 s t ∂ t st
λ
(3.34)
Dit laatste volgt door de identiteit ∑k gk s t 1 naar t te differenti¨eren en vervolgens s t te stellen. Definitie 3.4.4 Een incidentenstroom die voldoet aan hypothesen 1, 2 en 3 noemen we een Poissonincidentenstroom. We zullen nu het verband aantonen met de Poissonverdeling. Om de verdeling van de stochastische variabelen Xs t te kennen, volstaat het vanwege hypothese 2 om de functies
pn t : gn 0 t PX0 t
n
te kennen. We zullen er een differentiaalvergelijking voor afleiden. De pn voldoen aan de beginvoorwaarden p0 0 1 en pn 0 0 voor n 0
(3.35)
want de kans dat zich op het tijdstip 0 minstens e´ e´ n incident voordoet is 0. We zullen eerst p0 bepalen. Vanwege hypothese 1 geldt voor t u: g0 0 u g0 0 t g0 t u of p0 u p0 t g0 t u Neem in beide leden de afgeleide naar u en stel dan t u, dan vinden we: d p0 t λ p0t dt
(3.36)
Rekening houdend met de beginvoorwaarden p0 0 1 vinden we de oplossing: p0 t eλ t
(3.37)
Om pn te bepalen gaan we op analoge manier te werk: n
pn u ∑ pni t gi t u ; i0
afleiden naar u en u gelijkstellen aan t geeft: d pn t λ pnt λ pn1 t dt
(3.38)
De vergelijkingen (3.36) en (3.38) vormen een oneindig stelsel differentiaalvergelijkingen, dat eenvoudig recursief is op te lossen. Voor n 1 krijgen we: d p1 λ p1 λ eλ t dt en rekening houdend met de beginvoorwaarde geeft dit: p1 λ teλ t
(3.39)
Voor n 2 vinden we vervolgens: d p2 dt
λ p2 λ 2teλ t
met als oplossing
1 p2 λ 2t 2 eλ t 2
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN Algemeen geldt:
59
λ t n eλ t
pn
(3.40) n! Bewijs per inductie: Voor n 0 1 2 is de formule al bewezen. Veronderstel dat ze geldt voor n 1, dan voldoet pn aan d pn λ nt n1 λ t λ pn dt n 1! e De oplossing van de homogene vergelijking is pn hom t Ceλ t en er bestaat een partikuliere oplossing van de vorm: pn At n eλ t . Substitutie in de vergelijking geeft:
nAt n1 eλ t
n n1
λn t 1! eλ t
dus A λn! , en pn λn!t eλ t . Invullen van de beginvoorwaarden geeft nu het gewenste resultaat. Besluit: De stochastische variabelen Xt u behorende bij een Poisson-incidentenstroom zijn Poisson verdeeld met parameter λ u t . Hierbij is λ het gemiddelde aantal incidenten per tijdseenheid. n
n
3.5 De exponenti¨ele verdeling 3.5.1 De exponenti¨ele verdeling In een winkel komen gemiddeld 20 klanten per uur binnen. Veronderstel, dat dit een z.g. Poissonincidentenstroom is. Het aantal klanten dat per τ minuten binnenkomt is dan Poisson verdeeld met parameter λ : τ 3. Wat is nu de kans, dat de winkel 5 min. leeg blijft, nadat de vorige klant vertrokken is? Algemener, wat is de kans dat de winkelier T minuten moet wachten op de volgende klant? Deze grootheid T , de wachttijd, is weer een stochastische variabele, die (in principe) alle re¨ele waarden tussen 0 en ∞ kan aannemen. Om de bijbehorende kansen te vinden, kijken we naar het aantal klanten Xt t τ dat gedurende een periode van t t τ binnenkomt. De duur van dit tijdsinterval is τ minuten, zodat Xt t τ Pλ τ -verdeeld is. De kans, dat er in een tijdsinterval van lengte τ minuten k klanten binnen komen is dus gelijk aan
PXt t τ
k λ k τ k eλ τ k!
In het bijzonder is de kans dat er g´ee´ n klanten binnenkomen dus PXt t τ 0 eλ τ . Voor de kans PT τ , dat er geen klanten binnenkomen gedurende een periode van t t τ , vinden we dus:
PT zodat
τ PXt t τ 0 eλ τ
PT τ 1 PT
τ 1 eλ τ
T is dus continu met verdelingsfunctie FT en kansdichtheid fT : FT t
1 eλ t
voor t 0,
0
voor t 0,
fT t
voor τ 0
λ eλ t
voor t 0,
0
voor t 0,
(3.41)
(3.42)
We noemen T exponentieel verdeeld met parameter λ . De argumenten hierboven tonen aan dat de tussentijd tussen twee opeenvolgende incidenten van een Poissonincidentenstroom exponentieel verdeeld is. Merk op dat er een schijnbare paradox is: het is hierboven niet van belang, wanneer het laatste incident v´oo´ r het begintijdstip t zich heeft voorgedaan: de verdeling van T blijft dezelfde. M.a.w. op een tijdstip t is de tijdsduur tot aan het volgende incident onafhankelijk van de tijdsduur tussen het paatsvinden van het vorige
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
60
incident en het begin van het beschouwde tijdsinterval t. Men noemt deze eigenschap de “vergeetachtigheid” van de exponenti¨ele verdeling; in formule, voor s 0 en t 0 geldt: PT
s t T t PT PsT tent T t e eλ t eλ s PT s λ st
(3.43)
Uit het voorbeeld zal het duidelijk zijn, dat de bestudering van de Poisson-verdeling, de exponenti¨ele verdeling en verwante verdelingen (zoals de Gamma-verdeling) een grote vlucht heeft genomen in de “wachtrijtheorie” (Eng. queueing theory) voor de bestudering van capaciteitsproblemen van telefooncentrales, wegennetten, computeronderdelen, loketdiensten, etc. Een ander voorbeeld van een stochastische variabele die exponentieel verdeeld is, is de levensduur van een radioactief atoom. Als T exponentieel verdeeld is met parameter λ , dan worden verwachtingswaarde en variantie als volgt gevonden: ∞ ∞ ∞ 1 λt λt λ te dt te eλ t dt (3.44) E T λ 0 0 0 ∞ ∞ ∞ 2 2 2 λ t 2 λ t λt e dt t e 2teλ t dt 2 E T λ 0 0 0 VarT
E T 2 E T 2
1 (3.45) λ2 Opmerking. In (3.43) is de “vergeetachtigheid” of “geheugenloosheid” van de exponenti¨ele verdeling gedefini¨eerd. De enige continue verdeling waarvoor deze eigenschap geldt is de exponenti¨ele verdeling, want f continu en f x y f x f y x y
f x eµ x voor zekere µ
3.5.2 De risico verhouding Beschouw een hoeveelheid radioactief materiaal. Zoals we al gezien hebben is de levensduur T van elk atoom in het materiaal exponentieel verdeeld met parameter λ . Als N N t de hoeveelheid radioactief materiaal op tijdstip t voorstelt, dan hebben we dus N t N 0eλ t
(3.46)
Immers, de kans dat een deeltje vervalt v´oo´ r het tijdstip t is FT t 1 eλ t , en hieruit volgt onmiddellijk dat N t 1 1 eλ t N 0 N 0eλ t . Hieruit volgt onmiddellijk dat dN dt
λ N
(3.47)
Integratie van (3.47) levert ons opnieuw (3.46). Merk op dat de mediaan in dit geval een bijzondere betekenis krijgt: dit is het getal m waarvoor FT m PT m
N m N 0
12
met andere woorden, de mediaan is de tijd die nodig is om de hoeveelheid materiaal tot de helft te herleiden. In dit geval noemen we de mediaan daarom de halfwaardetijd. Reken zelf uit dat m
ln 2 λ
Laten we nu een ander voorbeeld bekijken: in plaats van de levensduur van een atoom, beschouwen we de levensduur van een mens. Er is nu een belangrijk verschil. De levensverwachting van een radioactief atoom
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
61
is onafhankelijk van de ouderdom van het atoom (dit is de vergeetachtigheid van de exponenti¨ele verdeling). Deze eigenschap geldt niet voor de levensduur van een mens: de levensverwachting van een mens van 70 jaar oud is kleiner dan die van een mens van 18 jaar oud! We kunnen ons model nu als volgt aanpassen: neem opnieuw (3.47), maar vervang hierin λ door een functie van de tijd, zeg rt : dN dt Integratie van (3.48) geeft nu
rt N
N t N 0 exp
t 0
(3.48) rsds
(3.49)
Op tijdstip t is de verhouding van het aantal overgebleven deeltjes (of het aantal overlevende mensen) ten opzichte van het oorspronkelijke aantal t exp rsds 0
Als T de levensduur is van een deeltje, dan is dus FT t PT t 1 exp
en dus is
fT t rt exp
0
t
t 0
rsds
rsds
(3.50)
(3.51)
rt noemen we de risicoverhouding (Eng. hazard rate of failure rate). Als FT gegeven is, dan kunnen we rt gemakkelijk bepalen met behulp van de formule rt
fT t 1 FT t
(3.52)
De risicoverhouding rt is heel belangrijk voor verzekeringsmaatschappijen die leveringsverzekeringen afsluiten. Immers, hoe kleiner rt , hoe groter de levensverwachting van de klant, en hoe kleiner de verzekeringspremie die zal aangerekend worden. Er bestaan tabellen met de risicoverhouding afhankelijk van de leeftijd.
3.5.3 De Gamma-verdeling Bij de afleiding van de exponenti¨ele verdeling gingen we uit van een Poisson-verdeling Pλ en keken we naar de wachttijd voor de eerste gebeurtenis. Algemener, kunnen we kijken naar de wachttijd Tk v´oo´ r de k-de gebeurtenis. Analoog aan (3.41) vinden we: 1 FT τ k
k 1
λ j τ j λ τ e j! j 0
PTk τ PXt t τ k ∑
Door differentiatie vinden we de kansdichtheid:
fTk τ
d 1 FTk τ dτ k 1 λ j τ j1 λ τ k1 λ j1 τ j λ τ e e
∑ ∑ j! j 1 j 1! j 0 k 2
λ j1 τ j λ τ k1 λ j1 τ j λ τ e e
∑ j! j! j 0 j 0 λ k τ k1 λ τ
k 1! e
∑
(3.53)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN zodat
fTk τ
62
λ k τ k1 λ τ k 1! e
(3.54)
Hieruit zien we, dat de kansverdeling voor t 0 precies gegeven wordt door de incomplete Gammafunctie:
Γλk waar Γx de Gammafunctie is, met Γk 1 k! . k
FT t k
t 0
τ k1 eλ τ d τ
(3.55)
3.6 Uniforme verdelingen en random getallen 3.6.1 De discrete uniforme verdeling Hierbij is de uitslagenruimte eindig en hebben alle uitkomsten dezelfde kans: Ω 1 2 n
PX
en
k 1n k 1 2 n
en n
(3.56)
Voorbeelden (voor de spelers onder ons): n 6: dobbelsteen, n 37: roulette, n 52: kaartspel. n 2: muntworp, De verdelingsfunctie en staafdiagram van een discrete uniforme verdeling op 9 punten is geschetst in figuur 3.10. 0.15 1
0.1
0.5
0.05
0
0 1 2 3 4 5 6 7 8 9 0
5
10
0
5
10
Figuur 3.10: Kansverdeling en staafdiagram van een discrete uniforme verdeling op 9 punten. Voor de verwachtingswaarde vinden we: E X
n ∑ nj n 2 1
(3.57)
j 1
Gebruik makend van de som (ga na!) n
∑
j 1
j2
nn 16 2n 1
vinden we E X 2
n
j2 j 1 n
∑
n 162n 1
De variantie is dus: VarX
2 E X 2 E X 2 n 162n 1 n 4 1
Opgave: Bepaal mediaan en modus van een discrete uniforme verdeling.
n2 1 12
(3.58)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
63
3.6.2 De continue uniforme verdeling Bij deze verdeling is de kansdichtheid constant over een zeker re¨eel interval a b en nul daarbuiten. Aangezien de totale kansmassa een is, zijn de kansdichtheid en de verdelingsfunctie alsvolgt: fX x
1 ba
als a x b,
0
elders.
0 a FX x bx a
(3.59)
als x a, als a x b,
(3.60)
1 als b x. Verwachtingswaarde en variantie vinden we eenvoudig door integratie: b b xdx ab a b 2 dx en VarX x
E X 2 2 b a a b a a
2 b 12a
(3.61)
In figuur 3.11 is deze verdeling geschetst voor het interval [0, 4].
0.3 1 0.2 0.5
0.1
0
0 0
2
4
-0.1
0
2
4
Figuur 3.11: Kansverdeling en kansdichtheid van een continue uniforme verdeling op het interval [0, 4]. Opgave: Bepaal mediaan, modus, scheefheid en kurtosis van een continue uniforme verdeling.
3.6.3 Random getallen Als we 20 maal achtereen een (eerlijke) munt werpen en de uitkomsten 0 of 1 op een rij zetten, vinden we een rij “willekeurige” of “random” bits, b.v. 00111011001100101011 Omdat de kans op 0 of 1 even groot is, vormt de rij random getallen een serie onafhankelijke uniform verdeelde trekkingen van een stochastische variabele op de verzameling 0 1. Hetzelfde kunnen we doen met een LOTTO-machine die balletjes met de cijfers 0 t/m 99 bevat; het getrokken balletje leggen we na iedere trekking onmiddellijk terug. We zouden dan als uitkomst kunnen krijgen: 53 - 9 - 65 - 42 - 70 - 91 - 76 - 26 - 5 - 74 - 33 - 63 - 76 - 99 - 37 - 25 - 98 - 72 - 75 - 65 Deze tweede rij bevat cijfers, die onafhankelijke trekkingen zijn uit de verzameling 0 1 99; de kans op ieder van die getallen is even groot en dus is ook deze rij (discreet) uniform verdeeld, maar nu op 0 1 99. Als we tijd genoeg hebben, kunnen we zulke rijen van willekeurige lengte produceren. Voor vele statistische toepassingen (Monte-Carlomethoden) en simulaties hebben we zeer lange rijen van zulke getallen nodig, soms wel van een miljard lang en willen we ze met de computer genereren. Het produceren van willekeurige getallen met de deterministische machine bij uitstek lijkt een onmogelijke opgave, immers ieder algoritme zal met dezelfde beginvoorwaarden steeds hetzelfde resultaat moeten opleveren (tenzij hardware en/of programmatuur fouten bevat). Toch wordt bij statistische simulaties op grote schaal gebruik gemaakt van random getallen en noemen we de computercode, waarmee we ze maken een
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
64
“pseudo-randomgetallen generator”. Het meest gebruikt is de lineair congruentie¨ le methode. Deze werkt alsvolgt: - aan het begin van het programma wordt een integer variabele ge¨ınitialiseerd, - voor iedere keer dat het programma een nieuw getal uit de random rij vraagt, worden (bij voorbeeld) de volgende statements uitgevoerd:
: mod
: In dit algoritme is een positief geheel getal tussen 0 en 65535 ( 216 1); in iedere slag wordt dit vermenigvuldigd met een multiplier (25173 in dit voorbeeld) en wordt er een shift (13849 in dit voorbeeld) bij opgeteld. Vervolgens wordt het geheel gereduceerd modulo 216 . Afgeleverd wordt het re¨ele getal 0 1. Bij geschikt gekozen multiplier en shift (een kunst op zich) gedraagt een hiermee geproduceerde rij pseudo-randomgetallen zich inderdaad alsof het willekeurige resultaten zijn van een rij onafhankelijke loterijen uit telkens 216 (in dit voorbeeld) getallen. Daar de resultaten gedeeld zijn door 216 en dus tussen 0 en 1 liggen, zijn de getallen (bij goede benadering) te beschouwen als onafhankelijke trekkingen uit een uniform op [0, 1] verdeelde stochastische variabele. De hierboven gegeven generator heeft een periode van 216 , d.w.z. na 216 trekkingen herhaalt de rij zichzelf. Dit is niet bijzonder goed. In de meeste rekenprogramma’s zijn veel betere generatoren beschikbaar, sommige met een periode groter dan 264 . Het is vrijwel standaard, dat de afgeleverde rij pseudo-randomgetallen uniform verdeeld is op het interval [0, 1]. Als we een rij met een andere verdeling (b.v. de normale) willen hebben zullen we zelf de transformatie moeten doen. 100
100 gemiddelde: 0.4871 variantie : 0.08448
80 60
60
40
40
20
20
0
********************
0
0.5
gemiddelde: 0.5073 variantie : 0.07923
80
1
0
********************
0
0.5
1
Figuur 3.12: Histogrammen van twee verschillende rijen van 1000 random getallen. In figuur 3.12 zijn histogrammen van twee van zulke rijen random getallen getekend. Het gemiddelde aantal per klasse is 50, maar t.g.v. statistische fluctuaties bevat niet iedere klasse evenveel elementen. De verwachtingswaarde en variantie van een uniforme verdeling op [0, 1] zijn 0.5 resp. 1/12=0.0833. De werkelijke waarden van beide steekproeven wijken enigszins af. In 4.4 zullen we laten zien hoe je met een χ 2 -toets aannemelijk kunt maken, dat de geproduceerde getallen inderdaad onafhankelijke trekkingen zijn uit een uniforme verdeling op [0, 1].
3.7 De Normale Verdeling 3.7.1 Inleiding Als X1 X2 Xn onafhankelijke B1 p-verdeelde Bernoulli-experimenten zijn, dan is hun som Yn : X1 X2 Xn binomiaal BÆ n p-verdeeld met gemiddelde np en spreiding np1 p. De genormaliseerde np1 p heeft dus gemiddelde 0 en spreiding 1. Als we het staafdiagram van verdeling Zn : Yn np
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
0.4
65
0.4 n= 10 p= 0.2
n= 20 p= 0.2
0.2
0.2
0
0 0
5
0.4
0
5
0.4 n= 40 p= 0.2
n= 80 p= 0.2
0.2
0.2
0
0 0
5
-5
0
Figuur 3.13: Staafdiagrammen van Zn voor n 10 20 40 en 80.
5
Zn voor een aantal waarden van n tekenen, zoals in figuur 3.13, dan zien we convergentie naar een mooie symmetrische klokvormige kromme voor n ∞, ondanks de asymmetrie van Xi . Dit was al opgemerkt door de Moivre (1718), die (als uitbreiding van de wet van de grote getallen, zie stelling 3.1.2 bewees, dat de limiet de vorm heeft van de functie exp 12 x2 . Laplace (1812) liet zien dat deze limieteigenschap geldt voor een veel grotere klasse verdelingen. Deze limieteigenschap heeft de naam centrale-limietstelling gekregen en de limietverdeling heet de normale verdeling. Omdat ook Gauss er veel over geschreven heeft en zelfs de ontdekking ervan geclaimd heeft, wordt deze verdeling ook vaak naar hem genoemd.
3.7.2 De standaard-normale verdeling N 0 1 De dichtheidsfunctie ϕ en de verdelingsfunctie Φ van de standaard normale verdeling worden gedefinieerd door: x 1 2 1 2 1 1 ϕ x : e 2 x en Φx : e 2 t dt (3.62) 2π 2π ∞ 1 2 We kunnen alsvolgt controleren, dat de totale kansmassa 1 is. Als I : ∞∞ e 2 x dx, dan kunnen we het kwadraat als een integraal over het gehele platte vlak beschouwen en dan overgaan op poolco¨ordinaten (x r cos ϕ , y r sin ϕ , dxdy rdrd ϕ ): ∞ ∞ 2π ∞ 1 2 1 2 2 x y2 2 e dxdy e 2 r rdrd ϕ 2π I
∞ ∞
0
0
De grafieken zijn geschetst in figuur 3.14. De integraal in Φ is niet exact uit te drukken in termen van elementaire functies en de waarde van Φx voor een gegeven x zal dan ook uitgerekend moeten worden via numerieke integratie of opgezocht moeten worden in een tabel (zie tabel 3 achteraan). In de meeste statistische handboeken is hiervoor een tabel opgenomen. In computerprogramma’s is voor Φ of voor de z.g. Errorfunctie Erfx meestal een standaard procedure beschikbaar: x 2 2 1 Erfx : et dt zodat Φx 1 Erf x2 (3.63) 2 π 0
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
66
0.5 1
0.4 0.3 0.2
0.5
68 %
0.1 0 -4
0 0 2 4 -2 0 2 4 -4 Figuur 3.14: De kansdichtheid en de verdelingsfunctie van de normale verdeling N 0 1. -2
De kansen op de kwantielen X 1, X 2 en X 3 zijn: P 1 X
1 0683
P 2 X
2 0955
P 3 X
3 0997
Vrijwel alle kansmassa ligt dus tussen -3 en 3. Als de stochastische variabele X standaard-normaal verdeeld is, dan noteren we X N 0 1 Vanwege de symmetrie van ϕ zijn de verwachtingswaarde en alle andere oneven momenten nul: ∞ 1 2 1 xe 2 x dx 0 E X 2π ∞ De variantie kunnen we uitrekenen met parti¨ele integratie:
∞
∞
1 2 x e 2 x dx
2
zodat
∞
∞
VarX
∞
∞
1 2 x e 2 x dx
4
∞
∞
1 2 2x
dx
2π
∞ 1 2 1 x2 e 2 x dx 1 2π ∞
Analoog geldt
∞ ∞ ∞ ∞ e
1 2 1 2 x de 2 x xe 2 x
∞
1 2 1 2 x de 2 x x3 e 2 x
3
∞
3
(3.64)
(3.65)
∞
∞
1 2 x2 e 2 x dx 3 2π
zodat het vierde moment µ4 en de kurtosis γ2 , zie (2.65) gegeven worden door: ∞ 1 2 µ 1 µ4 X x4 e 2 x dx 3 en γ2 44 3 0 σ 2π ∞
(3.66)
3.7.3 De algemene normale verdeling N µ σ We zeggen dat een stochastische variabele X algemeen normaal verdeeld is en we noteren X N µ σ
X µ N 0 1 σ
als
(3.67)
Uit de definitie volgt onmiddelijk, dat X gemiddelde µ en standaardafwijking σ heeft. Voor de verdelingsfunctie vinden we de formule FX x PX x P
X µ σ
x µ x µ Φ σ σ
(3.68)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
67
zodat de percentielen van X eenvoudig uit een tabel voor Φ berekend kunnen worden. De dichtheidsfunctie wordt gegeven door de formule fX x
d x µ 1 xµ e 2σ 2 Φ dx σ σ 2π
2
(3.69)
Een belangrijke eigenschap van de normale verdeling is, dat een som van onafhankelijke normaal verdeelde stochastieken weer normaal verdeeld is: Stelling 3.7.1 Als X N µ1 σ1 en Y N µ2 σ2 onafhankelijk en normaal verdeeld zijn, dan is hun som opnieuw normaal verdeeld met gemiddelde µ1 µ2 en standaardafwijking X N µ 1 σ1 Y N µ 2 σ2
σ12 σ22 :
onafhankelijk X Y N µ1 µ2
σ12 σ22
(3.70)
Bewijs. We weten reeds, dat E X Y µ1 µ2 , zie (2.43), en VarX Y σ12 σ22 , zie (2.46), zodat we alleen nog hoeven te laten zien, dat FX Y de vorm (3.69) heeft. Met W : X µ1 Y µ2 volgt uit (2.37): ∞ 1 z s2 s2 exp
ds fW z 2 σ12 σ22 ∞ De som van twee kwadraten in de exponent kunnen we herschrijven als de som van een kwadraat met s en een zonder s :
z s2 s2 1 z2 σ22z2 2zs σ12 σ22 s2 σ12 σ222 σ2 σ2 σ2 σ2 σ2 σ2 σ 2σ 2 1
2
1
2
1
1
σ2 z σ1
1
2
2 2 2 s σ1σσσ2 1 2
Het eerste kwadraat hangt niet van s af en de exponent ervan heeft de gewenste vorm (3.69); de exponent van het tweede kwadraat integreert tot een constante onafhankelijk van z. Omdat we a priori weten, dat fW een kansdichtheid is, heeft deze constante automatisch de goede waarde en hoeven we hem niet uit te rekenen.
3.7.4 Benaderingen met de normale verdeling In de inleiding tot de normale verdeling, 3.7.1, hebben we een resultaat van de Moivre vermeld, dat Xn Bn p naar een normale verdeling convergeert voor n ∞. We willen dit nu iets preciezer formuleren. Bekijk een rij stochastische variabelen Xn . We zeggen dat Xn in verdeling naar de stochastische variabele X convergeert indien lim FXn x FX x n∞
in elk punt x waarin de verdelingsfunctie FX continu is. We kunnen nu eenvoudig aantonen dat de binomiaalverdeling voor grote waarden van n naar een normale verdeling convergeert. Stelling 3.7.2 (de Moivre, 1718) Als Xn Bn p binomiaal verdeeld is en Xn np Yn : npq
met
q 1 p
dan convergeert de rij Yn en de limiet is standaard-normaal verdeeld; hiermee bedoelen we dat
voor elke x .
lim F n∞ Yn
x FZ x
met
Z N 0 1
(3.71)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
68
Bewijs. (met de formule van Stirling (3.5)): We zullen laten zien dat voor iedere x de (genormaliseerde) binomiale kans PYn x convergeert naar de normale, PYn x Φx 12 π
x
∞
exp 12 t 2 dt
als n ∞
1 Voor gegeven n delen we het integratie-interval ∞ x op in stukjes van lengte dy npq . Voor de kans dat Yn in zo’n stukje terecht komt geldt 1 wy Py npq
k nk
Yn y Pnp ynpq 1 Xn np ynpq k!n!pn q k!
als k : np y npq , het gehele deel van np y npq; d.w.z. k np y npq δ met 0 δ de formule van Stirling (3.5) vinden we dan
ρ nn 2 en pk qnk 1
wy
ρ kk 2 ek ρ n knk 2 enk 1
1
1 ρ npq
np k 1 2
k
nq n k
nk
1 2
1 . Met
waar het symbool erop duidt, dat we een factor 1 O 1n verwaarloosd hebben. Als we nu k np y npq δ invullen, dan vinden we np k
np ynpnpq δ
1q
1y
np
δ np
en evenzo
zodat de logaritme log wy voldoet aan log wy log ρ 12 lognpq
nq n k
1 p
1 y
nq
nqδ
np ynpq δ 12 log 1 y npq npδ nq ynpq δ 12 log 1 y nqp nqδ
Met behulp van de Taylorontwikkeling log1x x 12 x2 13 x3 Ox4 vinden we log wy log ρ 12 lognpq q q δ
np
y2 2np On 23
np y npq δ 12 y np
nq ynpq δ 12 y nqp nqδ y2 2nqp On log ρ 12 lognpq 12 y2 On 3 2
1 2
zodat
e 2 y wy ρ npq 1 2
ρ1 e
1 2 2y
dy
De som van wy over alle deelintervalletjes van een verdeling van ∞ x in deelintervallen van lengte dy is 1 2 dus een Riemann-som voor de integraal x ∞ ρ1 e 2 y dy en convergeert ernaar voor n ∞. Tenslotte kunnen we hieruit concluderen dat de constante ρ in de formule van Stirling (3.5) gelijk is aan 2π , omdat de integraal naar 1 moet convergeren voor x ∞ . We zien dat de verdeling van een som van n Bernoulli-experimenten convergeert naar een normale verdeling ongeacht de waarde van p. De ervaring heeft reeds lang uitgewezen, dat de kansverdeling van fouten in het gemiddelde van een groot aantal onafhankelijke metingen van eenzelfde (fysische) grootheid bij benadering normaal verdeeld zijn en dat deze benadering beter wordt, naarmate het aantal metingen groter is ongeacht de kansverdeling van de individuele fouten. Het resultaat (3.71) is dan ook uit te breiden
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
69
tot een veel grotere klasse van kansverdelingen en is een van de basisresultaten uit de kansrekening. Het idee bij het bewijs is hetzelfde als dat bij het bewijs van de voorgaande stelling van de Moivre. Omdat de technische details heel wat ingewikkelder zijn, gaan we er verder niet op in, en beperken we ons tot het formuleren van de centrale-limietstelling. Stelling 3.7.3 (De Centrale-Limietstelling) Als X1 X2 Xn onafhankelijke stochastische variabelen zijn, die (willekeurige) kansverdelingen bezitten waarvoor verwachtingswaarde en variantie bestaan en uniform begrensd zijn,
µn : E Xn
µn M
met
σn2 : VarXn met
n
σn V
als Yn hun som is met verwachtingswaarde µn en variantie σ 2n , Yn :
n
∑ X j
µ n :
j 1
n
∑ m j
j 1
σ 2n :
n
∑ σ 2j
j 1
dan convergeert Zn : Yn µ n σ n en de limiet is standaard-normaal verdeeld: Yn µ n n∞ σn
lim Zn lim
n∞
W
met W N 0 1
(3.72)
Het resultaat (3.71) kunnen we gebruiken om de tamelijk moeilijk berekenbare percentielen van de binomiale verdeling voor voldoend grote n te benaderen met de normale verdeling. In de praktijk blijkt dit meestal reeds voor n 30 voldoend goed te zijn, mits p of 1 p niet te klein is. Voor de eenvoud gebruiken we meestal niet (3.71), maar de variant
Bn p N np
np1 p
(3.73)
Omdat B een discrete verdeling is en N een continue is het niet onmiddellijk duidelijk hoe we in een concreet geval de benadering zouden moeten uitrekenen. We kunnen bijvoorbeeld voor X B36 02 de benadering Y N 72 24 gebruiken volgens (3.73). Als we echter de complementaire kansen PX 6 04007 en PX 7 PX
6 05993
benaderen met de kansen PY 6
PY 7
6 72 24 7 7 2 Φ
24
Φ
Φ 05 03085 Φ00833 05332
hebben we een grote fout gemaakt. De som van beide benaderingen is niet gelijk aan een! Bij de discrete binomiale verdeling X is de kans P6 X 7 gelijk aan nul, maar bij de continue benadering Y is de kans P6 Y 7 01582 niet nul. We kunnen dit probleem oplossen door het gewraakte interval eerlijk te verdelen tussen beide zijden en dus door de volgende benaderingen te gebruiken: 65 72 24 65 72 Φ
24
PX 6 PY 65 Φ PX 7 PY 65
03853 06147
We noemen dit de continu¨ıteitscorrectie. Analoog, het heeft geen zin om de kans PX 6 01543 te benaderen met de kans PY 6, omdat de kans op een gegeven uitkomst bij een continue verdeling altijd nul is. Voor een correcte benadering
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
70
zullen we de discrete kans op X 6 moeten benaderen met een continue kans voor Y op een interval rond de waarde 6. Omdat X discreet is en alleen de waarden 5 6 7 kan aannemen, ligt het opnieuw voor de hand om de intervallen [5, 6] en [6, 7] eerlijk te verdelen en PX 6 te benaderen met P55 Y
65 Φ 6 5247 2 Φ 5 5247 2 03085 02394 01459
In het algemeen moeten we dus voor X Bn p en Y N np gebruiken: P j X k P j 05 Y PX 0 PY 05
en
np1 p
de volgende benadering
k 05 PX n PY n 05
(3.74)
1
0.15 0.1
0.5
0.05 0
0 0
10
0
10
Figuur 3.15: Staafdiagram van B36 02 en kansdichtheid van de benaderende N 72 24 en hun kansverdelingen.
0.15 0.5
0.1 0.05 0
0 4
6
8
4
6
8
Figuur 3.16: Detail rond de kans P(X=6). In figuur 3.15 en figuur 3.16 zien we grafieken van X B36 02 en Y N 72 24. Uit de linkerfiguur zien we, dat PX
6
oppervlak van de gestippelde rechthoek rond de staaf op x 6
goed benaderd wordt door het oppervlak onder de continue kromme tussen 5.5 en 6.5. Uit de rechterfiguur zien we, dat we de continue verdeling 0.5 naar links moeten schuiven om in de gehele punten 0 1 2 een goede benadering te krijgen van PX k. De benadering (3.74) is natuurlijk niet perfect, maar zij wordt beter naarmate n groter is en zij heeft de eigenschap dat de som van de benaderingen van complementaire kansen steeds gelijk is aan een. Bij de benadering van Bn p moeten we er wel op letten, dat Bn λ n naar de Poissonverdeling Pλ convergeert voor n ∞ en dus, dat de benadering (3.73) slechter wordt, naarmate het produkt np (of het complement n1 p) kleiner wordt. Als np te klein is, is een benadering van Bn p door Pnp beter. Als
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
71
vuistregel nemen we, dat we Bn p voor n 30 en np 3 voldoend goed kunnen benaderen met Pnp: als n 30 X Bn p Y Pnp en Z Pn1 p dan np 3
PX k PY k n1 p 3 PX n k PZ k
(3.75)
Omdat de Poissonverdeling eveneens diskreet is, hebben we hierbij natuurlijk geen problemen met de bovenvermelde continu¨ıteitscorrectie. Op grond van de centrale-limietstelling en de eigenschap Pλ µ Pλ Pµ voor onafhankelijke Poissonverdelingen (zie (3.32)), weten we, dat we de Poissonverdeling zelf voor grote waarden van λ naar de normale verdeling convergeert. Als Xλ Pλ , dan geldt E Xλ λ en VarXλ λ (zie (3.30-3.31)), zodat X λ N 0 1 oftewel Pλ N λ λ als λ voldoend groot (3.76) lim λ λ ∞ λ Als vuistregel nemen we opnieuw, dat we Pλ in een tabel opzoeken voor λ 30 en anders benaderen met formule (3.76). Aangezien de Poissonverdeling diskreet en de normale continu is, moeten we ook hier aan de continu¨ıteitscorrectie denken, dus:
k 0 5λ λ k 0 5 λ k 0 5 λ Φ
Φ
PXλ k Φ PXλ
k
λ
(3.77)
λ
3.7.5 Transformatie van de dichtheidsfunctie van een kansvector In deze korte paragraaf geven we een algemeen resultaat dat van belang zal zijn in de twee hiernavolgende paragrafen. Onderstel dat U V een kansvector is met een continue verdeling die waarden aanneemt in een gebied g 2 gelegen in het uv-vlak. Onderstel verder dat G 2 een gebied is in het xy-vlak, en T
ϕ ψ :
g 2 G 2
een transformatie. v
π
y afbeelding T in het geval van poolco¨ordinaten
g
0
1
u
x u cos v
y u sin v
ººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººº ºººººººººººººº ººººººººººº ºººººººººººº ºººººººººº ºººººººººº ººººººººº ººººººº ººººººº ººººººº ººººº ººººº ººººº ººººº ºººº ºººº º ººº º ºººº ººº ºººº ºººº º ººº º ººº ººº º º ººº º ººº ººº º º ººº ºº ººº ººº º ººº º ººº ººº º ººº º ºº ººº º ººº ºº ººº ºº º ºº ºº ºº ºº ºº º º ºº ºº ºº º ºº ºº ººº ºº ºº ººº ºººº ºº º ºº ººº ºº ºº ºº ºº ºº ºº º ºº ºº ºº ºº º ººº ºº ºº ºº º ºº ºº ºº ºº ººº ºº ºº ººº ººº ººº ºº ººº ººº ººº ººº ººº º º ººº ººº ººº ººº ººº ººº ººº ººº ººº ººº ºººº ºººº ºººº ºººº ººº ºººº ººººº º º º ºº ººººº ººººº ºººººº ºººººº ºººººººº ººººººº ººººººººº ººººººººº ºººººººººº ººººººººººº ººººººººººººº ºººººººººººººººººº ºººººººººººººº ººººººººººººººººººººººººººººººººººººººººººººººººººººººººººº
x
G
π
Figuur 3.17: Poolco¨ordinaten als voorbeeld van een co¨ordinatentransformatie
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
T is gegeven door de formules
72
x ϕ u v
y ψ u v We veronderstellen verder dat T bijectief is, en dat de functies ϕ en ψ en hun parti¨ele afgeleiden continu zijn over g. We onderstellen ook dat de Jacobiaanse determinant
∂ ϕ ψ 0 ∂ u v verschillend van nul is over het inwendige van het gebied g. Stel nu
ϕ U V Y ψ U V X
Als de dichtheidsfunctie fU V gekend is, wat is dan de dichtheidsfunctie fX Y ? Neem een (meetbaar) deel A g, en laat B T A het corresponderende deel van G zijn. Dan hebben we enerzijds fX Y x ydxdy P X Y B B ∂ ϕ ψ A fX Y ϕ u v ψ u v ∂ u v dudv
en anderzijds P X Y B
en we kunnen besluiten dat
P U V A fU V u vdudv A
∂ u v f u v fX Y x y ∂ x y U V
(3.78)
Uiteraard kan (3.78) uitgebreid worden tot n-dimensionale kansvectoren.
3.7.6 Normaal verdeelde random getallen In 3.6.3 hebben we laten zien, hoe we een rij uniform verdeelde random getallen kunnen maken. In statistische simulaties hebben we echter vaak een standaard-normaal verdeelde rij nodig. Om zulk een rij te genereren gebruiken we de zogenaamde Box-Muller transformatie. Deze zet het eenheidsvierkant om in het vlak. We kunnen deze als volgt opstellen: neem eerst de transformatie
ρ ϑ 2 log u 2π v waarbij u v varieert over het eenheidsvierkant 0 1 0 1. Het eenheidsvierkant wordt afgebeeld op de strook
ρ ϑ 2 ρ 0 en 0 ϑ 2π
Deze strook wordt gemakkelijk getransformeerd op het volledige vlak (via poolco¨oordinaten) als volgt:
x y ρ cos ϑ ρ sin ϑ
2 log u cos 2π v
2 log u sin 2π v
De samengestelde transformatie is de Box-Muller transformatie. Veronderstel nu dat de rij u0 u1 u2 un uniform verdeeld is over het interval 0 1, dan is de rij koppels ! " u0 u1 u2 u3 u2n u2n1
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
73
100
150 100
50 50 0
0
********************
0
0.5
1
********************
-2
-4
0
2
4
Figuur 3.18: Histogrammen van 1000 uniform verdeelde (pseudo-)randomgetallen in 20 klassen (links) en de BoxMuller transformatie ervan naar een normale verdeling.
uniform verdeeld over het eenheidsvierkant. We passen op deze rij koppels de Box-Muller transformatie toe: (3.79) w2 j : 2 logu2 j cos2π u2 j1 en w2 j1 : 2 logu2 j sin2π u2 j1 We zullen aantonen dat de rij w1 w2 wn standaard normaal verdeeld is. Noteer de Box-Muller transformatie door T : 0 12 2 . Veronderstel dat U V een kansvektor is die uniform verdeeld is over het eenheidsvierkant, en transformeer deze met T , X Y T U V . Om fX Y te bepalen gebruiken we formule (3.78). Voor het berekenen van de Jacobi-determinant gebruiken we de parti¨ele afgeleiden:
∂x ∂u ∂y ∂u ∂x ∂v ∂y ∂v zodat
cos 2π v
u 2 log u sin 2π v
u 2 log u
2π
2π
y 2u log u
2 log u sin2π v 2π y
x 2u log u ∂ x y 2π ∂ u v y
x 2u log u
2 log u cos2π v 2π x
x y x2 y2 2π 2 π
2 π e 2u log u u
y
2
2
2
x 2u log u waarbij we gebruikten dat x2 y2 2 log u . Zo vinden we de absolute waarde van de Jacobi-determinant
∂ u v 1 e x y ∂ x y 2π 2
2
2
en de kansdichtheid wordt gegeven door fX Y x y
y x e 2 e 2 2π 2π 2
2
Voor de marginale dichtheden geldt:
e 2 fX x fY x 2π X en Y zijn dus onafhankelijk en standaard normaal verdeeld. x2
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
74
Conclusie Indien de rij getallen u1 u2 uniform verdeeld is over het interval 0 1, dan is de Box-Muller getransformeerde rij w1 w2 met w2 j :
2 logu2 j cos2π u2 j1 en w2 j1 :
2 logu2 j sin2π u2 j1
standaard normaal verdeeld.
3.7.7 De normale verdeling in verscheidene dimensies We noemen een kansvector Z Z1 Z2 Zn standaard normaal verdeeld is, als de componenten Z1 , Z2 , , Zn onafhankelijk en standaard normaal verdeeld zijn. We zien onmiddellijk dat de dichtheidsfunctie van de n-dimensionale standaardnormaalverdeling gegeven wordt door de formule fZ z1 zn
1
2 π
n
exp
1 n 2 zi 2 i∑ 1
1
2 π
n
e 2 z
1 T z
(3.80)
waarbij zT z : ∑ni1 z2i het inproduct van de vector z met zichzelf is.
Figuur 3.19: verdelingsfunctie van de tweedimensionale standaard normale verdeling. We zeggen dat de kansvector X X1 X2 Xn T normaalverdeeld is, als er een vector m n en een reguliere n n–matrix A bestaat zodat Z A1 X m standaard normaalverdeeld is. De dichtheidsfunctie van X bepalen we met behulp van transformatie-formule (3.78). X wordt gevonden uit Z met behulp van de transformatie x Az m
en
z A1 x m
Er is duidelijk aan de voorwaarden uit 3.7.5 voldaan. Bovendien is
∂ x1 x2 xn ∂ z1 z2 zn
detA
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
75
zodat fX x1 x2 xn
1 f z z zn detA Z 1 2 1 1 T 1 T 1 exp x m A A x m 2 detA 2π n
We stellen nu B : A1 T A1 en vinden fX x
#
1 detB T exp x
m B x
m
2π n 2
Het is duidelijk dat
E X m
(3.81)
(3.82)
Merk ook op dat B een symmetrische, positief definiete1 matrix is. Immers, BT en voor elke x n geldt en
A1T A1T A1T A1 B xT B x A1 xT A1 x 0
xT Bx 0 A1 x 0 x 0
We merken ook op, dat de componenten van X onafhankelijk zijn, als A een orthogonale matrix is, immers AT A I, zodat FX het product is van n marginale kansverdelingen. In het bijzonder volgt hieruit, dat twee orthogonale lineaire combinaties van onafhankelijke normaalverdeelde stochastische variabelen weer onafhankelijk zijn. Herleiden tot de diagonaalvorm Onderstel nu dat X een normaal verdeelde kansvector is. Per definitie weten we dat X standaard normaal verdeeld wordt na toepassing van een gepaste affiene transformatie. Hoe eenvoudig wordt de verdeling als we in plaats van affiene slechts isometrische transformaties toelaten? Herhaal dat een isometrie steeds kan geschreven worden als de samenstelling van een orthogonale transformatie en een verschuiving. Door een verschuiving toe te passen kunnen we er steeds voor zorgen dat E X 0, en dus fX x
#
1 T detB 2π n exp 2 x B x
Uit de Lineaire Algebra weten we, dat er een orthogonale matrix U bestaat zodat UBU T
D
een diagonaalmatrix is. U orthogonaal betekent, dat zijn inverse gelijk is aan zijn getransponeerde U1 U T , of, met andere woorden, dat de rijen (of de kolommen) van U een orthonormale basis van n vormen. De determinant van een orthogonale matrix is steeds 1. 1 Een
matrix A IRnn heet positief definiet als er een γ
0 is zodat xT Ax γ xT x voor alle vectoren x IRn .
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
76
De elementen op de diagonaal van D zijn de eigenwaarden van B, en die zijn strikt positief omdat B positief definiet is. We kunnen dus schrijven:
1 σ 0 D . ..
0
1 σ22
0
0
2 1
0 .. . 0
.. .
Y : U X
1 σn2
Gebruik makend van (3.78) vinden we dat fY y1 yn
en
#
1 detU
1
σ1 σn
detB 1 exp yT U T DU y n 2π 2
2π n
y2i 2 i1 2 σi n
exp ∑
In figuur 3.20 wordtde dichtheidsfunctie van de tweedimensionale normale verdeling geschetst in het geval dat σ1 1 en σ2 3.
Figuur 3.20: verdelingsfunctie van een tweedimensionale normale verdeling met σ 1 1 en σ2 3.
De covariantiematrix We zullen nu de varianties VarXi en de covarianties covXi X j uitrekenen. Voor elke i j hebben we E Xi mi X j m j
#
detB 2π n
Ên
xi mix j m j exp
1 2 n
1 x mT A1 T A1 x m dx1 dx2 dxn 2
Om deze integraal te berekenen voeren we weer een lineaire substitutie uit, namelijk z A1 x m
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
77
Door in te vullen xi mi ∑nk1 aik zk en x j m j ∑nl1 a jl zl vinden we E Xi miX j m j n n 1 n Ên ∑ ∑ aik a jl zk zl exp 12 z21 z2n dz1 dz2 dzn 2π k1 l 1 n
n
∑ ∑ aik a jl E Zk Zl k1 l 1
Omdat de Zi onafhankelijk en standaard-normaal verdeeld zijn, is de covariantie van Zk en Zl nul als k l , d.w.z. E Zk Zl δkl , en dus is E Xi miX j m j
en dit is juist de i j-component van de matrix Besluit
AAT
VarX 1 covX2 X1 AAT B1 .. . covXn X1
n
∑ aik a jk
k 1 1 B , de covariantiematrix van de kansvector X.
covX1 X2 VarX2
.. . covXn X2
covX2 Xn .. . covX1 Xn
VarXn
In 2.6 hebben we gezien dat twee onafhankelijke stochastieken niet gecorreleerd zijn. Voor de componenten van een meerdimensionale normaalverdeling geldt de omgekeerde eigenschap: als de covarianties nul zijn, dan zijn de componenten ook onafhankelijk.
3.8 De Chi-kwadraat, Student-t en Fisher-Snedecor Verdelingen Het is algemeen gebruikelijk om bij het meten van een grootheid, b.v. de lading van een electron of de concentratie PCB’s in vetweefsel, de procedure een aantal malen te herhalen en de meetresultaten te middelen. Dit is zinvol op grond van de “wet van de grote getallen”, die zegt dat het gemiddelde convergeert naar de verwachtingswaarde (= gewenste resultaat als de meetfouten een willekeurig karakter vertonen en geen systematische component bevatten). Hiermee zijn we echter niet tevreden. We willen ook de kwaliteit van de meting kennen en deze kunnen vergelijken met die van de concurrentie. Aangezien de verdeling van het gemiddelde convergeert naar een normale is het voor de kwaliteit voldoende om de variantie te kennen of om deze te schatten met een som van kwadraten van de afwijkingen. Hiertoe worden de volgende verdelingen ingevoerd: De Chi-kwadraat, Student-t en Fisher-Snedecor verdeling. In deze eerder technische paragraaf bespreken we de eigenschappen van deze drie verdelingen.
3.8.1 De Chi-kwadraat verdeling Definitie 3.8.1 (K. Pearson) Als Z1 , Z2 , , Zn onafhankelijk en standaard-normaal verdeeld zijn, dan heeft de som van kwadraten X, X : Z12 Z22 Zn2
Zk N 0 1 k 1 n
(3.83)
een chi-kwadraat verdeling met n vrijheidsgraden en we noteren: X χn2
(3.84)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
78
Voorbeeld: Een schutter mikt op een roos en treft het punt x y. Als de kans op afwijkingen t.o.v. het midden 0 0 van de roos zowel in x-richting als in y-richting (standaard-) normaal verdeeld zijn (en onafhankelijk), dan heeft d : x2 y2 een χ22 -verdeling met twee vrijheidsgraden. Als een tweede (even goede) schutter het punt ξ η treft, dan is δ : ξ 2 η 2 eveneens χ22 -verdeeld. Het quoti¨ent d δ is dan F2 2 verdeeld met twee vrijheidsgraden in teller en noemer; zoals we later zullen zien, is de verwachtingswaarde voor dit quoti¨ent ongedefinieerd. Als de schutters ieder twee keer schieten en de punten xi yi , resp. ξi ηi (i 1 2) raken, dan heeft d : x21 y21 x22 y22 een χ42 -verdeling en het overeenkomstige quoti¨ent d δ een F4 4 verdeling. Kennelijk kun je de χn2 -verdeling gebruiken bij sommen van kwadraten van afwijkingen van een serie metingen en de Fm n verdeling voor het vergelijken van twee series metingen.
Y-as
y+
o
o
+ x
d=x*x+y*y
X-as
Stelling 3.8.2 De χn2 -verdeling heeft de volgende eigenschappen. Onderstel dat X χn2 en Y χm2 onafhankelijk zijn. Dan geldt 1 E X n
(3.85)
2 VarX 2n 3 X Y
(3.86)
χn2m
4 voor grote n geldt :
χn2
(3.87)
N n 2n
5 De kansdichtheid en de verdeling van X zijn nul voor x 0 en worden gegeven door x 1 1 1 1 t 2 n1 e 2 t dt f χ 2 x Cn x 2 n1 e 2 x en Fχ 2 x Cn n
n
(3.88) (3.89)
0
voor x 0, waar Cn : 2 2 n Γ 12 n een constante is zodat Fχ 2 x 1 als x ∞ . 1
n
Bewijs. 1. E X ∑ E Zi2 n n
i1
2. VarX ∑ VarZi2 ∑ E Zi4 E Zi22 n3 1 2n n
i1
n
i1
3. Als X Z12 Zn2 en Y Zn21 Zn2m , dan ook X Y Z12 Zn21 Zn2m χn2m 4. X is een som van n stochastieken, ieder met verwachtingswaarde 1 en variantie 2. Op grond van de centrale-limietstelling convergeert de verdeling van X n 2n naar een standaard-normale. 5. wordt aan het einde van deze paragraaf bewezen. 0.6 1 n = 1, 2, 3, 4, 5
0.4
0.5 0.2
0 0
n = 1, 2, 3, 4, 5
5
Figuur 3.21: Grafieken van
10
χn2
0
0
5
10
verdelingen (rechts) en dichtheden (links) voor n 1, 2, 3, 4 en 5.
Grafieken van de verdeling en bijbehorende kansdichtheid voor n 1, 2, 3, 4 en 5 zijn gegeven in figuur 3.21. We zien, dat de dichtheden monotoon dalend zijn voor n 1 en n 2 en dat ze een uniek
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
79
maximum (de modus) hebben voor grotere n. Door differenti¨eren van fχ 2 vinden we dat de plaats van dit n maximum het punt x n 2 ( mod X ) is voor n 2. Voor het handmatig berekenen van deze verdeling doen we meestal beroep op een tabel. Deze staat vrijwel altijd in inverse vorm, d.w.z. in plaats van de waarde van Fχ 2 x te geven bij gegeven x, wordt bij n gegeven α de waarde van x gegeven, waarvoor PX x α . De tabel geeft dus bij een aantal waarden van α (meestal 0.01, 0.05, 0.10, 0.90, 0.95 en 0.99) de kwantielen
χn2 α : Fχ21 α
PX χn2 α α
zodat
n
(3.90)
In de volgende tabel vinden we bijvoorbeeld χ42 0 95 9488, zodat de kans PT 9488 gelijk is aan 95% als T χ42 (zie ook tabel 4 achteraan).
n 2 3 4 5
$
α
0.010 0.020 0.115 0.297 etc.
0.050 0.103 0.352 0.711
0.100 0.211 0.584 1.064
0.900 4.605 6.251 7.779
0.950 5.991 7.815 9.488
0.990 9.210 11.345 13.277
Tabel 3.2: Stukje van een χn2 -tabel, waarin voor gegeven aantal vrijheidsgraden n en kans α het kwantiel x gegeven is, zodat PX
x α .
Bewijs. van (3.89) We bewijzen de formule met behulp van volledige inductie op n. Voor n 1 en x 0 is (volgens (3.83)) de verdelingsfunctie gegeven door Fχ 2 x PZ12 x P x Z1 x 1 2PZ1 x 1 2FZ x 1
1
Afleiden naar x geeft de dichtheid: d x f χ 2 x 2 fZ1 x 1 dx
1
2π
e 2 x 2 1 x
1
Veronderstel nu dat de formule waar is voor n-1 : fχ 2
x Cn1e x x 2
n 1
n 1 2
1
Aangezien χ12 en χn21 onafhankelijk zijn en χn2 χn21 χ12 , hebben we : f χ 2 x n
∞
∞
fχ 2
n 1
x y fχ ydy Cn1 0 x y 2 1
2π
x
n 1 2
1 e x 2 y y 12 1 e 2y dy
Voeren we nu de substitutie y xu met dy xdu uit, dan krijgen we Cn1 x n 1 1 1 1 n 1 1 n x 2x 1 u 2 1 u 2 du Cn x 2 1 e 2 f χn2 x e 2 x 2 0 2π zodat de constante Cn gevonden kan worden uit de recursieve formule Cn1 1 1 u n 2 1 1u 12 du Cn 2π 0 Het is echter eenvoudiger om Cn rechtstreeks te bepalen door de integraal van de dichtheid 1 te maken, ∞ ∞ n x f χ 2 xdx Cn x 2 1 e 2 dx 1 (3.91)
∞
n
0
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
80
Voor de volledigheid herhalen we de definitie en enkele eigenschappen van de Γ-functie : ∞ xt 1 ex dx Γt
(3.92)
0
Γt 1 tΓt
Γn 1 n! voor n 1 Γ π 2 n n2 1! Γ n n 1 2
1
2 π 2
2
2
(3.93) (3.94) (3.95) als n2 even
(3.96)
als n2 oneven
Als we in (3.91) de substitutie y x2 doen, vinden we met de definitie (3.92): ∞ ∞ n x n n n Cn x 2 1 e 2 dx Cn 2 2 ey y 2 1 dy Cn 2 2 Γ n2 1 0
0
waaruit de gezochte waarde van Cn volgt.
3.8.2 De t-verdeling Definitie 3.8.3 (W. Gosset, pseudoniem: Student) Als X chi-kwadraat verdeeld is met n vrijheidsgraden en als Z standaard-normaal verdeeld en onafhankelijk van X is, dan heeft het quoti¨ent T , T :
Z X n
Z N 0 1 en X χn2
(3.97)
een t-verdeling met n vrijheidsgraden en we noteren: T tn
(3.98)
Stelling 3.8.4 De tn -verdeling heeft de volgende eigenschappen. Onderstel dat T tn . 1 De kansverdeling van T is symmetrisch;
2 De kansdichtheid wordt gegeven door de formule x2 21 n1 Γ 12 n 12 Cn nπ Γ 1 n ftn x Cn 1 n 2
(3.99)
Omdat xk ftn x Cn xkn1 voor x groot, zijn alleen de eerste n 1 momenten van T gedefinieerd.
3 De verwachtingswaarde E T bestaat niet voor n1 en voor n 2 geldt E T 0
n 4 De variantie VarT bestaat niet voor n 1 of n 2. Voor n 3 geldt VarT n 2 5 Voor grote waarden van n geldt de benadering tn N 0 1
(3.100) (3.101) (3.102)
Bewijs. 1. Met Z is ook Z normaal verdeeld en onafhankelijk van X, zodat Z X n en Z X n eenzelfde verdeling moeten hebben, die dus symmetrisch moet zijn. 2. wordt bewezen aan het einde van deze paragraaf. 3. volgt onmiddellijk uit 1. en 2. 4. gaat buiten het bestek van deze syllabus. 1 x2 21 n 12 1 2 in (3.99) convergeert naar e 2 x voor n ∞. 5. de factor 1 21 2n
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
81
1 inf 3 2 1
0.4
0.8
0.3 0.6 0.2
0.4
0.1 0 -4
0.2
-2
0
2
1
0 -4
4
23
inf
-2
0
2
4
Figuur 3.22: Grafieken van tn verdelingen (rechts) en dichtheden (links) voor n 1, 2 en 3. Ter vergelijking zijn verdeling resp. dichtheid van de normale verdeling ingetekend en aangeduid met “inf”.
Grafieken van de kansdichtheid en van de verdelingsfunctie voor n 1, 2, 3, 4 en 5 zijn getekend in figuur 3.22. We zien, dat de dichtheid geprononceerder wordt rond 0 en dat de staarten dunner worden, als n groter wordt. Voor het berekenen van kwantielen van een tn -verdeling gebruiken we meestal een tabel (zie tabel 5 achteraan). Evenals de χn2 -verdeling wordt de tn -verdeling in het algemeen invers getabelleerd en lezen we bij gegeven α het kwantiel tn α af,
1 α tn α : Ft n
PT tn α α
zodat
(3.103)
dit is dus die waarde van x, waarvoor de kans PT x α . Vanwege de symmetrie hoeven we tn α alleen te tabelleren voor α 12 . Een bijzonder geval is de t1 -verdeling, ook wel bekend als de Cauchy-verdeling. Deze heeft de volgende verdeling en dichtheid: 1 1 1 x dt F 1 1 arctanx (3.104) ft1 x : t1 π 1 x2 π ∞ 1 t 2 2 π
x
1 voor x ∞ niet integreerbaar is x
1 x2 op oneindig. We willen nu een bewijs geven van (3.99). Omdat de t-verdeling gedefinieerd is als een quoti¨ent, hebben we, analoog aan (2.38) eerst het verband nodig tussen de kansdichtheid van twee onafhankelijke verdelingen en hun quoti¨ent. Voor deze verdeling bestaat er geen enkel moment omdat
Stelling 3.8.5 Als X en Y twee onafhankelijke continue stochastieken zijn, en Z YX , dan wordt de dichtheidsfunctie van Z gegeven door de formule ∞ x fX x fY xzdx (3.105) fZ z
∞
Bewijs. De kans FZ z PY X z vinden we door fX x fY y te integreren over het gebied
y x y z x 2
In figuur 3.23 zien we, dat dit gebied bestaat uit twee componenten,
x y x 0
en y zx
en
x y x 0
en y zx
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
82
2 y 1.5 1 y=zx 0.5 0 x -0.5 -1 -1.5 -2 -2
-1.5
-1
-0.5
0
0.5
1
1.5
2
Figuur 3.23: Het integratiegebied yx z voor z 05. We vinden dus, FZ z
P YX z
0
∞
∞
xz
x yÊ2 yx z
fX x fY y dx dy
fX x fY y dx dy
∞
xz
∞
0
fX x fY y dx dy
Als we deze formule afleiden naar de parameter z, dan verkrijgen we de gewenste dichtheid: 0 ∞ ∞ fX x fY xz x dx fX x fY xz x dx x fX x fY xzdx fZ z
∞
Bewijs. van (3.99) Als T tn , dan is T
∞
0
Z Xn , met Z en X onafhankelijk. De dichtheidsfunctie van Zn wordt gegeven door fZ n x
e 2n 2π n x2
Deze dichtheid f X bepalen we als volgt:
F X x P X x PX x2 zodat, voor x 0 geldt:
x2
0
fX t dt
f X x 2x fX x2 2Cn xn1 e 2
x2
Toepassing van stelling 3.8.5 geeft : ∞ ∞ 2 2 2 x2 t2 1 2Cn n1 x2 t 2nx 2xCn x e e dx xn e 2 1 n dx fT t 2π n 0 2π n 0 We voeren nu volgende substitutie uit: w
x2 t2 1 2 n
x
2w
1
t2 n
en
dx
dw 2w1 tn 2
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN We krijgen nu :
83
n
fT t 2 n1 π n1 tn 2 Cn 2 2
Aangezien
∞
w
n 1 2
0
∞
w
n 1 2
ew dw
0
ew dw Γ
n1 2
vinden we zo de dichtheid van de t-verdeling
x2 12 n1 ftn x Kn 1 n
Kn
met
2 2 Γ n2 1 n π n2 2 Γ n2 n
n1 ΓπnΓ2 n 2
3.8.3 De Fmn -verdeling Definitie 3.8.6 (R. Fisher & G. Snedecor) Als X en Y onafhankelijk en chi-kwadraat verdeeld zijn met m respectievelijk n vrijheidsgraden, dan heeft het quoti¨ent F, 1 X (3.106) F : m1 X χm2 en Y χn2 nY een Fm n -verdeling met m vrijheidsgraden in de teller en n in de noemer en we noteren:
F Fm n
(3.107)
Stelling 3.8.7 De F-verdeling heeft de volgende eigenschappen. Onderstel dat X Fm n .
1 De kansdichtheid is nul voor x 0 en wordt voor x 0 gegeven door 1 1 1 1 1 Γ 1 m 1 n 2 fm n x : Cm n x 2 m1 n mx 2 m 2 n Cm n : m 2 m n 2 n 12 Γ 2 mΓ 12 n 2 E X k en dus ook het k-de moment bestaat alleen maar voor k n2.
3 Voor n 3 bestaat de verwachtingswaarde, en is gegeven door
E X
n n 2 2n2 m n 2 4 Voor n 5 bestaat de variantie, en is gegeven door VarX mn 4n 22 1 5 De verdelingsfunctie voldoet aan de symmetrieFm n x 1 Fn m x 2 6 Voor m 1 is er de relatie met tn : T tn T F1 n
7 Voor n ∞ convergeert F naar X m zodat Fm n x
χm2
mx.
(3.108)
(3.109) (3.110) (3.111) (3.112)
Bewijs. 1. wordt bewezen op het einde van deze paragraaf. 1 2. Omdat fm n x Cm n x 2 n1 1 O 1x voor x ∞, is xk fm n x alleen integreerbaar op ∞ als k 12 n en bestaan er alleen momenten voor die waarden van k. 3. en 4. vallen buiten het bestek van deze syllabus. 5. Bij defintie geldt
Fm n x
nX mY 1 PF x P mY x P nX x
1 P
mY 1 1 1 Fn m nX x x
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
%
X n, zodat T 2 Y
%
X n met Y Z 2 χ12 . 7. X χm2 en Y χn2 en dus E Y n 1 en VarY n 2nn2 2n. Als gevolg van de ongelijkheid van Chebyshev geldt P 1n Y 1 ε ε 2 VarY n 2ε 2 n1 , hetgeen naar nul gaat voor n ∞ voor alle ε 0 (vast). Bijgevolg convergeert Y n naar 1 en vinden we X m Fm n x P x PX m x χm2 mx voor n ∞ Y n
6. T
Z
84
1.5
1.5 n=1 m = 1, 2, 3, 4, 5
1
n=2 m = 1, 2, 3, 4, 5
1
0.5
0.5
0
0
1
2
0
3
1
0
1.5
2
3
1.5 n=3 m = 1, 2, 3, 4, 5
1
n=4 m = 1, 2, 3, 4, 5
1
0.5
0
0.5
0
1
2
0
3
1
0
2
3
Figuur 3.24: Kansdichtheden van Fm n -verdelingen voor een aantal waarden van n en m.
In figuur 3.24 zijn grafieken van de kansdichtheid geschetst voor een aantal waarden van m en n. We zien dat deze monotoon dalend zijn voor m 1 en m 2 en dat deze naar oneindig gaan voor x 0 als m 1. Voor m 2 is er een (uniek) maximum (voor x modF ). Door differentiatie vinden we: modF
m 2 n m n2
als m 2
(3.113)
Voor het handmatig berekenen van kwantielen van de Fm n -verdeling gebruiken we in het algemeen een tabel (zie tabel 6 achteraan), waarin Fm n evenals tn en χn2 invers getabelleerd is. We noteren het α -kwantiel als Fm n α , zodat PF Fm n α α (3.114) Fm n α : Fmn1 α
De tabel bevat 3 variabelen: n, m en α . Om de omvang enigszins beperkt te houden kunnen we wegens (3.111) volstaan met het bereik α 12 , immers uit (3.111) volgt (ga na!): Fm n α
F
1
nm1α
(3.115)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
85
Voorbeeld: Bepaal F3 2 0 05 , d.w.z. bepaal het kwantiel x, waarvoor PF x 005 als F F3 2 . Antwoord: uit de tabel vinden we F2 3 0 95 955, zodat F3 2 0 05 1955 0105. Bewijs van (3.108) X m Stel Z X1 n , waarbij X1 en X2 onafhankelijke stochastieken zijn met respectievelijk χm2 - en χn2 -verdeling. 2 Dan hebben we m mx m fX m x m fX1 mx m 2 Cm e 2 x 2 1
1
en fX
2
n
x n fX nx n
n 2
2
Cn e 2 x 2 1 nx
n
We krijgen dus : f Z z
m 2 n 2 CnCm z 2 1
m n CnCm z 1
m
n
m 2
m
n 2
m 2
∞
0 ∞
xe 2 x 2 1 e nx
n
e 2 nmz x x
mxz 2
mn 2
x 2 1 dx m
1 dx
0
Substitueer w 2x n mz. Onze formule wordt nu : fZ z m 2 n 2 CnCm z 2 1 m
n
m
2 m2 n n mz
∞
ew w
mn 2
0
1 dw
Na invulling van de formules voor Cn en Cm volgt: m
fZ z
mn n 2 m
z 2 1
n
m 2 n2 Γ 2 2 Γ m 2
n 2
2
Γ
2
m
n mz
mn 2
2
mn 2
Tenslotte vinden we na vereenvoudiging de gewenste formule:
mn 2 fZ z n m m
n
m 2 n2 Γ Γ
2
Γ
2
z 2 1 m
n mz
mn 2
Hoofdstuk 4
Inleiding tot de Statistiek 4.1 Parameterschattingen en betrouwbaarheidsintervallen Een veel voorkomend probleem in de experimentele wetenschappen is het volgende. We willen de waarde van een grootheid X, b.v. de pH van een oplossing, door metingen bepalen. Hiertoe doen we een aantal (zeg 20) onafhankelijke metingen x1 x2 en we bepalen er met formule (1.4) het steekproefgemiddelde xn en de standaardafwijking s voor. We vragen ons nu af: “Wat betekenen deze getallen?” en “Hoe betrouwbaar is het gemiddelde xn als benadering van de echte waarde?” 5.68 5.59 5.23 5.52
5.32 5.07 5.23 5.39
5.16 5.03 5.52 5.20
5.30 5.15 5.17 5.34
5.36 5.46 5.51 5.84
Tabel 4.1: Voorbeeld van 20 onafhankelijke metingen van de pH van een oplossing met steekproefgemiddelde xn 535 en de standaardafwijking s 021. Hiertoe moeten we een aanname maken over de meetgegevens xi ni1 , nl. dat het onafhankelijke trekkingen zijn uit een stochastische variabele X met verwachtingswaarde µ en spreiding σ en dat µ de exacte waarde van de te meten (beter: te schatten) grootheid is. Een meting is de uitkomst van een “kansspel”, waarvan de uitkomst een zekere kansverdeling heeft. We zullen aannemen, dat de verdeling van X de normale N µ σ is en dat µ onbekend is; voorlopig zullen we aannemen dat σ wel bekend is. Onze n experimenten vormen een steekproef X1 X2 Xn van n onafhankelijke stochastieken, alle met verdeling volgens N µ σ , en de metingen x1 xn vormen een trekking hieruit (of realisatie; Xi is het meetproces en xi het toevallige resultaat, de meting). In het vervolg zullen we steeds de stochastiek aanduiden met een hoofdletter en de verkregen getalwaarde of realisatie met een kleine letter. Als xi een trekking is uit Xi, dan is het gemiddelde xn kennelijk een trekking uit Xn : X1 Xn n en zal een uitspraak over de betrouwbaarheid van xn afhangen van de kansverdeling van Xn , die een functie is van de steekproef. Definitie 4.1.1 Een statistiek is een stochastische variabele, die alleen een functie is van de steekproef X1 X2 Xn en niet van onbekende parameters (zoals µ en σ ). Voorbeeld 4.1.2 De grootheden ∑i Xi en ∑i Xi X n 2 zijn statistieken, maar ∑i Xi µ 2 niet.
Definitie 4.1.3 Een schatter is een statistiek, die gebruikt wordt om een onbekende parameter te benaderen. Een schatting is de getalwaarde van de schatter in een concreet experiment.
86
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
87
Voorbeeld 4.1.4 Het steekproefgemiddelde X n :
1 n Xi n i∑ 1
is een schatter voor µ , immers E Xn 1n ∑i E Xi µ . De getalwaarde xn 535 is een schatting voor de exacte waarde µ van de pH in bovengenoemd experiment. Omdat xn een getal is, spreekt men ook wel over een puntschatting. Voorbeeld 4.1.5 Ook W :
n
k E Xk is een schatter voor µ (maar minder goed). De bijbehorende n n 1 ∑ 2
k1
schatting van de pH in tabel 4.1 levert de getalwaarde 5.37 op. Definitie 4.1.6 Een schatter T van de parameter µ heet zuiver (Eng. unbiased), als E T µ , dus als de verwachtingswaarde van de schatter gelijk is aan de (gezochte) parameter. Voorbeeld 4.1.7 Het steekproefgemiddelde Xn en het gewogen gemiddelde W , X n :
1 n Xi n i∑ 1
W :
en
n
2
nn 1 k∑ 1
k Xk
zijn beide zuivere schatters van µ , immers voor beide geldt E X n
1 n E Xi µ n i∑ 1
E W
n
n
k E Xk kµ µ nn 1 ∑ n n 1 ∑ 2
2
k1
k1
maar de eerste is beter omdat de tweede een grotere variantie heeft: n
& Xi '
i1
n
VarX n ∑ Var VarW
σn
2
(4.1)
n & 2kX ' n 2kσ 2 4n 2 σ 2 1 ∑ Var nn k1 ∑ nn 1 3 n n 1 n σ 2 k 1 k1
4.1.1 Methoden voor het bepalen van schatters Van een stochastische variabele X wil je de kansverdeling te weten komen en daartoe doe je een aantal, zeg n, onafhankelijke waarnemingen van X. Deze waarnemingen x1 xn beschouw je als een trekking uit de steekproef X1 Xn van n onderling onafhankelijke kopie¨en van X. Je kunt natuurlijk niet verwachten, dat je de verdeling precies kunt bepalen uit eindig veel waarnemingen. Dus ga je uit van een model, b.v. X B1 p of X N µ σ of X Uniforma b, en probeer je de onbekende parameters te schatten uit je waarnemingen. Als X B1 p binomiaal verdeeld is (met uitkomsten 0 en 1), ligt het voor de hand om de onbekende fractie p te schatten met de relatieve frequentie van het aantal waarnemingen xi 1 i 1 n. We gebruiken dus als schatter #Xi 1 i 1 n 1 n n ∑ Xi F : n i1
We weten dat Y : X1 Xn BN p en E Y np. De schatter F heeft dus verwachtingswaarde E F p en is dus zuiver en we vinden zo de schatting p( : 1n x1 xn . Op grond van onze kennis van de binomiale verdeling kunnen we dan betrouwbaarheidsgrenzen berekenen voor de afwijking tussen de schatting p( en de (onbekende) parameter p, zie 4.1.5. Analoog kunnen we zo voor een discrete verdeling steeds de relatieve frequentie van een waarde gebruiken als schatting voor de kans op die waarde.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
88
In het bovenstaande voorbeeld kunnen we de schatting p( : 1n x1 xn ook interpreteren als het gemiddelde of het eerste moment van de waarnemingen x1 xn , dat we gebruiken voor het schatten van het eerste moment van X (die als binomiale verdeling daarmee volledig bepaald is). Dit idee — het schatten van momenten van een verdeling om daaruit de onbekende parameters te schatten — kunnen we ook toepassen als X een continue verdeling heeft. Als X N µ σ normaal verdeeld is, kunnen we het eerste moment van de data (dit is het gemiddelde x : 1n ∑ni1 xi ) gebruiken als schatting voor het eerste moment µ van de verdeling. Evenzo kunnen we het tweede moment α2 E X 2 van de verdeling, zie (2.50), schatten met met het tweede moment van de data a2 : 1n ∑ni1 x2i . Via de formule (2.53) σ 2 α2 µ 2 vinden we dan de schatting 1 n 1 n σ( 2 a2 x2 ∑ x2i x2 ∑ xi x2 (4.2) n i1 n i1
De bijbehorende schatter 1n ∑ni1 Xi X 2 is evenwel niet zuiver, zie (4.15). Hoewel de methode in het algemeen goed werkt, kan het gebruik van momenten ook tot foutieve resultaten leiden. Als X uniform verdeeld is op 0 b, dan kunnen we de verwachtingswaarde 12 b schatten b : 2 x een goede schatting zijn van b. Het met het eerste empirische moment x : 1n ∑ni1 xi en dus zou ( is gemakkelijk in te zien dat de bijbehorende schatter zuiver is. Deze schatter geeft echter hetvolgende probleem. Als 1 2 9 drie waarnemingen zijn van X Uniform0 b, dan verwachten we b 9 op grond b heeft echter de te kleine waarde ( b 23 1 2 9 8 . Een van de derde waarneming; de schatting ( schatter die wel rekening houdt met de grootste waarneming, vinden we via de “ordestatistiek” van X. De verdelingsfunctie van X is PX x FX x xb als 0 x b , zie (3.60). Voor de grootste waarneming in X1 Xn geldt dus wegens de onderlinge onafhankelijkheid Pmax Xi x PX1 x & X2 x & & Xn x
x n
zodat E maxX1 Xn
b
nx
x n1 dx
0
b
b
nnb1
en
als
b
i
0 x b
(b : n 1 maxx1 xn n
(4.3)
(4.4)
Uit het eerste moment van maxX1 Xn vinden we dus wel een bevredigende schatter voor b. Opgave: Bepaal op analoge wijze schatters voor a en b als X Uniforma b is. Een andere gebruikelijke methode voor het afleiden van schatters is de “maximum likelihood” methode van Gauss (1822). Het idee zullen we uitleggen aan de hand van de normale verdeling, voor X N µ σ . De kans dat de i-de waarneming in een omgeving van het punt xi terecht komt is gelijk aan fX xi (vermenigvuldigd met de grootte van de omgeving), waarbij fX de kansdichtheid van X is. Voor de n onafhankelijke waarnemingen is de gezamenlijke kans dat X1 Xn de waarde x1 xn heeft dus het product van al deze kansen. De meest waarschijnlijke (Eng: most likely) waarden van de parameters zijn die waarden, waarbij deze (product)kans zo groot mogelijk is. Op grond van de waarnemingen x1 xn van X N µ σ defini¨eren we dus de “likelihood function” Ln µ σ :
1
σ n 2π n
exp
∑ni1 xi µ 2 2σ 2
(4.5)
en we zoeken de waarden van µ en σ waarvoor deze functie maximaal is. Omdat het maximum van de logaritme gelijk is an de logaritme van het maximum, bepalen we liever het maximum van de logaritme van Ln , hetgeen minder rekenwerk is. We vinden n
∂ log Ln µ σ ∂µ
log Ln µ σ : 12 n log2π n log σ ∑
∑ xiσ 2µ 0 i 1
2σ 2 n x µ 2 ∂ log Ln µ σ n
∑ i 3 ∂σ σ i1 σ i1
n
en
xi µ 2
0
(4.6)
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
89
zodat we als schattingen vinden:
( : x µ
1 n xi n i∑ 1
en
σ( 2 :
1 n xi x2 n i∑ 1
(4.7)
Dit zijn dezelfde schattingen als die we eerder vonden via de momenten. We zien dat ook de maximum likelihood schatter voor σ2 niet zuiver is. Dit voorbeeld toont aan, dat het schatten van µ en σ met gemiddelde en standaarddeviatie van nature verbonden is met de veronderstelling dat X normaal verdeeld is. Dit wordt anders als we voor X met een tweezijdige exponenti¨ele verdeling modelleren. We nemen nu dus aan dat fX x
1 x µ exp
2σ σ
(4.8)
en we zoeken opnieuw de maximum likelihood schattingen voor µ en σ . De likelihood functie en de logaritme ervan zijn nu
x µ Ln µ σ 2n σ n exp ∑ i σ i1 n x µ log Ln µ σ n log 2 n log σ ∑ i σ i1 n
(4.9)
Voor vaste σ is de logaritme maximaal, als ∑ni1 xi µ minimaal is (wegens de absolute waarden mogen we niet differenti¨eren naar µ ), d.w.z. als µ medx1 xn gelijk is aan de mediaan van de waarnemingen (ga na). Door differenti¨eren naar σ vinden we vervolgens de schatting voor σ :
∂ log Ln µ σ ∂σ
σn ∑ xiσ 2µ 0 n
i1
zodat σ( :
1 n xi medx1 xn n i∑ 1
We zien hieruit, dat de mediaan en de gemiddelde absolute afwijking, zie (1.7), de natuurlijke schatters zijn bij modelleren met de tweezijdige exponenti¨ele verdeling. Tenslotte komen we terug op de uniforme verdeling van hierboven. Als X Uniform0 b, wat is dan de maximum likelihood schatter voor b? De kansdichtheid fX van X is gelijk aan 1b op 0 b en nul elders. Als b dus zo gekozen is, dat er (minstens) een waarneming, zeg xk , buiten het interval 0 b ligt, dan is fX xk 0 en is ook de likelihood functie nul. Als alle waarnemingen binnen 0 b liggen, is de waarde van de likelihoodfunctie Ln b : ∏ni1 fX xi bn . Dit is maximaal als b de kleinste waarde aannneemt b : maxi xi is de maximum likelihood schatting van waarvoor alle waarnemingen nog in 0 b liggen. Dus ( b. Opgave: Bepaal maximum likelihood schatters voor a en b als X Uniforma b verdeeld is.
4.1.2 Het schatten van de verwachtingswaarde van een normale verdeling als σ bekend is We zien, dat X n weer een stochastiek is. Omdat het een som van normalen is, is deze zelf ook normaal verdeeld. Uit (4.1) zien we, dat
σ X n N µ n
oftewel
Xn µ N 0 1 σ n
(4.10)
De variantie neemt af met groeiende n. Dit betekent, dat de verdeling van Xn zich met groeiende n steeds meer concentreert rond µ , zoals we ook kunnen zien uit figuur 4.1: Formule (4.10) kunnen we ook lezen als rσ PX n µ Φr n
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
90
1.6 1.4 1.2 n=160
1 0.8 0.6
n=40 0.4 0.2
n=10
0 -3
-2
-1
0
1
2
3
Figuur 4.1: Kansdichtheden van het steekproefgemiddelde X n µ voor n 10, 40 en 160. of meer symmetrisch, rσ PX n µ Φr Φ r 2Φr 1 n
r 0
(4.11)
Als we deze kans gelijk aan 90% willen hebben, zie figuur 4.2, moeten we r zo kiezen, dat 2Φr 1 090 en dus met gebruik van de inverse functie, r Φ1 095 1645. De kans dat de schatting xn ten hoogste 1 645 n σ afwijkt van de echte waarde µ is dus 90% en dit is natuurlijk gelijk aan de kans dat de onbekende µ
n σ afwijkt van de gemeten waarde: ten hoogste 1 645
&
P µ xn
1645σ 1645σ ' xn 09 n n
Dit interval heet het 90%-betrouwbaarheidsinterval van de schatting xn voor de onbekende parameter µ ; in 90% van de gevallen zal dit interval de werkelijke waarde van µ bevatten. 0.45 0.4 0.35 0.3 0.25 90%
0.2 0.15 0.1 0.05 0 -4
5% -3
-2
5% -1
0
1
2
3
4
Figuur 4.2: Kansdichtheid voor de standaard normale verdeling en het gebied tussen de 5% en 95% percentielen. Het gearceerde gebied bevat 90% van de kansmassa.
We kunnen natuurlijk ook een andere betrouwbaarheid(sdrempel) dan 90% kiezen. In het algemeen
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
91
kiezen we een (onzekerheids-) niveau α of een betrouwbaarheid(sdrempel) 1 α . Als we de kans in het rechterlid van (4.11) gelijk aan 1 α willen hebben, moeten we r Φ1 1 12 α kiezen (ga na!). Definitie 4.1.8 Het betrouwbaarheidsinterval (BI) voor µ op het niveau α of het betrouwbaarheidsinterval met betrouwbaarheid 1 α (Eng. confidence interval, afgekort CI) is het interval
& 1 σ 1 σ ' I : xn Φ1 1 α xn Φ1 1 α 2 n 2 n
(4.12)
Dit is een symmetrisch interval rond de schatting xn . Het geeft de betrouwbaarheid van onze metingen aan en is direkt te berekenen als we σ kennen. Dit laatste is echter vrijwel nooit het geval. We zullen het dus eveneens met een schatting van σ moeten doen, zoals gegeven in (1.4). Voorbeeld 4.1.9 Stel dat de gegevens uit tabel 4.1 metingen zijn van een pH met µ 545 en σ 95%–betrouwbaarheidsinterval is dus 535 196 02 20 535 196 02 20 526 544
02. Het (4.13)
De exacte waarde µ 545 ligt dus (net) niet in dit interval. Met Φ258 0995 ligt µ wel in het (grotere) 99%–betrouwbaarheidsinterval 535 258 02 20 535 258 02 20 523 547 (4.14)
4.1.3 Het schatten van de variantie van een normale verdeling Zoals in de vorige paragraaf vertrekken we weer van een steekproef X1 X2 Xn van n onafhankelijke stochastieken, allen verdeeld volgens N µ σ . Ditmaal zullen we echter veronderstellen dat de beide parameters, zowel µ als σ , onbekend zijn. We zullen een betrouwbaarheidsinterval opstellen voor de parameter σ . In (4.2) vonden we de schatter 1n ∑ni1 Xi X n 2 , maar deze schatter is niet zuiver. Voor n 1 geeft deze formule zelfs nul als antwoord, terwijl we in dat geval (van e´ e´ n enkele meting) juist helemaal geen idee hebben van mogelijke fluctuaties in de uitkomst en we dus juist een onbepaalde uitkomst zouden verwachten. Het dat we niet & blijkt ' door n maar door n 1 moeten delen om een zuivere schatter te vinden. We berekenen n 2 E ∑i1 Xi X n alsvolgt. Er geldt: E Xi2 µ 2 σ 2
en
E XiX j µ 2 voor i j
en bijgevolg geldt ook E Xi X n
1 n σ2 E XiX j µ 2 ∑ n i1 n
zodat E
&n ' ∑ Xi X n2 i1
E
en
E X n 2
1 n σ2 E Xi X n µ 2 ∑ n i1 n
)n 2 * n 2 2 X
2X X X ∑ E Xi 2E XiX n E X 2n ∑ i n i n i1
n
2σ 2
i1
n
∑ µ 2 σ 2 2µ 2
i1
µ 2 σn n 1σ 2 2
Hieruit volgt, dat de schatter Sn2
1 n Xi X n2 n 1 i∑ 1
(4.15)
wel zuiver is. Men noemt Sn2 de steekproefvariantie van de steekproef X1 X2 Xn (of de empirische variantie). De noemer n 1 in het quoti¨ent is afkomstig van het feit dat we µ E Xi niet kennen en dat we deze schatten met X n .
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
92
Omdat de steekproef X1 X2 Xn bestaat uit n onafhankelijke kopie¨en van X N µ σ , is de som van kwadraten T ∑ni1 Xi µ 2 een som van kwadraten van onafhankelijke N 0 σ -verdeelde stochastieken en dus is T σ 2 chi-kwadraat verdeeld met n vrijheidsgraden volgens definitie (3.83). We kunnen T n echter niet als schatter voor σ2 gebruiken omdat deze grootheid afhangt van de parameter µ . In plaats daarvan gebruiken we de schatter Sn2 , waarvan boven de zuiverheid is aangetoond. Ook deze is chi-kwadraat verdeeld, maar heeft slechts n 1 i.p.v. n vrijheidsgraden; door het schatten van µ met Xn introduceren we in de termen Xi X n 2 van de som Sn2 een afhankelijkheid, die het aantal vrijheidsgraden met 1 doet afnemen. Stelling 4.1.10 Als X1 X2 Xn een steekproef is van n onafhankelijke kopie¨en van X N µ σ , dan is de stochastiek n 1Sn2 σ 2 chi-kwadraat verdeeld met n 1 vrijheidsgraden :
n 1Sn2 χ 2
n1
σ2
(4.16)
Bovendien zijn de statistieken Sn2 en X n onafhankelijk. Bewijs. In het geval n 2 hebben we S22 σ2
σ12
X1
X1 X2 2 X X2 2 X1 X2 2 X2 1 2 2 2σ
X X Omdat 1 2σ 2 standaard normaal verdeeld is het kwadraat ervan χ12 -verdeeld met een vrijheidsgraad.
Om het algemeen geval te bewijzen maken we gebruik van de resultaten uit 3.7.7 over de hogerdimensionale normaalverdeling. Onderstel even dat Z Z1 Zn standaard normaal verdeeld is, en dat U een willekeurige orthogonale matrix is. Uit formule (3.81) volgt dan onmiddellijk dat ook Y UZ standaard normaal verdeeld is; in het bijzonder zijn de stochastische variabelen Y1 Y2 Yn standaard normaal verdeeld en onafhankelijk. Neem nu X1 X2 Xn zoals in de opgave van de stelling, en stel Zi Z Z1 Zn is standaard normaal verdeeld, en Zn
Xi µ σ
1 n Xi µ n i∑ 1 σ
(4.17)
σ1 X n µ
(4.18)
Neem nu een willekeurige orthogonale matrix U waarvan de eerste rij 1 1 n
1
1
is. Met behulp van het orthogonalisatieproc´ed´e van Gram-Schmidt kan men steeds zulk een matrix construeren. Stel Y UZ Dan is
en
Y1
n 1Sn2 σ2
1 n Z1 Z2 Zn nZ n X n µ n σ
1 n Xi X n 2 σ 2 i∑ 1
n
∑ Zi Zn 2 i1
n
n 2 n 2 Z
Z ∑ i n ∑ i ∑ Z j nZ n 2 i1 i 1 j 1
n
∑ Zi2 2nZ n2 nZn 2
(4.19)
i1
n
n
n
i1
i1
i1
∑ Zi2 nZ n2 ∑ Zi2 Y12 ∑ Yi2 Y12 Y22 Yn2
χn21
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
93
Omdat Y1 en Y22 Yn2 onafhankelijk zijn, zijn ook Xn en Sn2 onafhankelijk. Merk tenslotte op dat uit (4.19) nogmaals volgt dat σ2 E Y22 Yn2 σ 2 E Sn2 n 1 Met behulp van bovenstaande stelling kunnen we een betrouwbaarheidsinterval (BI) met betrouwbaarheid 1 α voor σ 2 construeren. Sluiten we aan beide uiteinden van de verdeling α2 kansmassa buiten, dan hebben we als totale kans voor de resterende interval, zie figuur 4.3,
P
n 1Sn2 χ 2
χn21 α 2
n11 α2
σ2
We kunnen deze formule als volgt herschrijven:
n 1Sn2 n 1Sn2 2 σ P χn21 1 α χn21 α 2 2
1 α
1 α
0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 5% 0
0
95% 2
4
6
Figuur 4.3: Kansdichtheid voor de
8
10
12
14
16
18
20
χ 52 -verdeling en
het gebied tussen de 5% en 95% percentielen. Het gearceerde gebied bevat 90% van de kansmassa.
Definitie 4.1.11 Het betrouwbaarheidsinterval voor σ2 met betrouwbaarheid 1 α is het interval
+
n 1s2n n 1s2n , χn21 1 α
2
χn21 α
(4.20)
2
Merk op dat dit betrouwbaarheidsinterval niet symmetrisch is rond s2n omdat de χ 2 -verdeling niet symmetrisch is. Een 1 α -BI voor σ zelf vinden we door in (4.20) de wortel te nemen:
+# n 1s2 # n 1s2 , n n χn21 1 α
2
χn21 α
(4.21)
2
Voorbeeld 4.1.12 De steekproefvariantie van de lengte van 16 willekeurig gekozen soldaten van de lichting 1992 is 518cm2 . We construeren een 90%-betrouwbaarheidsinterval voor σ . n 1 15
2 χ15 0 05 7261
2 χ15 0 95 24996
+- 15 518 - 15 518 ,
BI
α 01
24996
;
7261
558 1035
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
94
4.1.4 Het schatten van het gemiddelde van een normale verdeling We beschouwen nu opnieuw de situatie van 4.1.2; we willen nu een betrouwbaarheidsinterval voor het gemiddelde µ construeren terwijl σ onbekend is en geschat wordt met sn . Stelling 4.1.13 De stochastiek T
SX µn is Student-t verdeeld met n 1 vrijheidsgraden, n
n
XS n µn tn1
T
(4.22)
n
Bewijs. Uit (4.10) en (4.16) weten we Z
Xn µ N 0 1 σ n
n σ12 Sn χn21 2
en
Y
Bovendien zijn Sn en X n , en dus ook Y en Z onafhankelijk, zodat uit de definitie van de Student-t verdeling (3.97) volgt: Z Xσn nµ Sσ XS n µn T tn1 Y n n n1
Zoals in de vorige paragraaf hebben we de kans
X µ n tn1 1α 2 1 α P S
n
n
zodat
Sn P X n tn1 1α n
2
Sn µ X n tn1 1α n
2
1 α
Definitie 4.1.14 Het betrouwbaarheidsinterval voor µ met betrouwbaarheid 1 α is het interval
&
sn xn tn1 1α n
s n 2 xn n tn1 1α 2
'
(4.23)
Het is duidelijk, dat dit interval breder is dan het overeenkomstige interval (4.12) voor het geval σ w´el bekend is. Het verschil neemt echter af met toenemende n (en het verdwijnt geheel in de limiet voor n ∞). Voorbeeld 4.1.15 In figuur 4.4 zien we de betrouwbaarheidsintervallen op het 10%-niveau voor µ en σ voor tweemaal tien experimenten met N 0 1-verdeelde random getallen. De intervallen zijn weergegeven door horizontale lijnstukken. De verticale lijn representeert de plaats van de werkelijke µ en σ . Door de keuze van het niveau α 10% zijn de betrouwbaarheidsintervallen zo groot, dat de kans, dat µ resp. σ er buiten ligt, gelijk is aan 10%. Het verwachte aantal keer in deze 40 experimenten, dat µ of σ buiten het BI ligt, is dus 4; in het voorbeeld van figuur 4.4 is dit 3. Voorbeeld 4.1.16 We voeren twaalf metingen uit van het gewicht van een bol en vinden de volgende waarden (in gram) 170 183 185 175 177 173 172 181 183 177 176 180 We zullen de 90%-BI’s voor µ en σ opstellen. We hebben achtereenvolgens x12 zodat
1232 12
17766g
s12 4774g
en
en
s212
2 1 12 xi x12 22787g2 ∑ 11 i1
s 4774 12 t11 0 95 1796 24751 12 12
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
95
Betrouwbaarheidsheidsintervallen op het 10%-niveau. 6 metingen per experiment, N(0,1)-verdeeld 10 10
5
5
0 -2
0
0
2
1
0
gemiddelde
2
3
standaardafwijking
Betrouwbaarheidsheidsintervallen op het 10%-niveau.20 metingen per experiment, N(0,1)-verdeeld 10 10
5
0
5
-1
0
0
1
1
0
gemiddelde
2
standaardafwijking
Figuur 4.4: Betrouwbaarheidsintervallen van tweemaal 10 experimenten met N 0 1verdeelde random getallen.
Een 90%-betrouwbaarheidsinterval voor µ is dus 175 180. Verder hebben we
#
11s212 χ11 0 95
-
11 22787 19675
35693
#
en
11s212 χ11 0 05
-
11 22787 4575
74019
Een 90%-betrouwbaarheidsinterval voor σ is dus 36 74.
4.1.5 Het schatten van een percentage We beschouwen een binair kenmerk, bijvoorbeeld: man / vrouw , roker / niet-roker , wit / zwart , kruis / munt . Hiermee is een Bernoulli-experiment geassoci¨eerd, een stochastiek X, die de waarden 0 en 1 aanneemt met PX 1 p en PX 0 1 p q. Aan de hand van een steekproef X1 X2 Xn wensen we p te schatten. Het is duidelijk dat Xn 1n ∑ni0 Xi een zuivere schatter voor p is. Voor n 30 en 01 p 09 mogen we Bn p benaderen door een normale verdeling, zie (3.71),
nX n Bn p N np npq Voor n voldoend groot is
-
pq n
-
en dus
X n 1 X n n
- pq
Xn N p
n
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
96
en dus hebben we bij benadering, Z
X n p N 0 1 X 1X n
P Z Φ1 1
en dus ook
n
α 1 α 2
n
Voor X n p leiden we hieruit de (benaderde) kans af,
1
P X n p Φ of
-
α 1
2
X n 1 X n n
-
1 α -
α X n 1 X n α X n 1 X n p X n Φ1 1
P X n Φ1 1
2
n
Conclusie: Het interval
.
2
-
n
-
α xn1 xn xn Φ1 1
xn Φ1 1 α xn1 xn 2
n
2
1 α
/
n
(4.24)
is een (benaderend) BI voor p met betrouwbaarheid 1 α . Voorbeeld 4.1.17 Enkele dagen voor een landelijke verkiezing tussen de twee kandidaten A en B wordt door een populair magazine een opiniepeiling georganiseerd. Hierbij vraagt men 200 willekeurig gekozen en willekeurig over het land verspreide personen naar hun mening. In de steekproef waren 110 personen voor kandidaat A. Gevraagd wordt een 95% BI voor het globale percentage kiezers, dat op kandidaat A zal stemmen. We hebben achtereenvolgens: xn
110 200
055
-
xn 1 xn n
00352
en
Φ1 1
α Φ10975 196 2
zodat het 95% BI gegeven wordt door BI 055 196 00352 055 196 00352 048 062 Op dezelfde manier vinden we 046 064 voor het 99%-BI.
4.2 Hypothesetoetsen Een firma produceert batterijen voor draagbare radios, en beweert in haar advertenties dat elke batterij goed is voor 30 uur muziek. Een consumentenorganisatie wil deze bewering nagaan, en test 40 batterijen die op diverse plaatsen in het land gekocht werden. De gemiddelde speelduur over deze 40 batterijen is 28 uur met een spreiding van 2 uur. Kunnen we hieruit besluiten dat de reclame van de firma overdreven is? In een contra-expertise laat de batterijenproducent het experiment herhalen met 50 batterijen en vindt een speelduur van 29.5 uur met een spreiding van 2.5 uur. Op grond hiervan concludeert de firma, dat de consumentenorganisatie teveel belegen exemplaren gebruikte bij de test. Is deze bewering gerechtvaardigd? Dit is het type problemen dat we in dit hoofdstuk bestuderen. Eerst vergelijken we het resultaat van´ee´ n steekproef met een gepostuleerde waarde; vervolgens vergelijken we de resultaten van twee verschillende steekproeven met elkaar. Uiteraard kunnen we hier nooit zekere uitspraken verwachten; we zullen enkel uitspraken kunnen doen die een zekere kans van waarheid bevatten. Met een toets zullen we nooit een bewijs van een bewering kunnen leveren; we zullen er alleen een bewering mee kunnen verwerpen als deze op grond van de waarnemingen te onwaarschijnlijk is om waar te zijn.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
97
4.2.1 De t-toets voor e´ e´ n groep (Eng. one-group t-test) We hebben n (onafhankelijke) metingen x1 xn van een (normaal verdeelde) grootheid X met verwachtingswaarde µ . Beweerd wordt dat deze verwachtingswaarde gelijk is aan een bepaalde concrete waarde µ0 , zoals in het voorbeeld hierboven µ 30 uur. We willen de waarheid van deze bewering toetsen aan de hand van de metingen. We veronderstellen, dat de metingen onafhankelijke trekkingen zijn uit een normaal verdeelde stochastiek X N µ σ . Zoals in het vorige deel van dit hoofdstuk over schatters, 4.1, kunnen we nu rond het gemiddelde xn een betrouwbaarheidsinterval op het niveau α construeren, zie formule (4.23), en zien of de vooropgestelde waarde µ0 in dit interval ligt. Zo ja, dan accepteren we de bewering (op het niveau α ); zo nee, dan is de kans, dat de bewering waar is, kleiner dan α en verwerpen we de bewering. We kunnen dit ook op een andere (equivalente) manier formuleren. De metingen zijn trekkingen uit n onafhankelijke stochastieken X1 Xn N µ σ , waarbij zowel µ als σ onbekend zijn. Als de bewering waar is, dan zijn het steekproefgemiddelde Xn en de standaarddeviatie Sn zuivere schatters voor µ en σ en heeft het quotient een t-verdeling, zie (4.22). Aan de hand van de steekproef X1 Xn wensen we te beslissen of we de hypothese µ µ0 aanvaarden of verwerpen. De tweezijdige t-toets (Eng. one-group two-tail t-test): De veronderstelling µ µ0 noemen we de nulhy µ0 , de alternatieve hypothese pothese, gewoonlijk met H0 genoteerd. Het alternatief is natuurlijk dat µ genaamd. We noteren deze met H1 . Er zijn dus twee mogelijkheden:
H
µ0 H1 : µ µ0 0
(nulhypothese)
:µ
(alternatieve hypothese)
(4.25)
De alternatieve hypothese omvat hier zowel de gevallen µ µ0 als µ µ0 en daarom spreken we hier van de tweezijdige t-toets. Indien de nulhypothese waar is, dan hebben we, met de notaties van (4.22): T
XSn µn0 tn1 n
H0
(4.26)
Met H0 bedoelen we: “in de veronderstelling dat de nulhypothese waar is”. In dit geval is het dus onwaarschijnlijk dat T zeer groot is. Kiezen we een significantieniveau α , dan geldt: PT tn1 1 1 α 1 α
2
H0
(4.27)
Uit de waarnemingen of metingen volgt een schatting t voor de waarde van T : t :
xn µ0 sn n
(4.28)
De kans op een serie metingen met t tn1 1 1 α is α ; het voorkomen van een dergelijke serie metingen 2 is dus des te onwaarschijnlijker naarmate α kleiner is: we noemen α het significantieniveau. Dit leidt tot de volgende beslissingsregel: Als t ligt in het interval tn1 1 1 α tn1 1 1 α , dan aanvaarden we de H0 op niveau α ; 2 2 Als t buiten dit interval ligt, dan verwerpen we H0 op niveau α . Het interval tn1 1 1 α tn1 1 1 α noemen we het aanvaardingsgebied, het complement van dit interval 2 2 noemen we de kritieke zone en α noemen we het significantieniveau. Als we de nulhypothese H0 verwerpen, dan zeggen we dat het verschil tussen xn en µ0 significant is. Anders zeggen we dat het verschil niet significant is. Gebruikelijke waarden voor α zijn 5% en 1%. Opmerking: We merken op, dat het aanvaarden van de nulhypothese, precies hetzelfde is als het feit, dat µ0 in het betrouwbaarheidsinterval (4.23) ligt. De eenzijdige t-toets (Eng. one-group one-tail t-test): We bekijken opnieuw het voorbeeld uit het begin van dit hoofdstuk, 4.2.1. We zullen ons hierbij vooral zorgen maken over de kwaliteit van de batterijen, indien
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
98
de gemiddelde speelduur beduidend minder dan 30 uur is; indien we een gemiddelde speelduur van meer dan 30 uur vinden, des te beter. Daarom krijgen we nu de volgende situatie:
H
µ0 H1 : µ µ0 0
:µ
(nulhypothese) (4.29)
(alternatieve hypothese)
In de veronderstelling dat H0 waar is geldt formule (4.26) natuurlijk nog steeds, zodat we hebben: PT tn1 1α 1 α
H0
en we krijgen dus volgende beslissingsregel: indien t tn1 1α , dan wordt H0 aanvaard; anders wordt H0 verworpen. Het aanvaardingsgebied is dus tn1 1α ∞ en de kritieke zone ∞ tn1 1α . Op volledig analoge manier kunnen we natuurlijk de volgende situatie bekijken:
H
µ0 (nulhypothese) (alternatieve hypothese) H1 : µ µ0 Het aanvaardingsgebied voor H0 wordt nu ∞tn1 1α . 0
:µ
(4.30)
Overschrijdingskans, significantie of P-waarde. Een alternatieve manier van toetsen (die nogal eens gebruikt wordt in statistische software) is het berekenen van de overschrijdingskans, significantie of P-waarde bij de t-waarde van de metingen. Als we een tweezijdige t-toets doen, berekenen we bij de t-waarde (4.28) van de metingen de kans P T t . Als we een eenzijdige toets doen met µ µ0 als alternatief, dan berekenen we de kans PT t en anders PT t . Als deze overschrijdingskans kleiner is dan het niveau α , verwerpen we de nulhypothese, t ligt dan immers buiten het aanvaardingsgebied. Als deze kans groter dan α is ligt t erbinnen en aanvaarden we de nulhypothese. Het aanvaardingsgebied hoeven we dan natuurlijk niet meer op te zoeken. Met de gebruikelijke tabellen voor de t-verdeling is deze methode niet te gebruiken; in software is het echter handiger, omdat een routine voor het berekenen van tn x eenvoudig te schrijven is en omdat dan aan de gebruiker niet bij iedere toets opnieuw het gewenste niveau moet worden gevraagd. Bovendien geeft de P-waarde veel gedetailleerder informatie over het resultaat van de toets: ieder lezer/gebruiker kan afzonderlijk beslissen over het gewenste niveau. De overschrijdingskans is dus de grootste α, waarvoor de toets nog significant is, d.w.z. waarvoor de nulhypothese aanvaard wordt. Voorbeeld 4.2.1 Een machine maakt staalplaat die een gemiddelde dikte van 05 mm zou moeten hebben. Men wil toetsen of de machine goed afgeregeld is op basis van een steekproef van 10 metingen en vindt x10 053 mm en s10 003 mm. We hebben dus:
H
05 mm H1 : µ 05 mm 0
:µ
Een eenvoudige berekening levert de t-waarde van de steekproef: t
x10 05 mm s10 10
3162
Bij een significantieniveau α 5% vinden we t9 0 975 2262 zodat het aanvaardingsgebied het interval 2262 2262 is. Op het niveau 5% wordt H0 dus verworpen. Voor α 1% krijgen we (aangezien t9 0 995 3250) als aanvaardingsgebied 3250 3250. Op het niveau 1% wordt H0 wel aanvaard. De overschrijdingskans is PT t PT 3162 116%, zodat de nulhypothese op het 5%niveau wordt verworpen en op het 1%-niveau (nipt) wordt aanvaard.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
99
Voorbeeld 4.2.2 Een fabrikant produceert touw voor bergbeklimmers en beweert dat zijn touwen een breekpunt van 8000 kg hebben. Een sportvereniging bepaalt het breekpunt van zes touwen en vindt x6 7750 kg
s6 145 kg
en
zodat t
x6 8000kg s6 6
4223
Aangezien het touw best sterker mag zijn dan opgegeven, voeren we een eenzijdige t-toets uit met hypothesen: H0 : µ 8000 kg H1 : µ
8000 kg
Bij de keuze α 5% vinden we t5 0 95 2015; het aanvaardingsgebied is dus 2015∞, zodat de nulhypothese wordt verworpen; het verschil tussen de opgegeven en de gemeten waarde voor het breekpunt is significant. Voor α 1% is het aanvaardingsgebied 3365∞. Zelfs op niveau α 1% is het verschil dus significant. De overschrijdingskans is PT t PT 4223 042%, zodat de nulhypothese zowel op het 5%-niveau als op het 1%-niveau wordt verworpen.
Opmerking 4.2.3 De aanvaardingsgebieden zijn voor de tweezijdige toets (4.25) : tn1 α 2 tn1 1α 2 en voor de eenzijdige toets (4.30) : ∞tn1 1α . Omdat tn1 1α tn1 1α 2 , kan het voorkomen, dat we met de eenzijdige toets de nulhypothese verwerpen (d.w.z. we stellen vast dat µ groter is dan gesteld), terwijl we met de tweezijdige toets de nulhypothese aanvaarden (d.w.z. we kunnen niet vaststellen of µ veranderd is). Opmerking 4.2.4 Als n groot is, dan kunnen we een benaderde toets opstellen. We hebben dan s2 σ 2,
n
zodat we, net zoals in 4.1.2, kunnen veronderstellen dat σ bekend is. Als de nulhypothese waar is, dan hebben we dat X n µ0 N 0 1 σ n (zie (4.10)). Het aanvaardingsgebied voor
)
X n µ0 is dus σ n
Φ1 1
α α * Φ1 1 2 2
in het geval van een tweezijdige toets. Vergelijk dit ook met (3.102).
4.2.2 De χ 2 -toets voor de variantie in e´ e´ n groep We hebben opnieuw n (onafhankelijke) metingen x1 xn van een (normaal verdeelde) grootheid X met verwachtingswaarde µ en variantie σ2 . Beweerd wordt dat deze variantie gelijk is aan een bepaalde concrete waarde σ02 . We willen de waarheid van deze bewering toetsen aan de hand van de metingen. We veronderstellen weer, dat de metingen trekkingen zijn uit n onafhankelijke stochastieken X1 Xn N µ σ , waarbij zowel µ als σ onbekend zijn. Voor de standaardafwijking stellen we nu een waarde σ0 voorop en we willen aan de hand van de metingen toetsen of σ σ0 ; we kiezen dit dus als nulhypothese. Met formule (4.16), weten we dat onder de nulhypothese geldt: Y :
n 1Sn2 χ 2 σ02
n1
H0
zodat
PY
χn21 α α
(4.31)
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
100
Het is dus onwaarschijlijk, dat Y (zeer) groot of (zeer) klein is (Y is altijd positief). Uit de metingen berekenen we de schatting χ van Y , n 1s2n χ : (4.32) σ02 De beslissingsregel, of we de nulhypothese aanvaarden of verwerpen, hangt af van het alternatief. We onderscheiden twee gevallen. Als we gelijkheid σ2 σ02 toetsen tegen het alternatief ongelijkheid σ2 σ02 en dus zowel grote als kleine waarden van Y niet acceptabel vinden onder de nulhypothese, spreken we van een tweezijdige toets. Als we gelijkheid σ2 σ02 toetsen tegen het alternatief dat σ2 groter dan wel kleiner is dan gesteld en dus alleen grote of alleen kleine waarden van Y onverenigbaar vinden met de nulhypothese, spreken we van een eenzijdige toets. De tweezijdige χ 2 -toets: We kiezen de hypothesen
H0 : σ 2 σ02 H1 : σ 2 σ02
(nulhypothese)
(4.33)
(alternatieve hypothese)
We aanvaarden & de nulhypothese 'op het niveau α , als de χ -waarde (4.32) van de metingen in het aanvaardingsgebied χn21 1 α χn21 1 1 α ligt en we verwerpen H0 als χ erbuiten ligt.
2
2
De eenzijdige χ 2 -toets: In het geval toetsen tegen het alternatief dat σ groter is, kiezen we:
&
H0 : σ 2 σ02 H1 : σ 2 σ02
'
(nulhypothese)
(4.34)
(alternatieve hypothese)
Het aanvaardingsgebied is nu 0 χn21 1α en we verwerpen de nulhypothese als χ χn21 1α . Analoog, als we toetsen tegen het alternatief dat σ kleiner is, kiezen we:
&
H0 : σ 2 σ02 H1 : σ 2 σ02
(nulhypothese)
(4.35)
(alternatieve hypothese)
Het aanvaardingsgebied is nu χn21 α ∞ en we verwerpen de nulhypothese als χ χn21 α .
Overschrijdingskansen Ook hier kunnen we met overschrijdingskansen i.p.v. aanvaardingsgebieden werken. De overschrijdingskans p is gelijk aan de grootste α waarvoor de nulhypothese aanvaardt wordt; d.w.z. de toetsgrootheid χ ligt op de rand van het aanvaardingsgebied. Voor een tweezijdige toets loopt dit aanvaardingsgebied van het 1 1 2 α –quantiel tot het 1 2 α –quantiel en dit interval zal altijd de mediaan bevatten. Als χ kleiner is dan de mediaan en op de rand van het aanvaardingsgebied ligt, dan moet dit de linkerrand zijn, zodat PY χ α2 . Als χ groter is dan de mediaan, dan moet dit de linkerrand zijn, zodat PY χ α2 . Dit geeft dus de tweezijdige overschrijdingskans (4.36) p : 2 minPY χ PY χ Bij een eenzijdige toets berekenen we p : PY χ bij het alternatief σ2 σ02 en p : PY χ bij het alternatief σ 2 σ02 . Als de zo berekende p groter is dan het gewenste niveau aanvaarden we de nulhypothese en anders verwerpen we deze.
Voorbeeld 4.2.5 De standaardafwijking van het gewicht van blikjes groenten van 500 g is altijd 25 g geweest, maar men vreest dat de variabiliteit groter zou kunnen zijn geworden, omdat de machines oud zijn. Een steekproef van 20 blikjes levert s20 320 g. Is deze stijging significant op niveau α 5%? En op niveau α 1%? De hypothesen zijn nu de volgenden: H0 : σ 2 25 g2 H1 : σ 2 25 g2
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK Uit de metingen volgt de χ -waarde:
χ
101
n σ 12 sn 3113 2
0
Aangezien 30144 3113 wordt H0 verworpen op het 5%-niveau. Anderzijds geldt χ192 0 99 36199 3113, zodat H0 aanvaard wordt op het 1%-niveau. 2 3113 39%, zodat de nulhypothese wordt aanvaard op De overschrijdingskans is PY χ 1 χ19 het 1%-niveau en verworpen op het 5%-niveau. 2 χ19 095
Opmerking 4.2.6 Als we in dit voorbeeld een tweezijdige toets hadden uitgevoerd en ons alleen de vraag hadden gesteld of de variabiliteit veranderd was, dan hadden met het aanvaardingsgebied
χ19 0 025 χ19 0 975 8907 32852
de nulhypothese wel aanvaard!
4.2.3 De F-toets, het vergelijken van varianties in twee groepen In het tweede voorbeeld van de aanhef van 4.2.1 (de contra-expertise) worden twee steekproeven met elkaar vergeleken. Neem de onafhankelijke steekproeven X1 Xm en Y1 Yn
beide normaal verdeeld met onbekende parameters. We hebben dus nu m n onafhankelijke normaal verdeelde stochastieken X1 Xm Y1 Yn met Xi N µ1 σ1
i 1 m
j 1 n De parameters µ1 , µ2 , σ1 en σ2 hierin zijn onbekend. We willen nu toetsen of σ1 σ2 . We schatten daartoe en
Y j N µ2 σ2
eerst σ12 en σ22 met behulp van de steekproefvarianties : S12
2 1 m Xi X m ∑ m 1 i1
en
S22
2 1 n Yj Y n ∑ n 1 j1
Hun quoti¨ent heeft een F-verdeling: Stelling 4.2.7 Met notaties zoals hierboven geldt: S12 σ22 Fm1 n1 σ12 S22
(4.37)
Bewijs. Uit (4.16) weten we, dat
m 1S12 χ 2
m1
σ12
en
n 1S22 χ 2
n1
σ22
Het resultaat volgt nu onmiddellijk uit de definitie (3.106) van de F-verdeling.
Voor de toets op gelijkheid van σ12 en σ22 nemen we nu als nulhypothese H0 : σ12 σ22 dan geldt (onder deze nulhypothese) F
S12 Fm1 n1 S22
H0
zodat
PF Fm1 n1 α α
Hierop kunnen we dus de F-toets voor de vergelijking van varianties baseren:
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK De tweezijdige F-toets: Kies de hypothesen
102
H0 : σ12 σ22
(4.38)
H1 : σ12 σ22 en bereken de f -waarde van de steekproef, s21 s22 Het aanvaardingsgebied op niveau α voor f is dan het interval f :
&
Fm1 n1
1 α 2
Fm1 n1 1
(4.39)
' 1 2α
;
(4.40)
we aanvaarden de nulhypothese als f in dit interval ligt en verwerpen haar als f erbuiten ligt. De overschrijdingskans (of p-waarde) is p : 2 minPF f 1 PF f 2 minFm1 n1 f 1 Fm1 n1 f
(4.41)
De eenzijdige F-toets: Bereken de f -waarde van de steekproef, f :
s21 s22
kies een niveau α en kies een van beide mogelijkheden:
Hypothesen :
H0 : σ12 σ22 H1 : σ12 σ22
of Hypothesen :
met aanvaardingsgebied :
&
0 Fm1 n1 1α
'
en overschrijdingskans : p : 1 Fm1 n1 f
(4.42)
H0 : σ12 σ22
met aanvaardingsgebied :
H1 : σ12 σ22
&
Fm1 n1 α ∞
enoverschrijdingskans : p : Fm1 n1 f
(4.43)
We aanvaarden de nulhypothese als f in dit interval ligt en verwerpen hem als f erbuiten ligt. Opmerking: Formule (4.40) suggereert, dat je voor de tweezijdige toets steeds twee F-waarden moet bepalen. Dit is echter niet nodig. Als je X en Y zo kiest, dat σ2 σ1 , dan geldt automatisch dat de toetsgrootheid groter dan een is, f 1 . Omdat de mediaan dan niet teveel van 1 verschilt, zal de linkergrens veel kleiner dan 1 zijn en ligt f automatisch aan de rechterzijde van Fm1 n1 1 α , zodat we alleen hoeven na te gaan of
f kleiner is dan de rechtergrens. Het is dan dus alsof je een eenzijdige toets doet met alternatief σ12 σ22 en met de helft van het niveau. 2
Voorbeeld 4.2.8 We willen nagaan of twee voltmeters dezelfde nauwkeurigheid bezitten. De variantie is hier een maat voor de nauwkeurigheid. Met elk toestel wordt een bepaalde meting een aantal malen uitgevoerd met resultaat: toestel 1 : s1 4 µV m 16 s2 4 2 en f -waarde: f 12 1777 s2 3 toestel 2 : s2 3 µV n 21
De hypothesen zijn
H0 : σ12 σ22
H1 : σ12 σ22 Laten we toetsen op niveau α 5%. Uit de tabellen halen we dat
2176 0362 en Fm1 n1 1 α 257 Het aanvaardingsgebied is dus 0362 257; op het 5%-niveau wordt de nulhypothese aanvaard. Fm1 n1
1 2α
1 2
Er is dus geen significant verschil tussen beide voltmeters. Bedenk dat je wegens de voorgaande opmerking de waarde van Fm1 n1 1 α eigenlijk helemaal niet nodig hebt.
2
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
103
4.2.4 De t-toets voor het vergelijken van gemiddelden in twee groepen (Eng. two-group t-test) Zoals in de vorige paragraaf nemen we twee onafhankelijke steekproeven X1 Xm en Y1 Yn . We zullen nu echter veronderstellen dat we mogen aannemen dat de variantie voor beide steekproeven dezelfde is (eventueel na het toepassen van de F-toets), dus σ1 σ2 σ en Xi N µ1 σ1
i 1 m
en
Y j N µ2 σ2
j 1 n
Net zoals in vorige paragraaf zijn µ1 , µ2 en σ onbekend. Ditmaal wensen we na te gaan of µ1 µ2 . Hiertoe zoeken we eerst een zuivere schatter voor σ2 . We weten reeds dat S12 en S22 zuivere schatters zijn voor σ2 . Elk gewogen gemiddelde α S12 β S22 , met α β 0 1 en α β 1 is dus een zuivere schatter voor σ2 . In het bijzonder is m 1S12 n 1S22 (4.44) S 2 mn 2
een zuivere schatter (met minimale variantie) voor σ2 . Deze schatter S 2 wordt ook de gemengde variantie genoemd. Analoog aan (4.22) geldt nu het volgende. Stelling 4.2.9 Onder de nulhypothese geldt: T
Bewijs. We weten dat
Xm 1 Y n1 tm1n1 S m n
σ X m N µ1 m
H0
(4.45)
σ en Y n N µ2 n
Omdat X m en Y n onafhankelijk zijn geldt onder de nulhypothese µ1 µ2 voor hun verschil
-σ2
X m Y n N 0
σ m n 2
zodat schaling een standaard-normale verdeling geeft: U
Xm 1 Y n1 N 0 1 σ mn
De varianties zijn χ 2 -verdeeld,
m 1S12 χ 2
m1
σ2
en
n 1S22 χ 2 σ2
n1
en dus ook de gemengde variantie is χ2 -verdeeld, n 1S2 m 1S1σ χm2 n2 2 2
V
2
Vanwege de definitie (3.97) van de t-verdeling vinden we dus, dat T
U tmn2 V m n 2
en dit bewijst onze stelling. Met behulp van deze stelling bekomen we nu onmiddellijk de volgende t-toetsen:
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
104
Bereken de t-waarde van de steekproef, xm yn s m1 1n
t
(4.46)
kies een niveau α en kijk of t al dan niet binnen het aanvaardingsgebied ligt. De tweezijdige t-toets: Neem als hypothesen
H
Hypothesen:
0
: µ1 µ2
H1 : µ1 µ2
De eenzijdige t-toets:
H
Hypothesen: en analoog
0
: µ1 µ2
H1 : µ1 µ2
H Hypothesen:
aanvaardingsgebied :
0
: µ1 µ2
H1 : µ1 µ2
&
'
tmn2 1 1 α tmn2 1 1 α
aanvaardingsgebied :
aanvaardingsgebied :
2
2
∞ tmn2 1α
'
&
tmn2 1α ∞
(4.47)
(4.48)
(4.49)
Voorbeeld 4.2.10 Een boer wil toetsen of het gebruik van een bepaalde soort kunstmest een verbetering van de graanoogst geeft. Daartoe kiest hij 15 stroken akker met dezelfde oppervlakte, waarvan er 8 worden behandeld met de meststof en de overige 7 niet (deze laatsten vormen de zogenaamde controlegroep). De gemiddelde graanopbrengst x8 op de behandelde akkers is 58 ton met een standaardafwijking σ1 van 036 ton. Voor de controlegroep is de gemiddelde opbrengst x7 49 ton met een standaardafwijking σ2 van 040 ton. Is de produktie op het niveau α 1% significant hoger op de behandelde akkers? De hypothesen zijn (eenzijdig) H : µ µ 0 1 2 H1 : µ1 µ2
Veronderstel, dat we met de F-toets reeds hebben nagegaan dat s21 en s22 niet significant verschillen. Voor de gemengde variantie vinden we dan s 2 Bijgevolg is
1 2 7s1 6s22 01436 ton2 13 t
zodat
s 0379 ton
x8 x7 459 s 18 17
Het aanvaardingsgebied voor t is ∞ t13 0 99 ∞ 26503. De verhoging van de opbrengst is dus significant.
Voorbeeld 4.2.11 In de inleiding voor 4.2.1 gaven we een voorbeeld van twee steekproeven betreffende de speelduur van batterijen. In dit voorbeeld hebben we de waarnemingen x1 x40 van de consumentenorganisatie en y1 y50 van de fabrikant. We veronderstellen dat dit onafhankelijke trekkingen zijn uit X N µ1 σ1 resp. Y N µ1 σ1 . De gemiddelden en standaarddeviaties zijn: x40 28 s40 2
y50 295 s50 25
De vraag is, of het steekproefgemiddelde x40 van de consumentenorganisatie significant kleiner is dan dat van de fabrikant y50 . Hiertoe toetsen we eerst de gelijkheid van de varianties. De f -waarde van de steekproef is s2 252 15625 f 50 s240 22
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
H
en de hypothesen zijn
0
105
: σ1 σ2
H1 : σ1 σ2 Het aanvaardingsgebied op het 5%-niveau voor de F-toets op de varianties is (19.11c)
&
F49 39 0 025 F49 39 0 975
'
0554 183
zodat de nulhypothese σ1 σ2 aanvaard wordt. De gemengde variantie s vinden we nu uit s 2
1 49s250 39s240 5253 88
zodat s 229
Voor het vergelijken van de gemiddelden hebben we de hypothesen
H
0
: µ1 µ2
H1 : µ1 µ2 De t-waarde van de steekproef is
en het aanvaardingsgebied is
t
x40 y50 309 s 140 150
t88 0 95 ∞ 1665 ∞
zodat de nulhypothese verworpen wordt op het niveau 5%. De waarde van de consumentenorganisatie is dus significant kleiner dan die van de fabrikant. De toets zegt natuurlijk niets over de oorzaak van het verschil; zolang de fabrikant geen houdbaarheidsdatum op zijn batterijen zet, kan deze de consumentenorganisatie niet verwijten, dat ze belegen batterijen gebruikt heeft bij de test. Een benaderende toets voor twee gemiddelden Bij de afleiding van deze vergelijkende t-toets hebben we aangenomen dat σ1 σ2 . Het meest algemene geval is natuurlijk dat waarbij σ1 σ2 . Voor m en n (zeer) groot kunnen we dan een benaderende toets opstellen: we hebben dan dat s21 σ12 en s22 σ22 en we kunnen aannemen dat σ1 en σ2 bekend zijn. Onder de nulhypothese µ1 µ2 geldt dan in goede benadering: Z
X mσ Yσn 2 1
m
2 2
N 0 1
H0
n
We berekenen weer de actuele z-waarde van de steekproef, z :
xms yns
(4.50)
m n 2 1
2 2
en krijgen dan als aanvaardingsgebied voor z op het niveau α : tweezijdig : eenzijdig :
& 1 1 '
Φ 1 2 α Φ1 1 12 α ' & 1 1
∞ Φ
1 α
of
Φ
1 α ∞
(4.51)
Opmerking 4.2.12 Als we een t-toets willen doen voor de vergelijking van de gemiddelde van twee groepen, moeten we dus altijd eerst een F-toets doen (zoals boven beschreven) om te testen of de varianties gelijk mogen worden verondersteld.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
106
In de literatuur wordt het gebruik van robustere alternatieven voor deze test aanbevolen, met name de varianten van Bartlett en van Levene. In SPSS wordt de F-toets van Levene uitgevoerd. Deze toets gaat uit van de absolute variaties t.o.v. de groepsgemiddelden Vi : Xi X
Wi : Yi Y
en
en vergelijkt het verschil V W met de variaties binnen de beide groepen. Als dit verschil excessief groot is (en dus niet aan het toeval is toe te schrijven) wordt gelijkheid van de varianties verworpen. Zoals gebruikelijk definieren we de groepsgemiddelden V en W en het globaal gemiddelde G door V :
1 m 1 n V j W : ∑ W j ∑ m j1 n j1
Het idee is, dat onder de nulhypothese σX
G :
en
mV nW mn
σY de grootheden
m
σ 2 ∑ V j V 2 j 1
m
en
σ 2 ∑ W j W 2 j 1
(bij benadering) χ2 –verdeeld zijn met m 1 resp. n 1 vrijheidsgraden en dat mσ 2 V G2 nσ 2 W G2 (bij benadering) χ2 –verdeeld is met e´ e´ n vrijheidsgraad. Het quotient is dus F-verdeeld met een vrijheidsgraad in de teller en mn 2 in de noemer. Zo vinden we dus uit de meetwaarden vj : x j x en w j : y j y met groepsgemiddelden x en y en globaal gemiddelde g de toetsgrootheid f : m n 2
mv g2 nw g2 ∑mj1 v j v2 ∑mj1 w j w2
(4.52)
De overschrijdingskans is PF f met F F1 mn2 ; we verwerpen de nulhypothese op het niveau α als f F1 mn2 1α .
4.2.5 Verbonden steekproeven In de voorgaande paragrafen waren de steekproeven X1 Xm en Y1 Yn onafhankelijk. In de twee laatste voorbeelden kan dat moeilijk anders. Indien we twee benzinemerken met elkaar willen vergelijken met bovenstaande strategie, dan gaan we als volgt te werk. We laten (bijvoorbeeld) 10 auto’s rijden met merk X en meten het verbruik. Vervolgens laten we (bijvoorbeeld) 12 auto’s rijden met merk Y en meten weer het verbruik. Op de resultaten passen we de toetsen toe uit de vorige paragraaf toe. Een probleem hierbij is, dat het verbruik van twee auto’s, zelfs van hetzelfde merk en type, aanzienlijk kan verschillen en dat deze verschillen waarschijnlijk veel groter zijn dan die ten gevolge van kwaliteitsverschillen in de benzine. Een andere strategie is de volgende: eerst meten we het verbruik van 10 auto’s, allemaal met merk X, en dan allemaal met merk Y. Met elke Xi komt dan een Yi overeen; als er geen kwaliteitsverschil is, zullen de verschillen Xi Yi een verwachtingswaarde nul hebben. We spreken dan van verbonden waarnemingen. Andere voorbeelden van gelijksoortige experimenten: vergelijkingen van metingen in linkeroor en rechteroor, vergelijken van eigenschappen van eeneiige tweelingen, . In het algemeen hebben we nu dus n koppels stochastieken Xi Yi met Xi N µ1 σ1 en Yi N µ2 σ2 . Onze nulhypothese zal zijn: H0 : µ1 µ2 Stel nu Di Xi Yi . Dan is
Di N µ1 µ2
σ12 σ22
(4.53)
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
107
We voeren nu de t-toets (4.25), (4.29) of (4.30) uit op Di met nulhypothese H0 : µ 0. Het enige verschil met de situatie in (4.25) is, dat de waarde van µ0 nu niet uit de lucht komt vallen. We weten dat Dn n tn1 T S in de veronderstelling dat Dn
1 n Di n i∑ 1
S2
en
2 1 n Di Dn ∑ n 1 i1
Voorbeeld 4.2.13 Keren we terug naar het voorbeeld met de benzinemerken. Men laat 10 wagens rijden met 8 liter benzine van beide merken. Laat Xi het aantal afgelegde kilometers zijn, afgelegd door wagen i bij gebruik van brandstofmerk X en Yi is het aantal kilometers afgelegd bij gebruik van brandstofmerk Y . Men vraagt zich af of het merk Y beter is dan het merk X. Men bekomt volgend resultaat: 1 2 3 4 5 6 7 8 9 10 i X i 99 110 105 101 90 92 104 100 101 100 Yi 100 110 111 110 91 97 106 100 104 96 0 -6 -9 -1 -5 -2 0 -3 4 Di -1 We rekenen nu gemakkelijk uit, dat d 10 10 2 2 d 10 23 km s10 13444 km s10 36530 km zodat t 199 s10
H
De hypothesen zijn:
0 H1 : µ 0 Het aanvaardingsgebied voor t is tn1 1α ∞. Voor α 5% wordt dit 1833∞, zodat het verschil significant is op niveau 5%. Voor α 1% wordt dit 2821∞, zodat het verschil niet significant is op niveau 1%. 0
:µ
4.3 De macht van een toets 4.3.1 voorbeeld 1: de tweezijdige t-toets Beschouw opnieuw de tweezijdige t-toets (4.25); we kunnen deze als volgt samenvatten: Kansmodel: X1 Xn N µ σ onafhankelijk; σ en µ zijn onbekend. nulhypothese: H0 : µ
µ0 .
alternatieve hypothese: H1 : µ µ0 .
We stelden de volgende toets op voor de schatter T (en schatting t): T
X n µ0 tn1 Sn n
en
t t
n11 α2
t tn1 1 α
2
tn1 1 tn1 1
α 2
H0 wordt aanvaard,
α 2
H0 wordt verworpen.
De betekenis van het significantieniveau α hierin is de volgende: de kans dat we de nulhypothese ten onrechte verwerpen is α : (4.54) PH0 verworpen H0 waar α Zoals we in het diagram hieronder zien, is dit echter niet de enige mogelijke fout die we kunnen maken. Het zou kunnen dat H0 niet waar is, maar toch wordt aanvaard. We noemen deze gebeurtenis
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
108
H0 aanvaard H0 onwaar een fout van de tweede soort terwijl de gebeurtenis, dat de nulhypothese ten onrechte verworpen wordt, een fout van eerste soort wordt genoemd. H0 aanvaard juist fout van de tweede soort
H0 waar H0 onwaar
H0 verworpen fout van de eerste soort juist
De kans op een fout van de tweede soort is afhankelijk van de werkelijke waarde van de onbekende parameter µ . Definitie 4.3.1 De macht van een toets is de functie
β x 1 PH0 aanvaard µ x
(4.55)
Merk op dat β µ0 α . Laten we bij wijze van voorbeeld de macht van de tweezijdige t-toets (4.25) bepalen. Zoals gezegd is het aanvaardingsgebied I tn1 1 1 α tn1 1 1 α . De macht wordt dus gegeven door de formule
2
2
β x 1 PT I µ x Als µ
x, dan geldt Xn x tn1 Sn n
Xn x Sn n
en dus ook
Definieer de verschuiving D : in de toets: PT I
XSn µn0 Sµ0 xn T Sµ0 xn tn1 n
n
µ0 x , dan geldt onder de voorwaarde µ Sn n
x voor de schatter T gebruikt
P T D tn1 1 1 α D tn1 1 1 α D
Ftn
1
2
(4.56)
n
2
tn1 1 α D Ft tn1 1 α D
1 2
n 1
1 2
20.05%
5%
95%
99.3% -f
-f+D
+f
+f+D
Figuur 4.5: Kansdichtheid van de t-verdeling onder de nulhypothese met aanvaardingsgebied f f .
Het oppervlak onder de kromme tussen f en f is 90%. Het aanvaardingsgebied in het geval µ x is het interval f D f D. Het gearceerde oppervlak tussen f D en f D in de tekening is 99.3-20.05=80.2%. Uit de figuur zien we dat het oppervlak tussen f D en f D afneemt als D toeneemt.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
109
Hieruit volgt, dat de macht van de tweezijdige t-toets (4.25) wordt gegeven door formule: µ x β x 1 Ftn 1 tn1 1 1 α d Ftn 1 tn1 1 1 α d waarbij d 0 s 2 2 n n
(4.57)
We kunnen dit grafisch interpreteren in figuur 4.5. De kromme is de kansdichtheid van de tn1 -verdeling en het oppervlak onder de kromme tussen f en f met f : tn1 1 1 α is 1 α . Het oppervlak van het
nn ). gearceerde gebied tussen f d en f d is juist 1 β x (met x µ0 DS 2
Als x µ0 , dan is D 0. Zoals we reeds opmerkten is dan β x α . Voor x zeer ver van µ0 is D zeer groot. Het risico dat we de fout van de tweede soort maken is dan zeer klein. De grafiek van β ziet er in dit geval dan ook uit zoals geschetst in figuur 4.6: 100%
macht van de toets als funktie van x
4n 80% +
2n
n 60% +
40% +
20% + niveau van de toets: 10% 0%
µ0
Figuur 4.6: De machtsfunctie β x voor de tweezijdige t-toets als functie van x voor n, 2n en 4n. De put wordt nauwer bij toenemende n; het onderscheidingsvermogen van de toets wordt dus groter.
In dit voorbeeld zien we, dat, hoe groter β x, hoe kleiner het risico is dat we de fout van de tweede soort maken, en hoe beter de toets. Bovendien wordt de put nauwer bij toenemende n, zodat dan ook de nauwkeurigheid (bij gelijkblijvende x) toeneemt. Voor elke toets voor de hypothese H0 : µ µ0 met significantieniveau α kunnen we zo’n machtsfunctie opstellen. In het algemeen zijn er veel toetsen mogelijk. De volgende intervallen I1 I2 I3 I4 zijn allen aanvaardingsgebieden voor toetsen met significantieniveau α :
I t t 1 I ∞n1t 1 α n1 1 α 2 n1 1α I
t 3 n 1 1α ∞
1 2
1 2
I4 tn1 1 1 α tn1 1 2 α
3
3
Meer algemeen is elke (meetbare) deelverzameling I waarvoor geldt I ftn 1 xdx 1 α het aanvaardingsgebied behorende bij een toets met niveau α . Indien voor de machtsfuncties β1 x en β2 x van twee toetsen van niveau α geldt dat β1 x β2 x voor elke waarde van x, dan zeggen we dat de eerste toets machtiger is dan de tweede. Dit legt geen totale orde op de verzameling van alle toetsen van niveau α , het kan immers zijn dat β1 x0 β2 x0 en β1 x1 β2 x1 voor zekere waarden van x0 en x1 . We zien dit verschijnsel bijvoorbeeld, als we de macht van de tweezijdige (4.25) en de eenzijdige (4.30) t-toetsen met elkaar vergelijken. Het aanvaardingsgebied voor de eenzijdige t-toets is I2 ∞ tn1 1α . Als µ x, dan geldt, zoals in (4.56), µ x Xn x T D tn1 met D 0 Sn n Sn n
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK en dus geldt
110
PT I2 P T D ∞ tn1 1α D
zodat
β2 x 1 Ftn
Ft tn1 1α D
n 1
tn1 1α D (4.58) De situatie is weergegeven in figuur 4.7. In de linkerfiguur is x µ0 (en dus D 0) en in de rechter is x µ0 (en dus D 0). De gearceerde oppervlakte stelt 1 β2 x voor en f : tn1 1α . 1
69.15%
90%
90%
98.21% f
f+D
f-D f
Figuur 4.7: Kansdichtheid van de t-verdeling onder de nulhypothese met aanvaardingsgebied ∞ f
voor de eenzijdige t-toets. Het oppervlak onder de kromme tussen ∞ en f omvat 90% van de totale kansmassa. De aanvaardingsgebieden in het geval µ µ 0 dSn n12 zijn de intervallen ∞ f d . De gearceerde oppervlakken tussen ∞ en f d in de tekening omvatten 98.2% resp. 69.15% van de totale kansmassa. Uit de figuur zien we dat het oppervlak tussen ∞ en f d afneemt (naar 0) en tussen ∞ en f d toeneemt (naar 1) als d toeneemt.
Bijgevolg is lim β x∞ 2
x 1
en
lim β x∞ 2
x 0
De grafiek van β2 is geschetst in figuur 4.8: Voor x µ0 is de eenzijdige toets dus slechter dan de tweezijdige. Voor x µ0 is de tweezijdige toets slechter. 100%
macht van de toets als funktie van x
80% +
60% +
40% +
20% + niveau van de toets: 10%
0%
µ0
Figuur 4.8: De machtsfunctie β x voor de eenzijdige t-toets als functie van x (continue lijn). Ter vergelijking is de machtsfunctie voor de tweezijdige t-toets gestippeld ingetekend.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
111
Definitie 4.3.2 Indien voor een toets geldt dat β x α voor elke x, dan noemt men de toets zuiver. Indien er onder alle toetsen van niveau α een toets bestaat die machtiger is dan alle andere, dan noemt men deze een uniform machtigste toets (Eng. uniformly most powerful test of UMP). Indien er onder alle zuivere toetsten van niveau α een toets bestaat die machtiger is dan alle andere zuivere toetsen, dan noemen we deze een uniform machtigste zuivere toets (Eng. uniformly most powerful unbiased test of UMPU).
4.3.2 Voorbeeld 2: de paranormale begaafdheid Een circusartiest beweert te beschikken over een paranormale gave: onder meer beweert hij door zuivere concentratie een kansproces te kunnen be¨ınvloeden. Om dit te testen zet men volgend experiment op: men laat iemand uit 100 kaartspelen telkens een kaart trekken, waarbij aan de artiest gevraagd wordt om ervoor te zorgen dat er zoveel mogelijk rode kaarten (harten en ruiten) getrokken worden. Welke conclusie kunnen we trekken uit de uitslag van dit experiment? Schrijf X voor de stochastische variabele die het aantal rode kaarten aangeeft. Dan hebben we de volgende situatie: – Kansmodel: X B100 p; – nulhypothese: H0 : p 05; 05. – alternatieve hypothese: H1 : p Ons voorbeeld illustreert het feit dat de fout van de eerste soort veel belangrijker is dan die van de tweede soort: we kunnen het ons zeker niet veroorloven om ongegrond te besluiten dat onze artiest paranormale begaafdheden bezit (fout van de eerste soort). Concluderen dat hij niet paranormaal begaafd is, terwijl hij het toch is (fout van de tweede soort), vinden we minder erg. We leggen een significantieniveau vast, bijvoorbeeld α 10%, en stellen een betrouwbaarheidsinterval voor X op. Als de nulhypothese waar is, hebben we (onder aanname van deze nulhypothese): X B100 05 N 50 5 zodat, in benadering:
H0
X 50 N 0 1 5
We kunnen nu gemakkelijk berekenen dat
P X 50 8
P X 550
655 1 Φ13 01936 P X 550 755 1 Φ15 01336 P X 550 855 1 Φ17 00892
P X 50 7 P X 50 9
We nemen dus 42 58 als 10%-aanvaardingsgebied voor X. We bepalen nu de fout van de tweede soort. Veronderstel dat p x met 01 x 09 (voor de benadering van de binomiale door de normale). Dan geldt (bij benadering):
X B100 x N 100x en dus vinden we
P415 X
100x1 x
58 5100x
585 Φ
X 100x
zodat
100x1x
100x1 x
Φ 41 5100x
100x1x
N 0 1
We verkrijgen dus de volgende formule voor de machtsfunctie:
β x 1 Φ 58 5100x
100x1x
41 5100x
Φ
100x1x
Voor x 052 055 en 0.60 geeft dit bijvoorbeeld de volgende getalwaarden:
β 052 1 089 011
β 055 1 075 025
en
β 060 1 038 062
We zien, dat β snel toeneemt en dus dat de kans op een fout van de tweede soort snel afneemt, naarmate de x verder van de H0 -waarde 0.5 verwijderd is.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
112
4.4 De chi-kwadraat toets op een kansverdeling 4.4.1 De chi-kwadraat toets op een kansverdeling In 3.6-3.7 hebben we gezien, hoe we rijen uniform- en normaalverdeelde random getallen kunnen maken. In de histogrammen van de voorbeelden in figuur 3.12 en figuur 3.18 zien we echter een vrij grote fluctuatie in de resultaten. We stellen ons de vraag, of deze fluctuaties verklaard kunnen worden als gewone schommelingen van een eindige steekproef binnen ons kansmodel of niet. In tabel 3.1 staan de resultaten van het Rutherford-Geiger experiment. Hoe kunnen we ons ervan overtuigen, dat de Poissonverdeling hiervoor een goed model is? Voor een binomiale verdeling hebben we deze vraagstelling al eerder gezien. We herhalen: we gooien 100 maal met een munt en vinden 55 maal kop. Als de munt “eerlijk” is, wordt zijn gedrag beschreven door de stochastiek X B100 12 N 50 5, zodat de kans op een afwijking van 5 of meer van het verwachte aantal maal kop gegeven wordt door PX 50 5 PX 50 45 P
X 50 09 2Φ 09 03682 5
zodat we geen reden hebben om de nulhypothese, dat de munt eerlijk is, te verwerpen. In het algemeen kunnen we de volgende werkwijze volgen: Gegeven is een stochastische variabele Y . We postuleren voor de verdelingsfunctie FY een bepaalde functie F. We voeren dan het bij Y behorende experiment n maal op onafhankelijke wijze uit (we nemen dus een zogenaamde aselecte steekproef), en we bekomen n uitkomsten y1 yn voor n onafhankelijke stochastische variabelen Y1 Yn . De vraag die zich nu stelt is de volgende: Hoe goed passen de gegevens y1 yn bij de gepostuleerde verdelingsfunctie F? Om deze vraag te beantwoorden gaan we als volgt te werk: neem een partitie ∆ van : ∆ : ∞ ξ1 ξ2 ξk1 ∞ We verdelen dus in k disjunkte deelintervallen:
∆1 ∆2 ∆k1 ∆ k
∞ ξ1 ξ1 ξ2 (4.59)
ξk2 ξk1 ξk1 ∞
Voor i 1 k nemen we nu de stochastische variabelen Xi en de bijbehorende waarnemingen xi gedefinieerd door ! " en xi : # y1 yn ∆i (4.60) Xi : # j 1 n Y j ∆i Xi is dus het aantal keer dat de uitslag van het experiment in het interval ∆i ligt. Als de waarnemingen van Y verdeeld zijn volgens de gepostuleerde verdeling, dus als FY F, dan is de kans, dat een waarneming van Y in het interval ∆i ligt, gegeven door pi PY ∆i F ξi F ξi1 Het aantal waarnemingen Xi , dat in ∆i ligt, zal dus binomiaal verdeeld zijn met kans pi , Xi Bn pi en E Xi npi Om een idee te krijgen van de mogelijke statistische fluctuaties tussen de verdeling van de waarnemingen yi en de gepostuleerde verdeling, gaan we feitelijke aantallen xi in de verschillende deelintervallen vergelijken met de verwachte aantallen.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
113
Stelling 4.4.1 Met bovenstaande gegevens geldt voor elke x en vaste k: lim F n∞ Un
k
x Fχ x
waarbij
k
Æ
2 k 1
∑ Xi npi 2
Met andere woorden, voor n groot is
i1
vrijheidsgraden.
Un : ∑
Xi npi npi
i1
2
(4.61)
npi bij benadering chi-kwadraat verdeeld met k 1
Bewijs. We zullen deze eigenschap enkel bewijzen in het geval dat k 2. Merk op dat de Xi niet onafhankek
lijk zijn, aangezien ∑ Xi n. Dit is de reden waarom we k 1 vrijheidsgraden in de opgave van de stelling i1
hebben in plaats van k. Voor k 2 stellen we ξ1 ξ . We hebben dan X1 # j Y j ξ
X2 # j Y j ξ
Un
2
2
X1 np1 np1
X1 np1 n
X2 np2 np2
1 p1
2
p2 PY j ξ
;
X1 X2 n
We rekenen nu gemakkelijk uit, dat
p1 PY j ξ
;
p1 p2 1
;
2
2
X1 np1 np1
1 1 1 p npX1 1 np
p 1 1 1
2
n X1 1 p1 n n1 p1
Aangezien X1 binomiaal Bn p1 -verdeeld is, volgt uit de centrale-limietstelling, dat U n convergeert naar een standaard-normale verdeling, lim F U x Φx n∞
n
waarbij Φ de verdelingsfunctie van N 0 1 is. Met andere woorden, voor n groot is Un bij benadering chi-kwadraat verdeeld met 1 vrijheidsgraad; dit bewijst het gestelde voor k 2 . Als toepassing van de voorgaande eigenschap kunnen we nu de χ2 -toets opstellen. Schrijf FY voor de werkelijke verdelingsfunctie van Y , en F voor de gepostuleerde (theoretische) verdelingsfunctie. Stel
p(i : P Y ξi1 ξi
pi : F ξi F ξi1
FY ξi FY ξi1
De nulhypothese en de alternatieve hypothese worden nu de volgende:
H0 : p(i pi H1 : p(i pi
voor alle i 1 k
voor minstens e´ e´ n i i 1 k
Æ
Als de nulhypothese H0 waar is, dan is ∑ki1 Xi npi 2 npi χk21 . Dus hebben we de volgende beslissingsregel: De χ 2 -toets: Bereken de χ -waarde c van de gegevens, k
c : ∑
i1
xi npi npi
2
en beslis
c χk21 1α
c χk21 1α
H0 wordt aanvaard
H0 wordt verworpen
(4.62)
In feite gaat het hier om een benaderende toets; de benadering is alleen goed genoeg als n voldoend groot is. Als vuistregel kiezen we de voorwaarde npi 5. Als voor sommige klassen niet aan deze voorwaarde voldaan is, kunnen we dit proberen te verbeteren door klassen samen te voegen.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
114
Voorbeeld 4.4.2 In figuur 3.18 hebben we een histogram gegeven van 1000 random getallen, die uniform verdeeld (zouden moeten) zijn op 0 1. De getallen zijn verdeeld in 20 klassen met breedte 0.05. Onder de nulhypothese, dat de randomgetallen trekkingen zijn uit een uniforme verdeling op [0,1], is het verwachte aantal per klasse 50. De feitelijke aantallen per klasse waren in dit experiment 57 50 58 55 45 49 54 54 40 56 33 62 42 51 45 62 38 60 45 44 zodat de χ -waarde van het experiment gelijk is aan c 2608. Vanwege de verdeling in 20 klassen zijn er 19 2 vrijheidsgraden. We kiezen een significantieniveau van 5% en lezen in de tabel de waarde χ19 0 95 30144 af, zodat c in het aanvaardingsgebied 0 30144 ligt. De nulhypothese wordt dus aanvaard.
4.4.2 Toets op een verdeling met geschatte parameters Vaak zal het voorkomen, dat de gepostuleerde verdeling vrije parameters bevat (zoals de normale verdeling N µ σ of de Poissonverdeling Pλ ), die geschat moeten worden uit de data zelf. Iedere parameter cre¨eert een extra afhankelijkheid tussen de Xi, gedefinieerd in (4.60) en vermindert het aantal vrijheidsgraden van de χ 2 -verdeling met een eenheid. Voorbeeld 4.4.3 We meten de snelheid van 256 auto’s op een weg, en wensen na te gaan of de snelheid normaal verdeeld is. De metingen zijn samengevat in tabel 4.2. snelheidsklasse 30 – 40 40 – 45 45 – 50 50 – 55 55 – 60 60 – 70
klassemidden 35 42.5 47.5 52.5 57.5 65
aantal 24 48 65 72 29 18
Tabel 4.2: Uit dezetabel kunnen we een gemiddelde snelheid berekenen van v : 4916kmu en een standaarddeviatie s : 753 kmu . We willen nu verifi¨eren, of de gemeten snelheden normaal N µ σ -verdeeld zijn (eigenlijk “trekkingen uit een normale verdeling” zijn) met behulp van bovenstaande stelling, waarbij we de gemeten waarden voor gemiddelde v en standaardafwijking s als parameters gebruiken. Met deze waarden tabelleren we de gepostuleerde verdelingsfunctie F, F 40
Φ
F 45
Φ
F 50
F 55
F 60
40 4916 45 753 4916
01119
02903 753 50 4916 Φ 05444 55 753 4916 Φ 07810 753 60 4916 Φ 09250 753
en we stellen tabel 4.3 op: Een eenvoudige berekening levert nu de χ -waarde van de data: 6
c : ∑
i1
xi n p(i n p(i
2
47813
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK snelheidsklasse 30 – 40 40 – 45 45 – 50 50 – 55 55 – 60 60 – 70
klassemidden 35 42.5 47.5 52.5 57.5 65
115 aantal 24 48 65 72 29 18
p(i 0.1119 0.1784 0.2541 0.2366 0.1440 0.0750
n p(i 28.6 45.7 65.0 60.6 36.9 19.2
Tabel 4.3: Dit moet in het betrouwbaarheidsinterval liggen van een χ2 -verdeling met drie vrijheidsgraden; we hebben immers in 6 deelintervallen opgedeeld en we hebben twee parameters uit de data geschat zodat het aantal vrijheidsgraden 6 1 2 3 is. We kiezen een significantieniveau, bijvoorbeeld 5% en uit de tabellen lezen we dan af, dat χ32 0 95 7815 zodat het interval 0 7815 het aanvaardingsgebied is. Aangezien 4.17 in dit interval ligt, mogen we de nulhypothese H0 aanvaarden op niveau 5%. De overschrijdingskans, significantie of P-waarde voor dit voorbeeld is p PX 47813 01885 met X χ32 .
Voorbeeld 4.4.4 In tabel 3.1 hebben we het resultaat gezien van het klassieke Rutherford-Geiger experiment. We kunnen nu toetsen of deze waarnemingen inderdaad overeenkomen met een Poissonverdeling. De nulhypothese is dus, dat deze waarnemingen (onafhankelijke) trekkingen uit een Poisson-verdeelde stochastiek zijn met parameter λ . Uit de waarnemingen schatten we de parameter λ 387 d.m.v. het steekproefgemiddelde. Hiermee kunnen we de theoretische verdeling van kolom 3 berekenen. De χ -waarde van het experiment is c 12955 . Met een verdeling in 12 klassen en een geschatte parameter hebben we 12 1 1 10 vrijheidsgraden. We kiezen weer een significantieniveau van 5% en lezen in de tabel de 2 waarde χ10 0 95 1831 af, zodat c in het aanvaardingsgebied 0 1831 ligt. De nulhypothese wordt dus aanvaard.
4.4.3 Kruistabellen (Eng. Contingency tables of cross tabs) In de praktijk willen we vaak de onafhankelijkheid van twee binaire eigenschappen toetsen, zoals in het volgende voorbeeld. Aan een faculteit van de VUB studeren 300 mannelijke en 150 vrouwelijke studenten en het academisch personeel van die faculteit (licentiaat en hoger) omvat 100 personen, onder wie 20 vrouwen en 80 mannen, zoals uitgezet in tabel 4.4: man
Student Academ. Pers. Kolomsom Verhouding
vrouw
A 300
B 150
Nm 380
Nv 170
C 80
pm
Nm N
380 550
D 20
pv
Nv N
170 550
rijsom
Ns 450
Na 100 N 550
verhouding
ps
450 550 pa 100 550 Ns N Na N
Tabel 4.4: Deze getallen suggereren een wanverhouding tussen de aantallen mannelijke en vrouwelijke studenten en AP-leden, die je sociologisch zou kunnen interpreteren als “vrouwen hebben minder kans op een academische positie” maar ook als “vrouwen ambi¨eren in mindere mate een academische positie”. Met statistische methoden kun je deze interpretatieverschillen niet wegpraten. Wel kun je je neutraal afvragen, of beide eigenschappen onafhankelijk van elkaar zijn en de verhoudingsverschillen toe te schrijven zijn aan statistische fluctuaties. Uit de tabel schatten we de fracties mannen en vrouwen, pm en pv 1 pm , en de fracties studenten
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
116
en AP-leden, ps en pa 1 ps . We toetsen de nulhypothese H0 : De eigenschappen Man/Vrouw en Student/Acad.Personeel zijn onafhankelijk tegen het alternatief H1 : De eigenschappen Man/Vrouw en Student/Acad.Persononeel zijn wel afhankelijk op het niveau α (b.v. α 01). Onder de nulhypothese zou voor de aantallen in de verschillende groepen moeten gelden aantal mannelijke studenten aantal vrouwelijke studenten aantal mannelijke Acad.Pers. aantal vrouwelijke Acad.Pers.
: : : :
A N pm ps B N pv ps C N pm pa D N pv pa
en dus zou de kans dat een persoon uit de steekproef mannelijk en student is BN pm ps -verdeeld moeten zijn. Voor C etc. gelden dan overeenkomstige binomiale verdelingen. Met een χ2 -toets kunnen we dus toetsen of de data een trekking zijn uit deze verdeling. In de tabel hebben we vier gegevens waaruit we drie parameters, N, pm en pa schatten. Evenals hierboven houden we nog e´ e´ n vrijheidsgraad over en moeten dus een χ12 -toets doen. Stelling 4.4.5 Onder de nulhypothese convergeert de verdeling van ZN , ZN :
A N pm ps 2 C N pm pa 2 B N pv ps2 D N pv pa2 χ 2 N pm ps
N pm pa
N pv ps
N pv pa
1
naar een χ12 -verdeling met e´ e´ n vrijheidsgraad. Bewijs. Een strikt bewijs ligt buiten het bereik van deze syllabus. Wel kunnen we het resultaat acceptabel maken alsvolgt. De aantallen A , B , C en D zijn onderling afhankelijk en voldoen aan de relaties A B C D N
A C N pm
A B N ps
B D N pv N 1 pm
C D N pa N 1 ps Als we dit invullen in de expressie voor ZN , dan vinden we ZN
2 N p pA 1 N ppmps1 p m s m s
Het aantal A is volgens de aanname H0 binomiaal verdeeld met verwachtingswaarde N pm ps . Als N naar oneindig gaat, convergeert deze dus naar een normale verdeling. Het kwadraat A N pm ps 2 convergeert dan naar de χ12 -verdeling, als dit kwadraat correct geschaald wordt door deling door de variantie. Wegens afhankelijkheid tussen A, pm en ps mogen we hiervoor echter niet N pm ps 1 pm ps nemen, maar moeten we het kleinere bedrag N pm ps 1 pm 1 ps nemen. Met de cijfers van de tabel en het resultaat van deze stelling kunnen we de toets uitvoeren. We vinden Z550
2 300 380 450 550 6811 380 450 550
Het aanvaardingsgebied op het 5%-niveau is [0, 3.841] en op het 1%-niveau [0, 6.635]. We verwerpen de nulhypothese dus met een betrouwbaarheid van (meer dan) 99%; om precies te zijn, de overschrijdingskans of significantie is 0.0091 . Deze toets kan eenvoudig uitgebreid worden naar problemen met 3 of meer rijen en/of kolommen. Hiervoor verwijzen we naar de literatuur.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
117
4.5 De Kolmogorov-Smirnov Toets Gegeven metingen x1 x2 xn oftewel onafhankelijke trekkingen uit een (re¨ele) stochastische variabele X , dan kunnen we de empirische verdelingsfunctie Fn defini¨eren als
0 #xi x k n Fn x : n 1
als
x y1
als
yk x yk1
als
x yn
(4.63)
waarby y1 yn de gesorteerde data zijn. Als we aan de hand van de metingen willen toetsen, of de theoretische verdelingsfunctie van X gelijk is aan F, kunnen we de data indelen in klassen en vervolgens een χ2 –toets doen. Een elegante methode die rechtstreeks de grafieken van de empirische verdelingsfunctie Fn met de theoretische verdeling F vergelijkt, stamt van Kolmogorov en Smirnov.
1
n = 15 Kolmogorov-Smirnov Toetsgrootheid: 0.205
0.8
0.6
0.4
0.2
0 -2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
Figuur 4.9: De normale verdeling en de empirische verdelingsfunctie van 15 normaalverdeelde random getallen.
Zonder bewijs vermelden we: Stelling (Glivenko) lim max Fn x F x 0. n ∞
x
Het idee achter het bewijs is hetvolgende: Laten X1 X2 Xn onafhankelijke kopie¨en zijn, zodat de metingen x1 xn een realisatie zijn van X1 Xn . Bij iedere X j en iedere x defini¨eren we de stochastische variabele Wj (als functie van x) door Wj x 1 als X j x en W j x 0 als X j x . W j is dus voor iedere x een Bernoulli-experiment, Wj x B1 F x . Het gemiddelde is W n x :
1 n #Xi x W j x n j∑ n 1
met nW n x Bn F x
(4.64)
Het is duidelijk, dat Fn x een realisatie is van W n x bij de gegeven serie metingen. De verwachtingswaarde en variantie van Wn x zijn dus: E W n x F x
en
VarW n x
1 F x1 F x n
(4.65)
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
118
Kritische grenzen voor de Kolmogorov-Smirnov toets n
α
020
α 010
α 005
α 001
1 2 3 4 5 6 7 8 9 10 12 15 20 25 30 35 40 45
0.90 0.68 0.56 0.49 0.45 0.41 0.38 0.36 0.34 0.32 0.30 0.27 0.23 0.21 0.19 0.18 0.17 0.16
0.95 0.78 0.64 0.56 0.51 0.47 0.44 0.41 0.39 0.37 0.34 0.30 0.26 0.24 0.22 0.21 0.19 0.18
0.98 0.84 0.71 0.62 0.56 0.52 0.49 0.46 0.43 0.41 0.38 0.34 0.29 0.26 0.24 0.23 0.21 0.20
0.99 0.93 0.83 0.73 0.67 0.62 0.58 0.54 0.51 0.49 0.45 0.40 0.35 0.32 0.29 0.27 0.25 0.24
n groot
107 n
122 n
136 n
163 n
Tabel 4.5: Volgens de wet van de grote getallen geldt P W n x F x ε n1 ε 2 F x1 F x 0 als n ∞ Hieruit kunnen we concluderen, dat Fn x dus naar F x convergeert als n ∞ . De Kolmogorov-Smirnov toets test de nulhypothese of de verdelingsfunctie van X gelijk is aan F tegen het alternatief, dat dit niet het geval is. Daartoe wordt de toetsgrootheid dn bepaald door dn : max Fn x F x x
max
max F xk max k
k n
k
k1 n
F xk
(4.66)
We verwerpen de nulhypothese, als dn groter is dan de kritische waarde volgens de volgende tabel:
Een alternatieve methode is het maken van een p-p– of q-q–plot. In een p-p–plot worden de theoretische kansen PX yi uitgezet tegen ni 1 , dus tegen de fractie experimentele data links van yi . In een q-q–plot worden de theoretische quantielen uitgezet tegen de experimentele. Als de grafiek een goede benadering is van de rechte y x, dan zal de toetsgrootheid in de Kolmogorov-Smirnov-statistiek klein zijn en hebben we (in principe) een goede benadering.
Hoofdstuk 5
Correlatie- en regressieanalyse Algemeen wordt aangenomen, dat er een verband is tussen de lengte van ouders en die van hun (volwassen) kinderen. Om kwantitatieve resultaten betreffende dit verband te verkrijgen, bestudeerde F. Galton (18221911) (onder andere) de dataset uit de volgende tabel, waarin voor 205 ouderparen en hun 928 volwassen kinderen de aantallen kinderen in iedere lengteklasse zijn uitgezet tegen de lengte van hun ouders. Omdat mannen gemiddeld 8% groter zijn dan mannen is de lengte van vrouwen met 1.08 vermenigvuldigd. De lengte van de ouders is dan een gewogen gemiddelde van de lengten van de vader en de moeder, ouder-lengte : 12 vader-lengte 108 moeder-lengte
kinderlengte kleiner
157.0
159.5
162.0
164.5
167.0
169.5
172.0
174.5
177.0
179.5
182.0
184.5
groter
ouderlengte groter
0
0
0
0
0
0
0
0
0
0
0
1
3
0
182.5
0
0
0
0
0
0
0
1
2
1
2
7
2
4
180.0
0
0
0
0
1
3
4
3
5
10
4
9
2
2
177.5
1
0
1
0
1
1
3
12
18
14
7
4
3
3
175.0
0
0
1
16
4
17
27
20
33
25
20
11
4
5
172.5
1
0
7
11
16
25
31
34
48
21
18
4
3
0
170.0
0
3
5
14
15
36
38
28
38
19
11
4
0
0
167.5
0
3
3
5
2
17
17
14
13
4
0
0
0
0
165.0
1
0
9
5
7
11
11
7
7
5
2
1
0
0
162.5
1
1
4
4
1
5
5
0
2
0
0
0
0
0
kleiner
1
0
2
4
1
2
2
1
1
0
0
0
0
0
Tabel 5.1: Galton’s dataset. Bij iedere lengteklasse van ouders is het aantal kinderen per lengteklasse gegeven.
Uit tabel 5.1 en figuur 5.1 zien we, dat de lengteverdeling van de groep kinderen met dezelfde ouderlengte (rijen in de tabel) min of meer normaal is, en dat dit ook geldt voor de lengteverdeling van een groep ouders met kinderen van dezelfde lengte (kolommen in de tabel). Als we de gemiddelde lengte van de kinderen en de standaardafwijking daarin uitzetten tegen de lengte van hun ouders, krijgen we grafiek 5.2 als resultaat. Uit deze figuren zien we, dat de gemiddelde lengte van kinderen met ouders in dezelfde lengteklasse ongeveer op een rechte lijn liggen en dat de standaardafwijking in deze gemiddelden ongeveer constant is. De lengte van een ouderpaar en de lengte van een kind van dat paar zijn stochastische variabelen, die kennelijk niet onafhankelijk zijn. Laten we ze aanduiden met Xi resp. Yi , dan vermoeden we op grond 119
HOOFDSTUK 5. CORRELATIE- EN REGRESSIEANALYSE rij 7
40
30
20
20
10
10
160
kolom 8
40
30
0 150
120
170
180
0 150
190
160
170
180
190
Figuur 5.1: Rij 7 en kolom 8 van bovenstaande tabel getekend als histogram.
180 o
170
o
o
o
o
o
o
o
o
4
o
2
o
o
160
o
o
o
o o
o
o
6
o
160
170
0
180
160
170
180
Figuur 5.2: De gemiddelde kinderlengte (links) en de standaardafwijking (rechts) als functie van de ouderlengte.
van figuur 5.2 een verband tussen x en de voorwaardelijke kansverdeling voor PY X
& ' E Yi Xi x a bx
x van de vorm: (5.1)
en we vragen ons af, hoe we a en b zouden kunnen schatten. Aangezien de variantie onafhankelijk van x lijkt, ligt het voor de hand om te proberen dit zo te doen, dat (een veelvoud van) de totale steekproefvariantie n
∑
i1
&
Yi E Yi Xi xi
'2
n
∑ Yi a bxi2 i1
(5.2)
minimaal is. In de praktijk hebben we n koppels metingen xi yi i 1 n, waartussen een lineair verband wordt vermoed: yi a bxi en leidt dit dus tot zoeken van de parameters a b die (een veelvoud van) de empirische variantie ∑ni1 yi a bxi 2 minimaliseren. Merk op dat het minimaliseren van deze som van kwadraten overeenkomt met het maximaliseren van de logaritme van de likelihoodfunctie onder de aannname van normaliteit, zie (4.6). Meetkundig is dit de som van de kwadraten van de afstanden van de punten xi yi tot de rechte a bx gemeten langs de Y -as. De best passende rechte a bx wordt vaak de “regressierechte” genoemd met “intercept” a en helling b. In figuur 5.2 merken we op dat de gemiddelde lengte van kinderen van grote ouders kleiner is dan de lengte van de ouders, terwijl de gemiddelde lengte van kinderen met kleine ouders juist groter is. Dit verschijnsel, dat het gemiddelde van een deelgroep terug schuift naar het algemene gemiddelde van de populatie, werd door Galton “regressie” genoemd. Als we precies zijn noemen we dit regressie van Y op X, waarbij X als de onafhankelijke en Y als de afhankelijke variabele wordt gezien. We kunnen het probleem natuurlijk ook omdraaien en de regressie van X op Y zoeken, d.w.z. een verband zoeken van de vorm & ' (5.3) E Xi Yi y c dy
HOOFDSTUK 5. CORRELATIE- EN REGRESSIEANALYSE
121
Hierbij minimaliseren we ook (een veelvoud van) de totale steekproefvariantie n
∑ Xi c dyi2
(5.4)
i1
Dit zal niet het inverse resultaat geven van (5.1-5.2), omdat we voor (5.2) de som van kwadraten van de afstanden van de punten xi yi tot de lijn a bx meten langs de Y -as, terwijl we voor (5.4) de afstanden meten langs de X-as.
5.1 Kleinste-kwadratenproblemen (Eng. least squares, Fr. moindres carr´es) Problemen van de vorm (5.1-5.3) worden in het algemeen kleinste-kwadratenproblemen genoemd. Hierbij zijn n koppels metingen xi yi i 1 n gegeven, die zouden moeten voldoen aan het lineaire verband yi a bxi (voor regressie op x). Tengevolge meetfouten en/of variabiliteit van het specimen zullen de data echter afwijkingen van het ideaal vertonen. We proberen daarom parameters a en b te vinden die de som van de kwadraten van de afwijkingen J a b minimaliseert: n
J a b : ∑ yi a bxi 2
(5.5)
i1
M.a.w. vindt de parameters a b zodat
J a b J a b
a b 2
(5.6)
Er zijn naast het bovenbeschreven voorbeeld vele andere voorbeelden te geven, die als een kleinste-kwadratenprobleem geformuleerd kunnen worden, zoals:
x
i
:
yi :
x
spanning over een weerstand
i
stroom door die weerstand
:
yi :
luchttemperatuur geluidsfrequentie van een krekel
De eenvoudigste oplosmethode voor (5.6) gaat via de normaalvergelijkingen . J is een som van kwadraten en dus altijd positief. Als J een minimum heeft in a b, dan zijn de parti¨ele afgeleiden er nul: J a b minimaal zodat
∂J a b ∂a
∂J a b ∂b We vinden zo het stelsel vergelijkingen
∂J ∂a
0
en
∑ni1 2yi a bxi
∂J ∂b
0
∑ni1 2xi yi a bxi 0
b ∑ni1 xi
∑ni1 yi
a ∑ni1 xi
b ∑ni1 x2i
∑ni1 xi yi
n
∑ni1 xi
(5.7)
0
an
In matrix-vector vorm geschreven is dit
∑ni1 xi
a
∑ni1 x2i
b
∑ni1 yi ∑ni1 yi xi
(5.8)
HOOFDSTUK 5. CORRELATIE- EN REGRESSIEANALYSE met als oplossing:
a b
1
n ∑i x2i ∑i xi
2
122
∑i xi
∑i x2i
∑i xi
∑i yi
(5.9)
∑i yi xi
n
Deze formules voor de berekening van ab zijn potentieel gevaarlijk wegens numerieke instabiliteit als het gemiddelde x : 1n ∑i xi groot is t.o.v. de spreiding sx in xi , s2x :
1 xi x2 n 1 1 n 1 ∑ i
∑ x2i nx2
i
en hetzelfde voor het gemiddelde van yi en de spreiding daarin. De reden is dat bij de aftrekking
∑ x2i
nx2
groot cijferverlies kan ontstaan als beide operanden van ongeveer gelijke grootte zijn. Dezelfde opmerking is ook al gemaakt in 1.2 bij de bespreking van formule (1.5).
5.2 Meetkundige interpretatie We kunnen de vectoren
x 1 x 2 x : . ..
y 1 y 2 y : . ..
xn
en
1 1 e : . .. 1
yn
als vectoren in beschouwen. De som van kwadraten n
n
J a b ∑ yi a bxi 2 i1
is dan precies het kwadraat van de (Euclidische) lengte van de verschilvector
a
y ae bx y A
1 1 A : . ..
waarbij A een n 2-matrix is,
a
De lengte van de verschilvector y A A; d.w.z.:
b
1
x1
n2
xn
is minimaal als deze loodrecht staat op de beeldruimte ImA van
a
y A ofwel, met als notatie voor het inprodukt,
x2 .. .
b
w y A
b
a b
vecte x
0
w ImA
HOOFDSTUK 5. CORRELATIE- EN REGRESSIEANALYSE Aangezien ImA A z z 2 geldt dus
Az y A
a b
0
123
z 2
We mogen A getransponeerd naar de andere zijde van het inprodukt overbrengen, zodat
z A y A A T
T
a b
0
z 2
en zo vinden we opnieuw de normaalvergelijkingen van (5.8): T
A A
a b
AT y
(5.10)
Dit heten a de normaalvergelijkingen behorende bij het kleinste-kwadratenprobleem (5.6) omdat het residu y A b normaal is (= loodrecht staat) op ImA.
5.3 Verbetering van de numerieke stabiliteit Zoals gezegd kan de berekening van a en b met behulp van de normaalvergelijkingen tot desastreuze resultaten leiden t.g.v. numerieke instabiliteit van de formules. In een kleinste-kwadratenprobleem met twee variabelen is dit eenvoudig te voorkomen door de data te verschuiven zodat hun gemiddelde nul is: In plaats van het model yi a bxi werken we beter met het model yi y α β xi x
y :
1 yi n∑ i
x :
1 xi n∑ i
(5.11)
In dit geval moeten we de functie n
J α β :
∑ yi y α β xi x2
i1
minimaliseren, hetgeen zoals boven leidt tot de normaalvergelijkingen
n 0
zodat
0 ∑ni1 xi x2
α 0
α β
en
β
0 ∑ni1 xi xyi y
n ∑i∑1 nxi xx yxi 2 y i1
(5.12)
(5.13)
i
Met de volgende meetkundige interpretatie kunnen we aanemelijk maken, waarom dit beter is. In plaats van de basis e x hebben we in ImA de orthogonale basis
e x xe
x1 x 1
x x 1 2 : . . .. .. 1 x x n
gekozen. Dit maakt de berekening van de projektie niet alleen gemakkelijker, maar ook nauwkeuriger. Bovendien staat de vector y ye loodrecht op e zodat het probleem tot e´ e´ n dimensie is teruggebracht.
HOOFDSTUK 5. CORRELATIE- EN REGRESSIEANALYSE
124
Regressie van x op y: Merk op, dat we voor de regressie van x op y, waarbij we ∑i xi x γ δ yi y2 minimaliseren, het analoge resultaat vinden: ∑n x xyi y γ 0 en δ i1 n i ∑i1 yi y2
Hieruit zien we, dat de richtingsco¨effici¨enten β en δ niet elkaars inversen zijn, maar dat voor hun produkt geldt β δ ρ 2 , waar ρ de empirische correlatieco¨effici¨ent is (zie (2.68)). Als de correlatie nul is, valt er dus geen regressierechte te trekken, en als de correlatie 1 is, liggen alle punten precies op deze rechte. In het algemene geval van een lineair kleinste-kwadratenprobleem voor een gegeven matrix A mn en een rechterlid b m met m n zoeken we een vector x zodat Ax b22 Ax b22 x n
(5.14)
De normaalvergelijkingen hebben opnieuw de vorm (5.10) maar zijn potentieel niet numeriek stabiel. Beter is het om een QR-ontbinding van A te maken; dit is een ontbinding van A in een produkt van een orthogonale matrix Q en een bovendriehoeksmatrix R, zodat A QR. De oplossing kan dan eenvoudig berekend worden uit de vergelijking Rx QT b. Voor details verwijzen we naar een standaard inleidend boek over Numerieke Analyse (b.v. dat van Bulirsch & Stoer).
5.4 Een stochastisch model met e´ e´ n onafhankelijke variabele Voor metingen maken we vaak het model Y
a bx ε
met
ε N 0 σ
(5.15)
waarin ε een random fout (meetfout of variatie in het specimen) representeert. Als we n onafhankelijke metingen doen van de grootheid Y voor n verschillende waarden van x om de parameters a en b te schatten, dan is de volgende stelling van toepassing; we vermelden deze zonder bewijs.
Stelling 5.4.1 Laten Y1 Y2 Yn met Yi N a bxi σ onafhankelijke stochastieken zijn voor gegeven waarden van x1 xn , dan geldt: 1. De schatters A, B en S, gedefinieerd door A : Y Bx ∑ni1 xi xYi Y B : ∑ni1 xi x2 n 1 Y A Bxi2 S2 : ∑ n 2 i1 i
(5.16)
zijn zuivere (unbiased) schatters voor a, b en σ2 ; Y B en S2 zijn onderling onafhankelijk.
2. A en B zijn normaal verdeeld met verwachtingswaarden E A a en E B b en met varianties VarB 3. De variabele 4. De variabele
n 2S2 is χ 2 σ2
n2
σ2 ∑ni1 xi x2
VarA
σ 2 ∑ni1 x2i n ∑ni1 xi x2
(5.17)
verdeeld met n 2 vrijheidsgraden.
B b T :
is student-tn2 verdeeld met n 2 vrijheidsgraden.
∑ni1 xi x2 S
(5.18)
HOOFDSTUK 5. CORRELATIE- EN REGRESSIEANALYSE
125
We merken op, dat A en B precies de schatters voor de kleinste-kwadratenoplossingen (5.9) of (5.13) zijn. Formule (5.18) stelt ons in staat om betrouwbaarheidsintervallen op te geven rond de kleinste-kwadratenschatting. Als we op grond van een serie metingen een schatting s vinden van de standaardafwijking en bx berekenen, dan is het betrouwbaarheidsinterval rond y( op het de kleinste-kwadratenoplossing y( : a( ( niveau α (met betrouwbaarheid 1 α ) gegeven door
y( w y( w
met
w : tn2 1 1 α s
# 1
x x2 n ∑ni1 xi x2
2
(5.19)
Voor x 0 staat hier dus het betrouwbaarheidsinterval rond het intercept a(. Om te toetsen, of het intercept nul is op het niveau α hoeven we dus slechts te onderzoeken of 0 in dit BI interval ligt. b construeren en een Met behulp van formule (5.18) kunnen we ook een betrouwbaarheidsinterval rond( t-toets maken om te zien of de helling significant is. Het BI op niveau α is:
(b wb (b wb
met
wb :
t
nn 2 1
s
1 2α
∑i1 xi x2
(5.20)
Tenslotte kan het interessant zijn, te weten hoe groot het interval rond y( is waarbinnen een volgende (onafhankelijke) waarneming yx met kans 1 α gaat vallen. Dit noemen we het “prediction interval”. De waarneming is een trekking uit de stochast Y x, die onafhankelijk is van Y1 Yn . We schatten Y x met de schatter A Bx. Deze schatter is zuiver, want E Y x A B x E Y x E A B x 0 Voor de variantie vinden we: VarY x A B x VarY x VarY VarB x x σ We vinden zo het (grotere) prediction interval
y( w pr y( w pr
met
w pr : tn2 1 1 α s
Hierbij is s de schatting (de gemeten waarde) van σ .
2
#
2
1 x x2 1 n n ∑i1 xi x2
1 x x2 1 n n ∑i1 xi x2
(5.21)
6. Oefeningen Reeks 1 1.1: Veel diersoorten worden bedreigd, zo ook de walvis. Regelmatig worden er uitermate moeilijke en daarom ook niet geheel betrouwbare tellingen uitgevoerd. Dit leverde de volgende tabel op voor 7 soorten walvissen, gemeten in 1980. Daarnaast zijn er ruwe schattingen over de oorspronkelijke aantallen walvissen: soort walvis gemid. lengte freq. in 1980 oorspr. freq. volw. walvis (geschat) gewone vinvis 28.0 145000 428000 noordse vinvis 20.0 175000 210000 blauwe vinvis 34.0 11000 156000 dwergwalvis 23.0 9000 7500 bultrug 18.0 6300 110000 grijze walvis 11.5 11000 20000 dwergvinvis 15.5 150000 150000 a. Bepaal aan de hand van de kolom “gemiddelde lengte van volwassen walvissen” het gemiddelde, de modus, de mediaan, de variantie en de standaardafwijking van de gemiddelde lengte van 7 volwassen walvissen, van ieder soort e´ e´ n. b. Bepaal het “gewogen gemiddelde” van de lengten van volwassen walvissen in 1980, als we er van uitgaan dat voor alle soorten het percentage volwassen dieren hetzelfde was. c. Sorteer de gegevens in oplopende oorspronkelijke frequentie. Maak kolomdiagrammen van de oorspronkelijke frequentie en van de frequentie in 1980 en vergelijk deze met elkaar. Welke walvissoort is het sterkst in aantal verminderd? Vergelijk daarna de kolom diagrammen van de relatieve frequenties, oorspronkelijk en in 1980, met elkaar. Welke conclusies trek je hieruit? d. Maak een nieuwe kolom met de verschilfrequentie: (oorspronkelijke frequentie - frequentie 1980). Bepaal van deze verschil frequentie het gemiddelde en de variantie. Wat is het verband tussen het gemiddelde van de verschilfrequentie en de gemiddelden van de oorspronkelijke frequentie en de frequentie in 1980? Wat is het verband tussen de variantie van de verschilfrequentie en de varianties van de oorspronkelijke frequentie en de frequentie in 1980? 1.2: Men heeft een steekproef van 53 metingen van het stikstofgehalte van een bepaalde soort kunstmest. Het stikstofgehalte is uitgedrukt in gewichtsprocenten; de gegevens zijn afgerond op tienden van gewichtsprocenten: 15.7 17.5 16.4 17.5 17.9 17.0 16.8 19.2 18.3
17.0 16.5 18.0 15.9 17.7 15.6 17.5 17.6 17.4
18.6 18.3 17.4 16.1 16.5 17.7 16.7 16.6 15.8
17.9 18.0 16.7 16.9 16.8 15.5 18.5 16.2 17.1
17.2 18.2 16.3 17.2 17.5 17.1 18.9 16.8 17.3
16.1 18.0 17.0 17.3 17.5 17.4 16.9 18.1
a. Bepaal aan de hand van deze steekproef het gemiddelde stikstofgehalte van de kunstmest, de modus, de mediaan en de standaardafwijking. b. Selecteer de waarnemingen met een stikstofgehalte van 18 gewichts% en hoger en bepaal hiervan gemiddelde en standaardafwijking. c. Maak van de 53 waarnemingen een frequentietabel met 13 klassen, maak een bijbehorend histogram en een bijbehorende cumulatieve verdelingsfunktie. Bekijk hoe de keuze van het aantal klassen, de klassebreedte en de begin- en eindwaarden van de klassen van invloed zijn op het histogram. d. Maak een empirische verdelingsfunktie van deze 53 metingen. 126
6. Oefeningen , Reeks 1
127
e. Ga er nu vanuit dat deze metingen gedaan zijn aan twee weinig van elkaar verschillende typen kunstmest, type A en type B. De even metingen (meting 2, 4, 6,) behoren bij type A, de oneven metingen (meting 1, 3, 5,) horen bij type B. Bepaal het gemiddelde stikstofgehalte en de variantie van kunstmest A, evenzo van kunstmest B. Teken ook een box-plot voor beide groepen. 1.3: Van 200 monsters van een meststof is het stikstofgehalte gemeten, de resultaten zijn opgenomen in onderstaande frequentietabel. Bereken hieruit het gemiddelde, de modus, de mediaan en de standaardafwijking van het stikstofgehalte. Maak een histogram van deze gegevens. N-gehalte in % aantal monsters ] 15.5 – 16.5 ] 6 ] 16.5 – 17.5 ] 16 ] 17.5 – 18.5 ] 22 ] 18.5 – 19.5 ] 38 ] 19.5 – 20.5 ] 44 ] 20.5 – 21.5 ] 30 ] 21.5 – 22.5 ] 18 ] 22.5 – 23.5 ] 12 ] 23.5 – 24.5 ] 8 ] 24.5 – 25.5 ] 6 1.4: De voorlopige eindcijfers voor statistiek in juni 1996 waren de volgende: 9 15 6 14 17 8 14 13
a. b. c. d. e.
18 15 8 12 8 15 15 14
18 17 14 11 7 13 12 13
13 18 13 9 7 12 7 3
18 4 12 6 6 11 14 6
17 16 11 19 16 5 9 11
6 11 13 15 13 7 10 9
10 7 13 16 10 13 4 7
7 15 10 3 7 9 7 7
7 16 15 6 13 13 11 18
12 7 1 15 13 7 16 13
Bepaal gemiddelde, mediaan en modus. Bepaal spreiding, interkwartiel en MAD. Bepaal de 10%- en 90%-percentielen. Teken een histogram met klassemiddens 1.5, 3.5, 5.5, etc. en klassebreedte 2. Teken een box-plot voor deze data.
1.5: Bij het bekende experiment van Rutherford en Geiger betreffende radioactief verval uit de begindagen van de studie van radioactiviteit werd gedurende 2608 tijdsintervallen van 8 minuten het aantal desintegraties geteld in een stukje radioactief polonium (zie syllabus, hoofdstuk 13). De gegevens zijn hieronder overgenomen. Bepaal het gemiddelde aantal desintegraties per tijdsinterval van 8 minuten en bepaal de spreiding ervan. aantal α -deeltjes per tijdsinterval van 8 min 0 1 2 3 4 5 6 7 8 9 10 11
waargenomen aantal tijdsintervallen 57 203 383 525 532 408 273 139 45 27 10 6
6. Oefeningen , Reeks 1 nummer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
tot.lengte 155 156 160 152 160 155 157 165 153 162 162 159 159 155 162 152 159 155 163 163 156 159 161 155 162 153 162 164 156 154 153 153 155 163 157 155 164 158 158 160 161 157 157 156 158 153 155 163 159
128 spanwijdte 240 240 242 232 250 237 245 245 231 239 243 245 247 243 252 230 242 238 249 242 237 238 245 235 247 237 245 248 245 240 240 236 243 247 238 239 248 238 240 244 246 245 235 237 244 238 236 246 236
kop+bek 31.4 31.5 32.6 30.3 31.7 31.0 32.2 33.1 30.1 30.3 31.6 31.8 30.8 30.9 31.9 30.4 30.8 31.2 33.4 31.0 31.7 31.5 32.1 30.7 31.9 30.6 32.5 32.3 31.6 30.4 31.0 30.9 31.5 32.0 30.9 32.8 32.7 31.0 31.1 31.1 32.3 32.0 31.5 30.9 31.4 30.5 30.3 32.5 31.5
humerus 18.0 18.2 18.8 17.2 18.8 18.5 19.5 19.8 17.3 18.0 18.8 18.5 18.1 18.5 19.1 17.3 18.2 17.9 19.5 18.1 18.2 18.4 19.1 17.7 19.1 18.6 18.5 18.8 18.5 17.9 18.4 17.7 18.6 19.0 18.4 18.6 19.1 18.8 18.6 18.6 19.3 19.1 18.1 18.0 18.5 18.2 18.5 18.6 18.0
sternum 20.7 20.6 21.7 19.8 22.5 20.0 21.4 22.7 19.8 23.1 21.3 21.7 19.0 21.3 22.2 18.6 20.5 19.3 22.8 10.7 20.3 20.3 20.8 19.6 20.4 20.4 21.1 20.9 20.5 19.6 20.6 20.2 20.3 20.9 20.2 21.2 21.1 22.0 22.0 20.5 21.8 20.0 19.8 20.3 21.6 20.9 20.1 21.9 21.5
toestand dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood dood levend levend levend levend levend levend levend levend levend levend levend levend levend levend levend levend levend levend levend levend levend
1.6: Een bekende historische dataset uit de biologie is de verzameling metingen van Bumpus van lichaamskarakteristieken van een aantal dood gevonden en levend gevangen (volwassen) mussen uit 1898. Neem deze data over in een Statview-, SPSS- of Excelfile (zie voor datafiles). a. Bepaal het steekproefgemiddelde en de spreiding (standaarddeviatie) in de vijf gemeten grootheden. b. Bepaal de modus, de mediaan en het interkwartiel van de kolommen “totale lengte” en “spanwijdte” en maak boxplots van beide datasets. Geef nauwkeurig de afmetingen van de verschillende elementen van deze boxplots aan.
6. Oefeningen , Reeks 1
129
c. Maak histogrammen van de vijf grootheden; gebruik 9 deelintervallen. d. Uit het histogram van de sternumlengten zien we dat er een sterk afwijkende meting is. Het lijkt waarschijnlijk dat dit een meet- of typefout is. Verwijder deze meting en bepaal opnieuw het gemiddelde, de mediaan, de spreiding en het interkwartiel. Welke van deze grootheden zijn veel en welke nauwelijks veranderd? e. Maak een gewogen gemiddelde van de vijf kolommen, waarbij iedere kolom wordt gewogen met het inverse van zijn gemiddelde, en bepaal opnieuw het gemiddelde, de mediaan, de spreiding en het interkwartiel. f. Maak de covariantie- en de correlatiematrix van deze dataset.
1.7: Gegeven zijn de vijf “metingen” 1 2 3 4 5 van de grootheid X; dus xk k k 1 5. a. Bepaal het gemiddelde x en de standaardafwijking sx , de mediaan mx en het interkwartiel Ix . b. We transformeren deze data met de functie f x : x2 , zodat yk k2 k 1 5. Bepaal het gemiddelde y en de standaardafwijking sy en vergelijk deze met f x en sx f x , en vergelijk dit met de formules (1.15–17) in de syllabus. c. doe hetzelfde met de mediaan my en het interkwartiel Iy . Herhaal deze berekeningen met de data 28 29 30 31 32. Wat is het verschil met de vorige dataset? 1.8:
In een steekproef van 20 onafhankelijke waarnemingen van X vinden we de volgende waarden: 4 5 8 0 1 5 7 0 4 1 4 7 6 9 8 5 1 7 4 3
Bepaal de modus en de mediaan en teken een Boxplot van deze data. Geef nauwkeurig de afmetingen van de verschillende elementen van deze boxplot aan.
1.9: Gegeven zijn n metingen x1 xn en yi : f xi i 1 n voor een gegeven gladde functie f. Bewijs dat de mediaan medx de functie g ∑ni1 xi g minimaliseert. Bepaal vervolgens (zie syllabus formule 1.18) voorwaarden waaronder geldt f medx medy en f medx n 1 n yi f medx ∑ ∑ xi medx n i1 n i1
6. Oefeningen , Reeks 2
130
Reeks 2 2.1: Voor de gebeurtenissen A en B is gegeven PA 34 en PB 45 . Bepaal, indien mogelijk, PA B als verder gegeven is: a. A en B zijn onafhankelijk, b. PA B 35 , c. PA B 12 , d. PB A 13 . 2.2: In doos een zitten negen witte knikkers en een rode en in doos twee zitten vijf rode en twee witte. Als je willekeurig een doos neemt en hieruit ongezien een knikker pakt, a. wat is dan de kans op een witte knikker? b. wat is de kans dat deze witte knikker uit doos een kwam? 2.3: Bij het klaverjassen wordt met 4 spelers gespeeld. Je hebt een vaste maat, die tegenover je zit. Alleen de kaarten 7 8 9 10 B V H A worden in het spel gebruikt. De overige worden geschud en op een apart stapeltje gelegd. Bij ieder nieuw spel wordt de bovenste kaart van dit stapeltje genomen (zonder teruglegging) en bepaalt deze de troefkleur. a. Wat is dan de kans dat een speler hartenboer en hartenaas krijgt? b. Wat is de kans dat harten troef is in het derde spel, als dit ook in de eerste twee spelen het geval was? c. Wat is de kans dat mijn maat geen troef heeft als ik er zelf vier heb? 2.4: Ik heb twee stukken van 2 Euro op zak en gooi met een ervan. Deze laat de muntzijde zien. Een grapjas heeft echter (zonder dat ik dat gezien heb) op een van de munten de afbeelding van Albert vervangen door de 2 Euro afbeelding. a. Bepaal de kans dat de onderzijde van deze munt de beeldenaar van Albert laat zien. b. Ik gooi een tweede maal met dezelfde munt en zie opnieuw de muntzijde. Wat is nu de kans dat met de betreffende munt niet geknoeid is. 2.5: We gooien met een rode en een groene dobbelsteen (tegelijk) en we defini¨eren de gebeurtenissen A, B, en C door: a. A : De rode steen is oneven, b. B : De groene steen is oneven, c. C : De som van de rode en groene steen is oneven. Laat zien dat deze drie gebeurtenissen twee aan twee onafhankelijk zijn, maar dat A, B en C niet gedrie¨en onafhankelijk zijn (dat de derde afhankelijk is van de andere twee) 2.6: Een televisiepresentatrice doet tijdens een show een spel. Zij werpt tweemaal met een “eerlijke” munt, maar houdt het resultaat verborgen. Zij vertelt slechts, dat de uitslag minstens eenmaal “kop” was en laat iemand uit het publiek (zeg Louis) raden wat de uitslag van de andere munt was. a. Wat kan Louis het beste antwoorden en waarom? (d.w.z. bereken de kans, dat het antwoord “kop” resp. “munt” juist is) b. Wat is de kans op een goed antwoord, als zij bovendien vertelt dat het resultaat “kop” in de tweede beurt werd gegooid? 2.7: Een massieve kubus, gemaakt van een wit materiaal, wordt aan de buitenkant volledig zwart geschilderd en daarna in 4 4 4 kubusjes van gelijke grootte gesneden. Deze 64 kubusjes worden grondig gemengd. Bereken de kans dat een lukraak gekozen kubusje juist 2 zwarte vlakjes heeft. 2.8: Men heeft 2 dobbelstenen, een rode en een blauwe. Bereken als men e´ e´ nmaal gooit met deze twee dobbelstenen de volgende kansen: a. b. c. d.
P(2 e´ nen) P(minstens 1 e´ e´ n) P(rode steen een 1 of blauwe steen een 6) P(rode steen een 1 of som van de ogen van beide stenen is 5)
6. Oefeningen , Reeks 2
131
e. P(rode steen een 1 som van de ogen van beide stenen is 6) f. P(rode steen een 1 en som van de ogen is 5) 2.9:
We bekijken het volgende electrische schema: b1 M
a
b2
N
b3
A is de gebeurtenis dat het element a geen stroom doorlaat. Bi is de gebeurtenis dat het element bi geen stroom doorlaat, (i 1, 2 of 3). De kans op gebeurtenis A is PA 02 en de kans op gebeurtenis Bi is PBi i4 (i 1, 2 of 3); de gebeurtenissen A en Bi zijn stochastisch onafhankelijk. a. Bereken de kans dat er geen stroom loopt tussen M en N. b. Bereken de kans dat er minstens langs e´ e´ n weg stroom loopt van M naar N. 2.10: Gegeven zijn 3 gebeurtenissen A, B en C. Vindt uitdrukkingen in termen van de verzamelingen (gebeurtenissen) A, B en C en de operatoren , en complement voor het geval dat: a. alleen A optreedt b. A en B, maar niet C optreden c. A, B en C optreden d. tenminste e´ e´ n van de drie optreedt e. tenminste twee van de drie optreden f. geen enkele van de drie optreedt g. precies e´ e´ n van de drie optreedt h. niet meer dan twee optreden. 2.11: Laat Ω de uitkomstenruimte zijn van een experiment en laten A en B Ω twee gebeurtenissen zijn. a. Wanneer zijn A en B onafhankelijk? b. Bewijs dat onafhankelijkheid van A en B eveneens onafhankelijkheid van Ac en Bc impliceert. 2.12: Een onderzoeker test mensen op kleurenblindheid door ze een aantal kaartjes, alle verschillend van kleur, in even zoveel doosjes te laten stoppen. Bij elk kaartje hoort precies e´ e´ n doosje van dezelfde kleur. De onderzoeker verklaart iemand kleurenblind als hij niet ieder kaartje in het bijbehorende doosje gestopt heeft. De veronderstelling van de onderzoeker hierbij is dat iemand die kleurenblind is elk kaartje aselect in e´ e´ n van de nog lege doosjes zal stoppen. a. Het experiment wordt met drie doosjes uitgevoerd. Hoe groot is de kans dat, onder de veronderstelling van de onderzoeker, een kleurenblinde elk kaartje in het juiste doosje zal doen en dus niet als kleurenblinde herkend zal worden. b. Hoe groot moet het aantal doosjes minstens zijn om de kans dat een kleurenblinde niet als zodanig herkend wordt, kleiner dan 1% te laten zijn? c. Als we er van uitgaan dat 1% van de mensen kleurenblind is, hoe groot moet de kleinst mogelijke steekproef dan zijn, opdat de kans dat deze minstens e´ e´ n kleurenblinde bevat groter of gelijk is aan 0.95? 2.13: Iedere boerenzwaluw komt gewoonlijk naar dezelfde plaats terug en gebruikt vaak het nest van het vorig jaar. De kans dat beide ouders echter zowel de najaars- als de voorjaarstrek overleven is slechts´ee´ n op vijf. Als we aannemen dat de voorjaarstrek en de najaarstrek verhoudingsgewijs evenveel slachtoffers kosten, en dat het overleven van de voorjaarstrek en het overleven van de najaarstrek onafhankelijke gebeurtenissen zijn, hoe groot is dan het percentage boerenzwaluwen dat e´ e´ n trek overleeft? 2.14: Is de kans om met e´ e´ n dobbelsteen in 6 worpen precies e´ e´ n zes te gooien even groot als de kans om in 12 worpen precies twee zessen te gooien? 2.15:
In de veronderstelling dat er evenveel meisjes als jongens geboren worden, bereken de kans dat in
6. Oefeningen , Reeks 2
132
een gezin van 5 kinderen a. alle kinderen van hetzelfde geslacht zijn, b. de 3 oudsten jongens en de 2 jongsten meisjes zijn, c. er 3 jongens en 2 meisjes zijn. 2.16: In het stroomgebied van een rivier bevinden zich twee potpolders R1 en R2 , die bij een hoge waterstand onder water kunnen komen te staan. Laat A de gebeurtenis zijn dat R1 onder water komt te staan en laat B de gebeurtenis zijn dat R2 onder water komt te staan in een bepaald jaar. Gegeven zijn de volgende kansen: PA 020 en PB 015; de kans dat R1 en R2 beide overstromen in eenzelfde jaar is 0.08. Er wordt verondersteld dat overstromingen in opeenvolgende jaren onafhankelijke gebeurtenissen zijn. a. Bereken de kans dat er in een bepaald jaar slechts e´ e´ n potpolder onder water komt te staan. b. Bereken de kans op een jaar zonder overstromingen. c. Bereken de kans dat wanneer er een overstroming optreedt in R2 er eveneens in datzelfde jaar een overstroming in R1 op zal treden. Wat kan er gezegd worden over de afhankelijkheid van de twee gebeurtenissen A en B? d. Bereken de kans op 3 overstromingsjaren van potpolder R1 in de komende 10 jaar. 2.17: Drie personen hebben een bepaalde ziekte opgelopen. Waarnemingen hebben uitgewezen dat 10% van diegenenen die deze ziekte oplopen er niet van genezen. Wat is dan de kans dat ze alle drie genezen? Wat is de kans dat geen enkel van de drie geneest? 2.18: Men werpt een teerling 6 maal. Vergelijk de kans dat men tweemaal twee, tweemaal vier en tweemaal zes werpt met de kans dat men driemaal twee en driemaal vier werpt. 2.19: Men zet volgens toeval acht witte torens op de velden van een schaakbord. Hoe groot is de kans dat geen enkele toren door e´ e´ n van de andere torens gedekt staat? 2.20: Fons en Tuur spelen het volgende spel: Twee teerlingen worden geworpen. Fons wint als de som van de ogen groter is dan 7 en verliest als de som kleiner is dan 7. Bij een som van 7: gelijk spel. Is dit een eerlijk spel (m.a.w. hebben beide gelijke kansen om te winnen)? 2.21: Klaas en Joris spelen het volgende spel: drie teerlingen worden geworpen. Klaas wint als de som van de ogen groter is dan 10 en verliest als de som kleiner is dan 10. Bij een som van 10: gelijk spel. Is dit een eerlijk spel (m.a.w. hebben beide gelijke kansen om te winnen)?
6. Oefeningen , Reeks 3
133
Reeks 3 3.1: In een vaas zitten 7 briefjes, op ieder briefje staat e´ e´ n letter van het woord ”energie”. Iemand trekt aselect 3 briefjes uit deze vaas. Bereken de kans om met de 3 getrokken letters de woorden ”erg” en ”een” te kunnen vormen als er a. getrokken wordt met teruglegging, b. getrokken wordt zonder teruglegging. 3.2: Vijf tweede-kandidatuurstudenten zitten samen aan tafel in het restaurant. a. Bepaal de kans dat er minstens twee van deze vijf studenten op een maandag geboren zijn. b. Bepaal de kans dat ze alle 5 op een verschillende dag van de week geboren zijn. c. uit hoeveel studenten moet een groep minstens bestaan opdat er met minstens 95% zekerheid geldt dat minstens e´ e´ n student op een maandag geboren is? 3.3: Men heeft een partij van 100 stuks. In deze partij zitten 5 defecte produkten. Er wordt een steekproef genomen van 20 stuks; als in deze steekproef meer dan 2 defecte produkten voorkomen wordt de hele partij afgekeurd. Bereken de kans dat de partij zal worden afgekeurd als a. de steekproef genomen wordt met teruglegging, b. de steekproef genomen wordt zonder teruglegging. 3.4: Men verdeelt 52 kaarten willekeurig onder 4 personen, zodat iedere speler juist 13 kaarten krijgt. Wat is de kans dat iedere speler precies e´ e´ n koning heeft? 3.5: Men verdeelt 52 kaarten willekeurig onder 4 personen, zodat elke persoon juist 13 kaarten heeft. Wat is dan de kans dat speler A 13 kaarten van dezelfde kleur heeft? Wat is de kans dat hij juist 12 kaarten van dezelfde kleur heeft? 3.6: Men verdeelt 52 kaarten willekeurig onder 4 personen, zodat elke persoon juist 13 kaarten heeft. A (Noord) heeft juist 5 harten. Wat is de kans dat zijn medespeler C (Zuid) juist 3 harten heeft? Wat is de kans dat C geen enkele harten heeft? 3.7: Men gooit twee dobbelstenen. Bereken de kans dat ze allebei een vier tonen als gegeven is dat de som van het aantal ogen zeven of acht is? 3.8: Een grondstof, gebruikt in de produktie van een scheikundig produkt kan van zes verschillende plaatsen afkomstig zijn met kansen: 009
016
025
025
016
009
De kans dat het gemaakte produkt voldoet aan een aantal kwaliteitseisen als de grondstof van de respectievelijke plaatsen komt is: 02
03
04
04
03
02
Wat is het percentage produkten, dat voldoet aan de kwaliteitseisen? 3.9: Iemand heeft altijd twee doosjes lucifers op zak. Als hij een lucifer nodig heeft neemt hij volgens toeval e´ e´ n van beide doosjes en neemt er een lucifer uit. Hij begint met twee doosjes met elk n lucifers. Hoe groot is de kans dat op het moment waarop hij het ene doosje leeg maakt het andere nog k lucifers bevat? 3.10: Karel en Lodewijk schieten elk tweemaal naar een doel. Bij elk schot hebben ze ieder een kans p om raak te schieten. Indien men weet dat er op 4 schoten twee raak zijn, bereken dan a. de kans dat beide treffers van Karel komen b. de kans dat e´ e´ n treffer van Karel komt en de andere van Lodewijk. 3.11: Vaas A bevat twee rode en twee witte knikkers en vaas B bevat vier witte knikkers. Men trekt een knikker uit e´ e´ n der vazen en deze is wit. Wat is de kans dat deze knikker uit vaas B kwam? 3.12: De kans dat je slaagt voor het examen statistiek is 100% als je de stof (en vooral de oefeningen) goed genoeg bestudeerd hebt. Bekend is echter dat 50% van de studenten zich niet goed genoeg voorbereidt
6. Oefeningen , Reeks 3
134
en voor hen is de slagingskans slechts 40%. Bepaal de kans dat een geslaagde student zich onvoldoende had voorbereid. 3.13: Van een test op een bepaald soort kanker zijn de volgende statistische gegevens bekend: De kans op het optreden van deze ziekte is 0.0001. Indien iemand deze ziekte heeft zal in 90% van de gevallen de test dat juist aangeven. De kans dat de test een foutieve diagnose geeft, dwz. suggereert dat iemand kanker heeft, terwijl dat in werkelijkheid niet waar is, is 0.001. Bereken de kans dat, als de test wijst op kanker, de persoon ook werkelijk deze ziekte heeft. 3.14: Machine A produceert van een bepaald product tweemaal zoveel als machine B. Machine A levert 5% defecte produkten, machine B 7%. Een klant krijgt een defect produkt. Hoe groot is de kans dat dit produkt afkomstig is van machine A? 3.15: Een binair telecommunicatiesysteem zendt de signalen 0 en 1 door. Door mogelijke storingen tijdens de teletransmissie worden er gemiddeld 2 op de 5 nullen en 1 op de 3 e´ nen onjuist ontvangen. Veronderstel dat de verhouding tussen de doorgezonden nullen en e´ nen 5 op 3 is. Wat is dan de kans dat een ontvangen signaal hetzelfde is als het doorgezonden signaal als: a. het ontvangen signaal een 0 is? b. het ontvangen signaal een 1 is? 3.16: Rt is de gebeurtenis dat het op dag t droog is; het complement Rtc is de gebeurtenis dat er op dag t neerslag valt. Voor een bepaalde streek zijn de volgende kansen gegeven: p : PRt 1 Rt 088 en q : PRtc1 Rt c 070 We nemen aan, dat het weer van dag t onafhankelijk is van het weer van meer dan e´ e´ n dag ervoor. a. Bewijs dat PA B C PA B C PB C. b. Bereken de kans dat het in elk van de drie komende dagen droog zal blijft, als het vandaag regent. c. Bereken de kans dat het overmorgen droog zal zijn als het vandaag droog is. 3.17: Je vriendin heeft je verjaardagscadeau in een van haar drie bureauladen gestopt. Je gaat het cadeau alleen krijgen als je de lade met het cadeau weet aan te wijzen. Ze vraagt je om een lade te kiezen. Je wijst dus een van de drie laden, zeg lade X, aan. Alvorens deze lade te openen zegt je vriendin dat het misschien wel een goede keuze is maar misschien ook niet en ze trekt een tweede lade, zeg lade Y , open en laat zien dat het cadeau daar in ieder geval niet in zit. Ze vraagt dan of je bij je keuze X blijft of dat je liever de derde lade, zeg lade Z, verkiest te openen. Wat is de beste keuze, X of Z, en wat is de kans dat je dan je cadeau ook werkelijk krijgt. Motiveer je antwoord! 3.18: Een persoon zit in een labyrinth en heeft de keuze uit drie deuren. Deur 1 leidt naar de uitgang in 1 stap, deur 2 leidt terug in 2 stappen en deur 3 in 3 stappen. De persoon kiest een willekeurige deur. Als hij teruggeleid wordt, kiest hij weer een willekeurige deur (hij heeft geen geheugen). Dit gaat zo door tot hij buiten is. Bepaal het gemiddeld aantal stappen dat hij zet om buiten te geraken.
6. Oefeningen , Reeks 4
135
Reeks 4 4.1: Vroeger werd in ons land door loting bepaald wie zijn militaire dienstplicht moest vervullen en wie daarvan werd vrijgesteld. Stel dat drie jonge mannen na elkaar een nummer trekken, zonder teruglegging, uit een verzameling van 4 goede en 4 slechte nummers. Welke van deze drie mannen heeft de grootste kans om als soldaat aangewezen te worden? Bereken deze kansen. 4.2: Tien helikopters worden belast met het zoeken naar een vermist vliegtuig. Elk van deze tien toestellen kan gebruikt worden om e´ e´ n van de twee gebieden, waar het vliegtuig zich kan bevinden met respectievelijke kansen 0.8 en 0.2, af te zoeken. Indien een helikopter in het gebied gaat zoeken waar het vliegtuig zich effectief bevindt, heeft hij een kans van 0.2 om het vliegtuig te detecteren. Hoe moet men de tien helikopters verdelen over de twee gebieden om de kans om het vliegtuig terug te vinden maximaal te maken? Bepaal deze kans. (Strategie: Veronderstel dat m helikopters gebied 1 afzoeken, en 10 m gebied 2. Bereken de kans, als funktie van m, dat men het vliegtuig terug vindt. Maximaliseer deze kans.) 4.3: In de lift van een gebouw met 10 verdiepingen stappen 4 personen in op verdieping 0. Neem aan, 1 is. Bereken de kans dat de 4 dat de kans dat een persoon op een gegeven hogere verdieping uitstapt, 10 personen alsvolgt uitstappen: a. allen op dezelfde verdieping, b. drie op eenzelfde verdieping en de vierde op een andere, c. twee op eenzelfde verdieping en de andere twee samen op een andere verdieping, d. twee op eenzelfde verdieping en de andere twee op twee andere verdiepingen, e. ieder op een verschillende verdieping. Ga na dat de som van de kansen 1 is. 4.4: In n cellen worden r ballen willekeurig opgeborgen, zodat de i-de cel ri ballen bevat, met r1 rn r . Veronderstel r n . Ai is de gebeurtenis waarbij de i-de cel leeg blijft. Bereken: a. de kans dat voor elke i er ri ballen in cel i zitten, b. PAi en PAi A j , c. de kans dat geen enkele cel leeg is. Aanwijzing: noteer een configuratie van r ballen in n cellen als een rij van r letters b en n1 scheidingsstrepen alsvolgt, bbb b b met r 1 letters b voor de eerste streep, r 2 tussen de eerste en de tweede, etc. Tel vervolgens het aantal mogelijke configuraties.
4.5: Twee urnen A en B bevatten elk een witte en een zwarte bol. Men neemt een willekeurige bol uit elke urn en plaatst deze in de andere urn. Deze procedure wordt n keer herhaald. Noteer met pn de kans dat A twee witte bollen bevat na deze n verwisselingen, met qn de kans dat A e´ e´ n witte en e´ e´ n zwarte bol bevat en met rn de kans dat A twee zwarte bollen bevat. Wat is de limietwaarde voor n ∞ voor pn , qn en rn ? (Bepaal hiertoe pn1 , qn1 en rn1 als funktie van pn , qn en rn en laat n dan naar oneindig gaan.) 4.6: Een dobbelspel kent de volgende regels: – De speler bepaalt de inzet en kiest e´ e´ n van de getallen 1 t/m 6, – hij werpt 3 dobbelstenen, – als zijn gekozen getal op alle 3 de dobbelstenen bovenkomt wordt hem 4 maal zijn inzet uitbetaald, – als zijn getal op 2 dobbelstenen bovenkomt wordt hem 3 maal zijn inzet uitbetaald, – als zijn getal op e´ e´ n dobbelsteen bovenkomt wordt hem 2 maal zijn inzet uitbetaald, – als zijn getal op geen enkele dobbelsteen bovenkomt krijgt hij niets uitbetaald. Wat is de te verwachte winst of verlies voor deze speler als hij 10 Euro inzet? 4.7: De hoeveelheid van een grondstof (uitgedrukt in tonnen), nodig gedurende een maand in een fabriek is een discrete stochastische variabele X. Uit ervaring, wat betreft de vraag naar het met deze grondstof
6. Oefeningen , Reeks 4
136
vervaardigde produkt, heeft men P X
a. b. c. d. e. f.
8 0 PX 12 0 Bereken PX 10 ,
PX
8 252 2 PX 12 25
PX
9 256 6 PX 11 25
PX
10 ?
Maak een staafdiagram, van de kansfunktie PX x , Bepaal de cumulatieve distributiefunktie FX x en teken deze, Bereken P925 X 1125 , Bereken E X en VarX Indien men met een zekerheid van minstens 90 % wenst te voldoen aan de vraag naar het vervaardigde produkt, wat is dan de minimale bestelhoeveelheid van de grondstof per maand? g. Bereken de scheefheidsco¨effici¨ent en de co¨effici¨ent van kurtosis van deze verdeling.
4.8: Een andere werknemer in deze fabriek stelt een ander kansmodel voor, waarbij men uitgaat van een continue kansvariabele X met de volgende dichtheidsfunktie:
0 xc7 5 fX x 12 5x c 0
a. b. c. g.
x 75
voor voor voor
75 x 10
10 x 125
voor
x 125
Bepaal c, Maak een grafiek van fX x , d. e. en f. als voor oefening 4.7, Bereken de modus, mediaan, interkwartiel en MAD van X.
4.9: Een onderdeel van de militaire keuring in de V.S. bestond uit een bloedonderzoek naar de geslachtsziekte syfilis. Bij het laboratoriumonderzoek kan een belangrijke besparing plaatsvinden door de bloedmonsters van een aantal mannen te vermengen en dit totale bloedmengsel te onderzoeken. Als de reactie van dit totaal negatief is, is geen van de personen die een bijdrage geleverd heeft aan dit mengsel besmet. Is de reactie positief, dan zal een bloedmonster van elke persoon, die bijgedragen heeft tot dit mengsel, afzonderlijk worden onderzocht om na te gaan wie besmet is (zijn). Volgens de Amerikaanse keuringsadministratie bedroeg het percentage lijders aan syfilis in de jaren 1940/1941 ongeveer 5%. Stel dat er 10.000 mannen gekeurd moesten worden. Het probleem waarvoor de keuringsdienst zich in 1940 gesteld zag was: hoeveel bloedmonsters moeten er steeds vermengd worden om zo weinig mogelijk tests te hoeven uitvoeren. a. Bereken de te verwachte aantal uit te voeren tests als er in groepen van 10 personen getest wordt. b. Wat is de optimale testgroepgrootte? 4.10: Een punt P wordt willekeurig gekozen op de omtrek van een cirkel met straal r. Bepaal de gemiddelde afstand tussen een vast punt A op de omtrek en P.
4.11: O P en Q worden willekeurig gekozen op de omtrek van een cirkel met straal r. Bepaal de kans dat een van de hoeken van de driehoek OPQ stomp is (groter is dan 12 π ).
4.12: De levensduur X van een gloeilamp is een stochastische variabele, die beschreven kan worden m.b.v. de volgende dichtheidsfunktie: fX x :
λ exp λ x voor 0
voor
x 0
x 0
met λ : 0001 uur1
a. Bepaal FX x en maak een grafiek van fX x en FX x b. Hoe groot is de kans dat een gloeilamp langer dan 1000 uur brandt?
6. Oefeningen , Reeks 4
137
c. Bereken de te verwachte levensduur van een gloeilamp: E[X] d. Bereken de mediaan van X e. Hoe groot is de kans dat een lamp, die al 200 uur goed brandt, nog minstens 1000 uur langer zal branden? 4.13: X en Y zijn twee onafhankelijke exponentieel verdeelde stochastische variabelen met dezelfde parameter λ , d.w.z. λ exp λ x voor x 0 fX x fY x 0 voor x 0 Bepaal de dichtheid van Z X Y , de verwachtingswaarde en de variantie van Z.
4.14: Veronderstel dat het aantal km dat men kan rijden met een radiaalband normaal verdeeld is met gemiddelde 70000 km en standaard afwijking 10000 km. Is de producent juist indien hij beweert dat minstens 90 % van de bestuurders langer dan 60000 km rijden met dit type banden, leg uit.
6. Oefeningen , Reeks 5
138
Reeks 5 5.1: X is een continue stochastische variabele met verdelingsfunktie FX x. We voeren een lineaire transformatie uit op X: Y aX b met a 0. a. Bepaal FY y en fY y . λ exp λ x als x 0 bepaal dan fY y. b. Als Y 2X 1 en fX x 0 als x 0 5.2: Vanuit het punt met co¨ordinaten 0 b in het xy-vlak wordt een deeltje uitgezonden langs een rechte lijn, die een willekeurige hoek maakt met de x-as, in de richting van de x-as. De stochastische variabele X is de abscis op de x-as waar het deeltje terecht komt. Toon aan dat de dichtheidsfunktie van X de volgende is: fX x
b π b2 x2
Aanwijzing: bekijk eerst de verdeling van ϕ , de hoek waaronder het deeltje uitgezonden wordt. 5.3:
X is uniform verdeeld over het interval [0,1]. Bepaal de dichtheidsfunktie van Y
2 lnX .
5.4: Uit grote partijen artikelen neemt men steekproeven van 20 stuks. Een partij wordt afgekeurd als in zo’n steekproef 3 of meer foutieve exemplaren worden aangetroffen. a. Wat is de kans dat een partij met 25% fouten wordt afgekeurd? b. Wat is de kans dat van 10 partijen met elk 10% fouten er 8 of meer goedgekeurd worden? 5.5: Gebruik de tabel van de cumulatieve binomaalverdeling. a. Bereken de volgende kansen: als X B7 045 , a1. PX 3 als X B15 01 . a2. PX 4 als X B15 09 . a3. PX 11 b. Bereken voor welke waarden van x geldt: als X B20 025 , b1. PX x 01 als X B20 075 . b2. PX x 01 5.6: Een partij goederen is zo groot dat men ze als oneindig groot mag beschouwen. Men voert een kwaliteitstest uit door willekeurig stukken uit de partij te nemen tot men een defekt stuk gevonden heeft. Als 20 % van de partij bestaat uit defekte stukken, bepaal dan de verdelingsfunktie en de verwachtingswaarde van het aantal geteste stukken X . 5.7: Het optreden van een sterke pollutiegolf in het Albertkanaal vormt een Poisson incidentenstroom met een parameter waarde λ van 1 incident per 6 maanden. a. Bereken de kans dat er gedurende e´ e´ n jaar 1 sterke pollutiegolf is. b. Bereken de kans dat er in elk van de volgende jaren :1995, 1998, 1999, 2002, 2004 minder dan 3 sterke pollutiegolven optreden. 5.8: Op een kantoor komen gemiddeld 3 telefoongesprekken per uur binnen. De telefonist is gedurende 10 minuten afwezig. Hoe groot is de kans dat er in die tijd minstens e´ e´ n persoon geen gehoor heeft gekregen? 5.9: Bij de produktie van pantynylons is de kans dat een geproduceerde panty geen ladders vertoont 90 %. Neem aan dat het optreden van ladders in opeenvolgend geproduceerde panties stochastisch onafhankelijke gebeurtenissen zijn. Bereken a. Het gemiddeld aantal panties zonder ladder in een partij van 10 stuks. b. De kans op meer dan 7 goede panties in deze partij. Als het voorkomen van ladders te wijten is aan defecten in het produktieproces of aan de grondstoffen waaruit de panties geproduceerd worden, dan geldt de hierboven genoemde stochastische onafhankelijkheid niet. Veronderstel dat het aantal incidenten per 8 uur, dat slechte panties produceert, een Poisson-verdeelde stochastische variabele is X Pλ . Bij elk incident worden er 50 panties geproduceerd met ladders, voordat
6. Oefeningen , Reeks 5
139
men in staat is het produktieproces bij te regelen. c. Wat moet de waarde van λ zijn, opdat gemiddeld genomen 90 % van de panties geen ladders vertoont, indien de tijd nodig om e´ e´ n panty te produceren 1 minuut is. d. Bereken met deze waarde van λ de kans dat er op een werkdag van 8 uur meer dan 2 incidenten optreden, waardoor het produktieproces ontregeld wordt. 5.10: Veronderstel dat X een stochastische variabele is met een discrete verdeling en dat de momenten E X en E X E X r bestaan voor een zekere r 0. Bewijs dan voor iedere ε 0 de ongelijkheid (cf. de ongelijkheid van Chebyshev): PX E X ε
E X E X r εr
5.11: Laat X en Y twee onafhankelijke continue stochastische variabelen zijn en neem M : MaxX Y . Bepaal de dichtheidsfunktie fM van M. 5.12: X is de levensduur in uren van een bepaald type radiobuis. De dichtheidsfunktie van X wordt gegeven door: 0 als x 100 fX x a x2 als x 100 Een antieke radio bevat drie van dergelijke buizen, met van elkaar onafhankelijke levensduur. a. Bepaal de waarde van a. b. Bereken de kans dat men in een dergelijke radio geen buizen moet vervangen, voordat er 150 uur verlopen zijn. c. Bereken de kans dat men geen buizen zal moeten vervangen in de radio, voordat er 150 uur verlopen zijn, als de radio al 120 uur heeft kunnen spelen zonder dat er buizen vervangen moesten worden. 5.13: Een autoverhuurder bezit twee wagens, die per dag worden verhuurd. Het aantal aanvragen voor een dag vertoont een Poissonverdeling met λ 15 . a. Welk percentage van de dagen zijn beide wagens thuis? b. Welk percentage van de dagen zijn beide wagens uit? c. Indien beide wagens even vaak worden gebruikt, welk percentage van de dagen is e´ e´ n bepaalde wagen dan thuis?
6. Oefeningen , Reeks 6
140
Reeks 6 6.1: Men weet uit ervaring dat de jaarlijkse hoeveelheid neerslag in een gebied een normaal verdeelde kansveranderlijke is met een gemiddelde µ 125cm en een standaardafwijking σ 20cm. Wanneer er meer dan 160 cm neerslag valt in een jaar leidt dit tot overstromingen. Bepaal de kans dat er zich gedurende een aselect gekozen jaar minstens e´ e´ n overstroming voordoet. 6.2: X is en normaalverdeelde stochastische variabele met een gemiddelde µ wijking σ 4, dus X N 10 4. Bereken: a. PX 14 b. P12 X 18 c. PX 7 d. de 90%, 50% en 20% percentielen van X.
10 en een standaardaf-
6.3: Twee merken elektronenbuizen hebben levensduren die normaal verdeeld zijn. Merk A: N(27;5) en merk B: N(30;2). a. Welk merk moet men kiezen om de grootste kans te hebben dat de buis langer dan 30 uur meegaat? b. Welk merk moet men kiezen om de grootste kans te hebben dat de buis langer dan 34 uur meegaat? 6.4: Een hoogtemeter geeft een systematische fout van 10 meter en een toevallige fout, die normaal verdeeld is met een gemiddelde van 0 meter en een standaardafwijking van 2 meter. Wat is de kans dat men bij een hoogtemeting een fout heeft kleiner dan 7 meter? 6.5: Er wordt een aselecte steekproef van omvang n genomen uit een populatie, die een bepaalde theoretische kansverdeling bezit met verwachtingswaarde µ en variantie σ2 . Men krijgt zo dus n realisaties van n onafhankelijke stochastische variabelen X1 X2 Xn , die alle dezelfde kansverdeling bezitten. Het rekenkundig gemiddelde van deze n stochastieken is Xn : 1n ∑ni1 Xi a. Bepaal E X n en VarX n als funktie van n. b. Als Xi N µ σ (i 1 n), wat is dan de kansverdeling van Xn ?
6.6: De gewichtsinhoud van een pakje boter is normaal verdeeld met een standaarddeviatie σ van 3 gram. Een regeringsinstantie neemt ter controle af en toe een steekproef van 25 pakjes. De fabrikant krijgt een boete als de gemiddelde gewichtsinhoud van deze steekproef minder is dan 250 gram. Op welk gemiddelde moet de verpakkingsmachine ingesteld worden om het risico van een boete tot 5 % te reduceren? 6.7: Men wil een afstand van 100 meter afzetten door 100 maal achtereen een afstand van 1 meter af te passen. De fout die daarbij elke keer gemaakt wordt is een stochastische variabele X, die normaal verdeeld is met µ 0 meter en σ 5 cm. a. Bereken de kans dat de afgezette afstand meer dan een halve meter van de gewenste 100 meter afwijkt. b. Tot hoever zou men de standaardafijking van de fout moeten reduceren, opdat de kans onder a) gevonden ten hoogste 0.1 is? 6.8: De stochastische variabele X is de jaarlijkse piekwaarde van het debiet in een rivier. X is lognormaal verdeeld, d.w.z. de logaritme van X is normaal verdeeld met log X N 44 063; X wordt uitgedrukt in m3 s. a. Bepaal de dichtheidsfunktie van X. b. Bereken de mediaan van X, d.w.z. het hoogste jaarlijke debiet, dat in niet meer dan 50 % van de jaren overschreden wordt. c. In geval van een zeer hoog debiet zal de rivier buiten zijn oevers treden. Men kan het omliggende gebied daartegen beschermen door de dijken te verhogen. Bereken de jaarlijkse piekwaarden van het debiet, waartegen het gebied beschermd moet worden, opdat er gemiddeld niet meer dan 1 maal in de 50 jaar een overstroming op zal treden. 6.9:
Laten X1 en X2 twee standaard-normaalverdeelde stochastieken zijn. Definieer twee nieuwe sto-
6. Oefeningen , Reeks 6
141
chastische variabelen Yi voor i 1 2:
1 0 Yi 1
als als
Xi 1
1 Xi 1
als
Xi 1
a. Schets de verdeling van Z Y1 Y2 b. Bereken met het gegeven PXi 1 01587 de verwachtingswaarde en de variantie van Z. 6.10:
De kansvector Z : X Y heeft de dichtheidsfunktie: fZ x y :
c x exp 12 x2 exp y
voor 0 x ∞ 0 y ∞;
0
elders.
a. Bepaal de constante c en de verdelingsfunktie FZ x y, b. Bepaal de marginale verdelingsfukties van X en Y , zijn deze onafhankelijk? c. Bepaal PX 2 en Y 1 en PX 2 2Y 2.
6.11: Veronderstel dat Z : X Y uniform verdeeld is over de driehoek met hoekpunten 0 0, 0 1 en 1 1. Bereken fZ , fX , fY , de verwachtingswaarden en varianties van X en Y en de correlatiecoeffici¨ent tussen X en Y . 6.12: Een experiment kan de drie uitkomsten u1 , u2 en u3 hebben met kansen p1 , p2 respectievelijk p3 . Men voert dit experiment n maal uit; Xi is het aantal keer dat ui zich voordoet (i=1, 2, 3). Bepaal de verdelingsfunctie van de kansvector X1 X2 X3 . Bepaal ook de covariantie CovX1 X2 ) en de correlatieco¨effici¨ent ρ . Wat gebeurt er als p3 0?
6.13: Men kiest een willekeurig getal x 0 1 en daarna een willekeurig getal y x 1 (uniform verdeeld).Het paar x y is dan een trekking van de stochastische variabele Z : X Y . Bepaal fX , fX Y en fY .
6.14: Veronderstel dat X Y een continu verdeelde kansvector is. We defini¨eren een nieuwe kansvector R Θ) door: X R cos Θ Y R sin Θ met 0 Θ 2π en 0 R ∞ Bepaal de dichtheidsfunktie van R Θ. Veronderstel nu dat X Y uniform verdeeld is over de eenheidscirkelschijf. Bepaal de dichtheidsfunktie fR Θ en laat zien dat R en Θ onafhankelijk zijn.
6. Oefeningen , Reeks 7
142
Reeks 7 7.1: Gemiddeld gebeurt er op een bepaalde weg elke 100 dagen een ongeluk. Het aantal ongelukken per maand (30 dagen) volgt een Poisson-verdeling. a. Wat is de kans op meer dan e´ e´ n ongeluk in een maand? b. Wat is de kans dat tussen twee opeenvolgende ongelukken niet meer dan 3 dagen liggen? 7.2: In het stroomgebied van een rivier liggen twee potpolders A en B, die bij hoge waterstanden onder water komen te staan. De kans dat beide polders in eenzelfde jaar overstromen is 0.08. Bereken de kans dat in de volgende 100 jaar er minstens 10 jaren zullen zijn waarin zowel polder A als polder B onder water komt te staan. 7.3: Men vindt dat de lengte van telefoongesprekken een exponenti¨ele verdeling volgt, met een gemiddelde van 3 minuten. Hoe groot is de kans dat een gesprek langer dan drie minuten duurt? Hoe groot de kans dat het langer dan 10 minuten duurt? 7.4: Een auto valt nogal eens in panne en het aantal defekten is Poisson-verdeeld. Indien men gemiddeld twee pannes per maand heeft, wat is dan de kans dat men op een jaar meer dan 25 pannes heeft? 7.5: Bij de verkiezingen haalt een politieke partij 30% van de stemmen. Men verricht achteraf een steekproef onder 3000 mensen die gestemd hebben en vraagt hen of ze daadwerkelijk voor die partij gestemd hebben. Wat is de kans dat tussen de 850 en 950 ondervraagden hierop bevestigend antwoorden? Opmerking: in de praktijk treedt er altijd een overwinnaarseffekt op bij ondervragingen omtrent kiesgedrag na het bekendmaken van de uitslag; meer kiezers geven achteraf op, dat ze op de winnende partij gestemd hebben, dan er in feite gedaan hebben. 7.6: Op een landelijke weg komen gemiddeld 3 auto’s per uur voorbij. Stel X het aantal wagens dat gedurende een tijdsinterval van 20 minuten voorbij komt. Bepaal PX 0 en PX 2. 7.7: Een krantenjongen in Chicago verkoopt per uur gemiddeld 50 kranten. Als we nu een krant van hem kopen, wat is dan de kans dat het minstens 2 minuten zal duren alvorens hij de volgende krant verkoopt? Als het nu al 5 minuten geleden is dat hij een krant verkocht heeft, wat is dan de kans dat hij nog 2 minuten zal moeten wachten om er nog e´ e´ n te verkopen? 7.8: Een eerlijk muntstuk wordt geworpen, totdat er voor de eerste maal kop boven komt. Wat is de kans dat het aantal worpen oneven is?
7.9: We beschouwen een rij onafhankelijke stochastische variabelen X0 , X1 , X2 , , die alle B1 p verdeeld zijn. De Xi kunnen twee waarden aannemen, zeg a en b met Pa p en Pb q 1 p. Laat de stochastische variabele N het aantal experimenten zijn, dat nodig is om r maal de uitslag a te bekomen. Bepaal de verdelingsfunktie van N. Men zegt dat N negatief-binomiaal verdeeld is met parameters r en p.
7.10: Veronderstel dat een stochastische variabele X N µ σ normaal verdeeld is. We zeggen dan dat Y : eX lognormaal verdeeld is met parameters µ en σ . a. Bepaal de verdelingsfunktie van Y uit de verdelingsfunktie van de standaardnormale verdeling. b. Bepaal de dichtheidsfunktie van Y . c. Bepaal gemiddelde en standaardafwijking van Y .
7.11: Van de schoenen die in een fabriek geproduceerd worden is 4% defekt. Bepaal op 3 manieren de kans dat in een doos met 100 willekeurig gekozen paren schoenen er ten hoogste twee defekt zijn: a. exact, b. met een benadering door een Poisson-verdeling, c. met een benadering door een normale verdeling. 7.12: Een boek bevat gedrukte bladzijden met (gemiddeld) 40 regels van 75 lettertekens per bladzijde. (beschouw een spatie ook als een letterteken). De zetter maakt gemiddeld e´ e´ n fout per 6000 letters. a. Wat is de verdelingsfunktie van X, het aantal fouten per bladzijde? b. Bereken de kans dat een bladzijde geen enkele fout bevat.
6. Oefeningen , Reeks 7
143
c. Wat is de kans dat een hoofdstuk van 16 bladzijden geen enkele fout bevat? 7.13:
Van een bepaald soort zaden is bekend dat de kans op ontkiemen gelijk is aan 08 .
a. Hoe groot is de kans dat minstens 75% van de zaden ontkiemen in een verpakking van 100 zaden? b. Hoe groot is de kans dat minstens 75% van de zaden ontkiemen in een verpakking van 1000 zaden? 7.14: Een Geigerteller geeft voor een bepaald radio-actief preparaat gemiddeld 90 aanslagen per minuut. Hoe groot is de kans dat er in een bepaalde minuut minder dan 85 aanslagen geregistreerd worden? 7.15:
Het gewicht G van mannelijke studenten is normaal verdeeld met µ
75 kg en σ 10 kg.
a. Bepaal de kans dat een willekeurige student een gewicht heeft tussen de 60 en 65 kg. b. Gegeven is een groep van 2000 mannelijke studenten. Hoe groot is het verwachte aantal studenten in deze groep met een gewicht tussen de 60 en 65 kg? c. Zij X het aantal studenten in deze groep van 2000 met een gewicht tussen de 60 en 65 kg. Bepaal de kans PX 142. N.B. In de praktijk blijkt de lengte wel (in goede benadering) normaal verdeeld te zijn maar het gewicht niet. 7.16: Een gasmolecuul heeft een snelheid v met componenten vx , vy en vz . Neem aan dat vx , vy en vz onafhankelijk en normaal N 0 σ ) verdeeld zijn. Bepaal de dichtheidsfunktie van de snelheidsverdeling van v v
v2x v2y v2z en bepaal de verwachtingswaarde E[v].
6. Oefeningen , Reeks 8
144
Reeks 8 8.1: Een chemicus voert 12 maal een gewichtsbepaling uit, waarvan mag worden aangenomen dat de uitkomsten normaal verdeeld zijn met een standaardafijking σ van 2 gram. De chemicus vindt als gemiddelde van zijn 12 experimenten een waarde van 9 gram. Stel een 95%-betrouwbaarheidsinterval op voor de werkelijke waarde van de gemeten grootheid.
8.2: De uitkomst X van een experiment is normaal verdeeld, X N µ 2. Laat S52 de schatter voor de variantie zijn berekend aan de hand van 5 onafhankelijke experimenten, bepaal dan PS52 3. 8.3: op:
Een stochastische variabele X is normaal verdeeld. Een steekproef levert de vijf volgende waarden 61
72
34
55
21
Stel een 90%-betrouwbaarheidsinterval op voor het gemiddelde µ a. in het geval dat σ 2 bekend is, b. in het geval dat σ niet bekend is. 8.4: De jaarlijkse hoeveelheid sneeuw waargenomen door het Koninklijk Meteorologisch Instituut te Ukkel is normaal N µ σ verdeeld. Gedurende de laatste 20 jaren zijn er de sneeuwhoeveelheden xi , voor i 1 20 waargenomen met 20
∑ xi 200 mm
i1
20
en
∑ xi x202 76 mm2
i1
a. Bepaal een 95%-BI voor de gemiddelde hoeveelheid sneeuw in een jaar, veronderstellend dat de waargenomen sneeuwhoeveelheden in opeenvolgende jaren onafhankelijk zijn van elkaar. b. Bepaal het minimum aantal jaargegevens waarover men zou moeten kunnen beschikken om een 95%-BI te bekomen met lengte gelijk aan 1 mm. Veronderstel hierbij, dat s (de wortel van de steekproefvariantie) 2mm blijft in grotere steekproeven. 8.5: De topsnelheid van een bepaald merk “sport”wagen is normaal verdeeld met gemiddelde µ en standaardafwijking σ . Men kiest willekeurig 10 wagens uit, meet de maximum snelheid vi en vindt: 10
∑ vi 2243 kmu
i1
10
en
∑ vi v10 2 290 kmu2
i1
Bepaal 90%-BI’s voor µ en σ . 8.6: Om de nauwkeurigheid van een balans te bepalen meet men 25 maal een bekend gewicht van (precies) 4 kg. met als resultaat: 25
∑ xi 10002 kg
i1
25
en
∑ xi x25 2 00113 kg2
i 1
Geef een 95%-BI voor de onbekende onnauwkeurigheid (standaarddeviatie) van de balans. Men veronderstelt dat de meetuitslagen onafhankelijke normaal verdeelde stochastische variabelen zijn. De onnauwkeurigheid is dan een maat voor σ . 8.7:
Beschouw m n stochastische variabelen: X1 X2 Xm N µ1 σ
en
Y1 Y2 Yn N µ2 σ
waarbij µ1 , µ2 en σ onbekend zijn. Construeer een 1 α -BI voor het verschil µ1 µ2 .
8.8: Een stochastische variabele X is uniform verdeeld over 0 b, met b een onbekende parameter. Men verricht een steekproef X1 Xn en beschouwt de statistiek M : maxX1 Xn ). a. Gebruik M om een zuivere schatter voor b te vinden.
6. Oefeningen , Reeks 8
145
b. Construeer een 1 α -BI voor de parameter b. 8.9: Van een bepaalde grondstof wenst men het gehalte van een actief bestanddeel te schatten door een aantal monsters te nemen en te analyseren. Uit ervaring is bekend dat de analyseresultaten normaal verdeeld zijn met een standaardafwijking van 0.6 gram. Men wenst met een betrouwbaarheid van 99% de werkelijke hoeveelheid van het bestanddeel te schatten tot op 0.5 gram nauwkeurig. Hoeveel monsters moet men analyseren om aan deze nauwkeurigheid te voldoen? 8.10: Het aantal binnenvallende deeltjes in een Geigerteller kan opgevat worden als een Poisson-verdeelde kansvariabele met parameter λ , het gemiddeld aantal binnenvallende deeltjes per minuut. Een meting van een staal met een Geigerteller heeft 80 aanslagen in een minuut opgeleverd. Gebruik de normale benadering van de Poisson verdeling om een (benaderend) 95%-betrouwbaarheids interval voor λ te vinden. 8.11: Men zegt dat zaad een goede kiemkracht bezit als er minstens 75% van de zaden ontkiemt. Bij een test op peterseliezaden vond men, dat er van de 5000 geteste zaden 3600 ontkiemden. Stel een 95%-BI op voor het percentage peterseliezaden, dat ontkiemt. Mag men zeggen dat dit zaad een goede kiemkracht bezit? 8.12: De levensduur van een gloeilamp is exponentieel verdeeld met onbekende parameter λ . Men test 15 gloeilampen en vindt 130 uur als gemiddelde levensduur. Construeer een 90%-BI voor λ en voor de gemiddelde levensduur. 8.13: Een marketingbureau doet een onderzoek naar het gebruik van een bepaald wasmiddel. Van 300 aselect gekozen huismannen en huisvrouwen gebruikten 40 personen dit wasmiddel. Geef een 90%-BI voor het percentage gebruikers van dit wasmiddel.
6. Oefeningen , Reeks 9
146
Reeks 9 9.1: De chemicus van oefening 8.1 heeft op theoretische gronden een hypothese opgesteld dat de werkelijke waarde van de gemeten grootheid 10 gram moet zijn. a. Zal de chemicus op grond van zijn meetresultaten (x12 9 en σ 2) de hypothese verwerpen als hij deze toetst met een significantieniveau van 5%? b. Wat zal zijn conclusie zijn als hij een signifcantieniveau van 10% gekozen had? 9.2: Een fabrikant van wegwerpbatterijen beweert dat zijn batterijen goed zijn voor 10 uur muziek op een walkman. Een consumentenmagazine wil dit testen en voert een steekproef uit op 20 batterijen. De gemiddelde speelduur x20 hiervan is 9 uur en 35 minuten en s20 20 minuten. Is het verschil met de opgegeven waarde significant op niveau 10%? 9.3: Uit een grote partij aspirinetabletten wordt een steekproef genomen van 10 stuks. De gewichten van deze 10 tabletten, gemeten in mg, zijn: 336 333 335 333 329 334 324 331 332 332 a. Stel een 95 % BI op voor het gemiddelde gewicht van een aspirine tablet uit deze partij, als het gewicht van een tablet een normaal verdeelde stochastische variabele is. b. De machine die de aspirines produceerde stond afgesteld op 335 mg/tablet. Toets of aan deze instelling voldaan wordt met een significantieniveau α van 5%. c. Toets de hypothese σ 2 10 mg2 met een α van 5 %. 9.4: Een machine produceert metalen staafjes. De lengte van deze staafjes is normaal verdeeld met σ 20 cm. De gemiddelde lengte kan worden ingesteld en heeft als normwaarde 20.0 cm. Er kunnen storingen optreden waardoor het gemiddelde lager wordt, zonder dat de spreiding verandert. Ter controle neemt men regelmatig steekproeven van 5 stuks en meet hiervan de lengte. Bij een steekproef vond men een gemiddelde lengte van 18.3 cm. a. Toets de hypothese dat de instelwaarde 20.0 cm is bij een α van 5% en van 1%. b. Hoe groot is de kans op een fout van de eerste soort bij de onder a) uitgevoerde toets. c. Bereken, onder de veronderstelling dat de instelwaarde 18.0 cm. is, de kans op een fout van de tweede soort voor de onder a) uitgevoerde toetsen. 9.5: Het is bekend dat 1 op de 10 personen een zeker produkt gebruikt. Na een agressieve campagne gebruiken 60 personen uit een aselecte steekproef van 400 mensen dit produkt. Toets met een significantie niveau van 5% of de advertentiecampagne effectief is geweest. 9.6: Een landbouwproefstation wil twee soorten tarwe (A en B) vergelijken. Op 20 verschillende percelen zaait men na bemesting de ene helft in met soort A, de andere helft met soort B. Er komen de volgende opbrengsten (in kg) van de percelen: perc. nr. opbr. A opbr. B perc. nr opbr. A opbr. B perc. nr. opbr. A opbr. B 1 560 470 8 560 590 15 710 630 2 290 280 9 750 700 16 480 450 3 440 390 10 320 310 17 360 350 4 250 270 11 490 440 18 530 570 5 650 600 12 500 480 19 620 570 6 890 750 13 630 620 20 370 340 7 410 380 14 260 300 a) Toets m.b.v. de t-toets of tarwesoort A beter is dan tarwesoort B. Het gebruik van de t-toets is gebaseerd op de aanname, dat de opbrengsten van de tarwesoorten A en B normaal verdeelde stochastische variabelen zijn. Als dit niet zo is, of als deze verdelingen niet bekend zijn, moet men gebruik maken van verdelingsvrije of parametervrije toetsen. Een voorbeeld hiervan is de tekentoets: als beide tarwesoorten even goed zijn, is de kans dat op een bepaald perceel tarwesoort A een grotere opbrengst oplevert dan soort B gelijk aan 12 . Als tarwesoort A beter is dan soort B dan is deze kans
6. Oefeningen , Reeks 9
147
p groter dan 12 . Bekijk nu per perceel het verschil tussen de opbrengsten van soort A en soort B, waarbij alleen naar het teken van het verschil gekeken wordt: of . b) Toets m.b.v. de tekentoets de nulhypothese H0 : p 12 (A en B geven een gelijke opbrengst) tegen het alternatief H1 : p 12 (A levert meer op dan B) met een significantieniveau α van 5%. 9.7: Men wenst het benzineverbruik van twee verschillende automerken te vergelijken. Men laat 10 auto’s van merk A en 16 auto’s van merk B met een constante snelheid van 90 km/uur over eenzelfde stuk autoweg van 100 km rijden. Men vindt voor het gemiddelde gebruik: gemiddeld verbruik standaardafwijking wagens van merk A 6.5 liter/100 km s10 = 0.21 liter/100 km wagens van merk B 6.0 liter/100 km s16 = 0.22 liter/100 km Is het verschil in varianties significant op het niveau 5%? Zo niet, test dan of het verschil in brandstofverbruik significant is op het 5%-niveau. 9.8: Gedurende een bepaalde tijd werden de temperaturen in de kantoren van de VUB opgetekend. Op 42 metingen bekwam men een gemiddelde van 22Æ C en een standaardafwijking van 4Æ C. a. Toets de bewering dat de gemiddelde temperatuur in de kantoren tenminste 23Æ C is (α 5%). b. In de leslokalen van de VUB werd ook regelmatig de temperatuur genoteerd. Men bekwam het volgende lijstje met metingen: temperatuur 15 16 18 20 22 26
frequentie 5 6 4 15 6 4
Kun je hieruit besluiten dat het in de leslokalen beduidend kouder is dan in de kantoren? (α
5%)
9.9: Een fijnmechanische werkplaats kan de zware concurrentie strijd in de sector alleen overleven als de precisie van haar produkten wordt verbeterd. Om te beginnen bestelt de directeur een proefexemplaar van een nieuw type draaibank. De chef van de werkplaats vindt de machine geen verbetering en laat, om dit te staven, 10 exemplaren van een standaardprodukt maken op de nieuwe machine en 20 exemplaren op de oude. In de eerste groep is de standaardafwijking in de dikte 14 µ m en in de tweede groep 17 µ m. Toets de bewering van de chef op het 5% niveau. 9.10: Onderzoekers veronderstellen, dat de besmettingsgraad met het HIV-virus in de grote steden van Centraal Afrika 22% bedraagt. Uit een steekproef onder 120 personen blijken er 44 personen seropositief te zijn. Moet men op basis van deze steekproef de hypothese herzien? (α 5%) 9.11: Men weet dat het gewicht van vier maanden oude mestvarkens van een bepaald ras normaal is verdeeld met een gemiddelde van 55 kg en een standaardafwijking van 4.5 kg. Om uit te maken of een alternatieve manier van voeden beter is (d.w.z. dat men zwaardere varkens krijgt) probeert men deze voedingswijze uit op 25 pasgeboren varkens van dat ras, aselect over het land verspreid. Wanneer men vier maanden na de geboorte hun gewicht meet, bekomt men een gemiddeld gewicht van x 62 kg. Is de alternatieve manier van voeden beter dan de traditionele manier, als men veronderstelt dat de standaardafwijking van het gewicht onveranderd is? (α 5%) 9.12: Een geneesmiddelenfabrikant beweert dat een bepaald vaccin 85% effectief is (d.w.z. de kans dat men er immuun van wordt is 0,85). Om na te gaan of deze bewering strookt met de werkelijkheid, wordt het vaccin geprobeerd bij 100 aselect gekozen personen. Wanneer 82 of meer personen immuun worden nemen we de bewering aan. Vind een benadering voor de kans dat we de bewering niet voor waar aannemen, terwijl het vaccin in werkelijkheid toch 85% effectief is. 9.13:
Bij een bepaalde plantensoort komen volgens de wetten van Mendel de vier vari¨eteiten AB, aB, Ab
6. Oefeningen , Reeks 9
148
en ab voor in de verhouding 9 : 3 : 3 : 1. In een aselecte steekproef van 160 exemplaren vindt men: vari¨eteit AB aB Ab ab totaal aantal 88 35 24 13 160 Toets met behulp van de χ2 -toets of de gemeten frequentieverdeling verschilt van de theoretisch verwachte frequentieverdeling op het niveau van α 5% .
6. Oefeningen , Reeks 10
149
Reeks 10 10.1:
De 12 metingen, die de chemicus uit oefening 8.1 uitvoerde, hadden de volgende uitkomsten: 103
94
86
77
98
101
79
88
83
94
95
82
a. Toets aan de hand van deze metingen de hypothese dat µ 100 bij gegeven σ 20, via het betrouwbaarheidsinterval van µ met α 5%. Toets eveneens de hypothese µ 10 als σ niet bekend is. b. Bij welk significantieniveau α zal de chemicus zijn hypothese verwerpen, als hij toetst met onbekende σ? 10.2: Beschouw de 53 metingen van het stikstofgehalte van oefening 1.2. a. Bepaal een 95%-betrouwbaarheidsinterval voor het werkelijke N-gehalte van de kunstmest. b. Hoeveel % van de waarnemingen in de steekproef van 53 metingen liggen buiten dit betrouwbaarheidsinterval? c. De fabrikant beweert dat het N-gehalte van de kunstmest minstens 17.4% bedraagt. Toets aan de hand van de 53 metingen of de fabrikant gelijk heeft. Neem een significantieniveau van 5% aan. 10.3: In oefening 9.3 werd uit een partij aspirinetabletten de gewichten bepaald van een steekproef van 10 stuks. Deze partij wil men nu vergelijken met een tweede partij. Uit de tweede partij wordt van 12 tabletten het gewicht gemeten met de volgende uitkomsten (in mg): 332
336
337
336
333
335
332
334
332
334
340
332
a. Toets of de varianties in de gewichten van beide partijen gelijk zijn, als α 5%. b. Toets de hypothese, dat het gemiddelde gewicht van de eerste partij gelijk is aan dat van de tweede partij, als α 5%. c. Ga na wat er gebeurt als er een uitschieter tussen de metingen van de tweede partij zit, als er bijv. 360 i.p.v. 340 mg. gemeten wordt. Verklaar uw antwoord. 10.4: Aan 8 konijnen wordt een gelijke dosis insuline gegeven. Om de hoeveelheid glucose (in mg/l) in hun spieren te meten worden 2 methodes gebruikt (A en B) met de volgende resultaten: konijn 1 2 3 4 5 6 7 8 methode A 1.8 2.0 2.2 1.9 2.3 1.6 2.1 2.1 methode B 2.0 1.6 1.1 1.4 1.9 1.6 2.3 2.0 a. Toets met een α van 5% of er een verschil is tussen de twee methodes. b. Veronderstel, dat er niet 8 maar 16 konijnen gebruikt waren bij dit onderzoek. (D.w.z de metingen met methode B zijn gedaan met 8 andere konijnen.) Voer de toets of er een verschil bestaat tussen de twee methodes A en B nogmaals uit voor deze nieuwe proefopzet. 10.5: Voer de toets van oefening 9.13 nogmaals uit, nu met Statview. Statview voert deze toets uit onder het compare-menu, contingency table, 1-group-chi-square. De gemeten frequentie moet in een x-kolom geplaatst worden en de theoretische frequentie in een y-kolom. 10.6: Genereer m.b.v. Statview-series (onder tools-menu) 200 uniform verdeelde random getallen met waarden tussen 0 en 1. Maak een klassenindeling in 20 klassen en bekijk het histogram. Toets m.b.v. een χ 2 -toets op het niveau α 5% of deze random gegenereerde getallen uit een uniforme verdeling afkomstig zijn. 10.7: Een meting van de lengtes van 100 babies leverde een gemiddelde lengte op van 67 cm met een standaardafwijking van 3 cm en de volgende frequentie tabel: lengte (in cm) frequentie 60 – 63 8 63 – 66 20 66 – 69 41 69 – 72 25 72 – 75 6
6. Oefeningen , Reeks 10
150
Toets m.b.v. een χ 2 -toets of deze waarnemingen komen uit een normale verdeling met een µ van 67 cm en een σ van 3 cm als α 5%. 10.8: Men wenst te toetsen of de duur van telefoonsprekken een exponentieel verdeelde stochastische variabele is. Hiervoor meet men de duur van 100 willekeurig gekozen telefoongesprekken. Men vindt de volgende resultaten: duur (min) aantal 0–2 30 2–4 19 4–6 13 6–8 12 8 – 10 9 10 – 12 4 12 – 14 4 14 – 20 4 20 – ∞ 5 Kan men uit deze gegevens besluiten, dat de duur van een telefoongesprek exponentieel verdeeld is met een gemiddelde duur van 5.9 minuten? neem α 10%. 10.9: Twee verschillende fabricageprocessen leveren 2% respectievelijk 4% defecte produkten bij een steekproef van 250 stuks uit produkten van ieder van beide processen. Toets op het niveau α 5% of het eerste proces beter is dan het tweede. 10.10: Een leraar gebruikt 3 verschillende onderwijsmethoden in 3 verschillende groepen met het volgende resultaat: methode 1 methode 2 methode 3 geslaagd 50 47 56 gebuisd 5 14 8 Kan de leraar uit deze resultaten concluderen dat e´ e´ n van de drie methodes beter is dan de andere? (α 5%). 10.11: Van 6800 aselect gekozen Belgen noteerde men de kleur van haar en ogen. Men bekwam de volgende resultaten: kleur ogen blond haar bruin haar zwart haar rood haar totaal blauw 1768 807 189 47 2811 grijs 946 1387 746 53 3132 bruin 115 438 288 16 857 totaal 2829 2632 1223 116 6800 Toets of er een verband bestaat tussen de haarkleur en de kleur van de ogen? (α 5%). 10.12: We gooien met een knoop en noteren steeds of deze op voor- of achterzijde valt. a. Als de kans dat de voorzijde van de knoop boven komt gelijk is aan 40%, benader dan de kans dat de knoop in 150 worpen minstens 70 maal met de voorzijde naar boven valt. b. In een experiment gooien we 150 maal en meten dat de knoop 72 maal met de voorzijde naar boven valt. Maak een 95%-Betrouwbaarheidsinterval rond de gemeten waarde en toets of de knoop aan het voorgestelde model (met p 40%) zou kunnen voldoen op het niveau α 5% . 10.13: Neem de Bumpus-data uit oefening 1.6 en kies α 5% . a. Toets of er een verschil is tussen de spanwijdte van dood gevonden en levend gevangen exemplaren. Welke toets of toetsen gebruik je en wat zijn de hypotheses en de conclusies? Bereken ook de overschrijdingskans. b. Toets of de totale lengte van een mus (in deze dataset) gelijk is aan 5/8 maal de spanwijdte. Welke toets of toetsen gebruik je en wat zijn de hypotheses en de conclusies? Bereken ook de overschrijdingskans.
6. Oefeningen , Reeks 11
151
Reeks 11 11.1: Uit de populatie van de Belgische bevolking werden 5 waarnemingen verricht van het basisinkomen en het aantal studiejaren na het 12-de levensjaar. aantal studiejaren (x) basisinkomen in 103 BF (y) 6 10 12 20 10 17 8 12 9 11 a. Maak een scatterdiagram van deze gegevens. bx b. Bepaal de regressierechte van y op x: y( a( ( 2 2 c. Bereken s en bepaal een 95%-BI voor σ (de residuele variantie). b. d. Bepaal een 95%-BI voor ( e. Voorspel met de regressielijn de waarde van y( als x 11 en bepaal een 95%-BI rond deze voorspelde waarde. f. Bepaal de lineaire correlatieco¨effici¨ent ρxy en stel een 95%-BI interval op voor ρxy g. Toets op het niveau α 5% de hypothese dat er geen lineair verband is tussen x en y tegen de hypothese dat er wel een lineair verband is. 11.2: Krekels sjirpen door hun vleugels tegen elkaar te wrijven. De frequentie van het sjirpen, het aantal malen per seconde dat de vleugels heen en weer bewegen, neemt toe als de temperatuur hoger wordt. Uit de volgende waarnemingen willen we dat verband nader bestuderen: frequentie (x) temperatuur (y) 20 31 16 22 19 34 17 27 15 21 17 28 17 29 15 26 16 27 18 29 a. Maak een scatterdiagram van deze gegevens. bx. b. Bereken de regressielijn van y op x: y( a( ( c. Bereken y en x en controleer, dat de regressielijn door x y gaat. d. Bereken de covariantie Covx y en de correlatie co¨effici¨ent ρ x y . e. Bereken de variantie s2 van yi N a b xi σ . f. Teken een 95%-BI voor de richtingsco¨effici¨ent b van de regressielijn. g. Bepaal een 95%-BI voor yx. h. Toets de hypothese b 0 met α 5%. i. Er wordt een 11-de meting x y 19 33 gedaan. Ligt deze waarneming binnen het 95%-BI van yx, dat bepaald is op grond van de eerste 10 waarnemingen? j. Bepaal de vergelijking van de regressielijn als de temperaturen in graden Fahrenheit opgegeven zijn (xÆC 18 x 32Æ F). Veranderen de covariantie Covx y en de correlatieco¨effici¨ent ρ x y door deze schaalverandering? k. Welke temperatuur zal op grond van het gevonden lineaire model corresponderen met een sjirpfrequentie van 21 trillingen per seconde? Bepaal het 95%-BI rond deze geschatte waarde. l. Bepaal de regressielijn van x op y. m. Laat b de helling zijn van de regressielijn van y op x en d de helling van de regressielijn van x op y. Toon
6. Oefeningen , Reeks 11
152
dan aan dat b d r2 . 11.3: De hardheid van een metaallegering is gemakkelijker te meten dan de treksterkte. Omdat de treksterkte een belangrijke eigenschap is willen onderzoekers nagaan of de hardheid te gebruiken is om voorspellingen te doen over de treksterkte van een metaallegering. Daartoe werden van 20 monsters, vervaardigd onder verschillende condities de hardheid en de treksterkte gemeten. hardheid treksterkte hardheid treksterkte 52 12.3 54 12.8 56 12.5 57 13.6 60 14.5 61 13.5 62 15.6 64 16.1 66 14.7 68 16.1 69 15.0 70 16.0 71 16.7 71 17.4 73 17.6 76 16.8 76 17.6 77 19.0 80 18.6 83 18.9 a. Maak een scatterdiagram van deze metingen t a( ( b h en stel 95%-BI’s op voor a en b b. Bepaal de regressielijn ( c. Toets de hypotheses : b 0 en a 0. d. Geef een schatting voor de gemiddelde treksterkte van een metaal legering met een hardheid van 66 en geef een 95%-BI voor deze schatting. Doe hetzelfde voor een legering met een hardheid van 85. 11.4: Neem de Bumpus-data uit oefening 1.6 en kies α 5% . a. Doe een regressie van de totale lengte op de spanwijdte, bepaal intercept, helling en de residuele som van kwadraten. b. Geef betrouwbaarheidsintervallen voor helling en intercept. c. Toets of het intercept gelijk is aan nul. Wat zijn de hypotheses en de conclusies? Bereken ook de overschrijdingskans. d. Toets of de helling gelijk is aan 5/8. Wat zijn de hypotheses en de conclusies? Bereken ook de overschrijdingskans.
7. Software 7.1 SPSS, Een summier overzicht van een aantal faciliteiten 7.1.1 Inleiding SPSS is een afkorting van ”Statistical Package for the Social Sciences”. Het wordt veel gebruikt en is al vrij lang op de markt. De laatste versies zijn volledig menugestuurd en eenvoudig te gebruiken. Het belangrijkste bij het gebruik van zo’n pakket is, dat je weet wat een statistisch begrip of toets betekent en hoe hierbij de gegevens gebruikt worden. Via de menu’s wijst de rest zich dan vanzelf.
7.1.2 Het werkblad (data editor) In het werkblad worden de gegevens geordend zoals weergegeven in tabel 1.1. In de kolommen staan de waarnemingen behorende bij een variable. In de rijen staan de gevallen (“cases”), de waarnemingen van de verschillende variabelen van eenzelfde persoon of object. Links onderaan bevinden zich twee tabs met de namen data view en variable view. Het eerste laat de waarnemingen zien en het tweede laat de gegevens over het type van de gebruikte variabelen zien. De omschrijving van de variabelen in de variable view dient enerzijds om er voor te zorgen, dat het programma de gegevens in de data-editor goed interpreteert en er correct mee rekent en anderzijds ook om de gegevens voor de menselijke gebruiker leesbaar en overzichtelijk te presenteren. De volgende gegevens over een variable worden in de variable view beschreven: 1. naam: werknaam van de variable, maximaal 8 letters en cijfers, beginnend met een letter. 2. type: getal, datum of string. Een string is een rij karakters, je kunt er niet mee rekenen maar je kunt hem wel als nominale of ordinale variabele gebruiken een erop sorteren. Een datum is een speciaal soort string met een eigen sorteervolgorde. Een getal kun je gebruiken in een nominale of ordinale variabele (meestal gebruik je dan kleine gehele getallen 0 , 1 , 2 , 3 , ) en als ratio-variabele (re¨eel getal). Een re¨eel getal als π 4 arctan1 kun je neerschrijven als “ 3.14159” met decimale punt of komma of als mantisse–exponent “ 0.314159 E+01” (scientific notation); met 5 decimalen heb je in het eerste geval 8 karakters nodig (plusteken, decimale punt of komma en 6 cijfers) en in het tweede geval 13. Je kunt ook de nauwkeurigere benadering 3.14159265358979 invoeren. SPSS zal deze bij berekeningen ook gebruiken, maar als je het aantal decimalen op 5 hebt staan ga je er in het datawindow nooit meer zien. 3. width: aantal karakters dat neergeschreven wordt in het datawindow. 4. decimals: als de variabele een getal is, dan kun je hier het aantal neer te schrijven decimalen opgeven. 5. label: veld waarin je een uitgebreide omschrijving van je variabele kunt neerschrijven, zodat je ook volgend jaar nog weet wat de betreffende data voorstellen. 6. missing: Bij een enquete gebeurt het vaak dat sommige velden niet ingevuld worden; bij het coderen van de data wordt dan vaak een speciaal karakter of getal (b.v. 9 of 99) gebruikt om dit aan te geven. 7. columns – align: breedte van het veld in dataview en alignering van de data. 8. measure: datatype scale – ordinal – nominal zoals beschreven in 1.2.1 De inhoud van alle velden kun je aanpassen via een submenu dat je oproept door met de muis rechts in het veld te klikken (alleen bij “naam” en “label” kun je gewoon in het veld zelf tijpen).
7.1.3 Het FILE-menu Het file menu biedt drie mogelijkheden om een bestaande dataset te openen of een nieuwe te cre¨eren: a. New: Cre¨eer een nieuw werkblad (data window). b. Open: Open een reeds bestaande file. Standaard is dit een SPSS-datafile (.sav), maar je kunt via deze weg ook een tekst-file (.txt) of een excel-file (.xls) openen door rechts in het menuveld “files of type” 153
7.1. Een summier overzicht van SPSS
154
te klikken en het gewenste type te selecteren. In een tekst-file moeten de verschillende waarnemingen op een regel gescheiden zijn door tabs (of andere speciale karakters). Als de eerste regel van een Excel-file namen bevat, kan SPSS deze automatisch overnemen. c. Read ASCII Data: Importeer data uit een ASCII-file, een bestand met pure tekst en dus zonder font- en layout aanwijzingen. SPSS zal de gebruiker vragen naar de namen van de variabelen en de wijze waarop de data moeten worden ge¨ınterpreteerd. Als je in je werkblad al een bestand in gebruik hebt, wordt dit verwijderd bij het openen van een nieuw. Via het file-menu kun je een bestand bewaren (Save) of uitprinten.
7.1.4 Aanmaken van kolommen en invoeren van data Bij het opstarten van SPSS verschijnt er op het scherm een werkblad (of data editor), mogelijk gevuld met data als je vertrekt van een bestaande file. Iedere kolom (variabele) draagt een naam van maximaal 8 karakters. Iedere rij (case) draagt een nummer. Een cel is bepaald door zijn kolomnaam en zijn rijnummer. De cursor wijst altijd naar een cel; rijnummer en kolomnaam ervan staan in de linker bovenhoek. Een nieuwe kolom kan alsvolgt worden aangemaakt: a. Door in een cel een getal te zetten. De bijbehorende kolom krijgt dan het numerieke formaat (F8.3) van een decimaal getal met 3 cijfers na de komma (decimal point) en de (default) naam “var0000x”. b. Door in de variable view een nieuwe regel te vullen met naam en andere gegevens over een variabele zoals boven beschreven. c. Met Compute in het Transform–menu, zie hieronder. N.B. Punt (b) biedt je ook de mogelijkheid om de naam en de presentatie van een bestaande kolom te wijzigen.
7.1.5 Wegen en selecteren van data Als je datakolom (variabele) X metingen bevat en een tweede datakolom N de aantallen van deze metingen (b.v. als X en N afkomstig zijn van een frequentietabel), dan kan je de data van X door SPSS laten “wegen” door de kolom N. Hiertoe duid je deze kolom aan als “frequency variable” in het menu Data weight cases. Als je rijen bij de statistische verwerking wilt uitsluiten, kun je dit doen via het menu Data select cases. Een eenvoudige manier is om eerst een (extra) kolom met nullen en enen te maken
7.1.6 Transformatie van data Met Compute in het Transform–menu kun je een nieuwe kolom (target variable) defini¨eren en de waarden erin berekenen via een formule, samengesteld uit namen van variabelen, getallen en standaard-operatoren ( voor machtsverheffing) en standaardfuncties. Variabelen en functies “selecteer” je in hun menu’s en importeer je in het compositie-venster door op de pijl te klikken. Voorbeeld 1: Een kolom met n random getallen maak je door in het menu met Transform Compute een nieuwe kolom te defini¨eren en te vullen met de functie RV.XXX( ), waar RV staat voor “Random Variable” , XXX de naam is van de gewenste verdeling en de parameters van die verdeling zijn, b.v. RV.normal(µ σ ) als de getallen normaal N µ σ ) verdeeld moeten zijn. Je moet er wel eerst voor zorgen dat de n-de cel van een kolom een waarde heeft. Voorbeeld 2: Een kolom met de rangnummers 1, 2, 3, maak je door eerst in Transform Compute een nieuwe kolom met waarden 1 te maken en vervolgens hiervan via Transform Time Series een cumulatieve som te maken.
7.1. Een summier overzicht van SPSS
155
In het help–menu vind je onder keyword functions een overzicht van de beschikbare functies en in het bijzonder van verdelingsfuncties (Cumulative Distribution functions: Normaal, χn2 , tn , Fm n , ) en inverse verdelingsfuncties (voor de berekening van quantielen). Met Sort Cases in het Data–menu kun je een bestand sorteren. Als je de mogelijkheid wilt hebben om de oorspronkelijke orde terug te krijgen, maak je eerst een kolom met rangnummers. De oude orde kun je dan herstellen door op deze kolom te sorteren.
7.1.7 Grafische weergave van de data Via het Graphs–menu kun je onder andere een histogram, een boxplot, een scatterplot en normale P–P-plots en Q–Q-plots maken. a. Een histogram kun je op drie manieren maken, automatisch, interactief of manueel. i. Voor een automatisch histogram kies je het menu Graphs Histogram. In het betreffende menu kies je de gewenste variabele en klikt op OK. Helaas bevat het plaatje dat SPSS nu maakt een blunder! In plaats van de range, het interval tussen de kleinste en grootste waarde, op te delen wordt een groter interval opgedeeld. Dit geeft een probleem als de data binnen een bepaald interval moeten liggen. Als de data b.v. percentages zijn, moeten ze tussen 0 en 100 liggen; een klassenindeling in 11 klassen 5 5 5 15 95 105 , zoals SPSS maakt is onzin omdat negatieve waarden en waarden boven 100 niet voor mogen komen; effectief zijn de twee buitenste klassen dan 0 5 en 95 100 en is hun lengte slechts de helft van de andere klassen. Je kunt je histogram manueel aanpassen door de chart editor te openen (dubbel klikken op het histogram) en dan via het menu-item chart axis interval OK het veld Intervals: “custom” te selecteren en dan de gewenste waarden voor minimum, maximum en aantal klassen in te vullen. ii. Voor een interactief histogram kies je het menu Graphs Interactive Histogram. In het pop-up menu kun je kiezen uit een twee- of driedimensionaal histogram; onder “assign variables” moet je de gewenste variabelen naar de assen slepen met je muis. Onder “histogram” kun je de klassenindeling aanpassen. In tegenstelling tot het voorgaande wordt hier wel een opdeling van de range voorgesteld als default. iii. Manueel kun je een histogram maken door via het menu Transform Compute de gewenste kolom met de functie RND (=round, afronden) af te beelden op de gewenste verzameling klassemiddens en dan een Barchart te maken. RND rondt een re¨eel getal af naar het dichtstbijzijnde gehele getal, als k geheel en k 12 x k 12 , dan RND(x k .
Als je de indeling in klassen a a d , a d a 2d , met klassebreedte d wilt maken, dan kun je de elementen van de kolom OudeCol op de klassemiddens a 12 d a 32 d afbeelden (ga na!) met NieuwCol a d 05 RNDOudeCol ad 5 . b. In het Boxplot-menu heb je de mogelijkheden simple ! clustered
en
groups of cases ! separate variables.
In het geval van “groups” heb je een aparte variabele (categorie) nodig die je dataset uitsplitst in deelgroepen. Voor ieder van deze groepen wordt een aparte boxplot gemaakt. Zie help keyword boxplots chart types voor details. Uitschieters (data verder weg dan 1.5 maal het interkwartiel) worden apart getekend als rondjes en grove uitschieters (verder weg dan driemaal het interkwartiel) als sterretjes. Een boxplot (in twee of drie dimensies) kun je ook maken via de interactieve weg Graphs Interactive Boxplot.
7.1. Een summier overzicht van SPSS
156
c. In een scatterplot van de variabelen X en Y worden de koppels xi yi uitgezet in het XY –vlak om te zien of er een verband zou kunnen zijn tussen beide variabelen.
d. P–P en Q–Q plots: Laat xi i 1 n een gegeven gesorteerde dataset zijn met gemiddelde m, standaarddeviatie s en empirische verdelingsfunctie FX en laat Y N m s de “best bijpassende” normale verdeling zijn. Een “normale P–P plot” is een scatterplot van FX xi in en de theoretische kans PYi xi . Een “normale Q–Q plot” doet hetzelfde voor de quantielen van beide verdelingen. Het is een hulpmiddel om te zien of een dataset (min of meer) normaal verdeeld is.
7.1.8 Beschrijvende statistiek Via het menu Analyze descriptive statistics Explore vind je het meest uitgebreide overzicht van beschrijvende grootheden zoals gemiddelde, mediaan, modus, standaardafwijking, interkwartiel, range, scheefheid en kurtosis. Kwartielen, het betrouwbaarheidsinterval met betrouwbaarheid 1 α , uitschieters, boxplot en histogram kun je opvragen via submenu’s statistics en plots . Desgewenst kun je deze grootheden laten uitsplitsen naar factoren; als je bijvoorbeeld in tabel 1.1 een BI voor mannen en vrouwen apart wilt hebben, dan geef je de variabele X2 (sexe) als factor op. Als je decielen of andere percentielen wilt hebben, moet je Analyze descriptive statistics Frequencies gebruiken en de gewenste percentielen invullen in het submenu statistics. Als je een variabele wilt standaardiseren (Z X X S), moet je Analyze descriptive statistics Descriptives gebruiken. NB. Het menu-item crosstabs hoort niet onder beschrijvende statistiek thuis maar onder Nonparametric Tests.
7.1.9 t-Toetsen Te vinden in het menu Analyze Compare Means. SPSS geeft als uitvoer de waarde van de toetsgrootheid, de overschrijdingskans Sig (of Significance level), het aantal vrijheidsgraden df en het (tweezijdig) betrouwbaarheidinterval CI (Confidence Interval). Standaard wordt de betrouwbaarheid op 95% gezet maar in het options submenu kun je deze zelf instellen. SPSS doet altijd een tweezijdige toets. Als je een eenzijdige toets wilt doen, moet je het niveau α verdubbelen om de goede grens voor het betrouwbaarheidsinterval te vinden. De door SPSS berekende overschrijdingskans moet je delen door twee. Maar je moet wel nagaan of de toetsgrootheid aan de goede zijde van het midden van het betrouwbaarheidsinterval van de tweezijdige toets ligt!. µ0 . a. t-toets voor e´ e´ n groep: H0 : µ µ0 tegen H1 : µ Selecteer in het One-Sample T Test–menu een of meer toets-variabelen, geef de gepostuleerde waarde voor µ op in test value (dezelfde voor alle variabelen!) en kies desgewenst in de options een betrouwbaarheid verschillend van 95%.
b. t-toets voor twee ongepaarde groepen: H0 : µ1 µ2 tegen H1 : µ1 µ2 . Zet de beide data-reeksen achtereen in een kolom en kies (of maak) een tweede kolom (de grouping variable) waarin (b.v. door een integer 1 of 2) is aangegeven tot welke groep het betreffende gegeven behoort. Dit mag een categorale variabele zijn, maar ook een re¨ele variabele of een string-variabele. Selecteer in het Independent-Samples T Test–menu de toetsvariabele en de groeperende variabele. Via de knop “define groups” kun je de twee waarden intijpen, die de te vergelijken groepen aanduiden. Je kunt ook een splitsing maken door (bij een ordinale variabele) een “cut point” te kiezen. Zoals het hoort, toetst SPSS eerst met een F-toets (Levene) of de varianties gelijk geacht mogen worden. Vervolgens wordt er dan zowel een t-toets gedaan voor het geval, dat de varianties gelijk zijn, alsook een (benaderende) t-toets voor het geval, dat de hypothese van gelijke varianties wordt verworpen. De keuze tussen beide resultaten wordt aan de gebruiker overgelaten.
7.1. Een summier overzicht van SPSS
157
µ2 . c. t-toets voor twee gepaarde groepen: H0 : µ1 µ2 tegen H1 : µ1 Zet de beide data-reeksen in twee kolommen, met overeenkomstige elementen op dezelfde rij. Selecteer in het Paired-Samples T Test–menu twee toets-variabelen door ze aan te klikken en transporteer ze naar het “paired variables window” door de pijl aan te klikken. Desgewenst kun je zo meerdere paren voor een gepaarde t-toets selecteren. Bij de uitvoer vinden we ook het gemiddelde en de standaarddeviatie van beide groepen apart en de correlatie ertussen; bovendien staat onder het hoofdje Sig de significantie (overschrijdingskans) van de hypothese dat deze correlatie nul is. Als de correlatie niet significant is, kun je net zo goed een ongepaarde toets gebruiken.
7.1.10 Toetsen met de χ 2 –verdeling a. χ 2 -toets op een kansverdeling: H0 : ni νi i 1 n tegen H1 : ni νi voor minstens e´ e´ n i, waar ni het gemeten aantal van groep i is en νi het aantal op grond van de gepostuleerde verdeling. Via het menu Analyze Nonparametric Tests Chi–Square kun je een kolom opgeven met waargenomen frequenties (of een kolom met categorie¨en gewogen door een kolom met frequenties). Als de verwachte frequenties niet allemaal gelijk zijn, moet je deze in de goede volgorde manueel inbrengen of een syntax window gebruiken, zie 7.1.13. b. Kruistabellen (contingency tables of crosstabs). Toets H0 : gegevens in rijen en kolommen zijn onafhankelijk tegen H1 : er is afhankelijkheid tussen rijen en kolommen. Een kruistabel zoals tabel 2 is (vrijwel altijd) een uittreksel van een groter bestand zoals tabel 1. In SPSS kun je niets doen met de kruistabel van de vorm 2 en moet je werken met de primaire data zoals in tabel 1. tabel 1. aantal 252 224 248 276 20 16
Uittreksel uit een enqu`ete geslacht stemming man voor man tegen vrouw voor vrouw tegen vrouw blanco man blanco
tabel 2. bijbehorende kruistabel man vrouw voor 252 248 tegen 224 276 blanco 16 20
In het menu Data weight cases duid je de kolom aantal aan als “frequency variable” zodat de andere kolommen met deze aantallen gewogen worden. In het menu Analyze Descriptive Satistics crosstabs selecteer je de rij-variabele stemming en kolom-variabele geslacht (of andersom), in het “Statistics ...” submenu duid je aan dat je een (benaderende) toets met de Chi-kwadraat verdeling doet en in “Cells ...” duid je aan welke tussenresultaten je in je uitvoer wilt zien. Als resultaat krijg je de waarde van de toetsgrootheid, het aantal vrijheidsgraden (df) en de overschrijdingskans (Sig) berekend met drie methoden, de oorspronkelijke methode van Pearson (zoals behandeld in de cursus), Pearsons methode met continu¨ıteitscorrectie en de maximum likelihood methode.
7.1. Een summier overzicht van SPSS
158
7.1.11 Regressie en correlatieanalyse Zet de data in kolommen X en Y . In het menu Analyze regression linear selecteer je de onafhankelijke variabele (X) en de afhankelijke variabele (Y ); in het submenu “Statistics ...” selecteer je de gewenste uitvoer en in het submenu “Plots ...” de gewenste scatterplots.
7.1.12 De Kolmogorov-Smirnov toets Deze is te vinden in het menu Analyze Nonparametric tests 1-Sample K-S. Je kunt toetsen of je data trekkingen uit een normale, uniforme, Poisson- of exponenti¨ele verdeling zouden kunnen zijn. SPSS berekent de tweezijdige overschrijdingskans, de parameter dn in formule (4.66), de grootste afwijkingen naar beneden en naar boven, en de K-S Z-waarde (=dn n ; het is de geobserveerde waarde van de teller in de breuk op de laatste regel van tabel 4.5).
7.1.13 Het Syntax Window SPSS is van oorsprong een command language; alle opdrachten worden door textcommando’s gegeven. Bovenop deze command language is een menu-systeem gebouwd, dat de commando’s genereert en doorgeeft aan de SPSS-processor. Als je via het menu een opdracht samenstelt kun je de equivalente commando’s in de SPSS-programmeertaal zien in een syntax window, dat je cre¨eert door je opdracht niet af te sluiten met het aanklikken van OK maar met paste; desgewenst kun je de opdracht aanpassen en (alsnog) uit laten voeren door in de menubalk de betreffende knop (met een klein naar rechts gericht driehoekje) aan te klikken. In de meeste gevallen werkt het menu-systeem vrij goed, en hoef je je als gebruiker niets aan te trekken van die command language, maar soms is werken via een menu wel zeer onhandig. Via een syntax window kun je dan je commando’s bijsturen. Een goed voorbeeld is de χ2 -toets op een kansverdeling, als de kansen van de verschillende klassen niet alle dezelfde waarde hebben. Als je volledig via het menu werkt, moet je de verwachte kansen (of waarden) een voor een intijpen maar dat is een methode uit het stenen tijdperk. Je kunt echter ook via het menu (Analyze Nonparametric Tests Chi–Square ) alle details opgeven behalve deze verwachte waarden en dan vervolgens via de knop paste een syntax window openen en hierin !" #$ %& '()* vervangen door !" #$ %&verwachte waarden via een copy-paste operatie. Als voorbeeld beschouwen we de data van het Rutherford-Geiger experiment (zie tabel 3.1 in 3.4). tabel 3. Het SPSS DataWindow voor het Rutherford-Geiger experiment. aantal desintegraties per tijdsinterval
aantal tijdsintervallen
desintgr 0 1 2 3 4 5 6 7 8 9 10 11
aantal.w 57 203 383 525 532 408 273 139 45 27 10 6
Poisson-kans als λ th.kans .0209 .0807 .1562 .2015 .1949 .1509 .0973 .0538 .0260 .0112 .0043 .0015
3 87
7.1. Statistische faciliteiten in Excel
159
We wegen de kolom met de kolom +,. Het gemiddelde aantal desintegraties per tijdsinterval is 3.870 en de variantie 3.664. We schatten de parameter λ van de Poisson-verdeling dus met 3.870 en berekenen de kolom van de kansen Pλ in het menu Transform Compute met de opdracht & #%-"./00.12 3 45#%-"./00.12 53 4, waarbij je de naam th.kans invult als target variable. Als we nu in het Chi-square-menu de test-variabele kiezen met Expected Value: “All Categories Equal” en vervolgens op paste klikken, krijgen we de volgende tekst in een syntax window:
1")6 $ 0$ #7/0'()6 & !" #$ %& '()* 8/00/19 )1)*:0/0 Met copy–paste vervangen we hierin het woord '()* door de kolom van kansen op de verschillende uitkomsten (onder de hypothese dat de waarnemingen Poisson-verdeeld zijn met λ 387 ):
1")6 $ 0$ #7/0'()6 & !" #$ %&;; ; ; ; ; ; ; ; ; ; ;; ;; 8/00/19 )1)*:0/0 Bij uitvoering van deze opdracht berekent SPSS automatisch de verwachte aantallen en geeft dan als uitkomst
#50< ;
=
0=
Er is e´ e´ n probleem: SPSS weet niet, dat de parameter λ geschat is uit de data en dat dus het aantal vrijheidsgraden (df) met e´ e´ n verminderd moet worden, zodat de overschrijdingskans (Significance) in feite .1722 is (in het Transform-Compute-menu te berekenen met 5 #%-#7/0'2 ; 3 ;4).
7.2 Statistische faciliteiten in Excel 7.2.1 Inleiding Het belangrijkste bij het gebruik van statistische software is, dat je weet wat een statistisch begrip of toets betekent en hoe hierbij de gegevens gebruikt worden. Via de menu’s wijst de rest zich dan vanzelf. Excel is een “spreadsheet”-programma met veel ruimere mogelijkheden dan de statistische verwerking van gegevens. In dit overzichtje beperken we ons echter hiertoe. Als je statistische functies in Excel wilt gebruiken moet je in het Tools-menu het veld Data Analysis aanklikken (of eventueel via Add-Ins het Analysis ToolPak kiezen). Via dit veld kun je de gebruikelijke statistische toetsen selecteren. In het kader van de cursus “Begrippen van Kansrekening en Statistiek” zijn de volgende tools van belang: Correlation & Covariance Random Number Generation Descriptive Statistics Regression F-Test Two-Sample for Variances t-Test: Paired Two-Sample for Means Histogram t-Test: Two-Sample Assuming Equal Variances
7.2.2 Het invoeren van data Bij het opstarten van Excel verschijnt er op het scherm een werkblad (workbook of worksheet) met cellen genummerd met een letter voor de kolom en een nummer voor de rij. Iedere cel is vanuit ieder andere cel
7.1. Statistische faciliteiten in Excel
160
uniek adresseerbaar met zijn kolomletter en rijnummer. Bij het tussenvoegen van kolommen of rijen worden alle referenties automatisch aangepast. In een cel kan tekst, een getal of een formule geplaatst worden, door de cel aan te klikken, de gewenste symbolen in te tijpen en af te sluiten met een Return. Tijdens het tijpen verschijnt een kopie van de celinhoud in de bovenbalk; als je de inhoud wilt wijzigen, moet je eerst de goede plaats in deze tekst op de bovenbalk aanklikken, dan de wijzigingen intijpen en afsluiten via return of via het aanklikken van het -symbooltje naast deze verbeterde tekst. Via de Cells -optie in het Format-menu kan de vorm (aantal decimalen – centrering – font – size – etc.) naar behoeven worden aangepast. F ORMULES . Een formule in een cel begint altijd met het -teken. Na het intijpen van een correcte formule wordt door excel onmiddellijk het resultaat berekend en neergeschreven in de cel op je werkblad. Dat er in een cel een formule staat is alleen nog te zien door de cel aan te klikken en in de bovenbalk naar de werkelijke inhoud te kijken. Voorbeelden =AVERAGE(A1:B5) =VAR(A1:B5) =SUMPRODUCT(A1:A5,B1:B5)
bereken het gemiddelde van de genoemde 10 cellen bereken de steekproefvariantie van de genoemde 10 cellen bereken het product van de overeenkomstige elementen en sommeer deze ( inproduct ∑5i1 Ai Bi ).
Een lijst van beschikbare functies is te vinden via de standaard Excel Help-procedure. KOPI E¨ REN , WISSEN , VERPLAATSEN EN DUPLICEREN van celinhoud. In het Edit-menu zijn onder andere de volgende functies beschikbaar. Zij werken op een van te voren geselecteerde cel of reeks cellen: naam cut copy paste fill
toetscombinatie ctrl-X ctrl-C ctrl-V ctrl-R ctrl-D
betekenis zet selectie klaar voor verplaatsing naar elders in het werkblad zet selectie klaar voor kopi¨ering naar elders in het werkblad voeg de selectie van cut of copy in op de gekozen plaats dupliceer de celinhoud in geselecteerde cellen naar rechts dupliceer de celinhoud in geselecteerde cellen naar beneden.
Bij het kopi¨eren of dupliceren van een formule verschuiven ook de referenties naar andere cellen, tenzij de kolomletter en/of het rijnummer in de formule is vastgezet door er een $-teken voor te zetten. Als bijvoorbeeld in cel C1 de formule =A1B1/SUM(A1:A10) staat en we doen een fill-down naar cel C2, dan komt hierin de formule =A2B2/SUM(A2:A11) te staan. Alle referenties zijn e´ e´ n veld naar beneden opgeschoven. Als we wel de referenties in de teller maar niet die in de noemer willen opschuiven, dus als we =AiBi/SUM(A1:A10) met i 1 10 in de cellen C1 C10 willen hebben, moeten we in cel C1 de formule =A1B1/SUM(A$1:A$10) intijpen en vervolgens een fill-down doen naar de negen cellen eronder. Analoog schuiven alle kolomreferenties in een formule op naar rechts bij een fill-right, tenzij er een $-teken voor de kolomletter staat. V RAAG. Stel dat je werkblad in de cellen A1A10 de klassemiddens en in B1B10 de frequenties van een serie metingen bevat. Schrijf een Excel-functie die in een cel het klassengemiddelde uitrekent. Schrijf ook een functie in de cel C1, die zo is, dat als je een fill-down naar C2C10 doet, deze cellen de cumulatieve frequenties bevatten.
7.2.3 Beschrijvende Statistiek Stel, dat de cellen A1:A65 je metingen bevatten. Selecteer in het Tools/Data Analysis-menu descriptive statistics, dan krijg je een menu, waarin je de plaats van je data (= input range) in het werkblad moet opgeven (hier dus A1:A65), en moet aangeven of er bovenaan je kolom een label staat, of je een betrouwbaarheidsinterval (of beter de halve lengte van het BI) wilt hebben en met welke betrouwbaarheid (b.v. 95%) en waar de uitvoer moet worden neergeschreven (in het huidige werkblad, op een nieuwe pagina van datzelfde werkblad of in een nieuw werkblad).
7.1. Statistische faciliteiten in Excel
161
Het programma geeft dan de volgende grootheden: Mean – Standard Error – Median – Mode – Standard Deviation Sample Variance – Kurtosis – Skewness – Range Minimum – Maximum – Sum – Count – Confidence Level(95.0%). Om vervolgens een Boxplot te kunnen tekenen moet je in twee cellen met de functie quartile range 1 en quartile range 3, het eerste resp. derde kwartiel uitrekenen. H ISTOGRAM : Selecteer in het Tools/Data Analysis-menu histogram. Excel vraagt dan een input range (hier dus A1:A65) en een facultatieve bin range en of de gespecificeerde datakolommen labels bevatten. Je kunt in je werkblad zelf een klassenindeling maken (in een kolom met de benedengrenzen van de klassen) en deze opgeven; anders verdeelt excel zelf het waardengebied in 10 klassen. Tenslotte, als je een chart vraagt, wordt naast de frequentietabel het histogram getekend.
7.2.4 F- en t-Toetsen Selecteer in het Tools/Data Analysis-menu de gewenste toets en geef de input range op. Excel geeft dan de overschrijdingskansen voor de een- en tweezijdige versies van de toets en de grens van de kritieke zone, behorende bij het gevraagde niveau (α ). Een χ2 -toets voor de variantie in e´ e´ n groep metingen (one group χ 2 -test) is niet beschikbaar.
7.2.5 Kruistabellen en de χ 2 -toets op een kansverdeling Deze toetsen moet je doen met gebruik van de excel-functie CHITEST(actual range, expected range). Deze functie berekent met formule (4.62) uit de syllabus de χ -waarde van je steekproef en de overschrijdingskans die hierbij hoort. Je moet dus wel zelf de verwachte frequenties berekenen die behoren bij de gepostuleerde theoretische verdeling. Als je b.v. de frequentietabel van je waarnemingen toetst tegen de normale verdeling, dan kun je uit de klassegrenzen met de functie NORMDIST de percentielen berekenen (zie Excel Help). Je kunt CHITEST ook toepassen bij kruistabellen, als je zelf eerst de matrix van verwachte frequenties maakt. Voor een 2 2 kruistabel kun je b.v. het volgende maken A
1 2
A1 300 A2 80
B
B1 150 B2 20
C A1 B1 A1 A2SUMA1 : B2 ??
D ?? ??
en dan in het veld A3 de functie “ CHIT EST ” plaatsen.
7.2.6 Het berekenen van statistische functies Het DATA ANALYSIS pakket in Excel bevat een groot aantal statistische functies, te vinden via Help index statistical analysis, functions. Geloof echter niet voetstoots de beschrijving. Voor de functie $%/0$2>334 wordt opgegeven dat deze de kansen van de t-verdeling geeft: als T tn zou dit voor k=1 de kans PT x geven. In feite geeft $%/0$2>334 de kans PT x en $%/0$2>334 de kans PT x voor x 0 . De derde variabele is het aantal staarten, k 1 of k 2.
8. Tabellen 8.1 Inleiding, afrondfouten en lineaire interpolatie Het gebruik van tabellen voor het bepalen van functiewaarden (statistische grootheden) is enigszins gedateerd. Een computer is hiervoor een superieur hulpmiddel, maar deze is niet altijd beschikbaar, of de benodigde programmatuur is niet aanwezig, of de gebruiker heeft onvoldoende ervaring in het gebruik of het kost gewoon teveel tijd om een paar simpele getalletjes te bepalen. Het is daarom nuttig om met een tabel snel een aantal berekeningen te kunnen doen. De hierna volgende tabellen zijn afkomstig van de website http://www.york.ac.uk/depts/maths/tables/sources.htm van de University of York, GB.
8.1.1 Afrondfouten, afwijkingen tussen de exacte waarde en de tabelwaarden In een tabel wordt bij een groot aantal waarden van het argument de waarde van een functie gegeven afgerond tot een (klein) aantal decimalen. We mogen ervan uitgaan dat altijd een zo goed mogelijke benadering wordt gegeven met het gebruikte aantal decimalen. De afrondfout is dus altijd kleiner dan de helft van een eenheid van de eerste weggelaten decimaal. Voor vrijwel alle toepassingen is deze nauwkeurigheid meer dan voldoende; als je het resultaat echt heel nauwkeurig wilt hebben, moet je de berekening door SPSS (of een ander programma) laten doen, het resultaat heeft dan een relatieve fout van ongeveer 1016 . voorbeeld 1. Bepaal de kans PZ 074 Φ074 voor Z N 0 1 standaard normaal verdeeld. In de tabel vinden we Φ074 07703 met vier decimalen. De afrondfout is dus kleiner dan 0.00005 , zodat exact geldt: 077025 Φ074 077035 voorbeeld 2. Bepaal het kwantiel q F12 8 0 95 zodat PF q 095 voor F F12 8 ; in woorden, F is F-verdeeld met 12 vrijheidsgraden in de teller en 8 in de noemer. In de tabel vinden we q 328 met twee decimalen. De afrondfout is dus kleiner dan 0.005 , zodat exact geldt: 3275 q 3285
8.1.2 Lineaire interpolatie Vaak zal de parameter waarvoor je een functiewaarde zoekt in een tabel niet voorkomen. Je moet dan uit naburige waarden een benadering berekenen d.m.v. interpolatie; lineaire interpolatie (regel van drie) is hierbij ruim voldoende. Idee: Je zoekt y f x voor een gegeven waarde van x, maar de tabel bevat alleen de naburige waarden f a met a x en f b met b x. Je verwacht dus dat f x tussen f a en f b zal liggen en dat de verhoudingen f x f a x a en b a f b f a wel ongeveer gelijk zullen zijn. Dit geeft dus de benadering y f a
f b f a x a b a
voorbeeld 3. Bepaal het kwantiel q F23 8 95 zodat PF q 095 voor F F23 8 ; F is F-verdeeld met 23 vrijheidsgraden in de teller en 8 in de noemer. In de tabel vinden we F20 8 95 315 en F30 8 95 308 met 20 resp. 30 vrijheidsgraden in de teller en 8 in de noemer. Onze formule levert dus
q F8 23
95
315
308 315 23 20 313 30 20 162
8.1. Inleiding, afrondfouten en lineaire interpolatie
163
Wegens de afrondfouten in de tabelwaarden 315 0005 en 308 0005 heeft het natuurlijk geen zin om een resultaat af te leveren met meer decimalen dan de tabelwaarden. voorbeeld 4. Bepaal het 75%–kwantiel van de standaard normale verdeling Z N 0 1. We moeten nu andersom werken (inverse interpolatie). We vinden in de tabel z1 Φ067 07486 en z2 Φ068 07517 en gevraagd wordt de waarde van q met kans PZ q Φq 075. De tabelwaarden z1 en z2 vervullen nu dus de rol van a en b in onze formule; de getallen 0.67 en 0.68 vervullen de rol van f a en f b. Zo vinden we: q 067
068 067 075 07486 06745 07517 07486
Met je rekenmachientje kun je dit natuurlijk veel nauwkeuriger uitrekenen, (antwoord: 0.67451612903226) maar deze precisie is maar schijn, wegens de afrondfouten in de tabelwaarden 0.7486 en 0.7517 (000005). Deze afrondfouten werken door op de waarde van q. Als vuistregel neem je ook hier een antwoord met niet meer significante cijfers dan de tabelwaarden.
8.2. De binomiaalverdeling
164
8.2 De binomiaalverdeling X
Bn p
k
De tabel geeft de cumulatieve kans PX k ∑
n
j 0
n
k
1
0 1 0 1 2 0 1 2 3 0 1 2 3 4 0 1 2 3 4
2
3
4
5
n
k
1
0 1 0 1 2 0 1 2 3 0 1 2 3 4 0 1 2 3 4 5
2
3
4
5
p
p
j
p j 1 pn j
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.9900 1.0000 0.9801 0.9999 1.0000 0.9703 0.9997 1.0000 1.0000 0.9606 0.9994 1.0000 1.0000 1.0000 0.9510 0.9990 1.0000 1.0000 1.0000
0.9800 1.0000 0.9604 0.9996 1.0000 0.9412 0.9988 1.0000 1.0000 0.9224 0.9977 1.0000 1.0000 1.0000 0.9039 0.9962 0.9999 1.0000 1.0000
0.9700 1.0000 0.9409 0.9991 1.0000 0.9127 0.9974 1.0000 1.0000 0.8853 0.9948 0.9999 1.0000 1.0000 0.8587 0.9915 0.9997 1.0000 1.0000
0.9600 1.0000 0.9216 0.9984 1.0000 0.8847 0.9953 0.9999 1.0000 0.8493 0.9909 0.9998 1.0000 1.0000 0.8154 0.9852 0.9994 1.0000 1.0000
0.9500 1.0000 0.9025 0.9975 1.0000 0.8574 0.9928 0.9999 1.0000 0.8145 0.9860 0.9995 1.0000 1.0000 0.7738 0.9774 0.9988 1.0000 1.0000
0.9400 1.0000 0.8836 0.9964 1.0000 0.8306 0.9896 0.9998 1.0000 0.7807 0.9801 0.9992 1.0000 1.0000 0.7339 0.9681 0.9980 0.9999 1.0000
0.9300 1.0000 0.8649 0.9951 1.0000 0.8044 0.9860 0.9997 1.0000 0.7481 0.9733 0.9987 1.0000 1.0000 0.6957 0.9575 0.9969 0.9999 1.0000
0.9200 1.0000 0.8464 0.9936 1.0000 0.7787 0.9818 0.9995 1.0000 0.7164 0.9656 0.9981 1.0000 1.0000 0.6591 0.9456 0.9955 0.9998 1.0000
0.9100 1.0000 0.8281 0.9919 1.0000 0.7536 0.9772 0.9993 1.0000 0.6857 0.9570 0.9973 0.9999 1.0000 0.6240 0.9326 0.9937 0.9997 1.0000
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.9000 1.0000 0.8100 0.9900 1.0000 0.7290 0.9720 0.9990 1.0000 0.6561 0.9477 0.9963 0.9999 1.0000 0.5905 0.9185 0.9914 0.9995 1.0000 1.0000
0.8500 1.0000 0.7225 0.9775 1.0000 0.6141 0.9393 0.9966 1.0000 0.5220 0.8905 0.9880 0.9995 1.0000 0.4437 0.8352 0.9734 0.9978 0.9999 1.0000
0.8000 1.0000 0.6400 0.9600 1.0000 0.5120 0.8960 0.9920 1.0000 0.4096 0.8192 0.9728 0.9984 1.0000 0.3277 0.7373 0.9421 0.9933 0.9997 1.0000
0.7500 1.0000 0.5625 0.9375 1.0000 0.4219 0.8438 0.9844 1.0000 0.3164 0.7383 0.9492 0.9961 1.0000 0.2373 0.6328 0.8965 0.9844 0.9990 1.0000
0.7000 1.0000 0.4900 0.9100 1.0000 0.3430 0.7840 0.9730 1.0000 0.2401 0.6517 0.9163 0.9919 1.0000 0.1681 0.5282 0.8369 0.9692 0.9976 1.0000
0.6500 1.0000 0.4225 0.8775 1.0000 0.2746 0.7183 0.9571 1.0000 0.1785 0.5630 0.8735 0.9850 1.0000 0.1160 0.4284 0.7648 0.9460 0.9947 1.0000
0.6000 1.0000 0.3600 0.8400 1.0000 0.2160 0.6480 0.9360 1.0000 0.1296 0.4752 0.8208 0.9744 1.0000 0.0778 0.3370 0.6826 0.9130 0.9898 1.0000
0.5500 1.0000 0.3025 0.7975 1.0000 0.1664 0.5748 0.9089 1.0000 0.0915 0.3910 0.7585 0.9590 1.0000 0.0503 0.2562 0.5931 0.8688 0.9815 1.0000
0.5000 1.0000 0.2500 0.7500 1.0000 0.1250 0.5000 0.8750 1.0000 0.0625 0.3125 0.6875 0.9375 1.0000 0.0312 0.1875 0.5000 0.8125 0.9688 1.0000
8.2. De binomiaalverdeling n
k
6
0 1 2 3 4 0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5
7
8
9
n
k
6
0 1 2 3 4 5 5 6 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 9
7
8
9
p
p
165
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.9415 0.9985 1.0000 1.0000 1.0000 0.9321 0.9980 1.0000 1.0000 1.0000 1.0000 0.9227 0.9973 0.9999 1.0000 1.0000 1.0000 0.9135 0.9966 0.9999 1.0000 1.0000 1.0000
0.8858 0.9943 0.9998 1.0000 1.0000 0.8681 0.9921 0.9997 1.0000 1.0000 1.0000 0.8508 0.9897 0.9996 1.0000 1.0000 1.0000 0.8337 0.9869 0.9994 1.0000 1.0000 1.0000
0.8330 0.9875 0.9995 1.0000 1.0000 0.8080 0.9829 0.9991 1.0000 1.0000 1.0000 0.7837 0.9777 0.9987 0.9999 1.0000 1.0000 0.7602 0.9718 0.9980 0.9999 1.0000 1.0000
0.7828 0.9784 0.9988 1.0000 1.0000 0.7514 0.9706 0.9980 0.9999 1.0000 1.0000 0.7214 0.9619 0.9969 0.9998 1.0000 1.0000 0.6925 0.9522 0.9955 0.9997 1.0000 1.0000
0.7351 0.9672 0.9978 0.9999 1.0000 0.6983 0.9556 0.9962 0.9998 1.0000 1.0000 0.6634 0.9428 0.9942 0.9996 1.0000 1.0000 0.6302 0.9288 0.9916 0.9994 1.0000 1.0000
0.6899 0.9541 0.9962 0.9998 1.0000 0.6485 0.9382 0.9937 0.9996 1.0000 1.0000 0.6096 0.9208 0.9904 0.9993 1.0000 1.0000 0.5730 0.9022 0.9862 0.9987 0.9999 1.0000
0.6470 0.9392 0.9942 0.9997 1.0000 0.6017 0.9187 0.9903 0.9993 1.0000 1.0000 0.5596 0.8965 0.9853 0.9987 0.9999 1.0000 0.5204 0.8729 0.9791 0.9977 0.9998 1.0000
0.6064 0.9227 0.9915 0.9995 1.0000 0.5578 0.8974 0.9860 0.9988 0.9999 1.0000 0.5132 0.8702 0.9789 0.9978 0.9999 1.0000 0.4722 0.8417 0.9702 0.9963 0.9997 1.0000
0.5679 0.9048 0.9882 0.9992 1.0000 0.5168 0.8745 0.9807 0.9982 0.9999 1.0000 0.4703 0.8423 0.9711 0.9966 0.9997 1.0000 0.4279 0.8088 0.9595 0.9943 0.9995 1.0000
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.5314 0.8857 0.9842 0.9987 0.9999 1.0000 1.0000 1.0000 0.4783 0.8503 0.9743 0.9973 0.9998 1.0000 1.0000 1.0000 0.4305 0.8131 0.9619 0.9950 0.9996 1.0000 1.0000 1.0000 1.0000 0.3874 0.7748 0.947 0.9917 0.9991 0.9999 1.0000 1.0000 1.0000 1.0000
0.3771 0.7765 0.9527 0.9941 0.9996 1.0000 1.0000 1.0000 0.3206 0.7166 0.9262 0.9879 0.9988 0.9999 1.0000 1.0000 0.2725 0.6572 0.8948 0.9786 0.9971 0.9998 1.0000 1.0000 1.0000 0.2316 0.5995 0.8591 0.9661 0.9944 0.9994 1.0000 1.0000 1.0000 1.0000
0.2621 0.6554 0.9011 0.9830 0.9984 0.9999 0.9999 1.0000 0.2097 0.5767 0.8520 0.9667 0.9953 0.9996 1.0000 1.0000 0.1678 0.5033 0.7969 0.9437 0.9896 0.9988 0.9999 1.0000 1.0000 0.1342 0.4362 0.7382 0.9144 0.9804 0.9969 0.9997 1.0000 1.0000 1.0000
0.1780 0.5339 0.8306 0.9624 0.9954 0.9998 0.9998 1.0000 0.1335 0.4449 0.7564 0.9294 0.9871 0.9987 0.9999 1.0000 0.1001 0.3671 0.6785 0.8862 0.9727 0.9958 0.9996 1.0000 1.0000 0.0751 0.3003 0.6007 0.8343 0.9511 0.9900 0.9987 0.9999 1.0000 1.0000
0.1176 0.4202 0.7443 0.9295 0.9891 0.9993 0.9993 1.0000 0.0824 0.3294 0.6471 0.8740 0.9712 0.9962 0.9998 1.0000 0.0576 0.2553 0.5518 0.8059 0.9420 0.9887 0.9987 0.9999 1.0000 0.0404 0.1960 0.4628 0.7297 0.9012 0.9747 0.9957 0.9996 1.0000 1.0000
0.0754 0.3191 0.6471 0.8826 0.9777 0.9982 0.9982 1.0000 0.0490 0.2338 0.5323 0.8002 0.9444 0.9910 0.9994 1.0000 0.0319 0.1691 0.4278 0.7064 0.8939 0.9747 0.9964 0.9998 1.0000 0.0207 0.1211 0.3373 0.6089 0.8283 0.9464 0.9888 0.9986 0.9999 1.0000
0.0467 0.2333 0.5443 0.8208 0.9590 0.9959 0.9959 1.0000 0.0280 0.1586 0.4199 0.7102 0.9037 0.9812 0.9984 1.0000 0.0168 0.1064 0.3154 0.5941 0.8263 0.9502 0.9915 0.9993 1.0000 0.0101 0.0705 0.2318 0.4826 0.7334 0.9006 0.9750 0.9962 0.9997 1.0000
0.0277 0.1636 0.4415 0.7447 0.9308 0.9917 0.9917 1.0000 0.0152 0.1024 0.3164 0.6083 0.8471 0.9643 0.9963 1.0000 0.0084 0.0632 0.2201 0.4770 0.7396 0.9115 0.9819 0.9983 1.0000 0.0046 0.0385 0.1495 0.3614 0.6214 0.8342 0.9502 0.9909 0.9992 1.0000
0.0156 0.1094 0.3437 0.6563 0.8906 0.9844 0.9844 1.0000 0.0078 0.0625 0.2266 0.5000 0.7734 0.9375 0.9922 1.0000 0.0039 0.0352 0.1445 0.3633 0.6367 0.8555 0.9648 0.9961 1.0000 0.0020 0.0195 0.08984 0.2539 0.5000 0.7461 0.9102 0.9805 0.9980 1.0000
8.2. De binomiaalverdeling n
k
10
0 1 2 3 4 5 6 0 1 2 3 4 5 6
11
n
k
10
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 11 0 1 2 3 4 5 6 7 8 9 10 11 12
11
12
p
p
166
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.9044 0.9957 0.9999 1.0000 1.0000 1.0000 1.0000 0.8953 0.9948 0.9998 1.0000 1.0000 1.0000 1.0000
0.8171 0.9838 0.9991 1.0000 1.0000 1.0000 1.0000 0.8007 0.9805 0.9988 1.0000 1.0000 1.0000 1.0000
0.7374 0.9655 0.9972 0.9999 1.0000 1.0000 1.0000 0.7153 0.9587 0.9963 0.9998 1.0000 1.0000 1.0000
0.6648 0.9418 0.9938 0.9996 1.0000 1.0000 1.0000 0.6382 0.9308 0.9917 0.9993 1.0000 1.0000 1.0000
0.5987 0.9139 0.9885 0.9990 0.9999 1.0000 1.0000 0.5688 0.8981 0.9848 0.9984 0.9999 1.0000 1.0000
0.5386 0.8824 0.9812 0.9980 0.9998 1.0000 1.0000 0.5063 0.8618 0.9752 0.9970 0.9997 1.0000 1.0000
0.4840 0.8483 0.9717 0.9964 0.9997 1.0000 1.0000 0.4501 0.8228 0.9630 0.9947 0.9995 1.0000 1.0000
0.4344 0.8121 0.9599 0.9942 0.9994 1.0000 1.0000 0.3996 0.7819 0.9481 0.9915 0.9990 0.9999 1.0000
0.3894 0.7746 0.9460 0.9912 0.9990 0.9999 1.0000 0.3544 0.7399 0.9305 0.9871 0.9983 0.9998 1.0000
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.3487 0.7361 0.9298 0.9872 0.9984 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 0.3138 0.6974 0.9104 0.9815 0.9972 0.9997 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.2824 0.6590 0.8891 0.9744 0.9957 0.9995 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.1969 0.5443 0.8202 0.9500 0.9901 0.9986 0.9999 1.0000 1.0000 1.0000 1.0000 0.1673 0.4922 0.7788 0.9306 0.9841 0.9973 0.9997 1.0000 1.0000 1.0000 1.0000 1.0000 0.1422 0.4435 0.7358 0.9078 0.9761 0.9954 0.9993 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000
0.1074 0.3758 0.6778 0.8791 0.9672 0.9936 0.9991 0.9999 1.0000 1.0000 1.0000 0.0859 0.3221 0.6174 0.8389 0.9496 0.9883 0.9980 0.9998 1.0000 1.0000 1.0000 1.0000 0.0687 0.2749 0.5583 0.7946 0.9274 0.9806 0.9961 0.9994 0.9999 1.0000 1.0000 1.0000 1.0000
0.0563 0.2440 0.5256 0.7759 0.9219 0.9803 0.9965 0.9996 1.0000 1.0000 1.0000 0.0422 0.1971 0.4552 0.7133 0.8854 0.9657 0.9924 0.9988 0.9999 1.0000 1.0000 1.0000 0.0317 0.1584 0.3907 0.6488 0.8424 0.9456 0.9857 0.9972 0.9996 1.0000 1.0000 1.0000 1.0000
0.0282 0.1493 0.3828 0.6496 0.8497 0.9527 0.9894 0.9984 0.9999 1.0000 1.0000 0.0198 0.1130 0.3127 0.5696 0.7897 0.9218 0.9784 0.9957 0.9994 1.0000 1.0000 1.0000 0.0138 0.0850 0.2528 0.4925 0.7237 0.8822 0.9614 0.9905 0.9983 0.9998 1.0000 1.0000 1.0000
0.0135 0.0860 0.2616 0.5138 0.7515 0.9051 0.9740 0.9952 0.9995 1.0000 1.0000 0.0088 0.0606 0.2001 0.4256 0.6683 0.8513 0.9499 0.9878 0.9980 0.9998 1.0000 1.0000 0.0057 0.0424 0.1513 0.3467 0.5833 0.7873 0.9154 0.9745 0.9944 0.9992 0.9999 1.0000 1.0000
0.0060 0.0464 0.1673 0.3823 0.6331 0.8338 0.9452 0.9877 0.9983 0.9999 1.0000 0.0036 0.0302 0.1189 0.2963 0.5328 0.7535 0.9006 0.9707 0.9941 0.9993 1.0000 1.0000 0.0022 0.0196 0.0834 0.2253 0.4382 0.6652 0.8418 0.9427 0.9847 0.9972 0.9997 1.0000 1.0000
0.0025 0.0233 0.0996 0.2660 0.5044 0.7384 0.8980 0.9726 0.9955 0.9997 1.0000 0.0014 0.0139 0.0652 0.1911 0.3971 0.6331 0.8262 0.9390 0.9852 0.9978 0.9998 1.0000 0.0008 0.0083 0.0421 0.1345 0.3044 0.5269 0.7393 0.8883 0.9644 0.9921 0.9989 0.9999 1.0000
0.0010 0.0107 0.0547 0.1719 0.3770 0.6230 0.8281 0.9453 0.9893 0.9990 1.0000 0.0004 0.0059 0.0327 0.1133 0.2744 0.5000 0.7256 0.8867 0.9673 0.9941 0.9995 1.0000 0.0002 0.0032 0.0193 0.0730 0.1938 0.3872 0.6128 0.8062 0.9270 0.9807 0.9968 0.9998 1.0000
8.2. De binomiaalverdeling n
k
12
0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
13
14
n
k
13
0 1 2 3 4 5 6 7 8 9 10 11 12 13 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
14
p
p
167
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.8864 0.9938 0.9998 1.0000 1.0000 1.0000 1.0000 0.8775 0.9928 0.9997 1.0000 1.0000 1.0000 1.0000 1.0000 0.8687 0.9916 0.9997 1.0000 1.0000 1.0000 1.0000 1.0000
0.7847 0.9769 0.9985 0.9999 1.0000 1.0000 1.0000 0.7690 0.9730 0.9980 0.9999 1.0000 1.0000 1.0000 1.0000 0.7536 0.9690 0.9975 0.9999 1.0000 1.0000 1.0000 1.0000
0.6938 0.9514 0.9952 0.9997 1.0000 1.0000 1.0000 0.6730 0.9436 0.9938 0.9995 1.0000 1.0000 1.0000 1.0000 0.6528 0.9355 0.9923 0.9994 1.0000 1.0000 1.0000 1.0000
0.6127 0.9191 0.9893 0.9990 0.9999 1.0000 1.0000 0.5882 0.9068 0.9865 0.9986 0.9999 1.0000 1.0000 1.0000 0.5647 0.8941 0.9833 0.9981 0.9998 1.0000 1.0000 1.0000
0.5404 0.8816 0.9804 0.9978 0.9998 1.0000 1.0000 0.5133 0.8646 0.9755 0.9969 0.9997 1.0000 1.0000 1.0000 0.4877 0.8470 0.9699 0.9958 0.9996 1.0000 1.0000 1.0000
0.4759 0.8405 0.9684 0.9957 0.9996 1.0000 1.0000 0.4474 0.8186 0.9608 0.9940 0.9993 0.9999 1.0000 1.0000 0.4205 0.7963 0.9522 0.9920 0.9990 0.9999 1.0000 1.0000
0.4186 0.7967 0.9532 0.9925 0.9991 0.9999 1.0000 0.3893 0.7702 0.9422 0.9897 0.9987 0.9999 1.0000 1.0000 0.3620 0.7436 0.9302 0.9864 0.9980 0.9998 1.0000 1.0000
0.3677 0.7513 0.9348 0.9880 0.9984 0.9998 1.0000 0.3383 0.7206 0.9201 0.9837 0.9976 0.9997 1.0000 1.0000 0.3112 0.6900 0.9042 0.9786 0.9965 0.9996 1.0000 1.0000
0.3225 0.7052 0.9134 0.9820 0.9973 0.9997 1.0000 0.2935 0.6707 0.8946 0.9758 0.9959 0.9995 0.9999 1.0000 0.2670 0.6368 0.8745 0.9685 0.9941 0.9992 0.9999 1.0000
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.2542 0.6213 0.8661 0.9658 0.9935 0.9991 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.2288 0.5846 0.8416 0.9559 0.9908 0.9985 0.9998 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.1209 0.3983 0.6920 0.8820 0.9658 0.9925 0.9987 0.9998 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.1028 0.3567 0.6479 0.8535 0.9533 0.9885 0.9978 0.9997 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.0550 0.2336 0.5017 0.7473 0.9009 0.9700 0.9930 0.9988 0.9998 1.0000 1.0000 1.0000 1.0000 1.0000 0.0440 0.1979 0.4481 0.6982 0.8702 0.9561 0.9884 0.9976 0.9996 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.0238 0.1267 0.3326 0.5843 0.7940 0.9198 0.9757 0.9944 0.9990 0.9999 1.0000 1.0000 1.0000 1.0000 0.0178 0.1010 0.2811 0.5213 0.7415 0.8883 0.9617 0.9897 0.9978 0.9997 1.0000 1.0000 1.0000 1.0000 1.0000
0.0097 0.0637 0.2025 0.4206 0.6543 0.8346 0.9376 0.9818 0.9960 0.9993 0.9999 1.0000 1.0000 1.0000 0.0068 0.0475 0.1608 0.3552 0.5842 0.7805 0.9067 0.9685 0.9917 0.9983 0.9998 1.0000 1.0000 1.0000 1.0000
0.0037 0.0296 0.1132 0.2783 0.5005 0.7159 0.8705 0.9538 0.9874 0.9975 0.9997 1.0000 1.0000 1.0000 0.0024 0.0205 0.0839 0.2205 0.4227 0.6405 0.8164 0.9247 0.9757 0.9940 0.9989 0.9999 1.0000 1.0000 1.0000
0.0013 0.0126 0.0579 0.1686 0.3530 0.5744 0.7712 0.9023 0.9679 0.9922 0.9987 0.9999 1.0000 1.0000 0.0008 0.0081 0.0398 0.1243 0.2793 0.4859 0.6925 0.8499 0.9417 0.9825 0.9961 0.9994 0.9999 1.0000 1.0000
0.0004 0.0050 0.0269 0.0929 0.2279 0.4268 0.6437 0.8212 0.9302 0.9797 0.9959 0.9995 1.0000 1.0000 0.0002 0.0029 0.0170 0.0632 0.1672 0.3373 0.5461 0.7414 0.8811 0.9574 0.9886 0.9978 0.9997 1.0000 1.0000
0.0001 0.0017 0.0112 0.0461 0.1334 0.2905 0.5000 0.7095 0.8666 0.9539 0.9888 0.9983 0.9999 1.0000 0.0000 0.0009 0.0065 0.0287 0.0898 0.2120 0.3953 0.6047 0.7880 0.9102 0.9713 0.9935 0.9991 0.9999 1.0000
8.2. De binomiaalverdeling n
k
15
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
16
n
k
15
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
16
p
p
168
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.8601 0.9904 0.9996 1.0000 1.0000 1.0000 1.0000 1.0000 0.8515 0.9891 0.9995 1.0000 1.0000 1.0000 1.0000 1.0000
0.7386 0.9647 0.9970 0.9998 1.0000 1.0000 1.0000 1.0000 0.7238 0.9601 0.9963 0.9998 1.0000 1.0000 1.0000 1.0000
0.6333 0.9270 0.9906 0.9992 0.9999 1.0000 1.0000 1.0000 0.6143 0.9182 0.9887 0.9989 0.9999 1.0000 1.0000 1.0000
0.5421 0.8809 0.9797 0.9976 0.9998 1.0000 1.0000 1.0000 0.5204 0.8673 0.9758 0.9968 0.9997 1.0000 1.0000 1.0000
0.4633 0.8290 0.9638 0.9945 0.9994 0.9999 1.0000 1.0000 0.4401 0.8108 0.9571 0.9930 0.9991 0.9999 1.0000 1.0000
0.3953 0.7738 0.9429 0.9896 0.9986 0.9999 1.0000 1.0000 0.3716 0.7511 0.9327 0.9868 0.9981 0.9998 1.0000 1.0000
0.3367 0.7168 0.9171 0.9825 0.9972 0.9997 1.0000 1.0000 0.3131 0.6902 0.9031 0.9779 0.9962 0.9995 0.9999 1.0000
0.2863 0.6597 0.8870 0.9727 0.9950 0.9993 0.9999 1.0000 0.2634 0.6299 0.8689 0.9658 0.9932 0.9990 0.9999 1.0000
0.2430 0.6035 0.8531 0.9601 0.9918 0.9987 0.9998 1.0000 0.2211 0.5711 0.8306 0.9504 0.9889 0.9981 0.9997 1.0000
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.2059 0.5490 0.8159 0.9444 0.9873 0.9978 0.9997 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.1853 0.5147 0.7892 0.9316 0.9830 0.9967 0.9995 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.0874 0.3186 0.6042 0.8227 0.9383 0.9832 0.9964 0.9994 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.0743 0.2839 0.5614 0.7899 0.9209 0.9765 0.9944 0.9989 0.9998 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.0352 0.1671 0.3980 0.6482 0.8358 0.9389 0.9819 0.9958 0.9992 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 0.0281 0.1407 0.3518 0.5981 0.7982 0.9183 0.9733 0.9930 0.9985 0.9998 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.0134 0.0802 0.2361 0.4613 0.6865 0.8516 0.9434 0.9827 0.9958 0.9992 0.9999 1.0000 1.0000 1.0000 1.0000 0.0100 0.0635 0.1971 0.4050 0.6302 0.8103 0.9204 0.9729 0.9925 0.9984 0.9997 1.0000 1.0000 1.0000 1.0000 1.0000
0.0047 0.0353 0.1268 0.2969 0.5155 0.7216 0.8689 0.9500 0.9848 0.9963 0.9993 0.9999 1.0000 1.0000 1.0000 0.0033 0.0261 0.0994 0.2459 0.4499 0.6598 0.8247 0.9256 0.9743 0.9929 0.9984 0.9997 1.0000 1.0000 1.0000 1.0000
0.0016 0.0142 0.0617 0.1727 0.3519 0.5643 0.7548 0.8868 0.9578 0.9876 0.9972 0.9995 0.9999 1.0000 1.0000 0.0010 0.0098 0.0451 0.1339 0.2892 0.4900 0.6881 0.8406 0.9329 0.9771 0.9938 0.9987 0.9998 1.0000 1.0000 1.0000
0.0005 0.0052 0.0271 0.0905 0.2173 0.4032 0.6098 0.7869 0.9050 0.9662 0.9907 0.9981 0.9997 1.0000 1.0000 0.0003 0.0033 0.0183 0.0651 0.1666 0.3288 0.5272 0.7161 0.8577 0.9417 0.9809 0.9951 0.9991 0.9999 1.0000 1.0000
0.0001 0.0017 0.0107 0.0424 0.1204 0.2608 0.4522 0.6535 0.8182 0.9231 0.9745 0.9937 0.9989 0.9999 1.0000 0.0000 0.0010 0.0066 0.0281 0.0853 0.1976 0.3660 0.5629 0.7441 0.8759 0.9514 0.9851 0.9965 0.9994 0.9999 1.0000
0.0000 0.0005 0.0037 0.0176 0.0592 0.1509 0.3036 0.5000 0.6964 0.8491 0.9408 0.9824 0.9963 0.9995 1.0000 0.0000 0.0003 0.0021 0.0106 0.0384 0.1051 0.2272 0.4018 0.5982 0.7728 0.8949 0.9616 0.9894 0.9979 0.9997 1.0000
8.2. De binomiaalverdeling n
k
17
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8
18
n
k
17
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
18
p
p
169
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.8429 0.9877 0.9994 1.0000 1.0000 1.0000 1.0000 1.0000 0.8345 0.9862 0.9993 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.7093 0.9554 0.9956 0.9997 1.0000 1.0000 1.0000 1.0000 0.6951 0.9505 0.9948 0.9996 1.0000 1.0000 1.0000 1.0000 1.0000
0.5958 0.9091 0.9866 0.9986 0.9999 1.0000 1.0000 1.0000 0.5780 0.8997 0.9843 0.9982 0.9998 1.0000 1.0000 1.0000 1.0000
0.4996 0.8535 0.9714 0.9960 0.9996 1.0000 1.0000 1.0000 0.4796 0.8393 0.9667 0.9950 0.9994 0.9999 1.0000 1.0000 1.0000
0.4181 0.7922 0.9497 0.9912 0.9988 0.9999 1.0000 1.0000 0.3972 0.7735 0.9419 0.9891 0.9985 0.9998 1.0000 1.0000 1.0000
0.3493 0.7283 0.9218 0.9836 0.9974 0.9997 1.0000 1.0000 0.3283 0.7055 0.9102 0.9799 0.9966 0.9995 1.0000 1.0000 1.0000
0.2912 0.6638 0.8882 0.9727 0.9949 0.9993 0.9999 1.0000 0.2708 0.6378 0.8725 0.9667 0.9933 0.9990 0.9999 1.0000 1.0000
0.2423 0.6005 0.8497 0.9581 0.9911 0.9985 0.9998 1.0000 0.2229 0.5719 0.8298 0.9494 0.9884 0.9979 0.9997 1.0000 1.0000
0.2012 0.5396 0.8073 0.9397 0.9855 0.9973 0.9996 1.0000 0.1831 0.5091 0.7832 0.9277 0.9814 0.9962 0.9994 0.9999 1.0000
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.1668 0.4818 0.7618 0.9174 0.9779 0.9953 0.9992 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.1501 0.4503 0.7338 0.9018 0.9718 0.9936 0.9988 0.9998 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.0631 0.2525 0.5198 0.7556 0.9013 0.9681 0.9917 0.9983 0.9997 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.0536 0.2241 0.4797 0.7202 0.8794 0.9581 0.9882 0.9973 0.9995 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.0230 0.1182 0.3096 0.5489 0.7582 0.8943 0.9623 0.9891 0.9974 0.9995 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.0180 0.0991 0.2713 0.5010 0.7164 0.8671 0.9487 0.9837 0.9957 0.9991 0.9998 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.0075 0.0501 0.1637 0.3530 0.5739 0.7653 0.8929 0.9598 0.9876 0.9969 0.9994 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 0.0056 0.0395 0.1353 0.3057 0.5187 0.7175 0.8610 0.9431 0.9807 0.9946 0.9988 0.9998 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.0023 0.0193 0.0774 0.2019 0.3887 0.5968 0.7752 0.8954 0.9597 0.9873 0.9968 0.9993 0.9999 1.0000 1.0000 1.0000 1.0000 0.0016 0.0142 0.0600 0.1646 0.3327 0.5344 0.7217 0.8593 0.9404 0.9790 0.9939 0.9986 0.9997 1.0000 1.0000 1.0000 1.0000 1.0000
0.0007 0.0067 0.0327 0.1028 0.2348 0.4197 0.6188 0.7872 0.9006 0.9617 0.988 0.997 0.9994 0.9999 1.0000 1.0000 1.0000 0.0004 0.0046 0.0236 0.0783 0.1886 0.355 0.5491 0.7283 0.8609 0.9403 0.9788 0.9938 0.9986 0.9997 1.0000 1.0000 1.0000 1.0000
0.0002 0.0021 0.0123 0.0464 0.126 0.2639 0.4478 0.6405 0.8011 0.9081 0.9652 0.9894 0.9975 0.9995 0.9999 1.0000 1.0000 0.0001 0.0013 0.0082 0.0328 0.0942 0.2088 0.3743 0.5634 0.7368 0.8653 0.9424 0.9797 0.9942 0.9987 0.9998 1.0000 1.0000 1.0000
0.0000 0.0006 0.0041 0.0184 0.05958 0.1471 0.2902 0.4743 0.6626 0.8166 0.9174 0.9699 0.9914 0.9981 0.9997 1.0000 1.0000 0.0000 0.0003 0.0025 0.0120 0.0411 0.1077 0.2258 0.3915 0.5778 0.7473 0.872 0.9463 0.9817 0.9951 0.9990 0.9999 1.0000 1.0000
0.0000 0.0001 0.0012 0.0064 0.0245 0.0717 0.1662 0.3145 0.5000 0.6855 0.8338 0.9283 0.9755 0.9936 0.9988 0.9999 1.0000 0.0000 0.0000 0.0007 0.0038 0.0154 0.04813 0.1189 0.2403 0.4073 0.5927 0.7597 0.8811 0.9519 0.9846 0.9962 0.9993 0.9999 1.0000
8.2. De binomiaalverdeling n
k
19
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
20
n
k
19
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
20
p
p
170
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.8262 0.9847 0.9991 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.8179 0.9831 0.9990 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.6812 0.9454 0.9939 0.9995 1.0000 1.0000 1.0000 1.0000 1.0000 0.6676 0.9401 0.9929 0.9994 1.0000 1.0000 1.0000 1.0000 1.0000
0.5606 0.8900 0.9817 0.9978 0.9998 1.0000 1.0000 1.0000 1.0000 0.5438 0.8802 0.9790 0.9973 0.9997 1.0000 1.0000 1.0000 1.0000
0.4604 0.8249 0.9616 0.9939 0.9993 0.9999 1.0000 1.0000 1.0000 0.4420 0.8103 0.9561 0.9926 0.9990 0.9999 1.0000 1.0000 1.0000
0.3774 0.7547 0.9335 0.9868 0.9980 0.9998 1.0000 1.0000 1.0000 0.3585 0.7358 0.9245 0.9841 0.9974 0.9997 1.0000 1.0000 1.0000
0.3086 0.6829 0.8979 0.9757 0.9956 0.9994 0.9999 1.0000 1.0000 0.2901 0.6605 0.8850 0.9710 0.9944 0.9991 0.9999 1.0000 1.0000
0.2519 0.6121 0.8561 0.9602 0.9915 0.9986 0.9998 1.0000 1.0000 0.2342 0.5869 0.8390 0.9529 0.9893 0.9981 0.9997 1.0000 1.0000
0.2051 0.5440 0.8092 0.9398 0.9853 0.9971 0.9996 0.9999 1.0000 0.1887 0.5169 0.7879 0.9294 0.9817 0.9962 0.9994 0.9999 1.0000
0.1666 0.4798 0.7585 0.9147 0.9765 0.9949 0.9991 0.9999 1.0000 0.1516 0.4516 0.7334 0.9007 0.9710 0.9932 0.9987 0.9998 1.0000
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.1351 0.4203 0.7054 0.8850 0.9648 0.9914 0.9983 0.9997 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.1216 0.3917 0.6769 0.8670 0.9568 0.9887 0.9976 0.9996 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.0456 0.1985 0.4413 0.6841 0.8556 0.9463 0.9837 0.9959 0.9992 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.0388 0.1756 0.4049 0.6477 0.8298 0.9327 0.9781 0.9941 0.9987 0.9998 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.0144 0.0829 0.2369 0.4551 0.6733 0.8369 0.9324 0.9767 0.9933 0.9984 0.9997 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.0115 0.0692 0.2061 0.4114 0.6296 0.8042 0.9133 0.9679 0.9900 0.9974 0.9994 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.0042 0.0310 0.1113 0.2631 0.4654 0.6678 0.8251 0.9225 0.9713 0.9911 0.9977 0.9995 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 0.0032 0.0243 0.0913 0.2252 0.4148 0.6172 0.7858 0.8982 0.9591 0.9861 0.9961 0.9991 0.9998 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0.0011 0.0104 0.0462 0.1332 0.2822 0.4739 0.6655 0.8180 0.9161 0.9674 0.9895 0.9972 0.9994 0.9999 1.0000 1.0000 1.0000 1.0000 0.0008 0.0076 0.0355 0.1071 0.2375 0.4164 0.6080 0.7723 0.8867 0.9520 0.9829 0.9949 0.9987 0.9997 1.0000 1.0000 1.0000 1.0000 1.0000
0.0003 0.0031 0.0170 0.0591 0.1500 0.2968 0.4812 0.6656 0.8145 0.9125 0.9653 0.9886 0.9969 0.9993 0.9999 1.0000 1.0000 1.0000 0.0001 0.0021 0.0121 0.0444 0.1182 0.2454 0.4166 0.6010 0.7624 0.8782 0.9468 0.9804 0.9940 0.9985 0.9997 1.0000 1.0000 1.0000 1.0000
0.0000 0.0008 0.0055 0.0230 0.0696 0.1629 0.3081 0.4878 0.6675 0.8139 0.9115 0.9648 0.9884 0.9969 0.9994 0.9999 1.0000 1.0000 0.0000 0.0005 0.0036 0.0160 0.0510 0.1256 0.2500 0.4159 0.5956 0.7553 0.8725 0.9435 0.9790 0.9935 0.9984 0.9997 1.0000 1.0000 1.0000
0.0000 0.0002 0.0015 0.0077 0.0280 0.0777 0.1727 0.3169 0.4940 0.6710 0.8159 0.9129 0.9658 0.9891 0.9972 0.9995 0.9999 1.0000 0.0000 0.0001 0.0009 0.0049 0.0189 0.0553 0.1299 0.2520 0.4143 0.5914 0.7507 0.8692 0.9420 0.9786 0.9936 0.9985 0.9997 1.0000 1.0000
0.0000 0.0000 0.0004 0.0022 0.0096 0.0318 0.0835 0.1796 0.3238 0.5000 0.6762 0.8204 0.9165 0.9682 0.9904 0.9978 0.9996 1.0000 0.0000 0.0000 0.0002 0.0013 0.0059 0.0207 0.0577 0.1316 0.2517 0.4119 0.5881 0.7483 0.8684 0.9423 0.9793 0.9941 0.9987 0.9998 1.0000
8.3. De Poissonverdeling
171
8.3 De Poissonverdeling X
Pλ
De tabel geeft de cumulatieve kans FX x PX k
k
λ
0 1 2 3 4 5 6 k
λ
0 1 2 3 4 5 6 7 8 k 0 1 2 3 4 5 6 7 8 9 10 11 12
λ
λ j λ e . j 0 j! k
∑
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
0.905 0.995 1.000 1.000 1.000 1.000 1.000
0.819 0.982 0.999 1.000 1.000 1.000 1.000
0.741 0.963 0.996 1.000 1.000 1.000 1.000
0.670 0.938 0.992 0.999 1.000 1.000 1.000
0.607 0.910 0.986 0.998 1.000 1.000 1.000
0.549 0.878 0.977 0.997 1.000 1.000 1.000
0.497 0.844 0.966 0.994 0.999 1.000 1.000
0.449 0.809 0.953 0.991 0.999 1.000 1.000
0.407 0.772 0.937 0.987 0.998 1.000 1.000
0.368 0.736 0.920 0.981 0.996 0.999 1.000
1.1
1.2
1.3
c1.4
1.5
c1.6
1.7
1.8
1.9
2.0
0.333 0.699 0.900 0.974 0.995 0.999 1.000 1.000 1.000
0.301 0.663 0.879 0.966 0.992 0.998 1.000 1.000 1.000
0.273 0.627 0.857 0.957 0.989 0.998 1.000 1.000 1.000
0.247 0.592 0.833 0.946 0.986 0.997 0.999 1.000 1.000
0.223 0.558 0.809 0.934 0.981 0.996 0.999 1.000 1.000
0.202 0.525 0.783 0.921 0.976 0.994 0.999 1.000 1.000
0.183 0.493 0.757 0.907 0.970 0.992 0.998 1.000 1.000
0.165 0.463 0.731 0.891 0.964 0.990 0.997 0.999 1.000
0.150 0.434 0.704 0.875 0.956 0.987 0.997 0.999 1.000
0.135 0.406 0.677 0.857 0.947 0.983 0.995 0.999 1.000
2.2
2.4
2.6
2.8
3.0
3.2
3.4
3.6
3.8
4.0
0.111 0.355 0.623 0.819 0.928 0.975 0.993 0.998 1.000 1.000 1.000 1.000 1.000
0.091 0.308 0.570 0.779 0.904 0.964 0.988 0.997 0.999 1.000 1.000 1.000 1.000
0.074 0.267 0.518 0.736 0.877 0.951 0.983 0.995 0.999 1.000 1.000 1.000 1.000
0.061 0.231 0.469 0.692 0.848 0.935 0.976 0.992 0.998 0.999 1.000 1.000 1.000
0.050 0.199 0.423 0.647 0.815 0.916 0.966 0.988 0.996 0.999 1.000 1.000 1.000
0.041 0.171 0.380 0.603 0.781 0.895 0.955 0.983 0.994 0.998 1.000 1.000 1.000
0.033 0.147 0.340 0.558 0.744 0.871 0.942 0.977 0.992 0.997 0.999 1.000 1.000
0.027 0.126 0.303 0.515 0.706 0.844 0.927 0.969 0.988 0.996 0.999 1.000 1.000
0.022 0.107 0.269 0.473 0.668 0.816 0.909 0.960 0.984 0.994 0.998 0.999 1.000
0.018 0.092 0.238 0.433 0.629 0.785 0.889 0.949 0.979 0.992 0.997 0.999 1.000
8.3. De Poissonverdeling
k
λ
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 k 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
λ
172
4.2
4.4
4.6
4.8
5.0
5.2
5.4
5.6
5.8
6.0
0.015 0.078 0.210 0.395 0.590 0.753 0.867 0.936 0.972 0.989 0.996 0.999 1.000 1.000 1.000 1.000 1.000
0.012 0.066 0.185 0.359 0.551 0.720 0.844 0.921 0.964 0.985 0.994 0.998 0.999 1.000 1.000 1.000 1.000
0.010 0.056 0.163 0.326 0.513 0.686 0.818 0.905 0.955 0.980 0.992 0.997 0.999 1.000 1.000 1.000 1.000
0.008 0.048 0.143 0.294 0.476 0.651 0.791 0.887 0.944 0.975 0.990 0.996 0.999 1.000 1.000 1.000 1.000
0.007 0.040 0.125 0.265 0.440 0.616 0.762 0.867 0.932 0.968 0.986 0.995 0.998 0.999 1.000 1.000 1.000
0.006 0.034 0.109 0.238 0.406 0.581 0.732 0.845 0.918 0.960 0.982 0.993 0.997 0.999 1.000 1.000 1.000
0.005 0.029 0.095 0.213 0.373 0.546 0.702 0.822 0.903 0.951 0.977 0.990 0.996 0.999 1.000 1.000 1.000
0.004 0.024 0.082 0.191 0.342 0.512 0.670 0.797 0.886 0.941 0.972 0.988 0.995 0.998 0.999 1.000 1.000
0.003 0.021 0.072 0.170 0.313 0.478 0.638 0.771 0.867 0.929 0.965 0.984 0.993 0.997 0.999 1.000 1.000
0.002 0.017 0.062 0.151 0.285 0.446 0.606 0.744 0.847 0.916 0.957 0.980 0.991 0.996 0.999 0.999 1.000
6.5
7.0
7.5
8.0
8.5
9.0
9.5
10.0
10.5
11.0
0.002 0.011 0.043 0.112 0.224 0.369 0.527 0.673 0.792 0.877 0.933 0.966 0.984 0.993 0.997 0.999 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
0.001 0.007 0.030 0.082 0.173 0.301 0.450 0.599 0.729 0.830 0.901 0.947 0.973 0.987 0.994 0.998 0.999 1.000 1.000 1.000 1.000 1.000 1.000 1.000
0.001 0.005 0.020 0.059 0.132 0.241 0.378 0.525 0.662 0.776 0.862 0.921 0.957 0.978 0.990 0.995 0.998 0.999 1.000 1.000 1.000 1.000 1.000 1.000
0.000 0.003 0.014 0.042 0.100 0.191 0.313 0.453 0.593 0.717 0.816 0.888 0.936 0.966 0.983 0.992 0.996 0.998 0.999 1.000 1.000 1.000 1.000 1.000
0.000 0.002 0.009 0.030 0.074 0.150 0.256 0.386 0.523 0.653 0.763 0.849 0.909 0.949 0.973 0.986 0.993 0.997 0.999 0.999 1.000 1.000 1.000 1.000
0.000 0.001 0.006 0.021 0.055 0.116 0.207 0.324 0.456 0.587 0.706 0.803 0.876 0.926 0.959 0.978 0.989 0.995 0.998 0.999 1.000 1.000 1.000 1.000
0.000 0.001 0.004 0.015 0.040 0.089 0.165 0.269 0.392 0.522 0.645 0.752 0.836 0.898 0.940 0.967 0.982 0.991 0.996 0.998 0.999 1.000 1.000 1.000
0.000 0.000 0.003 0.010 0.029 0.067 0.130 0.220 0.333 0.458 0.583 0.697 0.792 0.864 0.917 0.951 0.973 0.986 0.993 0.997 0.998 0.999 1.000 1.000
0.000 0.000 0.002 0.007 0.021 0.050 0.102 0.179 0.279 0.397 0.521 0.639 0.742 0.825 0.888 0.932 0.960 0.978 0.988 0.994 0.997 0.999 0.999 1.000
0.000 0.000 0.001 0.005 0.015 0.038 0.079 0.143 0.232 0.341 0.460 0.579 0.689 0.781 0.854 0.907 0.944 0.968 0.982 0.991 0.995 0.998 0.999 1.000
8.4. De standaard normale verdeling
173
8.4 De standaard normale verdeling Z N 0 1 z t2 1 De tabel geeft de verdelingsfunctie PZ z e 2 dt 2π ∞
z
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159
0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186
0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212
0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238
0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7703 0.7995 0.8264
0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289
0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315
0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340
0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365
0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389
1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9
0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713
0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719
0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726
0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732
0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738
0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744
0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750
0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756
0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761
0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767
2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981
0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982
0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982
0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983
0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984
0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984
0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985
0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985
0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986
0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986
3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9
0.9987 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000
0.9987 0.9991 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000
0.9987 0.9991 0.9994 0.9995 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.9988 0.9991 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.9988 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.9989 0.9992 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.9990 0.9993 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000
0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 0.9999 1.0000
8.5. Percentielen van de χ2 -verdeling
8.5 De χ 2-verdeling X
174
χn2 ;
n is het aantal vrijheidsgraden
De tabel geeft de kwantielen q χn2 p Fχ21 p zodat PX q p .
n
n
p 0.1%
0.5%
1.0%
2.5%
5.0% 10.0% 12.5% 20.0% 25.0% 33.3% 50.0%
1 2 3 4 5 6 7 8 9 10
0.000 0.002 0.024 0.091 0.210 0.381 0.598 0.857 1.152 1.479
0.000 0.010 0.072 0.207 0.412 0.676 0.989 1.344 1.735 2.156
0.000 0.020 0.115 0.297 0.554 0.872 1.239 1.646 2.088 2.558
0.001 0.051 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.247
0.004 0.103 0.352 0.711 1.145 1.635 2.167 2.733 3.325 3.940
0.016 0.211 0.584 1.064 1.610 2.204 2.833 3.490 4.168 4.865
0.025 0.267 0.692 1.219 1.808 2.441 3.106 3.797 4.507 5.234
0.064 0.446 1.005 1.649 2.343 3.070 3.822 4.594 5.380 6.179
0.102 0.575 1.213 1.923 2.675 3.455 4.255 5.071 5.899 6.737
0.186 0.811 1.568 2.378 3.216 4.074 4.945 5.826 6.716 7.612
0.455 1.386 2.366 3.357 4.351 5.348 6.346 7.344 8.343 9.342
11 12 13 14 15 16 17 18 19 20
1.834 2.214 2.617 3.041 3.483 3.942 4.416 4.905 5.407 5.921
2.603 3.074 3.565 4.075 4.601 5.142 5.697 6.265 6.844 7.434
3.053 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633 8.260
3.816 4.575 5.578 4.404 5.226 6.304 5.009 5.892 7.042 5.629 6.571 7.790 6.262 7.261 8.547 6.908 7.962 9.312 7.564 8.672 10.085 8.231 9.390 10.865 8.907 10.117 11.651 9.591 10.851 12.443
5.975 6.729 7.493 8.266 9.048 9.837 10.633 11.435 12.242 13.055
6.989 7.807 8.634 9.467 10.307 11.152 12.002 12.857 13.716 14.578
7.584 8.438 9.299 10.165 11.037 11.912 12.792 13.675 14.562 15.452
8.514 9.420 10.331 11.245 12.163 13.083 14.006 14.931 15.859 16.788
10.341 11.340 12.340 13.339 14.339 15.338 16.338 17.338 18.338 19.337
21 22 23 24 25 26 27 28 29 30
6.447 6.983 7.529 8.085 8.649 9.222 9.803 10.391 10.986 11.588
8.034 8.643 9.260 9.886 10.520 11.160 11.808 12.461 13.121 13.787
8.897 9.542 10.196 10.856 11.524 12.198 12.879 13.565 14.256 14.953
10.283 10.982 11.689 12.401 13.120 13.844 14.573 15.308 16.047 16.791
11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493
13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599
13.873 14.695 15.521 16.351 17.184 18.021 18.861 19.704 20.550 21.399
15.445 16.314 17.187 18.062 18.940 19.820 20.703 21.588 22.475 23.364
16.344 17.240 18.137 19.037 19.939 20.843 21.749 22.657 23.567 24.478
17.720 18.653 19.587 20.523 21.461 22.399 23.339 24.280 25.222 26.165
20.337 21.337 22.337 23.337 24.337 25.336 26.336 27.336 28.336 29.336
35 40 45 50 55 60
14.688 17.916 21.251 24.674 28.173 31.738
17.192 20.707 24.311 27.991 31.735 35.534
18.509 22.164 25.901 29.707 33.570 37.485
20.569 24.433 28.366 32.357 36.398 40.482
22.465 26.509 30.612 34.764 38.958 43.188
24.797 29.051 33.350 37.689 42.060 46.459
25.678 30.008 34.379 38.785 43.220 47.680
27.836 32.345 36.884 41.449 46.036 50.641
29.054 33.660 38.291 42.942 47.610 52.294
30.894 35.643 40.407 45.184 49.972 54.770
34.336 39.335 44.335 49.335 54.335 59.335
Als n 60 kunnen we W
χ n2 benaderen met de normale verdeling X N n
2n, zie (3.88).
8.5. Percentielen van de χ2 -verdeling n
175
p 60.0% 66.7% 75.0% 80.0% 87.5% 90.0% 95.0% 97.5% 99.0% 99.5% 99.9%
1 2 3 4 5 6 7 8 9 10
0.708 0.936 1.323 1.642 2.354 2.706 1.833 2.197 2.773 3.219 4.159 4.605 2.946 3.405 4.108 4.642 5.739 6.251 4.045 4.579 5.385 5.989 7.214 7.779 5.132 5.730 6.626 7.289 8.625 9.236 6.211 6.867 7.841 8.558 9.992 10.645 7.283 7.992 9.037 9.803 11.326 12.017 8.351 9.107 10.219 11.030 12.636 13.362 9.414 10.215 11.389 12.242 13.926 14.684 10.473 11.317 12.549 13.442 15.198 15.987
3.841 5.991 7.815 9.488 11.070 12.592 14.067 15.507 16.919 18.307
5.024 7.378 9.348 11.143 12.833 14.449 16.013 17.535 19.023 20.483
6.635 9.210 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209
7.879 10.597 12.838 14.860 16.750 18.548 20.278 21.955 23.589 25.188
10.828 13.816 16.266 18.467 20.515 22.458 24.322 26.125 27.877 29.588
11 12 13 14 15 16 17 18 19 20
11.530 12.584 13.636 14.685 15.733 16.780 17.824 18.868 19.910 20.951
12.414 13.506 14.595 15.680 16.761 17.840 18.917 19.991 21.063 22.133
13.701 14.845 15.984 17.117 18.245 19.369 20.489 21.605 22.718 23.828
14.631 15.812 16.985 18.151 19.311 20.465 21.615 22.760 23.900 25.038
16.457 17.703 18.939 20.166 21.384 22.595 23.799 24.997 26.189 27.376
17.275 18.549 19.812 21.064 22.307 23.542 24.769 25.989 27.204 28.412
19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410
21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.170
24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566
26.757 28.300 29.819 31.319 32.801 34.267 35.718 37.156 38.582 39.997
31.264 32.910 34.528 36.123 37.697 39.252 40.790 42.312 43.820 45.315
21 22 23 24 25 26 27 28 29 30
21.991 23.031 24.069 25.106 26.143 27.179 28.214 29.249 30.283 31.316
23.201 24.268 25.333 26.397 27.459 28.520 29.580 30.639 31.697 32.754
24.935 26.039 27.141 28.241 29.339 30.435 31.528 32.620 33.711 34.800
26.171 27.301 28.429 29.553 30.675 31.795 32.912 34.027 35.139 36.250
28.559 29.737 30.911 32.081 33.247 34.410 35.570 36.727 37.881 39.033
29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256
32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773
35.479 36.781 38.076 39.364 40.646 41.923 43.195 44.461 45.722 46.979
38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892
41.401 42.796 44.181 45.559 46.928 48.290 49.645 50.993 52.336 53.672
46.797 48.268 49.728 51.179 52.620 54.052 55.476 56.892 58.301 59.703
35 40 45 50 55 60
36.475 41.622 46.761 51.892 57.016 62.135
38.024 43.275 48.510 53.733 58.945 64.147
40.223 45.616 50.985 56.334 61.665 66.981
41.778 47.269 52.729 58.164 63.577 68.972
44.753 50.424 56.052 61.647 67.211 72.751
46.059 51.805 57.505 63.167 68.796 74.397
49.802 55.758 61.656 67.505 73.311 79.082
53.203 59.342 65.410 71.420 77.380 83.298
57.342 63.691 69.957 76.154 82.292 88.379
60.275 66.766 73.166 79.490 85.749 91.952
66.619 73.402 80.077 86.661 93.168 99.607
8.6. Percentielen van de t -verdeling
8.6 De t-verdeling T
176
tn ;
n is het aantal vrijheidsgraden
1 p zodat PT q p . De tabel geeft de percentielen q tn p Ft n
n
p 60.0% 66.7% 75.0% 80.0%
87.5% 90.0% 95.0%
97.5% 99.0% 99.5% 99.9%
1 2 3 4 5 6 7 8 9 10
0.325 0.289 0.277 0.271 0.267 0.265 0.263 0.262 0.261 0.260
0.577 0.500 0.476 0.464 0.457 0.453 0.449 0.447 0.445 0.444
1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700
1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879
2.414 1.604 1.423 1.344 1.301 1.273 1.254 1.240 1.230 1.221
3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372
6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812
12.706 31.821 63.657 318.31 4.303 6.965 9.925 22.327 3.182 4.541 5.841 10.215 2.776 3.747 4.604 7.173 2.571 3.365 4.032 5.893 2.447 3.143 3.707 5.208 2.365 2.998 3.499 4.785 2.306 2.896 3.355 4.501 2.262 2.821 3.250 4.297 2.228 2.764 3.169 4.144
11 12 13 14 15 16 17 18 19 20
0.260 0.259 0.259 0.258 0.258 0.258 0.257 0.257 0.257 0.257
0.443 0.442 0.441 0.440 0.439 0.439 0.438 0.438 0.438 0.437
0.697 0.695 0.694 0.692 0.691 0.690 0.689 0.688 0.688 0.687
0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860
1.214 1.209 1.204 1.200 1.197 1.194 1.191 1.189 1.187 1.185
1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325
1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725
2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086
2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528
3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845
4.025 3.930 3.852 3.787 3.733 3.686 3.646 3.610 3.579 3.552
21 22 23 24 25 26 27 28 29 30
0.257 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256
0.437 0.437 0.436 0.436 0.436 0.436 0.435 0.435 0.435 0.435
0.686 0.686 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683
0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854
1.183 1.182 1.180 1.179 1.178 1.177 1.176 1.175 1.174 1.173
1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310
1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697
2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042
2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457
2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750
3.527 3.505 3.485 3.467 3.450 3.435 3.421 3.408 3.396 3.385
35 40 45 50 55 60 ∞
0.255 0.255 0.255 0.255 0.255 0.254 0.253
0.434 0.434 0.434 0.433 0.433 0.433 0.431
0.682 0.681 0.680 0.679 0.679 0.679 0.674
0.852 0.851 0.850 0.849 0.848 0.848 0.842
1.170 1.167 1.165 1.164 1.163 1.162 1.150
1.306 1.303 1.301 1.299 1.297 1.296 1.282
1.690 1.684 1.679 1.676 1.673 1.671 1.645
2.030 2.021 2.014 2.009 2.004 2.000 1.960
2.438 2.423 2.412 2.403 2.396 2.390 2.326
2.724 2.704 2.690 2.678 2.668 2.660 2.576
3.340 3.307 3.281 3.261 3.245 3.232 3.090
8.7. Kwantielen van de F -verdeling
8.7 De F-verdeling F
177
Fnm
n is het aantal vrijheidsgraden in de teller en m het aantal vrijheidsgraden in de noemer. De tabel geeft de kwantielen q Fn m α Fnm1 α zodat PF q α achtereenvolgens voor de waarden 1 α 90 95 975 99 en .999 . Gebruik makend van de formule Fm n α zie (3.115) kunnen we Fn m 1α hieruit ook de kwantielen voor α 1 05 025 01 en .001 berekenen:
m
α
1
0.900 0.950 0.975
49.5 53.6 55.8 57.2 58.2 199. 216. 225. 230. 234. 800. 864. 900. 922. 937.
59.1 59.7 60.5 61.0 237. 239. 242. 244. 948. 957. 969. 977.
61.5 62.0 62.6 63.0 63.3 246. 248. 250. 252. 254. 985. 993.
2
0.900 0.950 0.975 0.990 0.999
9.00 19.0 39.0 99.0 999.
9.16 19.2 39.2 99.2 999.
9.24 19.2 39.2 99.2
9.29 19.3 39.3 99.3
9.33 19.3 39.3 99.3
9.35 19.4 39.4 99.4
9.37 19.4 39.4 100.
9.39 19.4 39.4 100.
9.41 19.4 39.4 100.
9.43 19.4 39.4 100.
9.44 19.4 39.4 100.
9.46 19.5 39.5 100.
9.47 19.5 39.5 100.
9.49 19.5 39.5 99.5
3
0.900 0.950 0.975 0.990 0.999
5.46 9.55 16.0 30.8 149.
5.39 9.28 15.4 29.5 141.
5.34 9.12 15.1 28.7 137.
5.31 9.01 14.9 28.2 135.
5.28 8.94 14.7 27.9 133.
5.27 8.89 14.6 27.7 132.
5.25 8.85 14.5 27.5 131.
5.23 8.79 14.4 27.2 129.
5.22 8.74 14.3 27.1 128.
5.20 8.70 14.3 26.9 127.
5.18 8.66 14.2 26.7 126.
5.17 8.62 14.1 26.5 125.
5.15 8.58 14.0 26.4 125.
5.13 8.53 13.9 26.1 123.
4
0.900 0.950 0.975 0.990 0.999
4.32 6.94 10.6 18.0 61.2
4.19 6.59 9.98 16.7 56.2
4.11 6.39 9.60 16.0 53.4
4.05 6.26 9.36 15.5 51.7
4.01 6.16 9.20 15.2 50.5
3.98 6.09 9.07 15.0 49.7
3.95 6.04 8.98 14.8 49.0
3.92 5.96 8.84 14.5 48.0
3.90 5.91 8.75 14.4 47.4
3.87 5.86 8.66 14.2 46.8
3.84 5.80 8.56 14.0 46.1
3.82 5.75 8.46 13.8 45.4
3.79 5.70 8.38 13.7 44.9
3.76 5.63 8.26 13.5 44.1
5
0.900 0.950 0.975 0.990 0.999
3.78 5.79 8.43 13.3 37.1
3.62 5.41 7.76 12.1 33.2
3.52 5.19 7.39 11.4 31.1
3.45 5.05 7.15 11.0 29.8
3.40 4.95 6.98 10.7 28.8
3.37 4.88 6.85 10.5 28.2
3.34 4.82 6.76 10.3 27.6
3.30 4.74 6.62 10.1 26.9
3.27 4.68 6.52 9.89 26.4
3.24 4.62 6.43 9.72 25.9
3.21 4.56 6.33 9.55 25.4
3.17 4.50 6.23 9.38 24.9
3.15 4.44 6.14 9.24 24.4
3.10 4.36 6.02 9.02 23.8
6
0.900 0.950 0.975 0.990 0.999
3.46 5.14 7.26 10.9 27.0
3.29 4.76 6.60 9.78 23.7
3.18 4.53 6.23 9.15 21.9
3.11 4.39 5.99 8.75 20.8
3.05 4.28 5.82 8.47 20.0
3.01 4.21 5.70 8.26 19.5
2.98 4.15 5.60 8.10 19.0
2.94 4.06 5.46 7.87 18.4
2.90 4.00 5.37 7.72 18.0
2.87 3.94 5.27 7.56 17.6
2.84 3.87 5.17 7.40 17.1
2.80 3.81 5.07 7.23 16.7
2.77 3.75 4.98 7.09 16.3
2.72 3.67 4.85 6.88 15.7
7
0.900 0.950 0.975 0.990 0.999
3.26 4.74 6.54 9.55 21.7
3.07 4.35 5.89 8.45 18.8
2.96 4.12 5.52 7.85 17.2
2.88 3.97 5.29 7.46 16.2
2.83 3.87 5.12 7.19 15.5
2.78 3.79 4.99 6.99 15.0
2.75 3.73 4.90 6.84 14.6
2.70 3.64 4.76 6.62 14.1
2.67 3.57 4.67 6.47 13.7
2.63 3.51 4.57 6.31 13.3
2.59 3.44 4.47 6.16 12.9
2.56 3.38 4.36 5.99 12.5
2.52 3.32 4.28 5.86 12.2
2.47 3.23 4.14 5.65 11.7
8
0.900 0.950 0.975 0.990 0.999
3.11 4.46 6.06 8.65 18.5
2.92 4.07 5.42 7.59 15.8
2.81 3.84 5.05 7.01 14.4
2.73 3.69 4.82 6.63 13.5
2.67 3.58 4.65 6.37 12.9
2.62 3.50 4.53 6.18 12.4
2.59 3.44 4.43 6.03 12.0
2.54 3.35 4.29 5.81 11.5
2.50 3.28 4.20 5.67 11.2
2.46 3.22 4.10 5.52 10.8
2.42 3.15 4.00 5.36 10.5
2.38 3.08 3.89 5.20 10.1
2.35 3.02 3.81 5.07 9.80
2.29 2.93 3.67 4.86 9.33
n
2
3
4
5
6
7
8
10
12
15
20
30
50
∞
8.7. Kwantielen van de F -verdeling
m
α
9
178
2
3
4
5
6
7
8
10
12
15
20
30
50
∞
0.900 0.950 0.975 0.990 0.999
3.01 4.26 5.71 8.02 16.4
2.81 3.86 5.08 6.99 13.9
2.69 3.63 4.72 6.42 12.6
2.61 3.48 4.48 6.06 11.7
2.55 3.37 4.32 5.80 11.1
2.51 3.29 4.20 5.61 10.7
2.47 3.23 4.10 5.47 10.4
2.42 3.14 3.96 5.26 9.89
2.38 3.07 3.87 5.11 9.57
2.34 3.01 3.77 4.96 9.24
2.30 2.94 3.67 4.81 8.90
2.25 2.86 3.56 4.65 8.55
2.22 2.80 3.47 4.52 8.26
2.16 2.71 3.33 4.31 7.81
10
0.900 0.950 0.975 0.990 0.999
2.92 4.10 5.46 7.56 14.9
2.73 3.71 4.83 6.55 12.6
2.61 3.48 4.47 5.99 11.3
2.52 3.33 4.24 5.64 10.5
2.46 3.22 4.07 5.39 9.93
2.41 3.14 3.95 5.20 9.52
2.38 3.07 3.85 5.06 9.20
2.32 2.98 3.72 4.85 8.75
2.28 2.91 3.62 4.71 8.45
2.24 2.84 3.52 4.56 8.13
2.20 2.77 3.42 4.41 7.80
2.16 2.70 3.31 4.25 7.47
2.12 2.64 3.22 4.11 7.19
2.06 2.54 3.08 3.91 6.76
11
0.900 0.950 0.975 0.990 0.999
2.86 3.98 5.26 7.21 13.8
2.66 3.59 4.63 6.22 11.6
2.54 3.36 4.28 5.67 10.3
2.45 3.20 4.04 5.32 9.58
2.39 3.09 3.88 5.07 9.05
2.34 3.01 3.76 4.89 8.66
2.30 2.95 3.66 4.74 8.35
2.25 2.85 3.53 4.54 7.92
2.21 2.79 3.43 4.40 7.63
2.17 2.72 3.33 4.25 7.32
2.12 2.65 3.23 4.10 7.01
2.08 2.57 3.12 3.94 6.68
2.04 2.51 3.03 3.81 6.42
1.97 2.40 2.88 3.60 6.00
12
0.900 0.950 0.975 0.990 0.999
2.81 3.89 5.10 6.93 13.0
2.61 3.49 4.47 5.95 10.8
2.48 3.26 4.12 5.41 9.63
2.39 3.11 3.89 5.06 8.89
2.33 3.00 3.73 4.82 8.38
2.28 2.91 3.61 4.64 8.00
2.24 2.85 3.51 4.50 7.71
2.19 2.75 3.37 4.30 7.29
2.15 2.69 3.28 4.16 7.00
2.10 2.62 3.18 4.01 6.71
2.06 2.54 3.07 3.86 6.40
2.01 2.47 2.96 3.70 6.09
1.97 2.40 2.87 3.57 5.83
1.90 2.30 2.72 3.36 5.42
13
0.900 0.950 0.975 0.990 0.999
2.76 3.81 4.97 6.70 12.3
2.56 3.41 4.35 5.74 10.2
2.43 3.18 4.00 5.21 9.07
2.35 3.03 3.77 4.86 8.35
2.28 2.92 3.60 4.62 7.86
2.23 2.83 3.48 4.44 7.49
2.20 2.77 3.39 4.30 7.21
2.14 2.67 3.25 4.10 6.80
2.10 2.60 3.15 3.96 6.52
2.05 2.53 3.05 3.82 6.23
2.01 2.46 2.95 3.66 5.93
1.96 2.38 2.84 3.51 5.63
1.92 2.31 2.74 3.37 5.37
1.85 2.21 2.60 3.17 4.97
14
0.900 0.950 0.975 0.990 0.999
2.73 3.74 4.86 6.51 11.8
2.52 3.34 4.24 5.56 9.73
2.39 3.11 3.89 5.04 8.62
2.31 2.96 3.66 4.69 7.92
2.24 2.85 3.50 4.46 7.44
2.19 2.76 3.38 4.28 7.08
2.15 2.70 3.29 4.14 6.80
2.10 2.60 3.15 3.94 6.40
2.05 2.53 3.05 3.80 6.13
2.01 2.46 2.95 3.66 5.85
1.96 2.39 2.84 3.51 5.56
1.91 2.31 2.73 3.35 5.25
1.87 2.24 2.64 3.22 5.00
1.80 2.13 2.49 3.00 4.60
15
0.900 0.950 0.975 0.990 0.999
2.70 3.68 4.77 6.36 11.3
2.49 3.29 4.15 5.42 9.34
2.36 3.06 3.80 4.89 8.25
2.27 2.90 3.58 4.56 7.57
2.21 2.79 3.41 4.32 7.09
2.16 2.71 3.29 4.14 6.74
2.12 2.64 3.20 4.00 6.47
2.06 2.54 3.06 3.80 6.08
2.02 2.48 2.96 3.67 5.81
1.97 2.40 2.86 3.52 5.53
1.92 2.33 2.76 3.37 5.25
1.87 2.25 2.64 3.21 4.95
1.83 2.18 2.55 3.08 4.70
1.76 2.07 2.40 2.87 4.31
16
0.900 0.950 0.975 0.990 0.999
2.67 3.63 4.69 6.23 11.0
2.46 3.24 4.08 5.29 9.01
2.33 3.01 3.73 4.77 7.94
2.24 2.85 3.50 4.44 7.27
2.18 2.74 3.34 4.20 6.80
2.13 2.66 3.22 4.03 6.46
2.09 2.59 3.12 3.89 6.19
2.03 2.49 2.99 3.69 5.81
1.99 2.42 2.89 3.55 5.55
1.94 2.35 2.79 3.41 5.27
1.89 2.28 2.68 3.26 4.99
1.84 2.19 2.57 3.10 4.70
1.79 2.12 2.47 2.97 4.45
1.72 2.01 2.32 2.75 4.06
17
0.900 0.950 0.975 0.990 0.999
2.64 3.59 4.62 6.11 10.7
2.44 3.20 4.01 5.18 8.73
2.31 2.96 3.66 4.67 7.68
2.22 2.81 3.44 4.34 7.02
2.15 2.70 3.28 4.10 6.56
2.10 2.61 3.16 3.93 6.22
2.06 2.55 3.06 3.79 5.96
2.00 2.45 2.92 3.59 5.58
1.96 2.38 2.82 3.46 5.32
1.91 2.31 2.72 3.31 5.05
1.86 2.23 2.62 3.16 4.77
1.81 2.15 2.50 3.00 4.48
1.76 2.08 2.41 2.87 4.24
1.69 1.96 2.25 2.65 3.85
n
8.7. Kwantielen van de F -verdeling
m
α
18
179
2
3
4
5
6
7
8
10
12
15
20
30
50
∞
0.900 0.950 0.975 0.990 0.999
2.62 3.55 4.56 6.01 10.4
2.42 3.16 3.95 5.09 8.49
2.29 2.93 3.61 4.58 7.46
2.20 2.77 3.38 4.25 6.81
2.13 2.66 3.22 4.01 6.35
2.08 2.58 3.10 3.84 6.02
2.04 2.51 3.01 3.71 5.76
1.98 2.41 2.87 3.51 5.39
1.93 2.34 2.77 3.37 5.13
1.89 2.27 2.67 3.23 4.87
1.84 2.19 2.56 3.08 4.59
1.78 2.11 2.44 2.92 4.30
1.74 2.04 2.35 2.78 4.06
1.66 1.92 2.19 2.57 3.67
19
0.900 0.950 0.975 0.990 0.999
2.61 3.52 4.51 5.93 10.2
2.40 3.13 3.90 5.01 8.28
2.27 2.90 3.56 4.50 7.27
2.18 2.74 3.33 4.17 6.62
2.11 2.63 3.17 3.94 6.18
2.06 2.54 3.05 3.77 5.85
2.02 2.48 2.96 3.63 5.59
1.96 2.38 2.82 3.43 5.22
1.91 2.31 2.72 3.30 4.97
1.86 2.23 2.62 3.15 4.70
1.81 2.16 2.51 3.00 4.43
1.76 2.07 2.39 2.84 4.14
1.71 2.00 2.30 2.71 3.90
1.63 1.88 2.13 2.49 3.51
20
0.900 0.950 0.975 0.990 0.999
2.59 3.49 4.46 5.85 9.95
2.38 3.10 3.86 4.94 8.10
2.25 2.87 3.51 4.43 7.10
2.16 2.71 3.29 4.10 6.46
2.09 2.60 3.13 3.87 6.02
2.04 2.51 3.01 3.70 5.69
2.00 2.45 2.91 3.56 5.44
1.94 2.35 2.77 3.37 5.08
1.89 2.28 2.68 3.23 4.82
1.84 2.20 2.57 3.09 4.56
1.79 2.12 2.46 2.94 4.29
1.74 2.04 2.35 2.78 4.00
1.69 1.97 2.25 2.64 3.76
1.61 1.84 2.09 2.42 3.38
21
0.900 0.950 0.975 0.990 0.999
2.57 3.47 4.42 5.78 9.77
2.36 3.07 3.82 4.87 7.94
2.23 2.84 3.48 4.37 6.95
2.14 2.68 3.25 4.04 6.32
2.08 2.57 3.09 3.81 5.88
2.02 2.49 2.97 3.64 5.56
1.98 2.42 2.87 3.51 5.31
1.92 2.32 2.73 3.31 4.95
1.87 2.25 2.64 3.17 4.70
1.83 2.18 2.53 3.03 4.44
1.78 2.10 2.42 2.88 4.17
1.72 2.01 2.31 2.72 3.88
1.67 1.94 2.21 2.58 3.64
1.59 1.81 2.04 2.36 3.26
22
0.900 0.950 0.975 0.990 0.999
2.56 3.44 4.38 5.72 9.61
2.35 3.05 3.78 4.82 7.80
2.22 2.82 3.44 4.31 6.81
2.13 2.66 3.22 3.99 6.19
2.06 2.55 3.05 3.76 5.76
2.01 2.46 2.93 3.59 5.44
1.97 2.40 2.84 3.45 5.19
1.90 2.30 2.70 3.26 4.83
1.86 2.23 2.60 3.12 4.58
1.81 2.15 2.50 2.98 4.33
1.76 2.07 2.39 2.83 4.06
1.70 1.98 2.27 2.67 3.78
1.65 1.91 2.17 2.53 3.54
1.57 1.78 2.00 2.31 3.15
23
0.900 0.950 0.975 0.990 0.999
2.55 3.42 4.35 5.66 9.47
2.34 3.03 3.75 4.76 7.67
2.21 2.80 3.41 4.26 6.70
2.11 2.64 3.18 3.94 6.08
2.05 2.53 3.02 3.71 5.65
1.99 2.44 2.90 3.54 5.33
1.95 2.37 2.81 3.41 5.09
1.89 2.27 2.67 3.21 4.73
1.84 2.20 2.57 3.07 4.48
1.80 2.13 2.47 2.93 4.23
1.74 2.05 2.36 2.78 3.96
1.69 1.96 2.24 2.62 3.68
1.64 1.88 2.14 2.48 3.44
1.55 1.76 1.97 2.26 3.05
24
0.900 0.950 0.975 0.990 0.999
2.54 3.40 4.32 5.61 9.34
2.33 3.01 3.72 4.72 7.55
2.19 2.78 3.38 4.22 6.59
2.10 2.62 3.15 3.90 5.98
2.04 2.51 2.99 3.67 5.55
1.98 2.42 2.87 3.50 5.23
1.94 2.36 2.78 3.36 4.99
1.88 2.25 2.64 3.17 4.64
1.83 2.18 2.54 3.03 4.39
1.78 2.11 2.44 2.89 4.14
1.73 2.03 2.33 2.74 3.87
1.67 1.94 2.21 2.58 3.59
1.62 1.86 2.11 2.44 3.36
1.53 1.73 1.94 2.21 2.97
25
0.900 0.950 0.975 0.990 0.999
2.53 3.39 4.29 5.57 9.22
2.32 2.99 3.69 4.68 7.45
2.18 2.76 3.35 4.18 6.49
2.09 2.60 3.13 3.85 5.89
2.02 2.49 2.97 3.63 5.46
1.97 2.40 2.85 3.46 5.15
1.93 2.34 2.75 3.32 4.91
1.87 2.24 2.61 3.13 4.56
1.82 2.16 2.51 2.99 4.31
1.77 2.09 2.41 2.85 4.06
1.72 2.01 2.30 2.70 3.79
1.66 1.92 2.18 2.54 3.52
1.61 1.84 2.08 2.40 3.28
1.52 1.71 1.91 2.17 2.89
26
0.900 0.950 0.975 0.990 0.999
2.52 3.37 4.27 5.53 9.12
2.31 2.98 3.67 4.64 7.36
2.17 2.74 3.33 4.14 6.41
2.08 2.59 3.10 3.82 5.80
2.01 2.47 2.94 3.59 5.38
1.96 2.39 2.82 3.42 5.07
1.92 2.32 2.73 3.29 4.83
1.86 2.22 2.59 3.09 4.48
1.81 2.15 2.49 2.96 4.24
1.76 2.07 2.39 2.81 3.99
1.71 1.99 2.28 2.66 3.72
1.65 1.90 2.16 2.50 3.44
1.59 1.82 2.05 2.36 3.21
1.50 1.69 1.88 2.13 2.82
n
8.7. Kwantielen van de F -verdeling
m
α
27
180
2
3
4
5
6
7
8
10
12
15
20
30
50
∞
0.900 0.950 0.975 0.990 0.999
2.51 3.35 4.24 5.49 9.02
2.30 2.96 3.65 4.60 7.27
2.17 2.73 3.31 4.11 6.33
2.07 2.57 3.08 3.78 5.73
2.00 2.46 2.92 3.56 5.31
1.95 2.37 2.80 3.39 5.00
1.91 2.31 2.71 3.26 4.76
1.85 2.20 2.57 3.06 4.41
1.80 2.13 2.47 2.93 4.17
1.75 2.06 2.36 2.78 3.92
1.70 1.97 2.25 2.63 3.66
1.64 1.88 2.13 2.47 3.38
1.58 1.81 2.03 2.33 3.14
1.49 1.67 1.85 2.10 2.75
28
0.900 0.950 0.975 0.990 0.999
2.50 3.34 4.22 5.45 8.93
2.29 2.95 3.63 4.57 7.19
2.16 2.71 3.29 4.07 6.25
2.06 2.56 3.06 3.75 5.66
2.00 2.45 2.90 3.53 5.24
1.94 2.36 2.78 3.36 4.93
1.90 2.29 2.69 3.23 4.69
1.84 2.19 2.55 3.03 4.35
1.79 2.12 2.45 2.90 4.11
1.74 2.04 2.34 2.75 3.86
1.69 1.96 2.23 2.60 3.60
1.63 1.87 2.11 2.44 3.32
1.57 1.79 2.01 2.30 3.09
1.48 1.65 1.83 2.06 2.69
29
0.900 0.950 0.975 0.990 0.999
2.50 3.33 4.20 5.42 8.85
2.28 2.93 3.61 4.54 7.12
2.15 2.70 3.27 4.04 6.19
2.06 2.55 3.04 3.73 5.59
1.99 2.43 2.88 3.50 5.18
1.93 2.35 2.76 3.33 4.87
1.89 2.28 2.67 3.20 4.64
1.83 2.18 2.53 3.00 4.29
1.78 2.10 2.43 2.87 4.05
1.73 2.03 2.32 2.73 3.80
1.68 1.94 2.21 2.57 3.54
1.62 1.85 2.09 2.41 3.27
1.56 1.77 1.99 2.27 3.03
1.47 1.64 1.81 2.03 2.64
30
0.900 0.950 0.975 0.990 0.999
2.49 3.32 4.18 5.39 8.77
2.28 2.92 3.59 4.51 7.05
2.14 2.69 3.25 4.02 6.12
2.05 2.53 3.03 3.70 5.53
1.98 2.42 2.87 3.47 5.12
1.93 2.33 2.75 3.30 4.82
1.88 2.27 2.65 3.17 4.58
1.82 2.16 2.51 2.98 4.24
1.77 2.09 2.41 2.84 4.00
1.72 2.01 2.31 2.70 3.75
1.67 1.93 2.20 2.55 3.49
1.61 1.84 2.07 2.39 3.22
1.55 1.76 1.97 2.25 2.98
1.46 1.62 1.79 2.01 2.59
60
0.900 0.950 0.975 0.990 0.999
2.39 3.15 3.93 4.98 7.77
2.18 2.76 3.34 4.13 6.17
2.04 2.53 3.01 3.65 5.31
1.95 2.37 2.79 3.34 4.76
1.87 2.25 2.63 3.12 4.37
1.82 2.17 2.51 2.95 4.09
1.77 2.10 2.41 2.82 3.86
1.71 1.99 2.27 2.63 3.54
1.66 1.92 2.17 2.50 3.32
1.60 1.84 2.06 2.35 3.08
1.54 1.75 1.94 2.20 2.83
1.48 1.65 1.82 2.03 2.55
1.41 1.56 1.70 1.88 2.32
1.29 1.39 1.48 1.60 1.89
80
0.900 0.950 0.975 0.990 0.999
2.37 3.11 3.86 4.88 7.54
2.15 2.72 3.28 4.04 5.97
2.02 2.49 2.95 3.56 5.12
1.92 2.33 2.73 3.26 4.58
1.85 2.21 2.57 3.04 4.20
1.79 2.13 2.45 2.87 3.92
1.75 2.06 2.35 2.74 3.70
1.68 1.95 2.21 2.55 3.39
1.63 1.88 2.11 2.42 3.16
1.57 1.79 2.00 2.27 2.93
1.51 1.70 1.88 2.12 2.68
1.44 1.60 1.75 1.94 2.41
1.38 1.51 1.63 1.79 2.16
1.24 1.32 1.40 1.49 1.72
100
0.900 0.950 0.975 0.990 0.999
2.36 3.09 3.83 4.82 7.41
2.14 2.70 3.25 3.98 5.86
2.00 2.46 2.92 3.51 5.02
1.91 2.31 2.70 3.21 4.48
1.83 2.19 2.54 2.99 4.11
1.78 2.10 2.42 2.82 3.83
1.73 2.03 2.32 2.69 3.61
1.66 1.93 2.18 2.50 3.30
1.61 1.85 2.08 2.37 3.07
1.56 1.77 1.97 2.22 2.84
1.49 1.68 1.85 2.07 2.59
1.42 1.57 1.71 1.89 2.32
1.35 1.48 1.59 1.74 2.08
1.21 1.28 1.35 1.43 1.62
120
0.900 0.950 0.975 0.990 0.999
2.35 3.07 3.80 4.79 7.32
2.13 2.68 3.23 3.95 5.78
1.99 2.45 2.89 3.48 4.95
1.90 2.29 2.67 3.17 4.42
1.82 2.18 2.52 2.96 4.04
1.77 2.09 2.39 2.79 3.77
1.72 2.02 2.30 2.66 3.55
1.65 1.91 2.16 2.47 3.24
1.60 1.83 2.05 2.34 3.02
1.54 1.75 1.94 2.19 2.78
1.48 1.66 1.82 2.03 2.53
1.41 1.55 1.69 1.86 2.26
1.34 1.46 1.56 1.70 2.02
1.19 1.25 1.31 1.38 1.54
∞
0.900 0.950 0.975 0.990 0.999
2.30 3.00 3.69 4.61 6.91
2.08 2.60 3.12 3.78 5.42
1.94 2.37 2.79 3.32 4.62
1.85 2.21 2.57 3.02 4.10
1.77 2.10 2.41 2.80 3.74
1.72 2.01 2.29 2.64 3.47
1.67 1.94 2.19 2.51 3.27
1.60 1.83 2.05 2.32 2.96
1.55 1.75 1.94 2.18 2.74
1.49 1.67 1.83 2.04 2.51
1.42 1.57 1.71 1.88 2.27
1.34 1.46 1.57 1.70 1.99
1.26 1.35 1.43 1.52 1.73
1.00 1.00 1.00 1.00 1.00
n
Index Φ–functie, 65 χ 2 -toets op kansverdeling, 112, 157 χ 2 -toets voor de variantie, 99
empirische variantie, 10, 91 empirische verdelingsfunctie, 8, 156 errorfunctie, 65 exponenti¨ele verdeling, 59
aanvaardingsgebied, 97 afrondfouten, 162 alternatieve hypothese, 97
F-toets van Levene, 106 F-toets voor twee groepen, 101, 159 F-verdeling, 83 Fischer-Snedecor verdeling, 83 fout van de eerste soort, 108 fout van de tweede soort, 108
Bayes, formule van –, 21 Bernoulli-experiment, 45 betrouwbaarheidsinterval, 91, 93, 94 BI, 91 bimodale verdeling, 39 binomiaalco¨effici¨enten, 47 binomiaalverdeling, 49 Binomium van Newton, 47 Box-Muller transformatie, 72 box-plot, 9, 155
Gamma-verdeling, 61 gemengde variantie, 103 gemiddelde, 10, 37 gemiddelde absolute afwijking, 11 geometrische verdeling, 53 Gosset, 80 halfwaardetijd, 60 histogram, 7, 155, 159 hypergeometrische verdeling, 51
categorale variabelen, 6 Cauchy-verdeling, 37 centraal moment, 36 centrale moment, 36 centrale-limietstelling, 65 Chebyshev, formule van –, 36 chi-kwadraat toets, 161 chi-kwadraat toets op een kansverdeling, 112 chi-kwadraat toets op kansverdeling, 157 chi-kwadraat toets voor de variantie, 99 chi-kwadraat verdeling, 77 CI, 91 confidence interval, 91 contingency table, 115, 157 continu¨ıteitscorrectie, 69 continue uniforme verdeling, 63 continue verdeling, 25 convergentie in verdeling, 67 convolutie, 31 correlatie, 42, 158 correlatieco¨effici¨ent (empirisch), 12 correlatiematrix (empirisch), 14 correlation (sample), 12 covariance (sample), 12 covariantie, 42 covariantie (empirisch), 12 covariantiematrix, 76, 77 covariantiematrix (empirisch), 13 cross tabs, 115 crosstabs, 157 cumulatieve verdelingsfunctie, 23
intercept, 120 interkwartiel, 9, 39, 155 interpolatie, 162 interval variablele, 6 inverse interpolatie, 163 kansdichtheid, 25 kansvector, 28 klassebreedte, 7 kleinste kwadraten, 11 kleinste-kwadratenproblemen, 121 Kolmogorov-Smirnov Toets, 117 kritieke zone, 97 kruistabel, 115, 157, 161 kurtosis, 41 kwartiel, 9 Levene’s F-toets, 106 levensverwachting, 60 likelihood function, 88 lineaire interpolatie, 162 macht van een toets, 108 machtsfunctie β , 109 MAD, 11, 40 marginale kansdichtheid, 28 marginale kansverdeling, 28 maximum likelihood, 88 mean absolute deviation, 11 MeanAD, 11 mediaan, 9, 10, 37 mediane absolute afwijking, 11, 40 modale klasse, 10 modus, 10, 39 moment, 36
de Moivre, 50, 67 dichtheidsfunctie, 25 discrete uniforme verdeling, 62 discrete verdeling, 25 driehoek van Pascal, 47 eenzijdige toets, 97
181
INDEX multimodale verdeling, 39 niet-parametrische toets, 157 niveau van een toets, 91 nominale variabele, 6 normaalvergelijkingen, 121, 123 nulhypothese, 97 onafhankelijke gebeurtenissen, 20 onafhankelijke stochastische variabelen, 30 ongecorreleerd, 43 ordinale variabele, 6 outliers, 10 overschrijdingskans, 98 p-p plot, 156 P-waarde, 98 Pascal, driehoek van –, 47 percentiel (empirisch), 8 percentiel (van een kansverdeling), 27 Poissonverdeling, 55 positief definiet, 75 prediction interval, 125 pseudo-random getallen, 64 puntschatting, 87 q-q plot, 156 quantiel, 9 quantiel van een kansverdeling, 27 random getallen, 63, 154 ratio variabele, 6 regressie, 120, 158 regressierechte, 120 risico verhouding, 61 robuust, 10, 37 Rutherford-Geiger experiment, 56 ruwe gegevens, 7 ruwe moment, 36 sample correlation, 12 sample covariance, 12 sample variance, 10 schalende variabelen, 6 schatter, 86 schatting, 86 scheefheid, 40 scheefheidsco¨effici¨ent, 41 significante cijfers, 163 significantie, 98 significantieniveau, 97 spreiding, 10 SPSS, 153 staafdiagram, 25 standaard normale verdeling, 65 standaardafwijking, 10, 34 standaarddeviatie, 10 standard deviation, 10 statistiek, 86 steekproef, 7, 86 steekproefgemiddelde, 10 steekproefomvang, 7 steekproefvariantie, 10, 91 Stirling formule, 46 stochastiek, 23 stochastische variabele, 23 Student–t–verdeling, 80 t-toets, 159
182
t-toets voor e´ e´ n groep, 97 t-toets in SPSS, 156 t-toets voor twee onafhankelijke groepen, 103 t-toets voor twee verbonden groepen, 106 t-verdeling, 80 toevalsveranderlijke, 23 tweezijdige toets, 97 uitschieters, 10 uitschieters een in boxplot, 155 UMP, 111 UMPU, 111 unbiased, 87 uniform machtigste toets, 111 uniform machtigste zuivere toets, 111 unimodale verdeling, 39 variabele, categorale, 6 variabele, interval, 6 variabele, nominale, 6 variabele, ordinale, 6 variabele, ratio, 6 variabele, schalende, 6 variance (sample), 10 variantie, 34 variantie (empirisch), 10 verdelingsfunctie, 23, 28 verdelingsfunctie (empirisch), 8 vergeetachtigheid, 60 verwachtingswaarde, 32 voorwaardelijke kans, 20 vrijheidsgraad, 92, 94, 115, 116 wet van de grote getallen, 27, 50 zuivere schatter, 87 zuivere toets, 111
Antwoorden op Oefeningen
183
Antwoorden op geselecteerde oefeningen 2.1.a: 19/20 2.1.b: 19/20 2.1.c: kan niet 2.1.d: kan niet 2.2.a: 83/140 2.2.b: 63/83 2.3.a: 0.056 2.3.b: 0.167 2.3.c: 0.171 2.4.a: 1/3 2.4.b: 1/5 2.6.a: 2/3 2.6.b: 1/2 2.7: 24/64 2.8.a: 1/36 2.8.b: 11/36 2.8.c: 11/36 2.8.d: 9/36 2.8.e: 1/5 2.8.f: 1/36 2.9.a: 0.275 2.9.b: 0.725 2.12.a: 1/6 2.12.b: 5 2.12.c: 299 2.13: 0.669 2.14: p1 0402 p2 0296 2.15.a: 1/16 2.15.b: 1/32 2.15.c: 5/16 2.16.a: 0.19 2.16.b: 0.73 2.16.c: 0.533 2.16.d: 0.201 2.17: p1 0729 p2 0001 2.18: p1 00019 p2 000043 2.19: 0.0000091 2.20: ja 2.21: neen 3.1.a: p1 00525 p2 00787 3.1.b: p1 00857 p2 00857 3.2.a: 0.1518 3.2.b: 0.1499 3.2.c: 20 3.3.a: 0.075 3.3.b: 0.053 3.4: 0.1055 3.5: p1 63 10 12 p2 32 10 3.6: p1 0306 p2 00254 3.7: 1/11 3.8: 33.2% 3.9: 2k1 2n 2nn k1 1 3.10.a: 1/6 3.10.b: 2/3 3.11: 2/3 3.12: 2/7 3.13: 0.0826 3.14: 0.588 3.15.a: 3/4 3.15.b: 1/2 3.16.b: 0.232 3.16.c: 0.8104 3.17: Z , p=2/3 3.18: 6 4.1: p1 p2 p3 12
9
4.2: p 07378 als m 8 4.3.a: 1/1000 4.3.b: 36/1000 4.3.c: 27/1000 4.3.d: 432/1000 4.3.e: 504/1000 4.4.a: r! n r r1 ! r2 ! rn ! 4.4.b: n 1nr resp. n 2nr 4.4.c: nr 11 rnr 1 4.5: p r 16 q 23 4.6: 79 cent 4.7.a: 9/25 4.7.d: 0.6 4.7.e: 10 en 28/25 4.7.f: 11 4.7.g: 0 en 058 4.8.a: 25/4 4.8.d: 0.63 , e: 10 en 1.042 , f: 11.38 4.8.g: 10 , 10 , 1.46 , 0.73 4.9.a: 5013 4.9.b: 5 4.10: 4rπ 4.11: 3/4 4.12.b: exp1 0368 4.12.c: 1λ 1000u 4.12.d: ln 2λ 693u 4.12.e: exp1 0368 4.13: fZ t λ 2te λ t t 0 E Z 2λ VarZ 2λ 2 4.14: neen, P 08413 5.4.a: 0.909 5.4.b: 0.324 5.5.a1: 0.6083 5.5.a2: 0.9444 5.5.a3: 0.0556 5.5.b1: x 2 5.5.b2: x 11 5.6: FX n 1 45n E X 5 5.7.a: 0.271 5.7.b: 0.142 5.8: 0.393 5.9.a: 9 5.9.b: 0.9298 5.9.c: λ 096 5.9.d: 0.073 5.11: fM t f X t FY t f y t FX t 5.12.a: 100 5.12.b: 0.296 5.12.c: 0.512 5.13.a: 0.2231 5.13.b: 0.442 5.13.c: 0.3904 6.1: 0.0401 6.2.a: 0.8413 6.2.b: 0.2857 6.2.c: 0.2266 6.2.d: 15.13 10 6.63 6.3.a: B 6.3.b: A 6.4: 0.0668 2 6.5.a: E X n µ Var X n σ n 6.5.b: N µ σ n 6.6: 251.0 6.7.a: 0.3174
Antwoorden op Oefeningen
184
6.7.b: 3.04 cm 1 6.8.a: fX t exp 12 log0t6344 2 t 0 063t 2π 6.8.b: 81.45 6.8.c: 297.09 6.9.b: E Z 0 VarZ 0634 6.10.a: c1; als x 0 en y 0 FZ x y 1 expx2 2 1 expy . 6.10.b: FX x 1 expx2 2 x 0 FY y 1 expy ; onafhankelijk. 6.10.c: exp3 en 12 exp1 6.11: fZ x y 2 als 0 x y 1 fX x 2 2x 0 x 1 fY y 2y 0 y 1 E Z 13 23, VarX VarY 118 CovarX Y 136 ρ X Y 12 6.12: PX1 X2 X3 k m nk n k pk1 p2 pm 3 als k 0 0 m 0 en k m n en anders nul. p1 p2 CovX1 X2 np1 p2 , ρ X1 X2 1 p11 p2 ρ 1 als p3 0 6.13: fX x 1 0 x 1 en nul elders fZ x y 1 1 x als 0 x y 1 en nul elders fY y log1 y 0 y 1 en nul elders 6.14: fRΘ πr 0r1 en 0ϕ 2π en nul elders 7.1.a: 0.0369 7.1.b: 0.0296 7.2: 0.2902 7.3: 0.368 en 0.0357 7.4: 0.3798 7.5: 0.9558 7.6: 0.368 en 0.264 7.7: 0.189 (beide) 7.8: 2/3 7.9: PN n nr 11 pr qn r als n r PN n 0 als n r 7.10.a: FY a Φ log σa µ a 0 en nul elders 7.10.b: fY a
1
σ a 2π
exp
12 logσa
µ 2
7.10.c: E Y expµ 12 σ 2 VarY expσ 2 1 exp2µ σ 2 7.11.a: 0.0129 7.11.b: 0.0156 7.11.c: 0.0235 7.12.a: X B3000 16000 P12
a 0
7.12.b: 0.6065 7.12.c: 0.0003 7.13.a: met Φ benaderd: 0.9154 (exact: 0.9125) 7.13.b: 0.99995 7.14: 0.2810 7.15.a: 0.0919 7.15.b: 184 7.15.c: 0.9995 2 3 7.16: fv x 2xσ exp 12 σ 2 x2 x 0
2π
fv x 0 x 0 ; E v 4σ 2π 8.1: [7.87 , 10.13] 8.2: 0.4422 8.3.a: [3.39 , 6.33] 8.3.b: [2.88 , 6.84] 8.4.a: [9.064 , 10.936] 8.4.b: 64 8.5: [221.01 , 227.59] en [4.14 , 9.34] 8.6: [0.0169 , 0.0302] 8.7: d s d s ; d : xm yn ; s : σ 8.8.a: 8.8.b:
n1
n
M
1 mα 2 mα 2 n
n
1 1 mn
Φ
α2
1 1
8.9: 10 8.10: [62.47 , 97.53] 8.11: [0.708 , 0.732] , neen 8.12: [0.0054 , 0.0134] en [74.78 , 185.22] 8.13: [0.101 , 0.166] 9.1.a: toetsgrootheid 1732 ; H0 aanvaarden als α 5% 9.1.b: verwerpen als α 10% 9.2: toetsgrootheid t 56 ; H0 verwerpen 9.3.a: [329.46 , 334.34] 9.3.b: neen, zie BI 9.3.c: χ 1049 H0 aanvaarden 9.4.a: tweezijdig: toetsgrootheid 1901 ; H0 aanvaarden voor α 5% en α 1% Beter eenzijdig toetsen, H0 : µ 20 H1 : µ 20 Als α 5% , H0 verwerpen; als α 1% , H0 aanvaarden 9.4.b: α 9.4.c: bij eenzijdige toets: 0.2773 (α 5%) ; 0.5363 (α 1%) 10.1.a: Als σ 2 dan BI=[7.87 , 10.13], H0 aanvaarden Als σ onbekend, dan H0 verwerpen 10.1.b: α 02%