Combinatoriek en kansrekening (SV 2.1)
P.J. den Brok MA 26 september 2013
Inhoudsopgave 1
2
3
De kansrekening
4
1.1
Belangrijke combinatorische functies . . . . . . . . . . . . . . . . . . . .
4
1.2
Rangschikkingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.3
Overzicht combinatoriek . . . . . . . . . . . . . . . . . . . . . . . . . .
12
Het kansbegrip
14
2.1
Het intu¨ıtieve kansbegrip . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.2
De axiomatische kansrekening . . . . . . . . . . . . . . . . . . . . . . .
16
2.3
Voorwaardelijke kansen . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.4
Onafhankelijke gebeurtenissen . . . . . . . . . . . . . . . . . . . . . . .
20
2.5
De steekproef . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.6
Steekproeven met- en zonder volgorde . . . . . . . . . . . . . . . . . . .
21
2.7
De algemene produktregel . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.8
De omkeerregels van Bayes . . . . . . . . . . . . . . . . . . . . . . . . .
26
Kansvariabelen
28
3.1
Discrete kansvariabelen . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
3.2
Continue kansvariabelen . . . . . . . . . . . . . . . . . . . . . . . . . .
34
3.3
De E–algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
3.4
Onafhankelijke variabelen . . . . . . . . . . . . . . . . . . . . . . . . .
41
3.5
Afhankelijke variabelen . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
3.6
De covariantie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
3.7
Rekenregels voor onafhankelijke variabelen . . . . . . . . . . . . . . . .
46
3.8
Rekenregels voor afhankelijke variabelen . . . . . . . . . . . . . . . . .
47
3.9
De correlatieco¨effici¨ent . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
1
4
5
Belangrijke kansverdelingen
50
4.1
De binomiale verdeling . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
4.2
De Poisson-verdeling . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
4.3
De N-verdeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
4.4
De benadering van de binomiaalverdeling met de N-verdeling . . . . . .
60
4.5
De benadering van de binomiale verdeling met de Poisson-verdeling . . .
61
4.6
De benadering van de Poisson-verdeling met de N-verdeling . . . . . . .
61
4.7
De exponenti¨ele verdeling . . . . . . . . . . . . . . . . . . . . . . . . .
62
4.8
De uniforme kansverdeling . . . . . . . . . . . . . . . . . . . . . . . . .
63
Kansmodellen en enkele minder bekende kansverdelingen
65
5.1
Relatie tussen exponenti¨ele- en Poisson-verdeling . . . . . . . . . . . . .
65
5.2
Simulatie van stochasten met diverse verdelingen . . . . . . . . . . . . .
67
5.3
Het tijdgedrag grafisch weergeven . . . . . . . . . . . . . . . . . . . . .
71
5.4
De Weibullverdeling . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
5.5
De lognormaal-verdeling . . . . . . . . . . . . . . . . . . . . . . . . . .
77
5.6
De gamma-verdeling . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
A Literatuur
81
A Groepsopdrachten
82
2
Voorwoord bij de reader ‘Combinatoriek en kansrekening’ Combinatoriek en kansrekening zijn een belangrijk deel van de basiskennis van een aantal TI-vakken zoals informatica, informatieheorie, simulatietechniek, signaalverwerking, bedrijfszekerheid en bedrijfskunde. De hoofdstukken 1 t/m 4 vormen de verplichte leerstof. Daarentegen is hoofdstuk 5 (kansmodellen en enkele minder bekende kansverdelingen) alleen bedoeld voor de studenten die dit nodig hebben tijdens hun projecten of simulatie-opdrachten.
3
Hoofdstuk 1 De kansrekening In de kansrekening worden modellen geconstrueerd waarmee men het gedrag van de variabelen kan voorspellen en verklaren. De kansrekening maakt gebruik van de combinatoriek, een tak van de wiskunde die zich bezig houdt met het rangschikken en het tellen.
1.1
Belangrijke combinatorische functies
Faculteiten De faculteit wordt recursief gedefinieerd als een afbeelding van een willekeurig natuurlijk getal n op een ander natuurlijk getal n!: 0! = 1 n! = n · (n − 1)!
(1.1)
Indien deze recursieve definitie wordt uitgewerkt dan komt men op de volgende formule voor n!: n factoren z }| { n! = 1 · 2 · 3 · · · n Hieruit volgt dat 1! = 1 en: 2! 3! 4! 5! .. .
= 1·2 = 1·2·3 = 1·2·3·4 = 1·2·3·4·5 .. .
69! ≈
1, 7 · 1098 4
= 2 = 6 = 24 = 120
(1.2)
Deze laatste waarde is vaak de grootste faculteitswaarde van de meeste rekenmachines. Voor grotere waarden dan 69! moet men gebruik maken van de benaderingsformule van James Stirling (1692-1770): √ n! ≈ nn · e−n · 2πn
(1.3)
of in logaritmische vorm:
n! ≈ 10(n+
1/ )·log n−n·log e+ 1/ ·log 2π 2 2 10 10 10
(1.4)
Binomiale co¨effici¨enten Als (p + q)n moet worden uitgeschreven tot een reeks dan kan men gebruik maken van het binomium van Newton, genoemd naar Isaac Newton (1642-1727): n
n k n−k pq (p + q) = ∑ k k=0 n
waarbij de binomiale co¨effici¨enten
n k
(1.5)
als volgt zijn gedefinieerd:
n n! = k k!(n − k)!
(1.6)
Daaruit volgt voor n = 2: 2 2 2 2 2 (p + q) = p + pq + q = p2 + 2pq + q2 0 1 2 2
Men kan de binomiale co¨effici¨enten uitzetten in de driehoek van Blaise Pascal (16231662):
1 3 0 =1
2 0 =1
0
0 0 =1
=1
3 1 =3
2 1 =2
1 1 =1 3 2 =3
2 2 =1
3 3 =1
Als men alle binomiale co¨effici¨enten waarvoor n < 0 of n < k de waarde 0 toekent, dan geldt dat elke binomiale co¨effici¨ent de som is van zijn twee ‘bovenburen’: 5
n n−1 n−1 = + k k−1 k
(1.7)
Als men alle binomiale co¨effici¨enten in de rij n van de driehoek van Pascal optelt, dan geldt: n
n ∑ k = 2n k=0
(1.8)
Bewijs (gebruik formule 1.5 waarin p = 1 en q = 1): n n n · 1 = 2n ·1+...+ ·1+ (1 + 1) = n 1 0 n
Opmerking: Men zegt voor
1.2
n k
“k uit n” of “n over k”.
Rangschikkingen
Bij het bepalen van het aantal rangschikkingen van een aantal voorwerpen in een aantal posities of kasten moet men de aard van de identiteit van de voorwerpen en posities binnen de groep kennen1 . • Als men de voorwerpen zonder probleem mag verwisselen of terugleggen en opnieuw plaatsen dan heeft men te maken met niet-unieke voorwerpen voorwerpen. In dat geval spreekt men over teruglegging. Unieke voorwerpen zijn niet-onderscheidbare voorwerpen en niet-verwisselbaar. Met andere woorden, unieke voorwerpen zijn zelfstandige objecten, niet-unieke voorwerpen zijn types klassenvertegenwoordigers; • Men kan het onderscheid tussen uniek en niet-uniek ook betrekken op de ‘kasten’ waar de voorwerpen geplaatst worden. Niet-unieke kasten zijn zonder probleem te verwisselen of niet van elkaar te onderscheiden. Als de kasten uniek, dus nietverwisselbaar of onderscheidbaar, zijn dan spreekt men over volgorde. Bijvoorbeeld bij het bepalen van het aantal rangschikkingen met volgorde van de letters van het woord ‘KOK’, is identiteit van de letters belangrijk. Indien men vindt dat er sprake is van twee zelfstandig letters K1 en K2 , dan blijken 6 rangschikkingen mogelijk. 1 Dit
kunnen verzamelingen-, families- of rijen van voorwerpen en posities zijn.
6
Indien men geen onderscheid maakt tussen de twee K’s, dan zijn er maar 3 rangschikkingen. Zou men alle letters K en O niet als zelfstandige objecten maar als vertegenwoordigers van een groep beschouwen, dan zijn er zelfs 8 mogelijke rangschikkingen. In dit laatste geval lijkt het er op of de letters K en O uit een onuitputtelijke voorraad K’s en O’s komen of dat een letter na plaatsing, teruggelegd wordt en opnieuw geplaatst kan worden.
Permutaties, rangschikkingen met volgorde Op hoeveel manieren kan men 3 verschillende unieke voorwerpen A, B en C in 3 unieke kasten plaatsen, zodanig dat in elke kast e´ e´ n voorwerp wordt geplaatst? Hoeveel verschillende rangschikkingen met volgorde krijgt men met 3 unieke voorwerpen A, B en C? Indien men alle mogelijkheden beschouwt, dan krijgt men de volgende 6 rangschikkingen: ABC
ACB
CAB
CBA
BCA
BAC
1. Plaats een voorwerp in de 1ste kast, men kan kiezen uit 3 voorwerpen, er zijn totaal 3 rangschikkingen ontstaan; 2. Plaats een voorwerp in de 2de kast, men kan kiezen uit 2 voorwerpen. er zijn totaal 2 · 3 = 6 rangschikkingen ontstaan: 3. Plaats een voorwerp in de 3de kast, men kan kiezen uit 1 voorwerp. er zijn totaal 1 · 2 · 3 = 6 rangschikkingen ontstaan. Om n verschillende voorwerpen in n verschillende kasten te plaatsen zijn er n! mogelijkheden. Anders gesteld, n verschillende voorwerpen zijn op n! verschillende manieren te permuteren. Permutaties vormen de basis van de combinatoriek. Permutatieproblemen kunnen in verschillende vormen optreden: 1. Hoeveel permutaties bestaan er van de letters van het woord ROB?. Dit is een helder permutatieprobleem. Er zijn 3 unieke letters en 3 unieke plaatsen. Het aantal permutaties perm is: perm(ROB) = 3! = 6 2. Hoeveel rangschikkingen bestaan er van het woord OORROB?. Dit is een iets complexer permutatieprobleem. Er zijn 6 letters: 3 O’s, 2 R’s en 1 B en 6 unieke plaatsen. Men kan alle letters als uniek beschouwen. Het aantal rangschikkingen is in dit geval gelijk aan: perm(O1 O2 R1 R2 O3 B) = 6! = 720. 7
Laten men het onderscheid tussen de zelfde type letters los, dan moet men de totale uitkomst corrigeren voor twee groepen met equivalente oplossingen. De eerste groep equivalente oplossingen wordt gevormd door de deelpermutaties van de unieke letters O1 , O2 , O3 . Deze groep draagt 3! extra permutaties bij aan het totaal resultaat. Ook zijn alle deelpermutaties met R1 , R2 equivalent, deze groep draagt bij tot nog zo’n 2! extra oplossingen. Beide groepen oplossingen moeten uit het totaal aantal oplossingen verwijderd worden. Het totaal aantal oplossingen wordt nu: 6!/ 3!·2! = 60. In het algemeen is het aantal rangschikkingen pm van een woord met n posities en een aantal gelijke letters gelijk aan: n
z }| { n! perm(aaa . . . a bbb . . . b . . . zzz . . . | {z } | {z } | {z }z) = na ! · nb ! . . . nz ! na
nb
(1.9)
nz
3. Op hoeveel manieren kunnen 5 unieke personen om een ronde tafel met 5 stoelen gaan zitten? Indien men dit probleem voorstelt als een lange tafel met unieke stoelen, dan ligt oplossing voor de hand. Er zijn 5! = 120 mogelijke rangschikkingen. Bij een ronde tafel zijn de stoelen wel in vaste volgorde te plaatsen, maar elke stoel zou als eerste genomen kunnen worden. Er zijn groepen met 5 equivalente oplossingen aanwezig. De totale oplossing is: 5!/5 = 4! = 24 rangschikkingen. De algemene regel is dat als n unieke personen om een ronde tafel met n stoelen gaan zitten, er (n − 1)! rangschikkingen zijn. Dit is een voorbeeld van een cyclische permutatie.
Variaties, rangschikkingen met volgorde zonder teruglegging Op hoeveel manieren kan men 3 unieke voorwerpen A, B en C in 2 unieke kasten plaatsen, zodanig dat in elke kast e´ e´ n voorwerp wordt geplaatst? Of op hoeveel verschillende volgorden kan men 2 uit 3 verschillende voorwerpen A, B en C plaatsen? Indien men alle mogelijkheden beschouwt, dan krijgt men de volgende rij met 6 mogelijkheden: [AB, AC,CA,CB, BC, BA]: 1. Plaats in de 1ste kast een voorwerp, men kan kiezen uit 3 voorwerpen, er zijn 3 mogelijkheden; 2. Plaats in de 2de kast een voorwerp, men kan kiezen uit 2 voorwerpen. er zijn 2·3 = 6 mogelijkheden. Op hoeveel manieren nk kan men n unieke voorwerpen in k unieke kasten plaatsen, zodanig dat er in elke kast e´ e´ n voorwerp wordt geplaatst? Dit is het aantal variaties nv van n voorwerpen in k kasten:
8
nv = n · (n − 1) · (n − 2) · · · (n − k + 1) =
n! (n − k)!
(1.10)
Het probleem is gelijkwaardig met het aantal rangschikkingen van een woord met n letters dat bestaat uit k unieke letters Gi (Gekozen voor plaatsing in kasti ) en n − k niet-unieke letters N (Niet gekozen): n
z }| { n! nv = perm(G1 G2 G3 . . . Gk NNN . . . N )= | {z } | {z } (n − k)! n−k
k
Combinaties, rangschikkingen zonder volgorde zonder teruglegging Op hoeveel manieren kan men 3 unieke voorwerpen A, B en C in twee niet-unieke kasten plaatsen, zodanig dat er in elke kast e´ e´ n voorwerp wordt geplaatst? Of op hoeveel verschillende manieren zonder op volgorde te letten kan men 2 uit 3 verschillende voorwerpen A, B en C combineren? Er zijn blijkbaar 6 variaties om 3 verschillende voorwerpen ieder in 2 verschillende kasten te plaatsen. Men mag nu echter geen onderscheid maken tussen verschillende volgordes: AB = BA
BC = CB
AC = CA
In de 6 variaties kan men voor elke oplossing een andere oplossing vinden die equivalent is. Er zijn uiteindelijk 6/2 = 3 combinaties te maken. Op hoeveel manieren nc kan men n unieke voorwerpen in k niet-unieke kasten plaatsen, zodanig dat er in elke kast e´ e´ n voorwerp wordt geplaatst? De k kasten kunnen op k! verschillende manieren geplaatst zijn. Er zijn dus nv variaties, verdeeld in groepen met k! equivalente oplossingen: n! nv n nc = = = k! (n − k)!k! k Er zijn dus
n c
(1.11)
combinaties te maken.
Het combinatieprobleem is gelijkwaardig met het aantal rangschikkingen van een woord met n letters dat bestaat uit k niet-unieke letters G (‘Gekozen’) en n − k niet-unieke letters N (‘Niet gekozen’): n }| { z n! n nc = perm(|GGG {z. . . G} NNN | {z. . . N}) = k! · (n − k)! = k k
n−k
9
Rangschikkingen met volgorde met teruglegging Bij het rangschikken van k uit n voorwerpen, werd stilzwijgend aangenomen dat een voorwerp niet meer teruggelegd werd. Met andere woorden, een voorwerp kan maar e´ e´ n keer in een combinatie aanwezig zijn. Men kan ook een combinatie van voorwerpen bedenken waarvan elk voorwerp een onbeperkt aantal keren aanwezig mag zijn, of wat identiek is, waar elk voorwerp weer gekozen kan worden omdat het ‘teruggelegd’ is. Voorbeeld 1.1 Hoeveel verschillende 3-tallen met volgorde en teruglegging kan men maken? Antwoord: 33 = 27 AAA BAA CAA AAB BAB CAB AAC BAC CAC
ABA BBA CBA ABB BBB CBB ABC BBC CBC
ACA BCA CCA ACB BCB CCB ACC BCC CCC
Voorbeeld 1.2 Hoeveel verschillende 2-tallen met volgorde kan men maken uit 3 voorwerpen met teruglegging? Antwoord: 3 · 3 = 9. Voorbeeld 1.3 Hoeveel verschillende k-tallen met volgorde kan men maken uit n voorwerpen met teruglegging? Antwoord: k
z }| { n · n · n · · · n = nk Voorbeeld 1.4 Hoeveel rangschikkingen met eventuele herhalingen kan men maken met 2 letters uit het alfabet? Antwoord: 262 = 676 rangschikkingen.
10
Rangschikkingen zonder volgorde met teruglegging Men kiest uit drie typen A,B en C (met teruglegging) twee voorwerpen, zonder te letten op de volgorde. Hoeveel rangschikkingen nr zonder volgorde met teruglegging zijn er? AA A
B BB B
A
C CC C
Bovenstaande tabel heeft 6 oplossingen. Men kan zonder gevaar de tabel op een andere manier aangeven. De letters A, B en C worden vervangen door de letter X. Het aantal onderscheidbare rangschikkingen nr blijft gelijk aan 6: XX X
X XX X
X
X XX X
Het probleem is herleidbaar tot het aantal rangschikkingen van twee letters ‘X’ en twee scheidingstekens ‘|’. Als dit resultaat wordt veralgemeniseerd, dan blijkt dat de n − 1 scheidingstekens | (voorgesteld door de letter S) en de k letters X een woord vormen: n−1+k
z }| { (n − 1 + k)! n−1+k perm(SSS | {z. . . X}) = k! · (n − 1)! = | {z. . . S} XXX k n−1
k
De algemene oplossing van dit probleem wordt nu: n−1+k (n − 1 + k)! = nr = k! · (n − 1)! k
(1.12)
Het probleem van “het aantal rangschikkingen zonder volgorde met teruglegging” is ook voor te stellen als het probleem van “het aantal geheeltallige oplossingen van de geheeltallige vergelijking”: x1 + x2 + . . . + xn = k 11
∀xi : 0 ≤ xi ≤ k
(i = 1, 2, 3 . . . n)
Het aantal rangschikkingen van 3 niet-unieke voorwerpen of soorten A, B en C in 2 nietonderscheidbare groepen komt overeen met het aantal geheeltallige oplossingen van de volgende geheeltallige vergelijking: x1 + x2 + x3 = 2 ∀xi : 0 ≤ xi ≤ 2
(i = 1, 2)
De variabele x1 komt overeen met het aantal A’s, de variabele x2 komt overeen met het aantal B’s en de variabele x3 komt overeen met het aantal C’s. Tussen deze 3 variabelen zitten 3 − 1 = 2 plustekens: het lijkt erop of het aantal oplossingen gelijk is met het aantal combinaties van 2 uit 4. Voorbeeld 1.5 Op hoeveel manieren kan een klant 3 gebakjes kiezen uit een 6 soorten gebak? Het probleem is vergelijkbaar met het aantal geheeltallige oplossingen van de geheeltallige vergelijking: x1 + x2 + x3 + x4 + x5 + x6 = 3 ∀xi : 0 ≤ xi ≤ 3
(i = 1, 2, . . . , 6)
Het gevraagde aantal manieren is: 8 = 56 nr = 3
1.3
Overzicht combinatoriek
De formules van de rangschikkingen zijn in het volgende schema geplaatst:
geen teruglegging wel teruglegging
geen volgorde wel volgorde
n k n! (n−k)!
12
n−1+k k
nk
Opgemerkt moet worden dat de volgende formule de belangrijkste formule is van de behandelde combinatoriek. Het aantal permutaties van een woord met een aantal nietunieke letters is gelijk aan: n
z }| { n! . . . zzz . . . perm(aaa . . . a bbb . . . b | {z } | {z } | {z }z) = na ! · nb ! . . . nz ! na
nb
nz
13
Hoofdstuk 2 Het kansbegrip In de loop van de geschiedenis zijn er enkele invloedrijke kanstheorie¨en ontstaan. Naast de intu¨ıtieve- of de subjectieve bepaling van een kans maakt men nog steeds gebruik van de volgende kanstheorie¨en: De kanstheorie van Pierre Simon Laplace (1749-1827): De kans op een gebeurtenis wordt ‘vooraf’ theoretisch bepaald, gebaseerd op de symmetrie die ideale munten en ideale dobbelstenen bezitten. De kans op de gebeurtenis A is het theoretisch aantal gebeurtenissen A, gedeeld door het theoretisch totaal aantal gebeurtenissen:
P(A) =
n(A) ntot
(2.1)
Bij een ideale dobbelsteen is de kans op 6 ogen op theoretische gronden gelijk aan 1/ . De combinatoriek speelt een belangrijke rol bij het ‘vooraf’ bepalen van een 6 kans; De experimentele kanstheorie: In deze theorie wordt de kans ‘achteraf’ bepaald als de relatieve frequentie van een gebeurtenis A.
P(A) =
f (A) de frequentie van A = de totale frequentie ftot
(2.2)
Bijvoorbeeld, een paard dat 6 van de 10 wedstrijden heeft gewonnen, wordt een kans van 60% gegeven om de volgende wedstrijd te winnen; De axiomatische kanstheorie: De axiomatische kanstheorie gaat uit van de uitkomstenruimte, de verzameling elementaire gebeurtenissen. In de axiomatische kanstheorie is de kans op een elementaire gebeurtenis een ongedefinieerd begrip, te vergelijken 14
met een punt of lijn in de meetkunde. Hoewel men in de axiomatische kanstheorie aanneemt dat de kans op een elementaire gebeurtenis bestaat, zal zij via een andere kanstheorie bepaald moeten worden. Het is met de axiomatische kanstheorie mogelijk de kansen van samengestelde gebeurtenissen uit te drukken in kansen van elementaire gebeurtenissen. Voorbeeld 2.1 Tijdens een experiment waarin 5000 keer met een munt wordt geworpen, nadert de relatieve frequentie van het werpen van de ‘kop’ de waarde 1/2 :
0.5
1000
2000
3000
4000
5000
Figuur 2.1: De relatieve frequentie van ‘kop’ bij het werpen van een munt.
Naast de gebruikelijke methode om een kanswaarde als een getal 0 . . . 1 of als 0% . . . 100% te schrijven, is het in de gokwereld de gewoonte om kanswaarden als ‘odds’ aan te geven. Als de kans op een gebeurtenis p = 20% is, dan wordt de ‘odds’ van het optreden van deze gebeurtenis aangegeven met p : (1 − p) = 20% : 80% = 1 : 4 (´ee´ n op vier). De ‘odds’ van het niet-optreden van de gebeurtenis is dan 4 : 1 (vier op e´ e´ n).
2.1
Het intu¨ıtieve kansbegrip
Het intu¨ıtief kansbegrip of subjectief kansbegrip speelt een rol bij onze verwachtingen van de toekomst. Het intu¨ıtieve kansbegrip wordt vaak bewust of onbewust gemanipuleerd. Enkele voorbeelden: 15
1. Hoe wordt iemand sportprofeet? Stel dat iemand een blad over boxen wil beginnen. Enkele weken voor een bepaalde wedstrijd stuurt hij 2000 boxliefhebbers een brief. De de helft van het aantal brieven bevat de voorspelling waarin boxer A de wedstrijd wint, de andere helft bevat de voorspelling dat boxer B de wedstrijd zal winnen. Na de wedstrijd, die gewonnen is door bijvoorbeeld boxer A, krijgen alleen de 1000 ontvangers van de uitgekomen voorspelling een tweede brief. Ook hierin wordt weer een voorspelling gegeven voor een volgende wedstrijd, echter de helft van de brieven bevat een andere voorspelling dan de andere helft. Het principe wordt herhaald, 500 ontvangers van twee uitgekomen voorspellingen, krijgen weer een brief etc. Na 4 brieven krijgen de 250 boxliefhebbers die alleen goede voorspellingen hebben gekregen een aanbod op een abonnement van 1000,- euro per jaar op een blad met “100% goede boxwedstrijd voorspellingen”. Bovenstaande methode is ook bekend bij beleggingsadviseurs. 2. Bij een dobbelspel wordt met een dobbelsteen 5 keer achter elkaar een 6 gegooid. Iemand voorspelt de volgende worp met ‘Het wordt weer een 6 omdat er al 5 keer een 6 geworpen is.’. Een ander persoon voorspelt ‘Er is te vaak een 6 geworpen, de volgende worp is geen 6’. Wie heeft er gelijk? Aan de hand van dit laatste voorbeeld kan men de volgende praktische regel concluderen:
Het toeval kent geen geheugen.
2.2
De axiomatische kansrekening
Deze kansrekening gaat uit van een aantal axioma’s: 1. De uitkomstenruimte U (het ‘universum’) is volledig. Dit betekent dat er altijd een elementaire gebeurtenis is: P(U) = 1
(2.3)
2. Elke samenstelling van elementaire gebeurtenissen is een deelverzameling van de uitkomstenruimte U. Voor elke samengestelde gebeurtenis A geldt voor de kans: A⊆U
→
0 ≤ P(A) ≤ 1 16
(2.4)
3. Voor de samengestelde samengestelde gebeurtenissen A, B die geen gemeenschappelijke elementen bezitten – ze zijn disjunct – geldt:
A ∩ B = 0/
→
P(A ∪ B) = P(A) + P(B)
(2.5)
Rekenregels voor kansen 1. Dat er tijdens een kansexperiment geen uitkomst plaats vindt, is onmogelijk:
/ =0 P(0)
(2.6)
Bewijs: / = P(A) + P(0) / = P(A) P(A ∪ 0) 2. De kans dat een complementaire gebeurtenis A optreedt, is:
P(A) = 1 − P(A)
(2.7)
Bewijs: P(U) = P(A ∪ A) = P(A) + P(A) = 1
→
P(A) = 1 − P(A)
3. De kans dat gebeurtenis A of B of allebei optreden is:
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) Bewijs: P(A) = P(A ∩ B) + P(A ∩ B)
→
P(A ∩ B) = P(A) − P(A ∩ B) 17
(2.8)
P(B) = P(A ∩ B) + P(A ∩ B) →
P(A ∩ B) = P(B) − P(A ∩ B)
Worden P(A ∩ B) en P(A ∩ B) in bovenstaande gelijkheden gesubstitueerd, dan: P(A ∪ B) = P((A ∩ B) ∪ (A ∩ B) ∪ (A ∩ B)) → →
P(A ∪ B) = P(A ∩ B) + P(A ∩ B) + P(A ∩ B)
P(A ∪ B) = P(A ∩ B) + P(A) − P(A ∩ B) + P(B) − P(A ∩ B)
Uiteindelijk is bewezen dat: P(A ∪ B) = P(A) + P(B) − P(A ∩ B) Voorbeeld 2.2 Uit een kaartspel trekt men blindelings een kaart. Wat is de kans op: 1. een aas: P(A) 2. een klaverenaas: P(K ∩ A) 3. een ruiten- of hartenkaart: P(R ∪ H) 4. iets dat geen aas is: P(A) 5. een klaverenkaart of aas: P(K ∪ A) Antwoord: 1. De kans op een aas is: P(A) =
n(A) 4 = /52 = 1/13 ntot
2. De kans op een klaverenaas is P(K ∩ A) =
n(K ∩ A) 1 = /52 ntot
3. De kans op een ruiten- of hartenkaart is: P(R ∪ H) = P(R) + P(H) =
13
/52 + 13/52 = 1/2
4. De kans op iets dat geen aas is: P(A) = 1 − P(A) = 1 − 1/13 =
12
/13
5. De kans op klaverenkaart of een aas is: P(K ∪ A) = P(K) + P(A) − P(K ∩ A) = 1/4 + 1/13 − 1/52 = 4/13 18
2.3
Voorwaardelijke kansen
Als A en B twee gebeurtenissen zijn dan wordt de kans op A, indien B bekend is, de conditionele kans genoemd. Men schrijft: P(A | B) en men zegt “de kans op A indien B bekend is”. Waarin verschilt de kans P(A | B) met de kans P(A ∩ B)? De kans P(A ∩ B) is de kans op de gebeurtenissen A en B nog voordat een van beide bekend is. Voorbeeld 2.3 Een bedrijf heeft 500 computers: 200 van het type A en 300 van het type B; 150 computers van type A en 100 computers van type B hebben een netwerkaansluiting N. Er is een willekeurige computer geselecteerd. Wat is de kans dat: • deze computer van het type A is? Antwoord: P(A) = 200/500 = 2/5 ; • deze computer een netwerkaansluiting heeft? Antwoord: P(N) = 250/500 = 1/2 ; • deze computer van het type A en een netwerkaansluiting heeft? Antwoord: P(A ∩ N) = 150/500 = 3/10 ; • deze computer een netwerkaansluiting heeft en van type A is? Antwoord: P(N ∩ A) = 150/500 = 3/10 . Dit resultaat ligt de voor de hand: P(N ∩ A) = P(N ∩ A). Indien P(N) de kans op gebeurtenis N is in de totale uitkomstenruimte U (bijvoorbeeld het universum van alle 500 computers) dan is P(N | A) de kans van N in de gereduceerde uitkomstenruimte A. Men noemt P(N) ookwel de absolute kans op N en P(N | A) de de conditionele kans op N, gegeven A. • Als bekend is dat de computer een netwerkaansluiting heeft. Wat is dan de kans dat dit een computer van het type A is? Antwoord: P(A | N) = 150/250 = 3/5 ; • Als bekend is dat de geselecteerd computer van het type A is. Wat is dan de kans dat deze een netwerkaansluiting heeft? Antwoord: P(N | A) = 150/200 = 3/4 . Uit de antwoorden blijkt dat P(A ∩ N) 6= P(A | N) en P(N | A) 6= P(A | N). De formele definitie van Thomas Bayes (1702-1761) voor de conditionele kans luidt:
P(A | B) =
P(A ∩ B) P(B) 19
(2.9)
Voorbeeld 2.4 De kans op een computer van het type A indien gegeven is dat deze computer een netwerkaansluiting heeft: P(A | N) =
3/ P(A ∩ N) 10 = 1 = 3/5 P(N) /2
Of de kans op een computer met een netwerkaansluiting indien gegeven is dat deze computer van het type A is: 3/ P(N ∩ A) 10 P(N | A) = = 2 = 3/4 P(A) /5
Uit de definitie van de voorwaardelijke kans volgt de algemene produktregel van twee gebeurtenissen A en B:
P(A ∩ B) = P(A | B) · P(B)
(2.10)
Deze regel is een aanvulling op de eerder behandelde axioma’s en rekenregels voor kansen in paragraaf 2.2.
2.4
Onafhankelijke gebeurtenissen
Een gebeurtenis A noemt men onafhankelijk van gebeurtenis B indien:
P(A | B) = P(A)
(2.11)
Indien twee gebeurtenissen onafhankelijk van elkaar zijn dan geldt:
P(A ∩ B) = P(A) · P(B)
(2.12)
Indien twee gebeurtenissen afhankelijk van elkaar zijn dan geldt alleen formule 2.10. Bij een ideale munt moet het scoren van een kop of munt onafhankelijk van elkaar zijn. Bij twee worpen van een zuivere munt moet gelden: P(K ∩ M) P(K ∩ K) P(M ∩ K) P(M ∩ M)
= P(K | M)P(M) = = P(K | K)P(K) = = P(M | K)P(K) = = P(M | M)P(M) = 20
P(K) · P(M) P(K) · P(K) P(M) · P(K) P(M) · P(M)
= = = =
1/ 4 1/ 4 1/ 4 1/ 4
Een munt waarbij de kans op kop ongelijk is aan de kans op munt noemt men onzuiver. Een munt waarbij de kans op kop be¨ınvloedt wordt door de een andere worp is een be¨ınloedbare munt. Men kan zich een munt of dobbelsteen indenken met een ‘geheugen’ waarbij een worp be¨ınvloed wordt door een vorige worp. Zo’n munt of dobbelsteen kan toch zuiver zijn.
2.5
De steekproef
Bij een steekproef, moeten de geselecteerde elementen willekeurig en representatief zijn. Daarom is het goed om de elementen op een eerlijke manier door loting te selecteren. Zo’n eerlijke steekproef noemt men een aselecte steekproef. Afhankelijk van de omvang van de steekproef en populatie kiest men voor een van de volgende methoden: 1. Elk element mag meer dan e´ e´ n keer geselecteerd worden. Dit noemt men een steekproef met teruglegging; 2. Elk element mag maar ten hoogste e´ e´ n keer geselecteerd worden. Dit noemt men een steekproef zonder teruglegging. Indien de populatie-omvang zeer groot is ten opzichte van de steekproefomvang, beschouwt men deze steekproef zonder teruglegging eigenlijk als een steekproef met teruglegging.
2.6
Steekproeven met- en zonder volgorde
Om iets over dit onderwerp te vertellen zijn er twee nieuwe notatiewijzen nodig: 1. De notatie P(AB) betekent: De kans op “gebeurtenis A gevolgd door gebeurtenis B”. Deze kans is niet altijd het zelfde als de kans zonder volgorde op de “gebeurtenis A en B” wat symbolisch geschreven wordt als P(A ∩ B). Bijvoorbeeld bij het werpen van twee munten geldt: P(K ∩ M) = P(KM) + P(MK) • P(MK) en P(KM) zijn de kansen op de gebeurtenissen MK en KM alsof e´ e´ n munt twee keer wordt geworpen; • P(K ∩ M) is de kans op de combinatie munt en kop alsof twee munten gelijktijdig worden geworpen. Deze kans is natuurlijk gelijk aan de kans P(M ∩ K). 2. De notatie P(a = n, b = n) betekent de kans op n keer de gebeurtenis A en m keer de gebeurtenis B, zonder te letten op de volgorde van de gebeurtenissen. Men introduceert met een kleine onderstreepte letter een nieuw type variabele. Deze numerieke variabele, wordt een stochastische variabele of kansvariabele genoemd. 21
Voorbeeld 2.5 Gegeven een vaas met 4 rode en 6 witte ballen. Bereken de kans op 2 rode ballen gevolgd door 1 witte bal bij 3 aselecte trekkingen. P(RRW ) = P(R) · P(R | R) · P(W | RR) Met teruglegging wordt deze kans: P(RRW ) = P(R) · P(R | R) · P(W | RR) = 4/10 · 4/10 · 6/10 =
12
/125
Bij de trekkingen met teruglegging zijn de kansen onafhankelijk van de voorgeschiedenis: P(R | . . .) = P(R) Daarentegen zijn de kansen bij trekkingen zonder teruglegging: P(RRW ) = P(R) · P(R | R) · P(W | RR) = 4/10 · 3/9 · 6/8 = 1/10 wel afhankelijk van de voorgeschiedenis: P(R | . . .) 6= P(R) Men kan zich afvragen of de kansen afhankelijk zijn van de volgorde. Als voorbeeld trekt men 2 rode ballen en 1 witte bal uit de vaas met 4 rode- en 6 witte ballen: • Toon aan dat met teruglegging geldt: P(RRW ) = P(RW R) = P(W RR) 4
/10 · 4/10 · 6/10 = 4/10 · 6/10 · 4/10 = 6/10 · 4/10 · 4/10 =
12
/125
• Toon aan dat zonder teruglegging geldt: P(RRW ) = P(RW R) = P(W RR) Antwoord:
4
/10 · 3/9 · 6/8 = 4/10 · 6/9 · 3/8 = 6/10 · 4/9 · 3/8 = 1/10
Hieruit blijkt dat de kansen P(RRW ), P(RW R) en P(W RR) onafhankelijk zijn van de volgorde. De kansen zijn wel afhankelijk van het feit of er met- of zonder teruglegging getrokken wordt. Indien de kans op 2 rode en 1 witte bal ongeacht volgorde wordt berekend, dan moet men de kans P(RRW) vermenigvuldigen met het aantal permutaties van het woord RRW: P(r = 2, w = 1) = perm(RRW) · P(RRW ) = 3!/2! P(RRW ) 22
Voorbeeld 2.6 Gegeven een vaas met 4 rode en 6 witte ballen. Men neemt een aselecte steekproef van 5 ballen. De kans op: • 3 rode ballen gevolgd door 2 witte ballen, met teruglegging, is: P(RRRWW ) = 4/10 4/10 4/10 6/10 6/10 =
72
/3125
• 3 rode ballen en 2 witte ballen, zonder volgorde maar met teruglegging is: P(r = 3, w = 2) = perm(RRRWW) · P(RRRWW ) = 5!/3!2! · 72/3125 =
144
/625
• 3 rode ballen gevolgd door 2 witte ballen, zonder teruglegging: P(RRRWW ) = 4/10 3/9 2/8 6/7 5/6 = 1/42 • 3 rode en 2 witte ballen, zonder te letten op volgorde en zonder teruglegging: P(r = 3, w = 2) = perm(RRRWW )P(RRRWW ) =
5! 1 /42 = 5/21 3!2!
Men is nu in staat de algemene formule voor steekproeven, ongeacht de methode van teruglegging, te formuleren:
. . A} . . . Z . . Z}) · P(A . . A} . . . Z . . Z}) P(a = a, . . . , z = z) = perm(A | .{z | .{z | .{z | .{z a
z
a
(2.13)
z
De hypergeometrische verdeling Gegeven een verzameling met R rode elementen, W witte en B blauwe elementen. Deze verzameling bestaat dus uit N = R + W + B elementen. Uit deze eindige verzameling wordt een steekproef genomen zonder teruglegging. De steekproefomvang is relatief groot ten opzichte van de populatie-omvang. Wat is de kans P(r = r, w = w, b = b)? Antwoord: P(r = r, w = w, b = b) =
R W B r w b N w+r+b
In zijn algemene vorm is deze verdeling geschikt voor een steekproef zonder teruglegging uit een eindige populatie met N = A + B + · · · + Z elementen: 23
P(a = a, b = b, . . . z = z) =
A B Z · · · a b z N a+b+···+b
(2.14)
Formule 2.14 wordt de algemene hypergeometrische verdeling genoemd. Zij is alleen geldig bij steekproeven zonder teruglegging. Het is lastig maar niet onmogelijk om formule 2.14 voor de algemene hypergeometrische verdeling uit formule 2.13 af te leiden. Voorbeeld 2.7 Gegeven een vaas met 6 witte, 4 rode en 2 blauwe ballen. Wat is de kans op 2 rode, 1 witte en 1 blauwe bal als men blindelings 4 ballen zonder teruglegging trekt? Antwoord: P(r = r, w = w, b = b) =
4 6 2 2 1 1 12 4
Uit een vaas met totaal N ballen waarvan K ballen met de kleur K en N − K ballen met andere kleuren, wordt een steekproef met teruglegging genomen van n ballen. Wat is de kans dat k ballen van de n getrokken ballen de kleur K hebben? Antwoord: Als k van de n ballen de kleur K hebben, dan hebben automatisch de andere n − k ballen een andere kleur ¬K.
P(k = k) =
K N−K k n−k N n
(2.15)
Formule 2.15 is bijzonder geval van formule 2.14, zij wordt de hypergeometrische verdeling genoemd.
De Multinomiale verdeling Gegeven een verzameling met R rode, W witte en B blauwe elementen. De totale verzameling bestaat dus uit: N = R +W + B elementen. Wat is de kans P(r = r, w = w, b = b) bij een steekproef met teruglegging? Antwoord: P(r = r, w = w, b = b) = perm(R . . R} W . .W} B . . B}) · P(R . . R} W . .W} B . . B}) | .{z | .{z | .{z | .{z | .{z | .{z r
w
24
b
r
w
b
Bij een steekproef met teruglegging uit een verzameling met A elementen, B elementen B, . . . en Z elementen Z, is de kans: a b z (a + b + . . . + z)! A B Z P(a = a, b = b, . . . , z = z) = · · ··· a! · b! · · · z! N N N
(2.16)
Dit wordt de multinomiale verdeling genoemd. Voorbeeld 2.8 Gegeven een vaas met 6 witte, 4 rode en 2 blauwe ballen. Wat is de kans op 2 rode, 1 witte en 1 blauwe bal als men blindelings 4 ballen met teruglegging trekt? Antwoord: P(r = 2, w = 1, b = 1) =
(1 + 2 + 1)! · 1! · 2! · 1!
4
/12
2 6 2 /12 /12 =
12
/36
De Binomiale verdeling Uit een vaas met totaal N ballen waarvan K ballen met de kleur K en N − K ballen met andere kleuren, wordt een steekproef met teruglegging genomen van n ballen. Wat is de kans dat k ballen van de n getrokken ballen de kleur K hebben? Antwoord: Als k van de n ballen de kleur K hebben, dan hebben automatisch de andere n − k ballen een andere kleur ¬K. Als P(K) = K/N = p en P(¬K) = N−K/N = 1 − p dan volgt: n k p · (1 − p)n−k P(k = k) = k
(2.17)
Formule 2.17, de kans op een bepaalde kleur waarbij alle andere kleuren op e´ e´ n hoop gegooid worden, wordt de binomiale verdeling genoemd. De binomiale verdeling is een bijzonder geval van de multinomiale verdeling. Voorbeeld 2.9 Van een magnetische schijf zijn 80% van de sectoren onbezet. Een willekeurige groep van 20 sectoren wordt geselecteerd voor opslag de opslag van een bestand. Wat is de kans dat 15 van de 20 geselecteerde sectoren onbezet zijn? Men mag aannemen dat de populatie-omvang zeer groot is ten opzichte van de steekproefomvang. Antwoord: 20 P(k = 15) = 0, 815 · 0, 25 = 0, 175 15 Wat is de kans dat er 16 of meer van de 20 geselecteerde sectoren onbezet zijn? 25
Antwoord: P(k ≥ 16) = P(k = 16) + P(k = 17) + · · · + P(k = 20) = 0, 5886 Wat is de kans dat er minder dan 16 van de 20 geselecteerde sectoren onbezet zijn? Antwoord: P(k < 16) = P(k = 0) + P(k = 1) + · · · + P(k = 15) = 1 − P(k ≥ 16) = 0, 4114
2.7
De algemene produktregel
Indien informatie over de uitkomstenruimte beschikbaar komt, verandert de kans op een gebeurtenis: Voorbeeld 2.10 Bij een zuivere dobbelsteen heeft elk vlak een even grote kans P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = 1/6 . Als bekend wordt gemaakt een worp een even aantal ogen heeft dan veranderen kansen van de even ogen P(1 | even), P(3 | even) en P(5 | even) in 0 en P(2 | even), P(4 | even) en P(6 | even) in 1/3 . Omdat de uitkomstenruimte door het gegeven van een even worp met de helft gereduceerd is, worden de kansen op een 2, 4 of 6 twee keer zo groot. Als P(A ∩ B) en P(B) bekend zijn, kan men P(A | B) berekenen: P(A | B) =
P(A ∩ B) P(B)
Hieruit volgt de algemene produktregel:
P(A ∩ B) = P(A | B) · P(B)
2.8
De omkeerregels van Bayes
Uit de algemene produktregel: P(A ∩ B) = P(A | B) · P(B) volgt: 26
(2.18)
P(A | B)P(B) = P(A ∩ B) = P(B | A)P(A) daaruit volgt de omkeerregel van Bayes:
P(A | B) =
P(B | A) · P(A) P(B)
(2.19)
Als de verzamelingen Ai (i = 1, 2, . . . , n) disjunct en volledig zijn, er treden alleen en geen andere gebeurtenissen dan het type Ai op, dan noemt men deze verzamelingen een partitie van de uitkomstenruimte. De omkeerformule van Bayes krijgt bij een partitionering van de uitkomstenruimte zijn algemene vorm voor de kans Ak k ∈ {1, 2, . . . , n}:
P(Ak | B) =
P(B | Ak ) · P(Ak ) ∑ P(B | Ai ) · P(Ai )
(2.20)
i=1...n
Voorbeeld 2.11 Een productieproces levert artikelen met 90% goede kwaliteit en 10% foute kwaliteit: P(G) = 0, 9 en P(F) = 0, 1. Deze artikelen worden op kwaliteit bewaakt door een controlesysteem dat de artikelen accepteert A of ongeschikt verklaart O. Dit controlesysteem heeft volgende eigenschappen: A: acceptabel O: ongeschikt G: goed 95% 5% F: slecht 8% 92% Uit de bovenstaande tabel kan men het volgende vaststellen: • P(A | G) = 0, 95 • P(O | G) = 0, 05 • P(A | F) = 0, 08 • P(O | F) = 0, 92 Wat is de kans dat een ongeschikt verklaard artikel echt fout is? Antwoord: P(F | O) =
P(O | F) · P(F) 0, 92 · 0, 1 = = 0, 67 P(O | F) · P(F) + P(O | G) · P(G) 0, 92 · 0, 1 + 0, 05 · 0, 9
27
Hoofdstuk 3 Kansvariabelen Definitie: Een kansvariabele, ookwel variabele of stochast genoemd, is een functie die de uitkomsten van een kansexperiment afbeeldt op numerieke waarden met een interval- of ratioschaal. Als men bijvoorbeeld bij een kansexperiment van het trekken van 4 kaarten uit een spel met 52 kaarten, de kans op het aantal ♠ wil aangeven, dan kan men geen gebruik maken van tekentjes zoals ♠ of ♣. Men kan met dit soort symbolen moeilijk rekenen. Men introduceert daarom voor het trekken van het aantal ♠ in een steekproef van vier kaarten de discrete kansvariabele k. Natuurlijk mag voor de onderstreepte letter k elke andere letter gekozen worden. Er zijn twee belangrijke soorten kansvariabelen, de discrete variabelen en de continue variabelen. In het algemeen geldt dat een discrete waarde geteld en continue waarde gemeten wordt. Continue variabelen kunnen met een oneindig hoge nauwkeurigheid opgegeven worden. Het onderscheid tussen een discrete en continue variabele vervaagt echter als de discrete variabele met een relatief hoge nauwkeurigheid wordt aangeven. Als het jaarinkomen in centen nauwkeurig wordt opgegeven, dan is er sprake van een discrete variabele. Door de hoge nauwkeurigheid mag deze variabele bijna als continue variabele beschouwd worden. De correctie die men moet toepassen op de klassegrenzen (± 1/2 cent) is verwaarloosbaar. Daarentegen, als het jaarinkomen in aantallen van duizend euro wordt opgegeven, dan mag men de correctie van de klassegrenzen (±500 euro) niet verwaarlozen. Het is gebruikelijk om discrete kansvariabelen aan te geven met vette letters, hoofdletters of onderstreepte kleine letters k, l, m of K, L en M of k, l, m. Continue kansvariabelen worden vaak aangegeven met vette letters, hoofdletters of onderstreepte kleine letters x, y, z of X, Y en Z of x, y, z. De continue kansvariabele t wordt vaak gereserveerd voor een kansvariabele met een tijdswaarde zoals de levensduur of de intervaltijd.
28
3.1
Discrete kansvariabelen
Als een variabele maar een beperkt aantal waarden aan kan nemen zoals het aantal kinderen per gezin dan kan men voor zo’n discrete variabele een kansfunctie fk (k) = P(k = k) en een verdelingsfunctie Fk (k) = P(k ≤ k) defini¨eren. Als er geen verwarring ontstaat, mag men voor fk (k) en Fk (k) ook respectievelijk f (k) en F(k) schrijven.
De kansfunctie Definitie van de kansfunctie f (k) van de discrete kansvariabele k is de kans P(k = k), de kans dat een kansvariabele k gelijk is aan een bepaalde waarde k:
f (k) = P(k = k)
(3.1)
Voorbeeld: Men gooit met twee muntstukken. Men definieert de kansvariabele k als het aantal koppen per worp. De volgende tabel geeft de gebeurtenis, de bijbehorende elementaire waarschijnlijkheden en de waarden van de kansvariabele k aan: Gebeurtenis waarschijnlijkheid k 1/ MM 0 4 1 MK 1 /4 1/ KM 1 4 1 KK 2 /4 Uit deze tabel volgt het domein K van k: {0, 1, 2}. Men kan een tabel maken voor k: k 0 1 2
f (k) 1/ 4 1/ 2 1/ 4
De grafiek van f (k):
29
f (k)
0, 60 0, 50 0, 40 0, 30 0, 20 0, 10
−3 −2 1 −2 −1 1 −1 2 2
0
− 21
1
1 2
1 12
2
2 12
3
De kansfunctie van de discrete variabele k Eigenschappen van f (k): • k∈ /K
→
f (k) = 0
• De som van alle kansen is: ∑ f (k) = ∑ f (k) = 1 ∀k
∀k∈K
De verdelingsfunctie Definitie van de verdelingsfunctie F(k) van de discrete kansvariabele k is de kans P(k ≤ k), de kans dat de kansvariabele k kleiner of gelijk is aan een bepaalde waarde k:
F(k) = P(k ≤ k) = ∑ P(k = i) = ∑ f (i) i≤k
(3.2)
i≤k
Voorbeeld 3.1 Men gooit met twee muntstukken. Men definieert de kansvariabele k als het aantal koppen per worp. De waarden van de discrete verdelingsfunctie F(k) staan in de volgende tabel: k 0 1 2
f (k) F(k) 1/ 1/ 4 4 1/ 3/ 2 4 1/ 1 4
30
De grafiek van F(k)
1, 00
F(k)
0, 90 0, 80 0, 70 0, 60 0, 50 0, 40 0, 30 0, 20 0, 10
−3 −2 1 −2 −1 1 −1 2 2
0
− 21
1 2
1
1 12
2
2 12
3
De discrete verdelingsfunctie F(k) Eigenschappen van de verdelingsfunctie F(k): • k1 < k2
→
F(k1 ) ≤ F(k2 )
(monotoon stijgend)
• lim F(k) = 0 k→−∞
• lim F(k) = 1 k→∞
De overschrijdingskans De overschrijdingskans R(k) = P(k > k) is de kans dat een kansvariabele k groter wordt dan een bepaalde waarde k.
31
R(k) = P(k > k) = ∑ P(k = i) = ∑ f (i) i>k
(3.3)
i>k
Men kan R(k) ook uitdrukken in F(k):
R(k) = P(k > k) = 1 − P(k ≤ k) = 1 − F(k)
(3.4)
De overschrijdingskans R(k) wordt veel gebruikt in de bedrijfszekerheidstheorie. Bovendien bevatten statistiekboeken vaak tabellen waarin de overschrijdingskansen zijn aangegeven. Eigenschappen van R(k): • k1 < k2
→
R(k1 ) ≥ R(k2 )
(monotoon dalend)
• lim R(k) = 1 k→−∞
• lim R(k) = 0 k→∞
De verwachtingswaarde Als voorbeeld neemt men de uitkomsten van een bepaald kansexperiment: [2, 3, 2, 5, 3, 2] Het gemiddelde 17/6 is de som gedeeld door het aantal. Het gemiddelde is ook op een andere manier te vinden. In de eerste kolom van een tabel plaatst men gesorteerd het getal k = k, vervolgens de absolute frequentie, de relatieve frequentie fk (k) en het product tussen de waarde k van de kansvariabele k en zijn relatieve frequentie: k · fk (k). k=k 2 3 5 ∑
aantal 3 2 1
fk (k) k · fk (k) 3/ 6/ 6 6 2/ 6/ 6 6 1/ 5/ 6 6 17/ 6
Op deze omslachtige manier wordt het verband tussen ∑ k · fk (k) en het rekenkundig gemiddelde aangegeven.
32
De verwachtingswaarde van een discrete kansvariabele k is de som van alle mogelijke uitkomsten maal de kans op de betreffende uitkomst:
E(k) = ∑(k · P(k = k)) = ∑ k · f (k) ∀k
(3.5)
∀k
Voorbeeld 3.2 Men gooit met twee muntstukken. Men definieert de kansvariabele k als het aantal koppen per worp. Wat is de verwachtingswaarde van het aantal koppen? Antwoord: k 0 1 2 ∑
f (k) k · f (k) 1/ 0 4 1/ 1/ 2 2 1/ 1/ 4 2 1
De verwachtingswaarde van het aantal koppen is E(k) = ∑ k · f (k) = 1. Het rekenkundige gemiddelde van een kansvariabele k wordt gedefinieerd als de verwachtingswaarde van de kansvariabele k:
µk = E(k)
(3.6)
Later zal blijken dat het begrip verwachtingswaarde meer omvattend is dan het begrip rekenkundig gemiddelde. Men moet de verwachtingswaarde meer zien als een parameter dat afhankelijk is van een functie f () en een functie g():
E(g(k)) = ∑ g(k) · f (k)
(3.7)
∀k
De variantie De variantie van een variabele k is de verwachtingswaarde van de kwadratische afwijkingen. Men neemt de verwachtingswaarde van de kwadratische afwijkingen in plaats van de verwachtingswaarde van de normale afwijkingen omdat de negatieve afwijkingen de positieve afwijkingen kunnen compenseren. Er lijkt dan geen variantie te bestaan die er wel degelijk is. Var(k) = E((k − E(k))2 ) = ∑ f (k) · (k − E(k))2 ∀k
33
(3.8)
Voorbeeld 3.3 Men gooit met twee muntstukken. Men definieert de kansvariabele k als het aantal koppen per worp. Wat is de variantie van het aantal koppen? Antwoord: E(k) = 1 k 0 1 2 ∑
f (k) 1/ 4 1/ 2 1/ 4
f (k) · (k − E(k))2 1/ 4 0 1/ 4 1/ 2
De variantie Var(k) van het aantal koppen k is: ∑ f (k)(k − E(k)2 = 1/2 .
3.2
Continue kansvariabelen
De kans dat iemand een lengte heeft van exact 175,6712 cm niet waarschijnlijk omdat de gevraagde klasse een zeer smal interval heeft. Dit interval loopt van 175, 67115 a 175, 67125 cm. Bij continue kansvariabelen kan men geen kansfunctie defini¨eren omdat de kans P(x = x) altijd 0 is. Men moet gebruik maken van de kansdichtheidsfunctie fx (x). Dit is een functie die de kansen op uitkomsten binnen intervallen vastlegt. De integraalrekening geeft een elegante koppeling tussen de kansdichtheidsfunctie fx (x) en de verdelingsfunctie Fx (x). Als er geen verwarring ontstaat, mag men voor fx (x) en Fx (x) respectievelijk f (x) en F(x) schrijven.
De kansdichtheidsfunctie Bij continue kansvariabelen kan men de kans op een uitkomst in een willekeurig smal interval bepalen. Men maakt daarom bij continue kansvariabelen gebruik van een kansdichtheidsfunctie f (x), de van de kans op een uitkomst in een zeer klein interval [x, x + ∆x]:
f (x) ≈
P(x ≤ x + ∆x) − P(x ≤ x) ∆x
(3.9)
Als men de kans wil bepalen op een uitkomst in het interval [a, b] dan neemt men de integraal over de kansdichtheidsfunctie:
P(a ≤ x ≤ b) =
Zb
f (x)dx a
Dit is het niet-gearceerde oppervlakte tussen de grenzen x = a en x = b: 34
(3.10)
r
r
x=a
x=b
In tegenstelling tot de kansfunctie, maken de inclusieve grens of de exclusieve grens geen verschil uit bij de kansdichtheidsfunctie:
P(a ≤ x ≤ b) = P(a ≤ x < b) = P(a < x ≤ b) = P(a < x < b) =
Rb
(3.11) f (x)dx
a
Enkele belangrijke eigenschappen van de kansdichtheidsfunctie f (x) zijn: • 0 ≤ f (x) •
R∞
f (x)dx = 1
−∞
De verdelingsfunctie De definitie van de verdelingsfunctie F(k) van de continue kansvariabele x is de kans dat een kansvariabele x kleiner of gelijk is aan een bepaalde waarde x: F(x) = P(x ≤ x)
(3.12)
De kans F(x) = P(x ≤ x) is de bepaalde integraal over de kansdichtheidsfunctie: F(x) = P(x ≤ x) = P(−∞ ≤ x ≤ x) =
Zx
f (τ)dτ −∞
35
(3.13)
(τ is een willekeurige integratievariabele). Hieruit volgt dat: P(a < x ≤ b) =
Zb
f (x)dx = F(b) − F(a)
(3.14)
a
Men kan zeggen dat f (x) de afgeleide is van F(x): f (x) =
dF(x) dx
(3.15)
In de grafiek zijn f(x) en F(x) aangegeven:
1,0
F(x)
0,5
f (x)
x De eigenschappen van de verdelingsfunctie F(x) zijn hetzelfde als die van de discrete verdelingsfunctie F(k): • x1 < x2
→
F(x1 ) ≤ F(x2 )
(monotoon stijgend)
• lim F(x) = 0 k→−∞
• lim F(x) = 1 k→∞
36
Een belangrijke formule voor het berekenen van x p = pde percentiel (de waarnemingswaarde waar p% waarnemingswaarden gelijk of kleiner aan zijn) is de percentielvergelijking. Uit deze vergelijking moet de pde percentielwaarde x p opgelost worden:
F(x p ) =
p 100
(3.16)
Deze vergelijking is geldig voor discrete- en continue kansvariabelen.
De overschrijdingskans De overschrijdingskans P(x > x) is gedefinieerd als R(x), de kans dat de kansvariabele x groter wordt dan een bepaalde waarde x. Dit begrip speelt een belangrijke rol in de bedrijfszekerheidtheorie. Soms wordt alleen de overschrijdingskanstabel gegeven. Uit de kans P(x > x) = 1 − P(x ≤ x) volgt dat R(x) = 1 − F(x). Hieruit volgt:
P(a ≤ x ≤ b) =
Zb
f (x)dx = R(a) − R(b)
(3.17)
a
De eigenschappen van de verdelingsfunctie R(x) zijn hetzelfde als die van de discrete verdelingsfunctie R(k): • x1 < x2
→
R(x1 ) ≥ R(x2 )
(monotoon dalend)
• lim R(x) = 1 k→−∞
• lim R(x) = 0 k→∞
De verwachtingswaarde De verwachtingswaarde van een continue kansvariabele heeft de volgende definitie:
Z∞
E(x) =
x · f (x)dx
−∞
37
(3.18)
De variantie De variantie van een continue kansvariabele heeft de volgende definitie:
Z∞
Var(x) =
(x − E(x))2 · f (x)dx
(3.19)
−∞
3.3
De E–algebra
De E–algebra is een verzameling rekenregels met de operatoren E en Var. Deze algebra kan gebruikt worden voor discrete- en continue kansvariabelen. Deze gemeenschappelijke toepassing van de E–algebra is een erfenis van de twee formules voor de verwachtingswaarde: 1. De formule voor de discrete verwachtingswaarde: E(k) = ∑ k · f (k) ∀k
2. De formule voor de continue verwachtingswaarde: Z∞
E(x) =
x · f (x)dx
−∞
De volgende eigenschappen zijn gemeenschappelijk voor de discrete- als de continue verwachtingswaarde: 1. De verwachtingswaarde van een constante waarde: E(α) Discreet: E(α) = ∑ α · f (v) = α · ∑ f (v) = α ∀v
Continue:
Z∞
E(α) =
∀v
α · f (v)dv = α ·
−∞
Z∞
−∞
38
f (v)dv = α
2. De verwachtingswaarde van een kansvariabele vermenigvuldigd met een constante: E(α · v) Discreet: E(α · v) = ∑ α · v · f (v) = α ∑ v · f (v) = α · E(v) ∀v
∀v
Continue: E(α · v) =
Z∞
α · v · f (v)dv = α
−∞
Z∞
v · f (v)dv = α · E(v)
−∞
Met bovenstaande resultaten kan men een verzameling rekenregels voor de E-operator opstellen: 1. E(α) = α
(dit volgt uit de definitie);
2. E(α · v) = α · E(v)
(dit volgt uit de definitie);
3. E(α · v + β · v) = α · E(v) + β · E(v) 4. E(v + α) = E(v) + α
(dit volgt uit regel 2);
(dit volgt uit regel 3).
De variantie Var(v) kan men met de E-operator defini¨eren voor discrete- en continue kansvariabelen: Var(v) = E((v − E(v))2 ) Met behulp van de E–algebra kan men voor de variantie Var(v) de volgende regels opstellen: 1. Var(v) = E(v2 ) − E(v)2 2. Var(α · v) = α2 ·Var(v) 3. Var(v + α) = Var(v) 1. Bewijs voor regel 1: Var(v) = E((v − E(v))2 ) = E(v2 − 2.v.E(v) + E(v)2 ) = E(v2 ) − E(2.v.E(v)) + E(E(v)2 ) = E(v2 ) − 2.E(v).E(v) + E(v)2 = E(v2 ) − 2.E(v)2 + E(v)2 = E(v2 ) − E(v)2 39
2. Bewijs voor regel 2: Var(α.v) = E(α2 .v2 ) − E(α.v)2 = α2 .E(v2 ) − α2 .E(v)2 = α2 (E(v2 ) − E(v)2 ) = α2 .Var(v) 3. Bewijs voor regel 3: Var(v + α) = E((v + α)2 ) − E(v + α)2 = E(v2 + α.v + α2 ) − (E(v) + α)2 = E(v2 ) + α.E(v) + α2 − E(v)2 − α.E(v) − α2 = E(v2 ) − E(v)2 = Var(v) Een bijzondere vorm van verwachting is de verwachtingswaarde van een functie h : R → (−∞, ∞) over de kansvariabele v:
E(h(v)) = ∑ h(v) · P(v = v)
(3.20)
∀v
of in continue vorm: Z∞
E(h(v)) =
h(v). f (v).dv
(3.21)
−∞
Voorbeeld 3.4 Jan betaalt aan Piet 3 1/3 euro om mee te mogen doen aan een spel dat Piet verzonnen heeft. Jan mag twee muntstukken werpen. Piet betaalt een bedrag in euros uit aan Jan dat gelijk is aan twee maal het aantal koppen in het kwadraat h(k) = 2k2 . Is het regelmatig spelen van dit spel voor Jan winstgevend? k 0 1 2 ∑
f (k) 2 · k2 · f (k) 1/ 0 4 1/ 2/ 2 2 1/ 8/ 4 4 3
De verwachtingswaarde van een worp met twee munten is 3 euro. Jan heeft 3,5 euro ingezet in een spel met een verwachtingswaarde van 3 euro. Dit is een ongunstige investering voor Jan. 40
3.4
Onafhankelijke variabelen
Treden twee gebeurtenissen op dan is de kans op de samengestelde gebeurtenis A ∩ B als volgt gedefinieerd: P(A ∩ B) = P(A | B) · P(B) of in de notatie met kansvariabelen: P(k = k ∩ m = m) = P(k = k | m = m) · P(m = m) of in de notatie van de samengestelde kansfunctie:
f (k, m) = f (k | m) · fm (m)
(3.22)
Indien de twee kansvariabelen onafhankelijk zijn dan geldt per definitie:
P(k = k ∩ m = m) = P(k = k) · P(m = m)
(3.23)
f (k, m) = fk (k) · fm (m)
(3.24)
of anders geschreven:
Voorbeeld 3.5 Het gelijktijdig werpen van 2 munten waarbij k het aantal keer kop per worp is en m het aantal munten per worp. De volgenden tabel geeft de combinatie P(k = k ∩ m = m): m=0 k = 0 P(k = 0 ∩ m = 0) = 1/4 k = 1 P(k = 1 ∩ m = 0) = 1/4 P(m = 0) = 1/2
m=1 P(k = 0 ∩ m = 1) = 1/4 P(k = 1 ∩ m = 1) = 1/4 P(m = 1) = 1/2
P(k = 0) = 1/2 P(k = 1) = 1/2 ∑=1
Gebruikt men de samengestelde kansfunctie f (k, m) dan wordt de tabel: f (k, m) m = 0 m = 1 1/ 1/ k=0 4 4 1 1 k=1 /4 /4 1 1 fm (m) /2 /2 41
fk (k) 1/ 2 1/ 2 1
Indien kansen onafhankelijk van elkaar zijn, geldt: f (k, m) = P(k = k, m = m) = 1/4 Opmerkingen: • De som van alle kansen: ∑ ∑ f (k, m) = 1 ∀k ∀m
• De som van een rij (k = j): ∑ f ( j, m) = fk ( j) ∀m
• De som van een kolom (m = i): ∑ f (k, i) = fm (i) ∀k
• De som van alle kansen: ∑ fk (k) = 1 ∀k
• De som van alle kansen: ∑ fm (m) = 1 ∀m
• Men noemt fk (k) en fm (m) de marginale kans van de samengestelde kansfunctie f (k, m)
3.5
Afhankelijke variabelen
Als twee kansvariabelen afhankelijk van elkaar zijn, geldt: f (k, m) = fk (k) · fm (m)
(3.25)
Deze formule geldt ook voor continue variabelen: f (x, y) = fx (x) · fy (y)
(3.26)
f (x, y) y fy (y)
fx (x) x 42
De samengestelde kansdichtheidsfunctie f (x, y) van twee onafhankelijke variabelen x en y is het product van de twee marginale kansdichtheidsfuncties fx (x) en fy (y). Het tekenen van een samengestelde kansdichtheidsfunctie van twee variabele in een grafiek is erg lastig. Daarom wordt zo’n kansdichtheidsfunctie soms weergegeven in een scatterdiagram. Het aantal punten per oppervlakte-eenheid in een scatterdiagram is evenredig met de waarde van f (x, y) voor dat gebied: y
r r r r r r r r r rrr rr r r r r r r r r rr rr rr rrr r r r r r r r r r r rr r
x Voorbeeld 3.6 De dagelijks geconsumeerde hoeveelheid calorie¨en k en het lichaamsgewicht m is uitgezet in de volgende tabel: f (k, m) m = 60 m = 70 m = 80 fk (k)
k = 1500 0, 105 0, 105 0, 09 0, 30
k = 2000 0, 14 0, 14 0, 12 0, 40
k = 2500 0, 105 0, 105 0, 09 0, 30
fm (m 0, 35 0, 35 0, 30 1, 00
In de vorige tabel zijn de variabelen onafhankelijk van elkaar: f (k, m) = fk (k) · fm (m) f (k, m) m = 60 m = 70 m = 80 fk (k)
k = 1500 0, 20 0, 05 0, 05 0, 30
k = 2000 0, 10 0, 20 0, 10 0, 40
k = 2500 0, 05 0, 10 0, 15 0, 30
fm (m 0, 35 0, 35 0, 30 1, 00
In de laatste tabel zijn de variabelen afhankelijk van elkaar: f (k, m) 6= fk (k) · fm (m).
43
3.6
De covariantie
De mate van afhankelijkheid tussen twee variabelen k en m kan men defini¨eren met de covariantie:
Cov(k, m) = ∑ ∑(k − E(k))(m − E(m)) · P(k = k, m = m)
(3.27)
∀k ∀m
In E–notatie geldt een dubbele som over de samengestelde functie h: E(h(k, m)) = ∑ ∑ h(k, m) · f (k, m) ∀k ∀m
of in continue vorm: Z∞ Z∞
E(h(x, y)) =
h(x, y) · f (x, y)dxdy
−∞ −∞
Cov(k, m) = E((k − E(k))(m − E(m)))
(3.28)
Men kan de covariantie voorstellen als het gemiddelde van de rechthoeken in een scatterdiagram. De lengte van een rechthoek is afwijking van de y-waarde ten opzichte van de gemiddelde y-waarde, de breedte is de afwijking van de x-waarde ten opzichte van de gemiddelde x-waarde. De rechthoeken kunnen een positief- of negatief oppervlakte hebben. Indien de puntenwolk bolvormig is met als zwaartepunt het snijpunt van de gemiddelde x- en y-waarde dan heeft de gemiddelde ‘rechthoek’ een zeer klein oppervlakte. De covariantie wordt bij een bolvormige wolk 0. y
u 6
E(y)
-u 6
− + + − 6 6 u-u
E(x)
x 44
De covariantie kan men op een andere manier berekenen: Cov(x, y) = E((x − E(x))(y − E(y))) = E(x · y − E(x) · y − E(y) · x + E(x) · E(y)) = E(x · y) − E(x) · E(y) − E(y) · E(x) + E(x) · E(y) = E(x · y) − E(x) · E(y) − E(y) · E(x) + E(x) · E(y) = E(x · y) − E(x) · E(y) daaruit volgt de alternatieve manier om de covariantie te berekenen:
Cov(x, y) = E(x · y) − E(x) · E(y)
(3.29)
Voorbeeld 3.7 Bereken de covariantie tussen de dagelijks geconsumeerde hoeveelheid calorie¨en k en het lichaamsgewicht m uitgezet in de volgende tabel: f (k, m) m = 60 m = 70 m = 80 fk (k)
k = 1500 0, 20 0, 05 0, 05 0, 30
k = 2000 0, 10 0, 20 0, 10 0, 40
k = 2500 0, 05 0, 10 0, 15 0, 30
fm (m) 0, 35 0, 35 0, 30 1, 00
Voordat men de covariantie Cov(k, m) kan bepalen, moet eerst de verwachtingswaarden E(k) en E(m) berekend worden. Dit kan met behulp van de marginale kansen fk (k) en fm (m): E(k) = ∑ k · fk (k) = (1500)(0, 30) + (2000)(0, 40) + (2500)(0, 30) = 2000 ∀k
E(m) = ∑ m · fm (m) = (60)(0, 35) + (70)(0, 35) + (80)(0, 30) = 69, 5 ∀m
Daarna kan met Cov(k, m) = E((k − E(k))(m − E(m))) de covariantie berekend worden: Cov(k, m) = −500 · −9, 5 · 0, 20 + . . . + 500 · 10, 5 · 0, 15 = 1250 Het is ook mogelijk gebruik te maken van Cov(k, m) = E((k · m) − E(k) · E(m) om de covariantie bereken: Cov(k, m) = (1500 · 60 · 0, 20 + . . . + 2500 · 80 · 0, 15) − (2000 · 69, 5) = 1250
45
3.7
Rekenregels voor onafhankelijke variabelen
Indien de kansvariabelen onafhankelijk zijn van elkaar dan geldt: f (x, y) = fx (x) · fy (y) Men kan bewijzen dat de verwachtingswaarde van de som of het verschil van twee onafhankelijke variabelen (met inachtneming van twee constante waarden α en β) gelijk is aan:
E(αx ± βy) = αE(x) ± βE(y)
(3.30)
De verwachtingswaarde van het product van twee onafhankelijke variabelen is gelijk aan:
→
x en y onafhankelijk van elkaar
E(x · y) = E(x) · E(y)
(3.31)
De verwachtingswaarde van de variantie van de som van twee onafhankelijke variabelen is gelijk aan:
Var(x + y) = Var(x) +Var(y)
(3.32)
De verwachtingswaarde van de variantie van het verschil van twee onafhankelijke variabelen (let op: de varianties worden gesommeerd) is gelijk aan:
Var(x − y) = Var(x) +Var(y)
(3.33)
De covariantie van twee onafhankelijke variabelen is 0. Met gebruikmaking van formule 3.31 geldt: Cov(x, y) = E(x · y) − E(x) · E(y) = E(x · y) − E(x · y) = 0
46
3.8
Rekenregels voor afhankelijke variabelen
Men kan bewijzen dat de verwachtingswaarde van de som of het verschil van twee afhankelijke variabelen (met inachtneming van twee constante waarden α en β) gelijk is aan de formule 3.30 voor de onafhankelijke variabelen:
E(αx ± βy) = αE(x) ± βE(y)
(3.34)
Anders dan de verwachtingswaarde van het product van twee onafhankelijke variabelen (zie formule 3.31), is de verwachtingswaarde van het product van twee afhankelijke variabelen niet altijd gelijk aan het product van de verwachtingswaarden:
E(x · y) 6= E(x) · E(y)
→
x en y afhankelijk van elkaar
(3.35)
Ook voor de variantie en de covariantie gelden verschillende formules voor de onafhankelijkeen de afhankelijke variabelen. Uit de relatie tussen de variantie en de covariantie: Var(x + y) = E((x + y)2 − (E(x) + E(y))2 ) = E((x + y)2 − 2(E(x) + E(y))(x + y) + (E(x) + E(y))2 ) = E((x + y)2 ) − 2(E(x) + E(y))E(x + y) + (E(x) + E(y))2 = E((x + y)2 ) − 2(E(x) + E(y)) + (E(x) + E(y))2 = E((x + y)2 ) − (E(x) + E(y))2 = E(x2 ) + 2 · E(x · y) + E(y2 ) − (E(x)2 + 2E(x) · E(y) + E(y)2 ) = E(x2 ) − E(x)2 + E(y2 ) − E(y)2 + 2 · E(x · y) − 2E(x) · E(y) = (E(x2 ) − E(x)2 ) + (E(y2 − E(y)2 ) + 2(E(x · y) − E(x) · E(y)) volgt dat de variantie van de som van twee afhankelijke variabelen gelijk is aan:
Var(x + y) = Var(x) +Var(y) + 2 ·Cov(x, y)
3.9
(3.36)
De correlatieco¨effici¨ent
Indien men een relatieve maat voor de covariantie wil geven, maakt men gebruik van de correlatieco¨effici¨ent ρ. De definitie van ρ luidt: Cov(x, y) ρ= q Var(x)Var(y) 47
(3.37)
De correlatieco¨effici¨ent ligt in het interval (−1 ≤ ρ ≤ 1). De formule voor de variantie van de som van twee variabelen wordt: q Var(x + y) = Var(x) +Var(y) + 2ρ Var(x)Var(y) De waarde van ρ is afhankelijk van de vorm van de puntenwolk:
y
r r r r r r r r r rrr rr r r r r rr r r r rr rr r r rrr r r r r r r r r r rr r
x In een bolvormige puntenwolk is ρ ≈ 0
y
r
r
r r r r r rrr rr r r r rrr r rr rr rrr r r r r r r rr r r
r r
x 48
(3.38)
In bovenstaande puntenwolk is 0 ≤ ρ ≤ 1
y
rr
r
r
r r r rrr r rrr rr r r r r rr r r rr r r r r r rrrr r r r r r r rr rr r r
x In deze puntenwolk geldt −1 ≤ ρ ≤ 0
49
Hoofdstuk 4 Belangrijke kansverdelingen Onder het begrip verdeling verstaat men het gedrag van een discrete of continue kansvariabele. Het gedrag van een kansvariabele v kan beschreven worden met een kans(dichtheids)functie fv (v) of een verdelingsfunctie Fv (v). Indien de kansvariabele v zich gedraagt volgens een bepaalde verdeling V met een aantal parameters α, β . . . ω, dan wordt dat symbolisch aangegeven als: v ∼ V (α; β; . . . ; ω) In de praktijk blijken de volgende discrete verdelingen vaak voor te komen: • de binomiale verdeling Bin; • de Poisson-verdeling Poisson; Bekende continue verdelingen zijn: • de normaalverdeling N; • de (negatief) exponenti¨ele verdeling Exp; • de uniforme verdeling U. Sommige verdelingen hebben een bepaald verband met elkaar: • de benadering van de binomiale verdeling met de N-verdeling • de benadering van de binomiale verdeling met de Poisson-verdeling • de benadering van de Poisson-verdeling met de N-verdeling • de relatie tussen de exponenti¨ele verdeling en de Poisson-verdeling. 50
4.1
De binomiale verdeling
Soms heeft men te maken met een populatie waarvan de elementen een bepaalde eigenschap bezitten die e´ e´ n van twee waarden kan aannemen. Deze eigenschap kan zijn: goed of fout, effect of geen effect, kruis of munt etc.. De kans op een element met een bepaalde eigenschap wordt de succeskans p genoemd. Indien deze succeskans constant is bij elke aselecte trekking, wordt de kans op k successen bij n trekkingen beschreven met de binomiale kansfunctie. Met andere woorden bij aselecte trekkingen met teruglegging gebruikt men de binomiale kansfunctie. De binomiale kansfunctie mag ook gebruikt worden bij aselecte trekkingen zonder teruglegging uit grote populaties, mits de succeskans p niet noemenswaardig wordt be¨ınvloed. Indien niet aan deze voorwaarde wordt voldaan, moet men gebruik maken van de Hypergeometrische kansfunctie. De binomiale verdeling wordt symbolisch aangegeven met: k ∼ Bin(n = α; p = β). De parameters zijn: 1. n: de steekproefomvang; 2. p: de succeskans. De kansfunctie van de binomiale verdeling luidt: n k n−k P(k = k) = pq k De verdelingsfunctie van de binomiale verdeling luidt: k
n i n−i P(k ≤ k) = ∑ pq i=0 i In theorieboeken vindt men een tabellen voor F(k) voor de waarden n = 2 . . . 20 en de kansen p = 0 . . . 0.50 Voorbeeld 4.1 Gegeven: k ∼ Bin(p = 0, 3; n = 15), bereken: • P(k ≤ 0) = P(k = 0) = 0, 0047 • P(k ≤ 4) = 0, 5155 • P(k ≥ 3) = 1 − P(k ≤ 2) = 1 − 0, 1268 = 0, 8732 • P(k = 3) = P(k ≤ 3) − P(k ≤ 2) = 0, 2969 − 0, 1268 = 0, 1701
51
De verwachtingswaarde E(k) van de binomiale verdeling is: n k E(k) = ∑ k · P(k = k) = ∑ k p (1 − p)n−k = np k ∀k ∀k
(4.1)
De variantie Var(k) van de variabele k ∼ Bin(n; p) is:
Var(k) = E(k2 ) − E(k)2 = ∑ k2 nk pk (1 − p)n−k − (np)2 ∀k k−1 = np ∑ k n−1 (1 − p)n−k − (np)2 k−1 p
(4.2)
∀k
= np((n − 1)p + 1) − (np)2 = npq Voorbeeld 4.2 Gegeven is dat de relatieve frequentie van defecte sectoren op een magnetische schijf 10−3 is. Wat is het gemiddelde en de variantie van defecte sectoren per track met 104 sectoren? E(k) = np = 104 · 10−3 = 10
Var(k) = npq = 104 · 10−3 (1 − 10−3 ) = 9, 99
4.2
De Poisson-verdeling
De Poisson-verdeling is evenals de binomiale verdeling een discrete kansverdeling. Deze verdeling is genoemd naar de Franse wiskundige Simeon Denise Poisson (1781 − 1840). De Poisson-verdeling is te beschouwen als de limiet van de binomiale verdeling waarbij de kans p op succes zeer klein is en het aantal steekproeven n zeer groot is. Het laatste voorbeeld van de binomiale verdeling voldoet aan deze voorwaarden. De “succeskans”, de kans op een defecte sector, is 10−3 . Het aantal “experimenten” is gelijk met het aantal sectoren op een track, in dit geval 104 . Als men in de formule van de binomiale verdeling P(k = k) = nk pk qn−k de kans p tot 0 en het aantal steekproeven n tot oneindig laat naderen, zodanig dat het product pn = µ constant blijft, dan ontstaat de Poisson-verdeling:
n k n−k µk −µ lim pq = e k! p→0 k n→∞ 52
(4.3)
Voor de Poisson-verdeling geldt:
µk = E(k) = µ
σk =
p √ Var(k) = µ
(4.4)
(4.5)
In het algemeen is de Poisson-verdeling van toepassing op een aantal onderling onafhankelijke, relatief zeldzaam voorkomende gebeurtenissen. Voorbeelden hiervan zijn het aantal: • gesprekken per dag uit een bepaalde publieke telefooncel; • ongelukken op een kruispunt tijdens de spitsuren; • drukfouten per bladzijde in een boek; • apparatuurstoringen die niet afhankelijk zijn van slijtage of ontwerpfouten; • Aantal isolatiefouten in een elektrische kabel. Voorbeeld 4.3 Bij het invoeren van een bestand van 104 cijfers wordt gemiddeld e´ e´ n op de 1000 cijfers fout ingevoerd. 1. Wat is de kans op nul fouten in het betreffende bestand? 2. Wat is de kans op e´ e´ n of meer fouten in het betreffende bestand? 3. Twee datatypisten voeren ieder het zelfde bestand in. Vervolgens worden de twee bestanden vergeleken en gecorrigeerd (dit heet “dubbelponsen”). Wat voor soort fouten kunnen er na correctie nog aanwezig zijn? Antwoord: 1. De variabele k is Poisson verdeeld met gemiddeld µ = 10−3 · 104 = 10 fouten in het bestand. Daaruit volgt: P(k = 0) = e−10 ≈ 0. 2. De kans dat er fouten in het bestand zitten is: 1 − P(k = 0) = 1 − e−10 ≈ 1. 3. De foute cijfers die in beide bestanden op dezelfde plaats zitten met hetzelfde (foute) cijfer. De kans op zo’n fout is bij benadering: 10−9 ≈ 0.
53
Voor de Poisson-verdeling moet gelden dat de som van alle kansen 1 moet zijn, dus:
∞ k µk −µ µ −µ ∑ k! e = e ∑ k! = e−µ · eµ = 1 k=0 k=0 ∞
(4.6)
Omdat bij de Poisson-verdeling de variantie en de verwachtingswaarde gelijk zijn, is de verdeling door slechts e´ e´ n parameter, nl. µ, volledig bepaald. Voor de Poisson-verdeling zijn daarom tabellen beschikbaar, waarin bij gegeven µ de kansen k = 0, 1, 2, . . . zijn af te lezen. Men geeft een variabele k met Poisson-verdeling symbolisch aan als: k ∼ Poisson(µ) Wordt het aantal gebeurtenissen per tijdseenheid beschouwd en het gemiddelde aantal gebeurtenissen per tijdseenheid met λ aangegeven, dan treden tijdens een tijdsinterval t gemiddeld µ = t · λ gebeurtenissen op. De kans op k-gebeurtenissen gedurende een bepaalde tijd t wordt symbolisch aangegeven als:
P(k = k | t) =
(λt)k −(λt) e k!
(4.7)
Voorbeeld 4.4 Het aantal klanten, dat een postkantoor binnenkomt, is te beschouwen als een kansvariabele die een Poisson-verdeling volgt. Uit tellingen blijkt, dat er gemiddeld (λ = 3) klanten per kwartier (in dit voorbeeld de tijdseenheid) binnenkomen. Hoe groot is nu de kans dat er in een willekeurig kwartier geen enkele klant binnenkomt en hoe groot is de kans, dat er in dat kwartier minder dan 4 klanten binnenkomen? Antwoord: Oplossing 1: (λt)k −(λt) (3 · 1)0 −(3·1) P(k = 0 | t = 1) = e = e = 0, 0498 k! 0! Oplossing 2: De tabelwaarde in de cumulatieve Poisson-tabel (zie hieronder) voor F(3) onder de kolom µ = λ · t = 3): P(k ≤ 3 | t = 1) = 0, 6472
54
De cumulatieve Poisson-tabel k= 0 1 2 3 4 5 6 k= 0 1 2 3 4 5 6 7 8 9 10 11 12 13 k= 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
4.3
De cumulatieve Poisson-verdeling: k ∼ Poisson(µ) 0,1 0,2 0,3 0,4 0,5 ,9048 ,8187 ,7408 ,6703 ,6065 ,9953 ,9825 ,9631 ,9385 ,9098 ,9998 ,9989 ,9964 ,9921 ,9856 1,0000 ,9999 ,9997 ,9992 ,9983 1,0000 1,0000 1,0000 ,9998 1,0000 0,9 ,4066 ,7735 ,9371 ,9865 ,9977 ,9997 1,0000
1,0 ,3679 ,7358 ,9197 ,9810 ,9963 ,9994 ,9999 1,0000
1,2 ,3012 ,6626 ,8795 ,9662 ,9922 ,9985 ,9997 1,0000
1,5 ,2231 ,5578 ,8089 ,9344 ,9814 ,9956 ,9991 ,9998 1,0000
2,0 ,1353 ,4060 ,6767 ,8571 ,9474 ,9834 ,9955 ,9989 ,9998 1,0000
4,0 ,0183 ,0916 ,2381 ,4335 ,6289 ,7851 ,8893 ,9489 ,9787 ,9919 ,9972 ,9991 ,9997 ,9999 1,0000
4,5 ,0111 ,0611 ,1736 ,3423 ,5321 ,7029 ,8311 ,9134 ,9598 ,9829 ,9933 ,9976 ,9992 ,9997 ,9999 1,0000
5,0 ,0067 ,0404 ,1247 ,2650 ,4405 ,6160 ,7622 ,8666 ,9319 ,9682 ,9863 ,9945 ,9980 ,9993 ,9998 ,9999 1,0000
6,0 ,0025 ,0174 ,0620 ,1512 ,2851 ,4457 ,6063 ,7440 ,8472 ,9161 ,9574 ,9799 ,9912 ,9964 ,9986 ,9995 ,9998 ,9999 1,0000
7,0 ,0009 ,0073 ,0296 ,0818 ,1730 ,3007 ,4497 ,5987 ,7291 ,8305 ,9015 ,9466 ,9730 ,9872 ,9943 ,9976 ,9990 ,9996 ,9999 1,0000
F(k) = P(k ≤ k) 0,6 0,7 ,5488 ,4966 ,8781 ,8442 ,9769 ,9659 ,9967 ,9943 ,9996 ,9992 1,0000 ,9999 1,0000 2,5 3,0 ,0821 ,0498 ,2873 ,1192 ,5438 ,4232 ,7576 ,6472 ,8912 ,8153 ,9580 ,9161 ,9957 ,9665 ,9989 ,9881 ,9997 ,9962 ,9999 ,9989 1,0000 ,9997 ,9999 1,0000 8,0 ,0003 ,0030 ,0138 ,0424 ,0996 ,1912 ,3134 ,4530 ,5926 ,7166 ,8159 ,8881 ,9362 ,9658 ,9828 ,9918 ,9963 ,9984 ,9994 ,9998 ,9999 1,0000
9,0 ,0001 ,0012 ,0062 ,0212 ,0550 ,1157 ,2068 ,3239 ,4557 ,5874 ,7060 ,8030 ,8758 ,9262 ,9586 ,9780 ,9889 ,9947 ,9976 ,9990 ,9996 ,9998 1,0000
0,8 ,4493 ,8088 ,9526 ,9909 ,9986 ,9998 1,0000 3,5 ,0302 ,1359 ,3209 ,5366 ,7155 ,8576 ,9347 ,9733 ,9901 ,9967 ,9990 ,9999 ,9999 1,0000 10,0 ,0001 ,0005 ,0028 ,0104 ,0293 ,0671 ,1302 ,2203 ,3328 ,4579 ,5831 ,6968 ,7916 ,8645 ,9166 ,9513 ,9730 ,9857 ,9928 ,9966 ,9984 ,9993 ,9997 ,9999 1,0000
De N-verdeling
De N-verdeling is de bekendste kansverdeling in de statistiek. Zij is voor het eerst ontdekt en gebruikt door Carl Friedrich Gauss (1777-1855). Daarom wordt deze verdeling soms de Gaussverdeling genoemd. De belangrijkste reden is dat gemiddelden en sommen van grote aantallen (onafhankelijke) waarnemingen uit willekeurig verdeelde populaties volgens de nog te behandelen Centrale Limiet Stelling een N-verdeling krijgen. Enkele voorbeelden van N-verdeelde variabelen zijn: • Men meet de lengte x van een aselecte groep personen. De waarnemingen blijken een N-verdeling te bezitten rond een gemiddelde µ = E(x). • De productie van een goed bestaat uit verschillende onafhankelijk bewerkingen met verschillende verdelingen. De totale productietijd is normaal verdeeld.
55
• Een timmerman meet een aantal keren de lengte van een muur met hetzelfde meetlint. De meetresultaten blijken een N-verdeling te bezitten. De N-kansdichtheidsfunctie is gedefinieerd als functie van twee parameters: het gemiddelde µ en standaarddeviatie σ:
(x−µ)2 1 − f (x) = √ e 2σ2 σ 2π
(4.8)
Indien een kansvariabele x een N-verdeling heeft met een gemiddelde µ en een standaarddeviatie σ, dan wordt symbolisch aangegeven als: x ∼ N(µ; σ) Bij een N-verdeling zijn de modale waarde xmo en de mediaan xme gelijk aan het gemiddelde µ. De grafiek van de N-kansdichtheidsfunctie f (x) is volledig symmetrisch rond het gemiddelde (x = µ). Bovendien blijkt de top van de grafiek op deze symmetrie-as te liggen:
56
f (x)
5 10·σ
4 10·σ
3 10·σ
2 10·σ
1 10·σ
x µ−3·σ
µ−2·σ
µ
µ−σ
µ+σ
µ+2·σ
µ+3·σ
De N-kansdichtheidsfunctie f(x) De invloed van de parameter van ligging µ blijkt duidelijk uit de positie van de symmetrieas. De standaarddeviatie blijkt uit de schaalverdeling van de x- en de y-as. Hoe groter de standaarddeviatie σ, hoe platter en breder de grafiek. Dit komt omdat het oppervlakte onder de grafiek altijd de waarde 1 blijft houden, ongeacht de waarde van µ en σ. Dat wordt in deze cursus niet bewijzen. Er is geen bekende analytische functie bekend voor de verdelingsfunctie F(x) van de Nverdeling. Daarom worden F(x) en R(x) berekend met benaderingsformules. In de praktijk kan men uit de tabel van een gegeven x de bijbehorende F(x) of R(x) bepalen. Voor de N-verdeling geldt: • De verwachtingswaarde: E(x) = µ • De mediaan: xme = µ 57
• De modale waarde: xmo = µ • De percentielen moeten in de tabellen voor de N-verdeling opgezocht worden. Van een gegeven F(x) of R(x) moet de bijbehorende x bepaald worden. Een bijzondere N-verdeling is de standaard N-verdeling: z ∼ N(µ = 0; σ = 1) Van deze standaard N-verdeling wordt vaak de Rz (z)-tabel gegeven voor de waarden (0 ≤ z): z 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9
,00 ,5000 ,4602 ,4207 ,3821 ,3446 ,3085 ,2743 ,2420 ,2119 ,1841 ,1587 ,1357 ,1151 ,0968 ,0808 ,0668 ,0548 ,0446 ,0359 ,0287 ,0228 ,0179 ,0139 ,0107 ,0082 ,0062 ,0047 ,0035 ,0026 ,0019 ,0013 ,0010 ,0007 ,0005 ,0003 ,0002 ,0002 ,0001 ,0001 ,0000
De standaard N-verdeling: z ∼ N(µ = 0; σ = 1) Rz (z) = P(z > z) (0 ≤ z) ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,4960 ,4920 ,4880 ,4840 ,4801 ,4761 ,4721 ,4681 ,4562 ,4522 ,4483 ,4443 ,4404 ,4364 ,4325 ,4286 ,4168 ,4129 ,4090 ,4052 ,4013 ,3974 ,3936 ,3897 ,3783 ,3745 ,3707 ,3669 ,3632 ,3594 ,3557 ,3520 ,3409 ,3372 ,3336 ,3300 ,3264 ,3228 ,3192 ,3156 ,3050 ,3015 ,2981 ,2946 ,2912 ,2877 ,2843 ,2810 ,2709 ,2676 ,2643 ,2611 ,2578 ,2546 ,2514 ,2483 ,2389 ,2358 ,2327 ,2296 ,2266 ,2236 ,2206 ,2177 ,2090 ,2061 ,2023 ,2005 ,1977 ,1949 ,1922 ,1894 ,1814 ,1788 ,1762 ,1736 ,1711 ,1685 ,1660 ,1635 ,1562 ,1539 ,1515 ,1492 ,1469 ,1446 ,1423 ,1401 ,1335 ,1314 ,1292 ,1271 ,1251 ,1230 ,1210 ,1190 ,1131 ,1112 ,1093 ,1074 ,1056 ,1038 ,1020 ,1002 ,0951 ,0934 ,0918 ,0901 ,0885 ,0869 ,0853 ,0838 ,0793 ,0778 ,0764 ,0749 ,0735 ,0721 ,0703 ,0694 ,0655 ,0643 ,0630 ,0618 ,0606 ,0594 ,0582 ,0571 ,0537 ,0526 ,0516 ,0505 ,0495 ,0485 ,0475 ,0465 ,0436 ,0427 ,0418 ,0409 ,0401 ,0392 ,0384 ,0375 ,0351 ,0344 ,0336 ,0329 ,0322 ,0314 ,0307 ,0301 ,0281 ,0274 ,0268 ,0262 ,0256 ,0250 ,0244 ,0239 ,0222 ,0217 ,0212 ,0207 ,0202 ,0197 ,0192 ,0188 ,0174 ,0170 ,0166 ,0162 ,0158 ,0154 ,0150 ,0146 ,0136 ,0132 ,0129 ,0125 ,0122 ,0119 ,0116 ,0113 ,0104 ,0102 ,0099 ,0096 ,0094 ,0091 ,0089 ,0087 ,0080 ,0078 ,0075 ,0073 ,0071 ,0069 ,0068 ,0066 ,0060 ,0059 ,0057 ,0055 ,0054 ,0052 ,0051 ,0049 ,0045 ,0044 ,0043 ,0041 ,0040 ,0039 ,0038 ,0037 ,0034 ,0033 ,0032 ,0031 ,0030 ,0029 ,0028 ,0027 ,0025 ,0024 ,0023 ,0023 ,0022 ,0021 ,0021 ,0020 ,0018 ,0018 ,0017 ,0016 ,0016 ,0015 ,0015 ,0014 ,0013 ,0013 ,0012 ,0012 ,0011 ,0011 ,0011 ,0010 ,0009 ,0009 ,0009 ,0008 ,0008 ,0008 ,0008 ,0007 ,0007 ,0006 ,0006 ,0006 ,0006 ,0006 ,0005 ,0005 ,0005 ,0005 ,0004 ,0004 ,0004 ,0004 ,0004 ,0004 ,0003 ,0003 ,0003 ,0003 ,0003 ,0003 ,0003 ,0003 ,0002 ,0002 ,0002 ,0002 ,0002 ,0002 ,0002 ,0002 ,0002 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000
,09 ,4641 ,4247 ,3859 ,3483 ,3121 ,2776 ,2451 ,2148 ,1867 ,1611 ,1379 ,1170 ,0985 ,0823 ,0681 ,0559 ,0455 ,0367 ,0294 ,0233 ,0183 ,0143 ,0110 ,0084 ,0064 ,0048 ,0036 ,0026 ,0019 ,0014 ,0010 ,0007 ,0005 ,0003 ,0002 ,0002 ,0001 ,0001 ,0001 ,0000
Voor de tabel Rz (z) gelden de volgende regels: 1. P(a ≤ z ≤ b) =
Rb
f (z)dz = Fz (b) − Fz (a) = Rz (a) − Rz (b)
a
2. Rz (−∞) = 1 3. Rz (∞) = 0 4. Rz (−α) = 1 − Rz (α) (De tabel Rz (z) is symmetrisch rond µz = 0)
58
Men kan de overschrijdingskansen Rz (z) in deze tabel vinden: P(z ≤ 1, 96) P(z ≤ −1, 96) P(z > 1, 00) P(z > −1, 00) P(−1 < z < 2) P(z ≤ −1 ∪ 2 ≤ z)
= Rz (−∞) − Rz (1, 96) = 1 − 0, 0250 = 0, 9750 = Rz (−∞) − Rz (−1, 96) = 1 − (1 − Rz (1, 96)) = 0, 0250 = Rz (1) − Rz (∞) = Rz (1) − 0 = 0, 1587 = Rz (−1) − Rz (∞) = 1 − Rz (1) − 0 = 0, 8413 = Rz (−1) − Rz (2) = 1 − Rz (1) − Rz (2) = 0, 8185 = 1 − P(−1 < z < 2) = 0, 1815
Voorbeelden van terugzoeken in Rz (z)-tabel: P(−a < z ≤ a) = 0, 95
→ → → →
Rz (−a) − Rz (a) = 0, 95 1 − Rz (a) − Rz (a) = 0, 95 = 0, 025 Rz (a) = 1−0,95 2 a = 1, 96
Een willekeurig variabele x met een N-verdeling met een gemiddelde µ = 10, 2 en een standaarddeviatie σ = 3, 1, wordt als volgt aangegeven: x ∼ N(µx = 10, 2; σx = 3, 1) Met een transformatie van x naar z kan men de kansen P(a ≤ x ≤ b) berekenen: z=
x − µx σx
(4.9)
Nadat deze transformatie is toegepast kan op de bekende manier de over- en onderschrijdingskansen berekend worden uit de Rz (z) tabel. De resultaten moeten weer terug getransformeerd worden naar waarden voor x: x = z · σx + µx
(4.10)
Voorbeeld 4.5 Gegeven: x ∼ N(10; 3), bereken P(6, 7 < x < 12, 1). Antwoord: 12,1−10 x P(6, 7 < x < 12, 1) = P( 6,7−10 < x−µ ) 3 σx < 3 = P(−1, 1 < z < 0, 7) = Rz (−1, 1) − Rz (0, 7) = 1 − R(1, 1) − R(0, 7) = 0, 6223
Voorbeeld 4.6 Gegeven: x ∼ N(µ; σ), bereken: 1. P(µ − 1σ < x < µ + 1σ) 2. P(µ − 2σ < x < µ + 2σ) 59
3. P(µ − 3σ < x < µ + 3σ) Antwoord: 1. P(µ − 1σ < x < µ + 1σ) = P(−1 < z < 1) = 0, 6826 2. P(µ − 2σ < x < µ + 2σ) = P(−2 < z < 2) = 0, 9544 3. P(µ − 3σ < x < µ + 3σ) = P(−3 < z < 3) = 0, 9974 Voorbeeld 4.7 Gegeven is dat de reparatietijden van een computersysteem een N-verdeling hebben met een gemiddelde van 20 uur en een standaarddeviatie van 2 uur. Wat is de kans dat een reparatie meer dan 23,5 uur duurt? Antwoord: De reparatietijd t heeft een N-verdeling: t ∼ N(µt = 20; σt = 2) De kans P(t > 23, 5) = P(z > 23,5−20 ) = Rz (1, 75) = 0, 401. 2
4.4
De benadering van de binomiaalverdeling met de Nverdeling
De binomiale verdeling kan benaderd worden met de N-verdeling indien n ≥ 20 en np ≥ 5 en n(1 − p) ≥ 5 k ∼ Bin(p; n)
→
Fk (k) = Fx (x +
∆k ) 2
x ∼ N(µx = np; σx =
√
npq)
(4.11)
Daarbij moet men rekening houden met het feit dat k een discrete variabele en x een continue variabele is. Dit levert een correctie op die gelijk is de halve stap ∆2k van de discrete variabele k. Deze correctie noemt men de continu¨ıteitscorrectie. Voorbeeld 4.8 Een multiple choise examen bestaat uit 20 vragen, ieder met 4 alternatieve antwoorden. Per vraag mag maar e´ e´ n van de antwoorden gekozen worden. Wat is de kans op minder dan 11 vragen goed als men willekeurige antwoorden geeft? Antwoord: 1 k ∼ Bin(p = ; n = 20) → np = 5 4 daaruit volgt dat k kan worden benaderen met x:
∧
n(1 − p) = 15
r 1 20 15 Fk (10) = Fx (10 ) x ∼ N(µx = = 5; σx = = 1, 94) 2 4 4 vervolgens kunnen x transformeren naar de kansvariabele met de standaard N-verdeling z ∼ N(0; 1): P(x ≤ 10, 5) = P(z ≤ 2, 84) = 1 − Rz (2, 84) = 0, 9977 60
4.5
De benadering van de binomiale verdeling met de Poissonverdeling
Indien de binomiale verdeling niet benaderd kan worden met de N-verdeling omdat np < 5 of n(1 − p) < 5, dan kan men de binomiale verdeling benaderen met een variabele p met een Poisson-verdeling. Het aantal steekproeven n moet ook bij deze benadering groter of gelijk aan 20 zijn. Omdat beide variabelen discreet zijn is de continu¨ıteitscorrectie niet nodig: k ∼ Bin(p, n)
→
p ∼ Poisson(µ p = np)
Fk (k) = Fp (p)
(4.12)
Voorbeeld 4.9 Gegeven is dat de relatieve frequentie van defecte sectoren op een magnetische schijf 10−3 is. Wat is de kans op minder dan 21 defecte sectoren per track met 104 sectoren? Antwoord: k ∼ Bin(p = 10−3 , n = 104 )
→
np = 10
n(1 − p) = 9990
daaruit volgt dat de binomiale variabele k benaderen moet worden met de Poissonvariabele p (bepaal de tabelwaarde voor F(20) van een Poisson variabele met µ p = np = 10): Fk (20) = Fp (20)
4.6
x ∼ Poisson(µ p = np = 10) = 0, 9984
De benadering van de Poisson-verdeling met de Nverdeling
De Poisson-verdeling kan benaderd worden met de N-verdeling indien µ ≥ 10. Omdat de discrete Poisson variabele p benaderd wordt met de continue variabele met een Nverdeling x moet de continu¨ıteitscorrectie worden toegepast: p ∼ Poisson(µ p )
→
Fp (p) = Fx (x +
∆p ) 2
x ∼ N(µx = µ p ; σx =
√ µ p ) (4.13)
Voorbeeld 4.10 Gegeven is dat het gemiddelde aantal defecte sectoren op een magnetische track 10 is. Wat is de kans op minder dan 21 defecte sectoren op een track? Antwoord: p ∼ Poisson(µ p = 10)
→
µ p = 10 ≥ 10
daaruit volgt dat de Poissonvariabele p benaderd mag worden met de N-verdeling (let op de continu¨ıteitscorrectie): 61
1 Fp (20) = Fx (20 ) 2
x ∼ N(µx = µ p = 10; σx =
√ µ p = 3, 16)
vervolgens kunnen x benaderen met z: 1 P(x ≤ 20 ) = P(z ≤ 3, 32) = 1 − Rz (3, 32) = 0, 9995 2 Het verschil met de waarde uit de Poisson-tabel (0, 9984) is zeer klein.
4.7
De exponenti¨ele verdeling
De exponenti¨ele verdeling wordt vaak de negatief-exponenti¨ele verdeling genoemd. De exponenti¨ele verdeling heeft een kansdichtheidsfunctie met een parameter (λ ≥ 0) voor de continue variabele t: −λt λe t ≥0 f (t) = (4.14) 0 t <0 Voor de exponenti¨ele verdelingsfunctie geldt: Zt
P(t ≤ t) = F(t) =
Zt
f (τ)dτ = −∞
λe−λτ dτ = 1 − e−λt
(4.15)
0
Als een variabele t exponentieel verdeeld is dan wordt dit aangegeven met: t ∼ Exp(λ) De verwachtingswaarde is: Z∞
E(t) =
1 λ
(4.16)
1 1 (τ − )2 · λe−λτ dτ = 2 λ λ
(4.17)
τ · λe−λτ dτ = 1 − e−λt =
0
De variantie is: Z∞
Var(t) = 0
62
Het mde percentiel: 1 m tm = − loge (1 − ) λ 100
(4.18)
tmo = 0
(4.19)
De modale waarde:
In de volgende grafiek zijn de exponenti¨ele kansdichtheidsfunctie f (t) en de verdelingsfunctie F(t) aangegeven: F(t) 1,0
λ
0,5
f (t)
t
4.8
De uniforme kansverdeling
De kansdichtheidsfunctie is: f (x) =
1 b−a
0
a≤x≤b elders
63
(4.20)
De verdelingsfunctie is: Zx
F(x) = a
x−a 1 dτ = b−a b−a
(4.21)
x a+b dx = b−a 2
(4.22)
De verwachtingswaarde is: Zb
E(x) = a
De variantie is: Zb
a+b x− 2
Var(x) = a
2 ·
(b − a)2 1 dx = b−a 12
(4.23)
Het mde percentiel: m (b − a) 100
xm = a +
(4.24)
De uniforme verdeling heeft geen modale waarde xmo . In de volgende grafiek zijn de uniforme kansdichtheidsfunctie f (x) en de verdelingsfunctie F(x) aangegeven: F(x) 1,0
1 b−a
f (x)
a
b 64
x
Hoofdstuk 5 Kansmodellen en enkele minder bekende kansverdelingen In dit hoofdstuk wordt de kansrekening toegepast om modellen te maken van de werkelijkheid. Bovendien worden enkele minder bekende kansverdelingen behandeld die gebruikt worden bij het simuleren en testen van informatiesystemen. x Simulatie
y
SYSTEEM
van de invoergegevens
z
Figuur 5.1: Het testen van een informatiesysteem met gesimuleerde invoer.
5.1
Relatie tussen exponenti¨ele- en Poisson-verdeling
Vaak moet er gebeurtenissen worden gesimuleerd zoals het indrukken van een knop, een aanvraag van een klant, het passeren van een auto, de aankomst van een IP-bericht e.d. De tijdsintervallen tussen dit soort gebeurtenissen hebben vaak een exponenti¨ele verdeling. Daarom wordt eerst de achtergrond van deze exponentieel verdeelde tijdsintervallen besproken. De exponenti¨ele verdeling is vaak het gevolg van een Poissonproces. Een Poissonproces genereert gebeurtenissen die onafhankelijk van elkaar zijn. Het gevolg hiervan is dat de intervaltijden tussen de gebeurtenissen een exponenti¨ele verdeling hebben. 65
De continue kansvariabele t is te beschouwen als de intervaltijd tussen twee opeenvolgende gebeurtenissen. Deze kansvariabele t kan in principe alle re¨ele waarden aannemen op het positieve deel van de tijdas. De kans dat een gebeurtenis meer dan een tijdsperiode t wegblijft, de overschrijdingskans Rt (t) = P(t > t), is dan gelijk aan:
P(t > t) = 1 − P(t ≤ t) = 1 − 1 − e−λt = e−λt
(5.1)
Stel nu, dat per tijdsinterval t (bijvoorbeeld per kwartier) gemiddeld 5 = λ klanten een winkel binnenkomen volgens een Poisson-verdeling. Dan is de kans dat binnen dat tijdsinterval geen klanten (k = 0) binnenkomen: P(k = 0 | t) = →
(λt)k −λt e = e−λt k!
P(t > t) = e−λt = P(k = 0 | t) | {z } | {z } exp. Poisson
Het lijkt erop dat als de gebeurtenissen zich gedragen als een Poissonproces met een parameter λ, de intervaltijd t tussen de gebeurtenissen een exponenti¨ele verdeling heeft met dezelfde parameter λ. Hieruit blijkt dat Poissonprocessen op twee gelijkwaardige manieren beschreven kunnen worden: • het gemiddelde aantal gebeurtenissen per tijdseenheid λ; • de gemiddelde intervaltijd tussen twee gebeurtenissen θ = 1/λ . Voorbeeld 5.1 In een bedrijf vallen gemiddeld 26 computers per jaar uit. Het uitvalpatroon mag worden beschouwd als een Poissonproces. Hoe groot is de kans, dat men meer dan 4 weken wachten op de uitval van de volgende computer? Oplossing: Per week geldt λ =
26/ 52
= 1/2 , dan volgt: Z∞
P(t > 4) =
/2 e−
1
1/ τ 2
dτ = 0, 135
4
Indien de kans P(t > t) geheel onafhankelijk is van het tijdstip T wordt deze eigenschap formeel aangeven met: P(t > t + T | t > T ) = P(t > t)
66
Dit ‘gebrek aan geheugen’ is kenmerkend voor de exponenti¨ele verdeling. Bewijs: P(t > t + T | t > T ) =
P(t>t+T ∩t>T ) P(t>T )
=
P(t>t+T ) P(t>T )
=
e−λ(t+T ) eλT
= eλt = P(t > t)
De exponenti¨ele verdeling wordt bij simulatie van de werkelijkheid gebruikt als de gebeurtenissen onafhankelijk van elkaar zijn. Bijvoorbeeld spontane apparatuurstoringen die niet van ontwerpfouten of slijtage afhankelijk zijn, klanten die een winkel betreden of het verkeersaanbod bij bepaald telefoon- en wegverkeer gedurende een bepaald uur van de dag.
5.2
Simulatie van stochasten met diverse verdelingen
Stochasten met een bepaalde verdeling kan men simuleren met behulp van een pseudoruisgenerator (PRG). Deze PRG wordt standaard aangeboden bij programmeertalen zoals C, C++ en Java. Zij bieden de random function aan die willekeurig getallen genereert. De waarden van deze getallen liggen uniform verdeeld tussen de grenswaarden 0 en 1. Het daarmee is mogelijk om getallen te genereren met een andere verdeling. Enkele voordelen van het simulatietesten met pseudorandomgeneratoren: • er kan off-line getest worden in minder gevaarlijke condities; • er kan sneller of trager dan in de werkelijkheid getest worden; • de gesimuleerde gegevens kunnen ongebruikelijke testgevallen zijn die normaal nooit getest zouden worden; • er hoeft geen gebruik gemaakt te worden van moeilijk verkrijgbare of beschermde gegevens (de Wet Bescherming Persoonsgegevens); • na het optreden van een programmafout (failure) ten gevolge van de invoer kan de originele invoerstroom exact gereproduceerd worden om het probleem op te lossen en de verbetering te testen. De PRG moet een herhaalbare reeks getallen vanaf een startwaarde r0 genereren. Dit geschiedt door de volgende waarde te berekenen uit de vorige waarde: ri = f (ri−1 ). De reeks met zo’n recursieve functie wordt gegenereerd is in principe eindig met de lengte n, op een moment zal zij zich herhalen r0 = f (rn ). De kwaliteit van zo’n PRG wordt niet alleen door de lengte van de cyclus bepaald, ook het gedrag van de cyclus is belangrijk. Om een goede PRG te herkennen zijn diverse testmethoden bedacht. De belangrijkste eis die aan de gegeneerde getallen ri gesteld wordt, is dat opeenvolgende waarden moeten in de cyclus een ’ruisachtig’ gedrag moeten hebben P(ri |ri−1 . . .) = P(ri ). 67
Bij ruis mag een waarde niet zonder meer te voorspellen zijn uit een vorige waarde. Deze eis is konflikterend met de werking van de PRG waarbij elke waarde ontstaat uit vorige waarden. Daarom beschouwt men een pseudo stochastische reeks als ruis indien deze reeks een tamelijk uniform verdeeld frequentiespectrum heeft en een zwalkend gedrag vertoont. Meer informatie over de constructie en de kwaliteit van pseudo-ruisgenerators vindt u in ’Seminumerical Algorithms -Chapter 3, Random Numbers’ van Donald Knuth. De pseudo stochastische grootheid a < r ≤ b heeft een uniforme kansdichtheid. 0 < a ≤ r ≤ b ≤ 1 = P(a ≤ r ≤ b) = (b − a). Bij de PRG is a = 0 en b = 1 waaruit volgt dat P(0 ≤ r ≤ 1) = 1. Bij sommige PRG’s is de waarde r = 0 uitgesloten P(0 < r ≤ 1) = 1, wat voor de meeste toepassingen geen bezwaar is. Bij de constructie van stochasten met een bepaalde verdeling neemt men als basis de uniforme grootheid 0 < r ≤ 1. De meest eenvoudige manier om een stochast x met een kansdichtheid f (x) te construeren uit r is de kansverdelingsfunctie P(x ≤ x) = F(x) gelijk te stellen met r en daaruit x op te lossen. . 1 F(x)
r 0.8
0.6
0.4
0.2
f(r)
0
0
5
x
10
15
20
Figuur 5.2: Het constructieprincipe Een eenvoudige constructie van de stochast a < x ≤ b met de kansdichtheidsfunctie f (x) is mogelijk indien de kansverdelingsfunctie F(x) een inverse heeft:
68
P(a < x ≤ b) = 1
→
Z b
f (x)dx = 1 a
Nu geldt: 0≤
Z x
f (τ)dτ = F(x) − F(a) = F(x) − 0 = r
→
r = F(x)
a
Deze is oplosbaar voor x als de inverse functie F −1 bestaat: F −1 (r) = F −1 (F(x)) = x Voorbeeld 5.2 Construeer de stochast 0 ≤ x met de exponenti¨ele kansdichtheidsfunctie f (x) = λe−λx met de verdelingsfunctie F(x) = 1 − e−λx : F(x) = r
→
x=−
ln(1 − r) λ
Aangezien 0 ≤ 1 − r < 1 dezelfde verdelingsfunctie heeft als 0 < r ≤ 1 geldt: F(x) = r
→
x=−
ln(1 − r) ln(r) =− λ λ
Voorbeeld 5.3 Construeer de stochast 0 < x ≤ x: f (x) = x
√ 2 met de kansdichtheidsfunctie f (x) =
F(x) = 1/2 x2
→
Oplossen voor x: r = 1/2 x2
→
x=
√ 2r
Niet altijd heeft F(x) een inverse. Dit is ook het geval bij x ∼ N(µx ; σx ). Bij een Nverdeling kan men gebruik maken van de Centrale Limiet Stelling, een (in deze cursus onbewezen) stelling die beweert dat de som van n onafhankelijke stochasten die N-verdeeld zijn als n maar groot genoeg is. Om een normaalverdeelde stochast te construeren, wordt de som van twaalf trekkingen r1 + r2 + . . . r12 uit de PRG genomen. Deze trekkingen zijn niet echt onafhankelijk, maar bij simulaties blijkt dit niet zo bezwaarlijk te zijn. 69
Waarom 12 trekkingen? Voor de gemiddelde waarde en variantie van een trekking r uit de PRG geldt: 0
→
E(r) = 1/2
Var(r) = 1/12
Dit betekent voor een gesommeerde trekking R = r1 + r2 + . . . r12 : E(R) = E(12r) = 6
Var(R) = 12Var(r) = 1
Uit R ∼ N(6; 1) kan men behulp van de transformatie z = R−E(R) de standaard N-verdeelde 1 x stochast z ∼ N(0; 1) construeren. Met een tweede transformatie z = x−µ σx kan de gewenste stochast x ∼ N(µx ; σx ) construeerd worden: x = µx + σx (R − 6) In programmeertaal: R = -6; for(i=1; i<=12;i++) { R = R + random(seed); x = gemiddelde_x + standaarddeviatie_x * R; } Indien de inverse functie niet bestaat en de stochast k een discrete variabele is, kiest men er soms voor om de functie F(k) te benaderen met een tabel. Van zo’n tabel is gemakkelijk een inverse tabel te maken. Een andere methode verdeelt het gebied 0 < r ≤ 1 evenredig naar de kanswaarden voor k. Voorbeeld 5.4 De stochast k = {0 1 2} met de overeenkomstige kansen {0, 25 0, 25 0, 50} wordt gesimuleerd met de volgende constructie: k=0 k=1 k=2
0, 00 < r ≤ 0, 25 0, 25 < r ≤ 0, 50 0, 50 < r ≤ 1, 00
70
0
3
4
5
6
7
8
9
Figuur 5.3: Histogram met 1000 trekkingen uit R ∼ N(6, 1), klassebreedte= 0, 5
5.3
Het tijdgedrag grafisch weergeven
In de vakken informatica, programmeren en simulaties wordt vaak gevraagd het tijdgedrag (de tijdcomplexiteit van een algoritme of een programma, of de levensduur van componenten en systemen) te bepalen (zie de reader Inleiding in de Informatica, hoofdstuk 1). Bij het meten van het tijdgedrag kan men gebruik maken van grafiekpapier met diverse assenstelsels (zie de reader Beschrijvende Statistiek, hoofdstuk 1). Bij de keuze van een passend assenstelsel worden de volgende tijdcomplexiteiten als rechte lijnen weergegeven: O-notatie T (n) assenstelsel O(1) c linlin O(n) an + b linlin O(log n) a log n loglin O(cn ) ban linlog c a O(n ) bn loglog Bij het meten en tekenen van de gegevens moet men de volgende vuistregels inachtnemen: 1. Bepaal de extreme waarden (bijvoorbeeld de laagste en de hoogste prestatie/snelheid van het programma) en meerdere tussengelegen waarden op gelijke lineaire- of logaritmische afstanden; 71
2. Teken rechte lijnen alleen met behulp van lineaal; 3. Kies schaaleenheden die de rechte lijn met een niet te sterke of te zwakke helling afbeelden; 4. Als twee tijdgedragingen met elkaar vergeleken worden, plaats de meetgegevens in het zelfde assenstelsel; 5. Vergeet niet de schaaleenheden en de bronnen van de gegevens (tijdgedrag van A of B) aan te geven.
72
1 8 6 4 3 2 1 8 6 4 3 2 1 8 6 4 3 2 1 8 6 4 3 2 1 8 6 4 3 2 1 8 6 4 3 2 1 8 6 4 3 2 1 8 6 4 3 2 1 8 6 4 3 2 1 8 6 4 3 2 1
Figuur 5.4: Semilog of linlog/loglin assenstelsel. 73
1 9 8 7 6 5 4 3.5 3 2.5 2 1.5 1 9 8 7 6 5 4 3.5 3 2.5 2 1.5 1 9 8 7 6 5 4 3.5 3 2.5 2 1.5 1 9 8 7 6 5 4 3.5 3 2.5 2 1.5 1 9 8 7 6 5 4 3.5 3 2.5 2 1.5 1 9 8 7 6 5 4 3.5 3 2.5 2 1.5 1 1
1.5 2
3
4 5 6 7 8 91 1
1.5 2
3
4 5 6 7 8 91 1
1.5 2
3
4 5 6 7 8 91 1
1.5 2
3
4 5 6 7 8 91 1
Figuur 5.5: Loglog assenstelsel.
74
1.5 2
3
4 5 6 7 8 91
5.4
De Weibullverdeling
De Weibull-verdeling kan men zien als een uitbreiding op de exponenti¨ele-verdeling waarbij t vervangen wordt door t β . Net zoals de exponenti¨ele-verdeling wordt de Weibullverdeling veel gebruikt bij het benaderen van het uitvalgedrag van systemen en reparatietijden. De Weibull-kansdichtheidsfunctie is: β
f (t) = βλβt β−1 e−(λt)
Uit de Weibull-vedeling zijn de volgende verdelingen af te leiden: β = 1: de Weibull-verdeling komt overeen met de exponenti¨ele-verdeling f (t) = λe−λt ; 2
β = 2: de Weibull-verdeling komt overeen met de Rayleigh-verdeling f (t) = 2λ2te−(λt) die soms gebruikt wordt om de kosten van activiteiten over een langdurige tijdsperiode te beschrijven.
0.7 0.6
β=8
0.5 λ=1/4
0.4 0.3 β=1
0.2
β=4 β=2
0.1 0
0
2
4
6
8
10
12
Figuur 5.6: De Weibull-kansdichtheidsfunctie.
De kansverdelingsfunctie van de Weibull-verdeling is: β
F(t) = 1 − e−(λt) β
Uit de percentielvergelijking 1 − e−(λt) = 0, 5 volgt voor de mediaan: 75
1 1 ln ln 2 1 tme = e β = (ln 2) /β λ λ
Het gemiddelde is: 1 β+1 E(t) = Γ λ β De variantie is: Var(t) =
1 λ2
Γ
β+2 β
2
−Γ
β+1 β
2 !
Hierin is de Γ() de gamma-functie: 1) Γ(x) = (x − 1)Γ(x − 1) 2) Γ(x) = √ (x − 1)! (x is een geheel getal) 3) Γ( 1/2 ) = π De gamma-functie is verwant met de faculteit, maar geldt ook voor gebroken getallen. Voorbeeld 5.5 Bereken Γ(4) en Γ(2, 5): Antwoord: Γ(4) = 3! = 6 √ Γ(2, 5) = 1, 5 · Γ(1, 5) = 1, 5 · 0, 5 · Γ(0, 5) = 1, 5 · 0, 5 · π = 1, 329 Voorbeeld 5.6 Bereken het gemiddelde en de variantie van de Rayleigh-verdeling: Antwoord: 1 1 E(t) = Γ(1, 5) = λ λ
Var(t) =
r
1 π (1 − ) λ2 4
76
π 4
5.5
De lognormaal-verdeling
Waar de N-verdeling de ‘limiet-verdeling’ is van de som van onafhankelijke stochasten, is de lognormaal-verdeling de ‘limiet-verdeling’ van het product van onafhankelijke stochasten. Als bijvoorbeeld een variabele zoals de doorsnede d van een populatie appels N-verdeeld is, dan heeft de volumevariabele v = πd 3 /6 een scheve verdeling die sterk lijkt op de lognormaal-verdeling. Als men de variabele x ∼ N(µ; σ) vervangt door de variabele t = ex of met wat hetzelfde is x = lnt, dan krijgt men de lognormaal-verdeling. t ∼ L(µ; σ)
↔
lnt ∼ N(µ; σ)
De lognormaal-kansverdelingsfunctie volgt uit: F(t) = P(t ≤ t) = P(ex ≤ t) = P(x ≤ lnt)
Z lnt
F(t) = −∞
(x−µ)2 1 − √ e 2σ2 dx σ 2π
(0 < t)
(0 < t)
De lognormaal-kansdichtheidsfunctie met µ = E(x) = E(lnt) en σ = Var(x) = Var(lnt) is: f (t) =
(lnt−µ)2 d 1 − F(t) = √ e 2σ2 dt tσ 2π
(0 < t)
Het gemiddelde van de lognormaal-verdeling is: E(t) = eµ+
σ2/ 2
De variantie van de lognormaal-verdeling is: 2
2
Var(t) = e2µ+σ (eσ − 1) De mediaan tme van de lognormaal-verdeling is: tme = eµ De mediaan tme is ook het meetkundige gemiddelde tmk = verdeling: 77
√ n t1t2 . . .tn van de lognormaal-
0.07 µ=4 0.06 0.05
σ=2,0
0.04 0.03 0.02
σ=0,1 σ=1.0
0.01 0
20
40
60
80
100
Figuur 5.7: De lognormaal-kansdichtheidsfunctie.
tmk = eln
√ n t t ...t 12 n
1
1
= e n (lnt1 +lnt2 +...+lntn ) = e n (x1 +x2 +...+xn ) = eµ = tme
De modus tmo van de lognormaal-verdeling is: 2
tmo = eµ−σ
De lognormaalverdeling geeft een goede beschrijving van de levensduurvariabele van electronische componenten en systemen. Bijvoorbeeld lampen die direct na de productie direct onder gecontroleerde laboratoriumcondities getest worden, vertonen een Nverdeelde levensduur. Maar zodra er sprake is van verschillen in belasting, gebruik en omgeving dan krijgen de lampen een lognormaal-verdeelde levensduur. Andere voorbeelden van lognormaal-verdeelde variabelen zijn inkomens van personen en winsten van bedrijven.
5.6
De gamma-verdeling
Alvorens de gamma-verdeling te behandelen, worden eerst de overige eigenschappen van de gamma-functie (Γ-functie) behandeld.
78
In tegenstelling met de faculteitsfunctie die alleen voor gehele getallen geldt n ∈ N0 , is de Γ-functie dus ook voor reele getallen en zelfs voor comlexe getallen z ∈ C geschikt Γ(z + 1) = z!, waarbij z alle complexe- en re¨ele waarden mag aannemen, behalve 0 , −1 , −2 , −3 , . . . (zie figuur ??). De Γ-functie is dus een generalisatie van de faculteitsfunctie n!. De volgende eigenschappen zijn afleidbaar:
Γ(n + 1) = nΓ(n) = n!
→
Γ(n) =
Γ(n + 1) n! = = (n − 1)! n n
√ 1 π Γ( ) = π , Γ(n)Γ(1 − n) = 2 sin nπ
(5.2)
(5.3)
Ook geldt de formule van Stirling voor alle waarden van de gammafunctie: √ 1 139 571 1 Γ(z + 1) = z e 2πz 1 + − − ... + 12z 288z2 51840z3 2488320z4 z −z
(5.4)
Een andere benadering is mogelijk met de machtreeks:
Γ(z + 1) = 1 − 0.57486z + 0.95124z2 − 0.69986z3 + 0.42455z4 − 0.10107z5 . . . (5.5) De waarden van de gammafunctie worden berekend met de oneigenlijke integraal (Maple kent deze integraal): Z ∞
Γ(z) =
uz−1 e−u du
(5.6)
0
De gamma-verdeling (niet de gamma-functie) is verwant met de exponenti¨ele verdeling. Als men de intervaltijd tussen twee gebeurtenissen met Poissonverdeling neemt, dan is deze intervaltijd exponentieel verdeeld (zie 5.1). Om de intervaltijd tussen n gebeurtenissen te bepalen, neemt men P(t > t) voor de n − 1 gebeurtenissen gedurende t: n−1
P(t > t) =
∑ (λt)k k=0
e−λt k!
daaruit volgt: n−1
F(t) = P(t ≤ t) = 1 − ∑ (λt)k k=0
79
e−λt k!
Γ( z)
4
2
−4
−2
0
0
2
4
z
−2
−4
Figuur 5.8: De gammafunctie.
De kansdichtheid f (t) is de afgeleide van F(t): d λn λn n−1 −λt n−1 −λt f (t) = F(t) = t e = t e dt (n − 1)! Γ(n) De gamma-verdeling t ∼ Γ(n, θ = 1/λ ) heeft een gemiddelde E(t) = λn = nθ en de variantie Var(t) = λn2 = nθ2 . Voorbeeld 5.7 De aankomst van klanten in het postkantoor is Poisson-verdeeld met een gemiddelde van 5 klanten per kwartier. Deze klanten stellen zich e´ e´ n voor e´ e´ n op achter de drie wachtrijen voor de drie loketten zodat bij elke wachtrij evenveel klanten arriveren. Wat zijn het gemiddelde en de standaardeviatie van de intervaltijd tussen de aankomsten in een wachtrij en welke verdeling heeft deze intervaltijd? Antwoord: De gemiddelde intervaltijd tussen de aankomsten van klanten in het postkantoor is θ = 1/ = 15/ = 3 minuten. Voor een wachtrij is de intervaltijd tussen de aankomsten ge5 λ p √ middeld nθ = 9 minuten, de standaarddeviatie daarvan is σ = Var(t) = 3 3 = 5, 2 minuten. De aankomsttijd per wachtrij is verdeeld volgens t ∼ Γ(n = 3; θ = 3).
80
Bijlage A Literatuur [BUI93a ] [BUI93b ]
Buis, A., Statistiek om mee te werken, Stenfert Kroese, Leiden, 1993. Buis, A., Statistiek om mee te werken, opgaven, Stenfert Kroese, Leiden, 1993. [Bont93 ] Bont, K. de, Statistiek om mee te werken, uitwerkingenboek, Stenfert Kroese, Leiden, 1993. [ENG96] Ostle, B., a.o. Engineering Statistics, The Industial Experience, Duxbury Press, California, 1996. [MAM94] Moore, D.S., McCabe, G.P. , Statistiek in de Praktijk, Academic Service, Schoonhoven, 1994. [HAT89] Hogg, R.V., Tanis, E.A. Probability and Statistical Inference, Maxwell, MacMillan International Editions, New York, 1989. [GKP92] Graham, R.L., Knuth, D.E., Patashnik, O., Concrete Mathematics, Addison-Wesley, Amsterdam, 1992. [FEL85] Feller, W., Introduction to Probability Theory And Its Applications, John Wiley and Sons , New York, 1968. [SCHA72] Spiegel, M.R., Statistics, Schaum’s Outlines Series, McGraw-Hill, 1972.
81
Bijlage A Groepsopdrachten Deze module wordt wekelijks gegeven als een groepspracticum (2 lesuur) en een begeleidend hoorcollege (2 lesuur). De studiebelasting komt overeen met 2 studiepunten. Het eindcijfer is een gewogen gemiddelde van minimaal 5 beoordeelde groepsopdrachten. Om in aanmerking te komen voor de beoordeling van een groepsopdracht, moet de student aan de volgende voorwaarden voldoen: • De student is tijdens het groepspracticum verplicht de aanwijzingen van de verantwoordelijke docent op te volgen; • Na de aanvang van het groepspracticum moet de student binnen 20 minuten intekenen voor de groepsopdracht op de daarvoor bestemde lijst; • De student moet samenwerken met andere groepsleden. Aanwijzingen over de samenstelling van de groepen en de opdrachten worden tijdens het groepspracticum verstrekt; • De groepsopdracht moet tijdens het groepspracticum schriftelijk worden uitgewerkt. De studenten mogen gebruik maken van boeken, dictaten en andere hulpmiddelen. Deze uitwerking moet door elk lid van de groep verklaard kunnen worden; • De schriftelijke uitwerkingen moeten binnen een uur na aanvang van het groepspracticum worden ingeleverd met de namen en studentnummers van de groepsleden. Uitwerkingen die binnen een uur worden ingeleverd, kunnen direct beoordeeld en besproken worden. Studenten die naar de mening van de verantwoordelijke docent acceptabele redenen hebben voor hun verzuim, kunnen -indien mogelijk- tijdens de flexibele week de gemiste opdrachten inhalen. Studenten die op fraude worden betrapt, worden voor de loop van de module uitgesloten van de beoordeling voor het practicum. Alle studenten worden in staat gesteld zich te herkansen tijdens de toetsweek met een individueel theoretisch tentamen. Deze herkansing betreft de volledige stof (hoofdstuk 4 t/m 8). Voor deze reguliere herkansing moet men zich tijdig inschrijven. 82
G ROEPSOPDRACHT 1 1. Gegeven: Twee quizen A en B. De kans om door de voorronde te komen is bij beide quizen gelijk aan 50%. Indien men door de voorronde gekomen is, krijgt men bij: quiz A een bedrag van 3000 euro en de mogelijkheid om een gok te wagen met 50% kans op een extra bedrag van 3000 euro of 50% kans op een boete van 3000 euro. quiz B de mogelijkheid een gok te wagen met 50% kans op een bedrag van 6000 euro of 50% kans op niets. Gevraagd: Bepaal welke quiz (A of B) het gunstigst is. Verklaar uw antwoord. U mag gebruik maken van wiskundige bewijzen, logische redeneringen of simulaties. 2. Gegeven: Aan het einde van een quiz mag de winnende kandidaat een keuze maken uit drie dozen. In e´ e´ n van de dozen zit de hoofdprijs. De gekozen doos mag door de kandidaat nog niet worden opengemaakt. De quizmaster kiest vervolgens uit de twee overgebleven dozen een doos uit waar de hoofdprijs niet in zit. Deze doos wordt opengemaakt, iedereen kan zien dat daar de hoofdprijs niet in zit. De vraag is nu: “Moet de kandidaat wisselen van keuze, alsnog voor de overgebleven doos kiezen of aan de eerste keuze trouw blijven”? De vraag kan op twee manieren beantwoord worden: (a) Alle dozen hebben ieder 1/3 kans om de hoofdprijs te bevatten. De eerste keuze van de kandidaat heeft dus 1/3 kans op de hoofdprijs. De twee overgebleven dozen hebben samen dus 2/3 kans op de hoofdprijs. Nadat de quizmaster e´ e´ n van deze laatste dozen geopend heeft, een doos die geen prijs bevat, heeft de overgebleven niet-gekozen doos een kans van 2/3 . De beste strategie voor de kandidaat is zijn eerste keus doos te verwisselen met de overgebleven nietgekozen doos. (b) De kandidaat staat uiteindelijk voor twee dozen, e´ e´ n daarvan bevat de hoofdprijs. Elke doos heeft evenveel kans, het maakt niet uit of de kandidaat van doos verwisselt. Gevraagd: (a) Bepaal welke stategie het meeste succes heeft. (b) Verklaar waarom deze successtrategie beter werkt dan de andere strategie. U mag gebruik maken van wiskundige bewijsmethoden, logische redeneringen of simulaties.
83
G ROEPSOPDRACHT 2 1. Bepaal het aantal rangschikkingen van het woord WAARSCHIJNLIJKHEID. 2. Op hoeveel manieren kan uit een verzameling van 100 personen een voorzitter en een penningmeester gekozen worden (de functies mogen niet door e´ e´ n persoon vervuld worden)? 3. Op hoeveel manieren kan uit een verzameling van 100 personen een voorzitter en een penningmeester gekozen worden (de functies mogen door e´ e´ n persoon vervuld worden)? 4. Op hoeveel manieren kan uit een verzameling van 100 personen twee bestuursleden gekozen worden. 5. Hoeveel getallen zijn mogelijk met maximaal 3 verschillende cijfers? Er mogen in het getal dus geen twee cijfers hetzelfde zijn. Getallen die beginnen met het cijfer 0, behalve het getal 0, zijn uitgesloten. Goed: 1, 10, 31, 123 Fout: 01, 33, 121, 021 6. Gegeven: Er zijn m unieke mannen en v unieke vrouwen. Gevraagd: (a) Het aantal mannen is groter dan het aantal vrouwen. Op hoeveel manieren kunnen de m mannen en v vrouwen in een rij geplaatst worden, zodanig dat elke vrouw tussen 2 mannen staat? (b) Het aantal mannen is groter of gelijk aan het aantal vrouwen. Op hoeveel manieren kunnen de m mannen en v vrouwen in een kring geplaatst worden, zodanig dat elke vrouw tussen 2 mannen staat?
84
G ROEPSOPDRACHT 3 1. Gegeven: De kans op een “kop” bij het tweemaal werpen van een muntstuk is 2/3. Dit zou men kunnen verklaren met de volgende redenatie: • Men werpt de eerste keer een “kop”. De tweede worp is overbodig. De elementaire uitkomst is K; • Men werpt de eerste keer een “munt” en de twee keer een “kop”. De elementaire uitkomst is MK; • Men werpt de eerste keer een “munt” en de twee keer een “munt”. De elementaire uitkomst is MM; De elementaire uitkomstenruimte is volgens deze redenatie: {K, MK, MM}. Twee van de drie elementaire uitkomsten bevatten een “kop”, daaruit volgt dat de kans op een “kop” 2/3 is. Gevraagd: Wat is er verkeerd aan deze redenatie? 2. Gegeven: Van een zeer fatale ziekte is bekend dat van 1 op de 105 personen deze ziekte heeft. Men heeft een test ontwikkeld. Deze test is 99% betrouwbaar. Dit betekent dat de test bij 99% van de personen die aan deze ziekte lijden een positieve uitslag geeft. De test geeft bij 99% van de personen die niet lijden aan deze ziekte een negatieve uitslag. Iemand laat zich testen met de betreffende test. De test geeft een positieve uitslag. Gevraagd: Hoe groot is de kans dat deze persoon echt ziek is?
85
G ROEPSOPDRACHT 4 1. Gegeven: Een automobilist die een aanrijding veroorzaakt, moet zich onderwerpen aan een bloedproef. Uit onderzoek blijkt dat 1% van automobilisten die aanrijdingen veroorzaken, onder invloed rijden. Er bestaat 75% kans dat iemand onder invloed positief bevonden wordt. Bovendien bestaat er 5% kans dat iemand die nuchter is, ten onrechte positief bevonden wordt. Gevraagd: (a) Wat is de kans dat iemand onder invloed is, als de bloedproef positief uitgevallen is? (b) Wat is de kans dat iemand nuchter is, als de bloedproef negatief uitgevallen is? 2. Gegeven: Twee niet van elkaar te onderscheiden vazen (V1 en V2). V1 bevat 3 rode, 5 witte en 7 blauwe ballen. V2 bevat 7 rode, 5 witte en 3 blauwe ballen. (a) Iemand trekt uit een willekeurige vaas aselect een bal. De getrokken bal is blauw. Wat is de kans dat deze bal uit V1 getrokken is?. (b) De bal uit de vorige vraag is teruggelegd in de vaas waaruit zij getrokken is. Iemand neemt ongezien een bal uit V1 en legt haar V2. Uit V2 trekt men aselect een bal. Deze bal is rood. Wat is de kans dat de bal die ongezien uit V1 in V2 gelegd is, wit is?
86
G ROEPSOPDRACHT 5 Gegeven: Poker is een spel met veel varianten. Het kan met kaarten of dobbelstenen gespeeld worden. Voor deze opdracht moet men uitgaan van een pokerspel dat gespeeld wordt met vijf zuivere dobbelstenen. Enkele worpen zijn belangrijk voor dit pokerspel: Poker: De vijf dobbelstenen hebben een gelijk aantal ogen. Voorbeeld: 3, 3, 3, 3, 3. Four of a Kind: Vier van de vijf dobbelstenen hebben een gelijk aantal ogen. Voorbeeld: 3,3,3,3,1 Full House: Drie van de vijf dobbelstenen hebben een gelijk aantal ogen, de twee andere dobbelstenen zijn ook gelijk aan elkaar. Voorbeeld: 3,3,3,2,2 Street: De vijf dobbelstenen hebben de opeenvolgende waarden 1, 2, 3, 4 en 5 of de opeenvolgende waarden 2, 3, 4, 5 en 6. Three of a Kind: Drie van de vijf dobbelstenen hebben een gelijk aantal ogen. Voorbeeld: 3,3,3,1,2 Two of a Kind: Twee van de vijf dobbelstenen hebben een gelijk aantal ogen, de overige hebben een ongelijk aantal ogen. Voorbeeld: 3,3,1,2,5 Two Pair: Twee verschillende paren. Voorbeeld: 1,3,3,2,2 Rest: Dit zijn alle overgebleven worpen die niet in een van de bovengenoemde categorie¨en passen. Voorbeeld: 1,2,3,4,6 Alle categorieen zijn disjunct, m.a.w: • Bij het bepalen van het aantal worpen van Four of a Kind mag het werpen van Poker niet meegeteld worden. • Bij het bepalen van het aantal worpen Full House mag het werpen van Four of a Kind en Poker niet meegeteld worden. • Bij het bepalen van het aantal worpen van Three of a kind mag het werpen van Full House, Four of a Kind en Poker niet meegeteld worden. • Bij het bepalen van het aantal worpen van Two Pair mag het werpen van Full House, Four of a Kind en Poker niet meegeteld worden. • Bij het bepalen van het aantal worpen van Two of a Kind mag het werpen van Two Pair, Three of a Kind Full House, Four of a Kind en Poker niet meegeteld worden. Gevraagd: Wat is de kans op een Poker, een Four of a Kind, een Three of a Kind, een Street, een Full House, een Two Pair en een Two of a Kind? Hoeveel ongeclassificeerde worpen zijn er? 87
G ROEPSOPDRACHT 6 Gegeven: Een vliegtuig heeft 4 motoren, 2 motoren aan elke vleugel. Elke motor heeft een kans op uitvallen tijdens een vlucht van 10−3 . Men noemt Fmotor = 10−3 de faalkans van een motor. De kans 1 − Fmotor = 999/1000 noemt men de overlevingskans- of bedrijfszekerheid Rmotor van de motor. Gevraagd: 1. Bereken de kans op uitvallen van een vliegtuig. Het vliegtuig valt uit als: • 2 motoren aan dezelfde vleugel uitvallen (er zijn wel 2 vleugels); • 2 motoren uitvallen (ongeacht de plaats); • 3 of meer motoren uitvallen. 2. Hoe zou de formule moeten luiden voor de bedrijfszekerheid Rtotaal van een systeem met n componenten dat blijft leven indien alle n componenten met bedrijfszekerheid R1 , R2 , . . . , Rn noodzakelijk zijn. M.a.w. er mag niet e´ e´ n component uitvallen. 3. Hoe zou de formule moeten luiden voor de overlevingskans Rtotaal van een systeem dat blijft leven zolang een of meer van de n componenten met de bedrijfszekerheid R1 , R2 , . . . , Rn nog blijven functioneren. M.a.w. het systeem valt pas uit als alle n componenten uitgevallen zijn. 4. Hoe zou de formule moeten luiden voor de overlevingskans Rtotaal van een systeem dat blijft leven zolang er nog m van de n componenten R1 , R2 , . . . , Rn blijft functioneren. M.a.w. het systeem valt uit indien meer dan n − m componenten van de n componenten uitgevallen zijn. Men mag bij de beantwoording van deze laatste vraag er van uit gaan dat alle n componenten dezelfde bedrijfszekerheid bezitten (R1 = R2 = . . . = Rn ).
88
G ROEPSOPDRACHT 7 5. Gegeven: Een vliegveld wordt verlicht door 10000 lampen van het zelfde type. Bij periodieke onderhoudsbeurten worden alle oude lampen vervangen door nieuwe lampen, de oude lampen worden vernietigd. Deze periodieke onderhoudsbeurten moeten plaats vinden voordat er meer dan 5% van de lampen uitgevallen zijn. De kosten voor zo’n onderhoudsbeurt bestaan uit de aanschafkosten van de nieuwe lampen plus e 40000,- voor de huur van de hoogwerker, het loon van de electrici¨ens en het vernietigen van de oude lampen. Men kan kiezen uit twee soorten nieuwe lampen: Type A: De gemiddelde levensduur is 3000 uur met een spreiding van 500 uur, de kostprijs van e´ e´ n lamp is e 2,00; Type B: De gemiddelde levensduur is 2500 uur met een spreiding van 100 uur, de kostprijs van e´ e´ n lamp is e 2,10. Gevraagd: Welke periodieke onderhoud is het goedkoopst, die met type A lampen of die met type B lampen? Verklaar uw antwoord met een duidelijke berekening. 6. Gegeven: Uit een steekproef met de omvang van 100 lampen (zonder teruglegging) uit een populatie van 10000 lampen, blijkt dat deze 100 lampen een gemiddelde levensduur van 2850 uur hebben, met een steekproefspreiding van 250 uur.
89
G ROEPSOPDRACHT 8 Gegeven: SicBo is een oud Chinees spel dat gespeeld wordt met drie dobbelstenen. De naam SicBo betekent “dobbelstenen in een beker”. Het is de bedoeling dat men inzet op bepaalde posities (zie figuur A.1). Deze posities voorspellen een bepaalde combinatie van de drie dobbelstenen. Een goede voorspelling levert winst op, een verkeerde voorspelling kost de inzet. Een speler mag op meer dan e´ e´ n positie inzetten. Nadat alle spelers hebben ingezet op de speeltafel worden de drie dobbelstenen gelijktijdig geworpen. Alleen van de verliezende posities neemt de croupier de fiches in. De winnende posities ontvangen fiches. Als bijvoorbeeld bij een winnende positie een winstverhouding van 8 op 1 staat, ontvangt men voor elk ingezet fiche er 8 fiches bij. Op de speeltafel zijn de volgende soorten posities aangegeven. Elke soort positie heeft een bepaalde winstverhouding. Double Same: (6 posities) 2 dobbelstenen gelijk zijn aan: cijfer winst 1 8 op 1 3 8 op 1 8 op 1 5
cijfer winst 2 8 op 1 4 8 op 1 6 8 op 1
Double Different: (15 posities) 2 dobbelstenen gelijk zijn aan: cijfers 1 en 2 1 en 5 2 en 4 3 en 4 4 en 5
winst 5 op 1 5 op 1 5 op 1 5 op 1 5 op 1
cijfers 1 en 3 1 en 6 2 en 5 3 en 5 4 en 6
winst 5 op 1 5 op 1 5 op 1 5 op 1 5 op 1
cijfers 1 en 4 2 en 3 2 en 6 3 en 6 5 en 6
winst 5 op 1 5 op 1 5 op 1 5 op 1 5 op 1
Triple: (6 posities) 3 dobbelstenen zijn gelijk: cijfer winst 1 150 op 1 3 150 op 1 5 150 op 1
cijfer winst 2 150 op 1 4 150 op 1 6 150 op 1
Any Triple: (1 positie) 3 dobbelstenen gelijk, men ontvangt 24 op 1 Sum: (14 posities) de som van de dobbelstenen, mits zij geen triple vormen (triple exception), is gelijk aan: 90
som 4 5 6 7
winst 50 op 1 18 op 1 14 op 1 12 op 1
som 8 9 10 11
winst 8 op 1 6 op 1 6 op 1 6 op 1
som winst 12 6 op 1 13 8 op 1 14 12 op 1 15 14 op 1
som winst 16 18 op 1 17 50 op 1
Let op, vanwege de triple exception geven som 3 en 18 geven geen uitkering! Small Sum: (1 positie) De som van de dobbelstenen is gelijk aan: 4 of 5 of 6 of 7 of 8 of 9 of 10. Men ontvangt 1 op 1. Big Sum: (1 positie) De som van de dobbelstenen is gelijk aan: 11 of 12 of 13 of 14 of 15 of 16 of 17. Men ontvangt 1 op 1. Special position: (6 posities) Dit zijn posities waarbij men voor een cijfer 1, 2, 3, 4, 5, of 6 kan kiezen. Indien het gekozen cijfer e´ e´ n keer valt dan ontvangt men 1 op 1. Indien het gekozen cijfer twee keer valt dan ontvangt men 2 op 1, echter als het cijfer drie keer valt dan ontvangt men 3 op 1. Gevraagd: 1. Reken voor de volgende soort posities de winst en verlieskansen en de verwachtingswaarde uit: • Double Same • Double Different • Triple • Any Triple • Sum (dit zijn verschillende verwachtingswaarden) • Big Sum en Small Sum • Special Position 2. Op welke positie of combinatie van posities zou u het beste kunnen inzetten? Verklaar uw antwoord. 3. Elke worp van de dobbelstenen bevat een 1 of 2 of 3 of 4 of 5 of 6. Veel spelers zetten op alle zes speciale posities in omdat er altijd een prijs op valt. Is deze strategie gunstig? Zou het gunstig zijn om op alle Special Positions 1 t/m 6 een fiche te plaatsen? Verklaar uw antwoord.
91
Figuur A.1: SicBo 92
TWO
1 wins 14
6
7 1 wins 12
1 TO 1 ON ONE DIE
1 wins 18
1 wins 50
ONE
5
4
8 1 wins 8
THREE
1 wins 6
9
FOUR
1 wins 6
11
2 TO 1 ON TWO DIE
1 wins 6
10
any triple
1 wins 6
12 1 wins 8
13
FIVE
1 wins 14
15
SIX
1 wins 18
16
3 TO 1 ON THREE DIE
1 wins 12
14
1 wins 50
17
lose if triple appears
lose if triple appears
BIG
1 wins 1
EACH DOUBLE 1 wins 8
1 wins 1
1 wins 150
11 to 17
1 wins 24
4 to 10
1 wins 150 numbers
EACH DOUBLE 1 wins 8
numbers
SMALL
Index absolute kans, 19 afhankelijk, 20 afhankelijkheid, 42 algemene hypergeometrische verdeling, 24 algemene produktregel, 26 aselecte steekproef, 21 axioma, 16 axiomatische kansrekening, 16 axiomatische kanstheorie, 14
covariantie, 44 cyclische permutatie, 8 deelpermutatie, 8 discrete variabele, 28 disjunct, 17 driehoek van Pascal, 5
E–algebra, 38 E-operator, 39 elementaire gebeurtenis, 14 Bayes, 19 equivalente oplossing, 8 Bayes T., 27 exclusieve grens, 35 be¨ınloedbare munt, 21 experimentele kanstheorie, 14 bedrijfszekerheid, 32, 37 exponenti¨ele verdeling, 62 benadering binomiale verdeling met N-verdeling, 60 faculteit, 4 benadering binomiale verdeling met Poisson- failure, 67 verdeling, 61 familie, 6 benadering Poisson-verdeling met N-verdeling, formule van Stirling, 79 61 bepaalde integraal, 35 gamma-functie, 76, 78 binomiaal co¨effici¨ent, 5 gamma-verdeling, 78, 79 Binomiale verdeling, 25 Gauss, 55 binomiale verdeling, 25, 51 Gaussverdeling, 55 gebeurtenis, 14 C, 67 gebrek aan geheugen, 67 C++, 67 geheeltallige vergelijking, 12 Centrale Limiet Stelling, 55, 69 combinatie, 9 hypergeometrische verdeling, 23, 24 combinatoriek, 4, 14 ideale dobbelsteen, 14 complementaire gebeurtenis, 17 inclusieve grens, 35 conditionele kans, 19 integraalrekening, 34 continu¨ıteitscorrectie, 60 intervalschaal, 28 continue kansvariabele, 34 intervaltijd, 28 continue variabele, 28 intu¨ıtief kansbegrip, 15 correlatieco¨effici¨ent, 47 93
Java, 67 kansdichtheidsfunctie, 34 kansfunctie, 29 kansrekening, 4 kanstheorie, 14 kanstheorie van Laplace, 14 kansvariabele, 21, 28 klassenvertegenwoordiger, 6 kwadratische afwijking, 33 Laplace P.S., 14 levensduur, 28 lognormaal-verdeling, 77 marginale kans, 42, 45 marginale kansdichtheidsfunctie, 43 meetkundige gemiddelde, 77 Multinomiale verdeling, 24 multinomiale verdeling, 25 N-verdeling, 55 nauwkeurigheid, 28 negatief-exponenti¨ele verdeling, 62 Newton I., 5 odds, 15 omkeerregel van Bayes, 27 omkeerregels van Bayes, 26 onafhankelijk, 20 onafhankelijkheid, 41, 67 onderscheidbare voorwerpen, 6 overschrijdingskans, 31, 37, 59 parameter, 33 partitie, 27 Pascal B., 5 percentiel, 37 percentielvergelijking, 37 permutatie, 7 Poisson-verdeling, 52 populatie-omvang, 21 programmeertalen, 67 pseudo-ruisgenerator, 67 puntenwolk, 44, 48
random function, 67 rangschikking, 6, 7 ratioschaal, 28 Rayleigh-verdeling, 75, 76 rekenkundig gemiddelde, 32 relatieve frequentie, 32 rij, 6 samengestelde gebeurtenis, 15, 17 samengestelde kansdichtheidsfunctie, 43 samengestelde kansfunctie, 41 scatterdiagram, 43, 44 standaard N-verdeling, 58 steekproef, 21 steekproef met teruglegging, 21 steekproef zonder teruglegging, 21 steekproefomvang, 21, 51 Stirling J., 5 stochast, 21, 28 stochastische variabele, 21 subjectief kansbegrip, 15 succeskans, 51 tabel N-verdeling, 58 tabel Poisson, 55 teruglegging, 6 transformatie, 59 uitkomstenruimte, 14, 16 unieke voorwerpen, 6 uniforme kansverdeling, 63 variabele, 28 variantie, 33, 38 variatie, 8 verdeling, 50 verdelingsfunctie, 30, 34, 35 verwachting, 32 verwachtingswaarde, 33, 37 verzameling, 6 volgorde, 6, 7 voorwaardelijke kans, 19 Weibull-verdeling, 75 zuiverheid, 20 94