Kanstheorie 2de bachelor wiskunde Vrije Universiteit Brussel
U. Einmahl Academiejaar 2011/2012
Inhoudsopgave 1 Kansruimten 1.1 Toevallige experimenten . . . . 1.2 De axioma’s van Kolmogorov 1.3 Eindige kansruimten . . . . . . 1.4 Voorwaardelijke kans . . . . . 1.5 Onafhankelijke gebeurtenissen
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
1 1 2 4 6 9
2 Toevalsvariabelen en verdelingen 2.1 Meetbare afbeeldingen . . . . . . . 2.2 Toevalsvariabelen . . . . . . . . . . 2.3 Discrete toevalsvariabelen . . . . . 2.4 Absoluut continue verdelingen . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
12 12 13 14 16
3 Toevalsvectoren en verdelingen 3.1 Gezamenlijke en marginale verdelingsfuncties . . . . . . . . 3.2 Discrete verdelingen . . . . . . . . . . . . . . . . . . . . . . . 3.3 Toevalsvariabelen met een gezamenlijk continue verdeling 3.4 Onafhankelijke toevalsvariabelen . . . . . . . . . . . . . . . 3.5 Sommen van onafhankelijke toevalsvariabelen . . . . . . . . 3.6 Conditionele verdelingen . . . . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
23 23 24 26 29 31 33
. . . .
35 35 44 50 52
. . . . .
4 Verwachtingswaarden 4.1 Definitie en eigenschappen . . . . . . . . . . . . . . . . . 4.2 Variantie, covariantie en moment-genererende functies 4.3 Conditionele verwachtingswaarden . . . . . . . . . . . . 4.4 Verwachtingswaarden en integralen . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
5 Enkele belangrijke limietstellingen 53 5.1 De zwakke wet van de grote getallen . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.2 De sterke wet van de grote getallen . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.3 De centrale limietstelling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
0
Hoofdstuk 1 Kansruimten 1.1
Toevallige experimenten
Een toevallig experiment is een experiment waar men de uitkomst niet volledig kan voorspellen. Voorbeelden 1. Het werpen van een muntstuk met de mogelijke uitkomsten: (K) kop, (M) munt. 2. Het werpen van een dobbelsteen met de mogelijke uitkomsten (aantal ogen): 1, 2, 3, 4, 5, 6. 3. Het installeren van een gloeilamp. Men weet niet hoe lang deze zal houden. De leeftijd T van de gloeilamp hangt af van het toeval: T ∈]0, ∞[. 4. Het volgende experiment waar we een bol in een vacu¨ um laten vallen en we willen weten hoe lang het duurt tot dat deze de grond bereikt is geen toevallig experiment, omdat we uit de natuurkunde precies weten hoe lang dit duurt. (We veronderstellen hier natuurlijk dat we de (initi¨ele) afstand van de bol tot de grond kennen.) Gegeven een toevallig experiment, noteren we de verzameling van de mogelijke uitkomsten altijd met Ω. We noemen deze de uitkomstenverzameling (of sample space) van het experiment. Verder kiezen we voor elk experiment een klasse van deelverzamelingen van Ω die we met F noteren. De verzamelingen in F heten de gebeurtenissen. Als Ω ten hoogste aftelbaar is, kunnen we F = 2Ω (al de deelverzamelingen van Ω) stellen, maar in het algemeen is dit niet mogelijk. Voorbeelden: 1. Het werpen van twee muntstukken: Dan is Ω = {(K, K), (K, M ), (M, K), (M, M )}. De gebeurtenis ”1 keer kop, 1 keer munt”wordt voorgesteld door de verzameling A = {(K, M ), (M, K)}. 2. Het werpen van een dobbelsteen: Dan is het evident dat Ω = {1, . . . , 6} en de verzameling A = {2, 4, 6} is de gebeurtenis dat het aantal ogen even is. 1
HOOFDSTUK 1. KANSRUIMTEN
2
Een kans is een afbeelding van F naar [0, 1] die met elke gebeurtenis A zijn kans P(A) associeert. De vraag is nu hoe men dit op een wiskundige manier kan defini¨eren. Uitgaande van de intu¨ıtie, is de volgende definitie via “relatieve frequenties”voor de hand liggend: Veronderstel dat men een bepaald experiment kan herhalen zodat de uitkomsten “onafhankelijk van elkaar” zijn. Stel nA = het aantal van de eerste n experimenten met een uitkomst in A. Dan kan men verwachten dat de relatieve frequenties nA /n convergeren en de limiet gelijk aan P(A), de kans op A is. Hoewel dit klopt, kunnen we daarop geen theorie baseren omdat we niet precies weten wat “onafhankelijk van elkaar” betekent. Er bestaat echter een axiomatische definitie van het begrip“kans”zodat we exact kunnen defini¨eren wat onafhankelijkheid betekent. In dit kader kunnen we dan bepaalde limietstellingen bewijzen. Een van deze stellingen, de sterke wet van de grote getallen, impliceert dan dat voor elke gebeurtenis A ∈ F de relatieve frequenties nA /n naar P(A) convergeren.
1.2
De axioma’s van Kolmogorov
Zij Ω een niet-lege verzameling. Definitie 1.1 Een klasse F van deelverzamelingen van Ω heet een σ-algebra op Ω als F voldoet aan de volgende drie voorwaarden: (i) Ω ∈ F. (ii) A ∈ F ⇒ Ac ∶= Ω ∖ A ∈ F. (iii) An ∈ F, n ≥ 1 ⇒ ⋃∞ n=1 An ∈ F. Eigenschappen: Als F een σ-algebra is, geldt: 1. ∅ ∈ F. (Dit is triviaal wegens ∅ = Ωc .) 2. A1 , . . . , Am ∈ F ⇒ ⋃m j=1 Aj ∈ F. (Stel Aj = ∅, j ≥ m + 1 en gebruik (iii).) 3. A1 , . . . , Am ∈ F ⇒ ⋂m j=1 Aj ∈ F. m c c (Dit is evident wegens ⋂m j=1 Aj = (⋃j=1 Aj ) , (ii) en (2).) 4. An ∈ F, n ≥ 1 ⇒ ⋂∞ n=1 An ∈ F. (Analoog argument als in (3).) 5. A, B ∈ F ⇒ A ∖ B ∈ F en A △ B ∈ F, waar A △ B = (A ∖ B) ∪ (B ∖ A) het symmetrische verschil van de twee gebeurtenissen A, B is. (Dit betekent dat precies ´e´en van de twee gebeurtenissen optreedt.) Om (5) te bewijzen noteren we dat A∖B = A∩B c wegens (ii) en (3) in F zit. Eigenschap (2) impliceert dan ook A △ B ∈ F. Opmerking: Uit het bovenstaande blijkt dat verzamelingen die men na een aftelbaar aantal operaties zoals ∩, ∪, △,c uit F kan verkrijgen, nog tot F behoren. Dit is in het algemeen fout, als men meer dan aftelbaar veel operaties gebruikt.
HOOFDSTUK 1. KANSRUIMTEN
3
Definitie 1.2 Zij F een σ-algebra op Ω. (i) Een afbeelding P ∶ F → [0, 1] wordt een kans (of kansmaat) genoemd indien (a) P(Ω) = 1 (b) An ∈ F, n ≥ 1 (paarsgewijs) disjunct (i.e., An ∩ Am = ∅, n ≠ m) ∞ ⇒ P(⊍∞ n=1 An ) = ∑n=1 P(An ). (σ-additiviteit) (ii) Een kansruimte is een drietal (Ω, F, P) bestaande uit een verzameling Ω, een σ-algebra F op Ω en een kans P. Enkele eigenschappen van kansmaten: 1. P(∅) = 0. ∞ (Stel An = ∅, n ≥ 1. Dan geldt: P(A1 ) = P(⊍∞ n=1 An ) = ∑n=1 P(An ), wat natuurlijk ∞ impliceert: 0 = ∑∞ n=2 P(An ) = P(⊍n=2 An ) = P(∅).) m 2. (additiviteit) A1 , . . . , Am ∈ F disjunct, ⇒ P(⊍m i=1 Ai ) = ∑i=1 P(Ai ). (Beschouw de rij A1 , . . . , Am , ∅, ∅, . . . en gebruik (1) in verband met de σ-additiviteit van P.)
3. A ∈ F ⇒ P(Ac ) = 1 − P(A). (1 = P(Ω) = P(A ⊍ Ac ) = P(A) + P(Ac ).) 4. A, B ∈ F en A ⊂ B ⇒ P(A) ≤ P(B). (Gebruik het feit dat B = A ⊍ (B ∖ A) en de additiviteit van P.) Verder geldt: 5. A, B ∈ F ⇒ P(A ∪ B) = P(A) + P(B) − P(A ∩ B). 6. Als A1 , . . . , Am ∈ F, waar m ≥ 3, dan geldt ook: m
m
i=1
r=1
P(⋃ Ai ) = ∑(−1)r+1
∑
1≤i1 <...
r
P( ⋂ Aij ). j=1
(“Formule van het in- en uitsluiten”) We bewijzen (5). Eigenschap (6) volgt dan via volledige inductie (oefening). Gezien A ∪ B = A ⊍ (B ∖ A), waar de twee laatste gebeurtenissen disjunct zijn, geldt P(A∪B) = P(A)+P(B ∖A). Verder is B gelijk aan de unie van de twee disjuncte gebeurtenissen B ∖ A en A ∩ B en dus geldt: P(B) = P(B ∖ A) + P(A ∩ B) of P(B ∖ A) = P(B) − P(A ∩ B), wat in verband met de bovenstaande formule voor P(A ∪ B) eigenschap (5) impliceert. Definitie 1.3 Een rij van verzamelingen An , n ≥ 1 heet stijgend (Notatie: An ↗) indien geldt: A1 ⊂ A2 ⊂ A3 ⊂ . . . Analoog noemen we en rij An , n ≥ 1 dalend indien A1 ⊃ A2 ⊃ A3 ⊃ . . . (Notatie: An ↘ ) In beide gevallen zeggen we dat de rij monotoon is. Verder defini¨eren we: ⋃∞ An als An ↗ lim An = { n=1 n→∞ ⋂∞ n=1 An als An ↘
HOOFDSTUK 1. KANSRUIMTEN
4
Stelling 1.1 (Kansmaten zijn continu van beneden en boven) Zij P een kans op een σ-algebra F en zij An , n ≥ 1 een monotone rij in F. Dan geldt als n → ∞, P(An ) → P( lim An ). n→∞
Bewijs. (i) (P is continu van beneden) Dus zij An ↗ en stel A = ⋃∞ n=1 An . Dan zijn de gebeurtenissen B1 ∶= A1 , Bn ∶= An ∖ An−1 , n ≥ 2 disjunct en bovendien geldt: ∞
n
i=1
i=1
⊍ Bi = A, ⊍ Bi = An , n ≥ 1.
Dus volgt uit de σ-additiviteit van P, ∞
∞
n
i=1
i=1
i=1
P(A) = P(⊍ Bi ) = ∑ P(Bi ) = lim ∑ P(Bi ) = lim P(An ). n→∞ n→∞ c (ii) (P is continu van boven.) Zij Cn ↘ en stel C = ⋂∞ n=1 Cn . Dan geldt natuurlijk An = Cn ↗ en limn An = ⋃n Cnc = (⋂n Cn )c = C c . Dus volgt uit deel (i) dat 1 − P(Cn ) = P(Cnc ) → P(C c ) = 1 − P(C) en bijgevolg P(Cn ) → P(C) als n → ∞. ⊔ ⊓
1.3
Eindige kansruimten
Veronderstel dat Ω eindig is met N elementen ω1 , . . . , ωN . Zij pi ∈]0, 1], 1 ≤ i ≤ N zodanig dat ∑i pi = 1. Dan is N
P(A) ∶= ∑ pi = ∑ pi IA (ωi ), A ⊂ Ω i∶ωi ∈A
i=1
een kans op F = 2Ω . We defini¨eren voor elke verzameling A ⊂ Ω ∶ IA (ω) = {
1 als ω ∈ A en we noemen IA de 0 als ω ∈ Ac
indicatorfunctie van A. Als al de uitkomsten ω1 , . . . , ωN dezelfde kans hebben, verkrijgen we een uniforme kansruimte. In dit geval geldt: 1 = P(Ω) = ∑N i=1 P({ωi }) = N P({ω1 }) en bijgevolg P({ω1 }) = P({ωi }) = pi = 1/N, 2 ≤ i ≤ N en het is evident dat P(A) = #A/#Ω, waar #B het aantal elementen van de verzameling B betekent. We kunnen dan al de kansen via de combinatoriek berekenen. Voorbeelden (1) In een doos zitten 10 ballen waarop nummers van 1 t/m 10 staan. We trekken 2 ballen en noteren de nummers. Wat is de kans dat het verschil tussen de twee getrokken nummers tenminste 2 is, als we (a) de eerste getrokken bal weer terugleggen “sampling with replacement”), (b) niet terugleggen “sampling without replacement”)?
HOOFDSTUK 1. KANSRUIMTEN
5
Oplossing. (a) Stel Ωa = {1, . . . , 10}2 (= alle paren (i, j) met i, j ∈ {1, . . . , 10}.) Dan geldt natuurlijk #Ωa = 100 en als we A = {(i, j) ∈ Ωa ∶ ∣i − j∣ ≥ 2} stellen, geldt Ac = {(i, i) ∶ 1 ≤ i ≤ 10}∪{(1, 2), (2, 1), (2, 3), . . . , (9, 8), (9, 10), (10, 9)} en dus heeft Ac 10+18 elementen wat natuurlijk impliceert dat P(Ac ) = 0, 28 en bijgevolg P(A) = 0, 72. (b) Stel Ωb = {(i, j) ∈ {1, . . . , 10}2 ∶ i =/ j}. Dan heeft Ωb 90 elementen en verder geldt als we B gelijk aan {(i, j) ∈ Ωb ∶ ∣i − j∣ ≥ 2} stellen, #B c = 18 en dus P(B) = 72/90 = 0, 8. (2) (Het verjaardagenprobleem) Wat is de kans dat in een groep van m personen allen een verschillende verjaardag hebben? Onderstel dat alle dagen van het jaar even waarschijnlijk zijn (niemand jarig op 29 februari is), en dat er geen verband tussen de verjaardagen van deze personen bestaat. (Als er een tweeling is, mag maar ´e´en van hun meedoen). Oplossing. Stel Ωm = {1, . . . , 365}m . (Als m = 3 betekent bv (25, 119, 33) dat de eerste persoon jarig is op 25 januari, de tweede op 29 april en de derde op 2 februari.) Onze voorwaarden zijn zo dat we van een uniforme kansruimte kunnen uitgaan. De gebeurtenis “m verschillende verjaardagen”wordt voorgesteld door Am = {(i1 , . . . , im ) ∈ Ωm ∶ ij =/ ik , j =/ k}. Dus is de gezochte kans gelijk aan m−1
#Am /#Ωm = 365 ⋅ . . . ⋅ (365 − m + 1)/365m = ∏ (1 − j/365). j=1
Deze kans is kleiner dan 1/2 zodra m ≥ 23. (3) (Het ontmoetingsprobleem.) N paren gaan naar een feest waar gedanst wordt. De gastheer vraagt zowel de mannen als de vrouwen nummers te trekken. Elke vrouw danst met de man die een identiek nummer heeft. Wat is de kans dat (a) geen enkel paar samen blijft en (b) precies k paren samen blijven? Oplossing. Stel Ω = alle permutaties van 1, . . . , N, waar de permutatie (j1 , . . . , jN ) betekent dat de vrouw die het nummer i heeft getrokken met de man van de vrouw danst die het nummer ji heeft getrokken. (a) Stel verder Ai = {de vrouw met het nummer i danst met haar man}, 1 ≤ i ≤ N. Dan geldt: P(⋃N j=1 Aj ) = P(tenminste een paar blijft samen) = 1 − P(geen paar blijft samen). We veronderstellen dat elke permutatie even waarschijnlijk is. Dan is het evident dat P(Ai ) = #{(j1 , . . . , jN ) ∈ Ω ∶ ji = i}/N ! = (N − 1)!/N ! = 1/N, 1 ≤ i ≤ N en algemeen voor i1 < . . . < ir en r ≥ 2 ∶ P(⋂rk=1 Aik ) = (N − r)!/N !, hetgeen via de formule van het in- en uitsluiten impliceert: N
N
i=1
r=1
P(⋃ Ai ) = ∑(−1)r+1 (
1 N (N − r)! N = ∑(−1)r+1 . ) r N! r! r=1
We kunnen nu concluderen dat N
P(geen paar blijft samen) = ∑(−1)r r=0
1 . r!
r De laatste som kunnen we voor N ≥ 5 door e−1 = ∑∞ r=0 (−1) /r! = 0, 36775... benaderen. Dus is de bovenstaande kans min of meer onafhankelijk van N (als N ≥ 5).
HOOFDSTUK 1. KANSRUIMTEN
6
(b) Uit deel (a) weten we dat het aantal permutaties (j1 , . . . , jm ) van (1, . . . , m) zodanig dat ji ≠ i, 1 ≤ i ≤ m gelijk is aan m 1 m! ∑(−1)r (m ≥ 2) r! r=0 en het is evident dat voor 1 ≤ k < N geldt: P(k paren blijven samen) = #{A ⊂ {1, . . . , N } ∶ #A = k} × #{permutaties van (1, . . . , N − k) zodat ji =/ i, 1 ≤ i ≤ N − k}/N ! N −k 1 N −k 1 1 1 N = ( (N − k)! ∑ (−1)r = ) ∑ (−1)r . k N! r! k! r=0 r! r=0 Deze formule klopt ook als k = N . (In dit geval is de kans gelijk aan 1/N !) Een benadering van de bovenstaande kans als k klein en N groot is, is e−1 /k!.
1.4
Voorwaardelijke kans
Om de definitie te motiveren bekijken we eerst een eenvoudig Voorbeeld. Werp een dobbelsteen. Dan is de kans dat we een “2” verkrijgen gelijk aan 1/6. Veronderstel nu dat we al over de informatie beschikken dat het aantal ogen even is. In dit geval kunnen we de originele uitkomstenverzameling Ω = {1, . . . , 6} vervangen door {2, 4, 6} en de voorwaardelijke (of conditionele) kans op “2”, gegeven dat het aantal ogen even is, is gelijk aan 1/3. Om de juiste definitie te vinden, veronderstellen we weer dat men een gegeven toevalsexperiment kan herhalen zodat al de uitkomsten onafhankelijk van elkaar zijn. Om de kans op en gebeurtenis B onder de voorwaarde dat een andere gebeurtenis A is opgetreden, te berekenen, beschouwen we de gewijzigde relatieve frequenties nA∩B /nA , waar weer nC het aantal van de eerste n experimenten met een uitkomst in C is. Als P(A) > 0 is, convergeren deze frequenties naar P(A∩B)/P(A) en het is dus voor de hand liggend dat we de voorwaardelijke kans op B gegeven A zo gaan defini¨eren. Definitie 1.4 Zij (Ω, F, P) een kansruimte en A ∈ F een gebeurtenis met P(A) > 0. Dan defini¨eren we voor elke gebeurtenis B ∈ F de voorwaardelijke kans op B, gegeven (dat de gebeurtenis) A (is opgetreden) door P(A ∩ B)/P(A). Notatie: P(B∣A). De volgende stelling is soms handig om voorwaardelijke kansen te berekenen. Stelling 1.2 Zij (Ω, F, P) een kansruimte, A ∈ F een gebeurtenis zodanig dat P(A) > 0. Dan is P(⋅∣A) ∶ F → [0, 1] een kansmaat. Bewijs. We noteren eerst dat P(Ω∣A) = P(Ω ∩ A)/P(A) = P(A)/P(A) = 1. Verder is Bn ∩ A, n ≥ 1 een rij disjuncte gebeurtenissen als de gebeurtenissen Bn , n ≥ 1 disjunct zijn. Dus geldt: ∞
∞
∞
∞
n=1
n=1
n=1
n=1
P( ⊍ Bn ∣A) = P( ⊍ (Bn ∩ A))/P(A) = ∑ P(Bn ∩ A)/P(A) = ∑ P(Bn ∣A) en het is duidelijk dat P(⋅∣A) een kans is. ⊔ ⊓
HOOFDSTUK 1. KANSRUIMTEN
7
Voorbeeld. Veronderstel dat er even veel meisjes als jongens geboren worden. Wat is dan de voorwaardelijke kans dat in een gezin met twee kinderen er zowel een jongen als een meisje is, als (a) het oudste kind een jongen is, (b) er tenminste ´e´en van de twee een jongen is? Oplossing. Stel Ω = {(J, J), (J, M ), (M, J), (M, M )} waar bv (M, J) betekent dat het oudste kind een meisje is en het jongste een jongen. Stel B = {(J, M ), (M, J)} de gebeurtenis dat er zowel een jongen als een meisje is. In (a) hebben we de informatie A = {(J, J), (J, M )} en bijgevolg: P(B∣A) = 1/2. In (b) stellen we A = {(J, M ), (M, J), (J, J)} en dus geldt P(B∣A) = 2/3. In het vorige voorbeeld hebben we de voorwaardelijke kans via de “gewone” kansen berekend. Er zijn echter meer toepassingen waar men voorwaardelijke kansen gebruikt om “gewone” kansen te berekenen. De twee volgende stellingen zijn daarvoor heel handig. Stelling 1.3 (Kettingregel) Zij (Ω, F, P) een kansruimte en A1 , . . . , An ∈ F (n ≥ 2) gebeurtenissen zodanig dat P(A1 ∩ . . . ∩ An−1 ) > 0. Dan geldt: P(A1 ∩ . . . ∩ An ) = P(A1 )P(A2 ∣A1 ) ⋅ . . . ⋅ P(An ∣A1 ∩ . . . ∩ An−1 ). Bewijs. via inductie. Voorbeeld. In een doos zitten 10 ballen, waarvan ´e´en blauw is. De andere ballen zijn rood. We vragen een groep van 10 personen dat iedereen en bal trekt (zonder terugleggen). De persoon die de blauwe bal trekt wint een prijs. Wat is de beste strategie? Is het een goed idee als eerste te trekken, of is het beter een beetje te wachten? Oplossing. We bewijzen via inductie dat iedereen de gelijke kans heeft de blauwe bal te trekken. (Dus ook de laatste persoon.) Stel Ai = {persoon i trekt de blauwe bal}, 1 ≤ i ≤ 10. Dan is het evident dat P(A1 ) = 1/10. Veronderstel nu dat P(A1 ) = . . . = P(Am−1 ) = 1/10, waar 2 ≤ m < n. c Dan volgt wegens Am ⊂ Acj , j =/ m, P(Am ) = P(Am ∩ ⋂m−1 j=1 Aj ) en dus m−1
m−1
m−1
j=1
j=1
j=1
P(Am ) = P( ⋂ Acj )P(Am ∣ ⋂ Acj ) = (1 − P( ⋃ Aj ))
1 . 10 − m + 1
Vermits de gebeurtenissen A1 , . . . , Am−1 disjunct zijn, volgt dat P(⋃m−1 j=1 Aj ) = (m − 1)/10 en we zien dat P(Am ) = 1/10. Stelling 1.4 (Wet van de totale kans) Zij (Ω, F, P) een kansruimte en zij Ai ∈ F, i ∈ I een partitie van Ω. Veronderstel dat P(Ai ) > 0, i ∈ I. Dan is I ten hoogste aftelbaar en voor elke gebeurtenis B ∈ F geldt: P(B) = ∑ P(B∣Ai )P(Ai ). i∈I
Bewijs. We tonen eerst aan dat I ten hoogste aftelbaar is. Stel Im ∶= {i ∈ I ∶ P(Ai ) ≥ 1/m}, m ≥ 1. Dan geldt #Im ≤ m omdat we anders indices i1 , . . . , im+1 konden vinden zodat P(Aij ) ≥ 1/m, 1 ≤ j ≤ m + 1. Maar dan was P(Ω) ≥ m+1 ∞ P(⊍m+1 j=1 Aij ) = ∑j=1 P(Aij ) ≥ 1 + 1/m, wat natuurlijk niet kan. Dus is I = ⋃m=1 Im als een aftelbare unie van eindige verzamelingen ten hoogste aftelbaar.
HOOFDSTUK 1. KANSRUIMTEN
8
Het is evident dat B = ⊍(B ∩ Ai ), i∈I
waar de gebeurtenissen B ∩ Ai , i ∈ I disjunct zijn. Gezien I ten hoogste aftelbaar is, volgt: P(B) = ∑ P(B ∩ Ai ) = ∑ P(B∣Ai )P(Ai ) i∈I
i∈I
en de stelling is bewezen. ⊔ ⊓ Voorbeeld. Ann werpt 3 muntstukken en Jan werpt 2 muntstukken. Ann krijgt 10 Euro van Jan als haar aantal “kop”groter is dan het aantal “kop”van Jan. Anders wint Jan 10 Euro. Is dit een goed spel voor Ann? Oplossing. Zij B de gebeurtenis dat Ann wint en stel voor i = 0, 1, 2, Ai = {Jan heeft i-keer kop geworpen} Dan geldt: P(B) = P(B∣A0 )P(A0 ) + P(B∣A1 )P(A1 ) + P(B∣A2 )P(A2 ), waar P(A0 ) = P(A2 ) = 1/4, P(A1 ) = 1/2. Zij verder Ki de gebeurtenis dat Ann i-keer kop heeft geworpen, 0 ≤ i ≤ 2. Dan geldt P(K0 ) = P(K3 ) = 1/8, P(K1 ) = P(K2 ) = 3/8 en dus P(B∣A0 ) = P(K1 ) + P(K2 ) + P(K3 ) = 7/8. Analoog volgt dat P(B∣A1 ) = 1/2 en P(B∣A2 ) = 1/8 en we zien dat P(B) = 1/2. Dus is het een fair spel. De volgende stelling is een onmiddellijk gevolg van de wet van de totale kans. Stelling 1.5 (De regel van Bayes) Zij (Ω, F, P) een kansruimte en zij Ai ∈ F, i ∈ I een partitie van Ω, waar P(Ai ) > 0, i ∈ I. Dan geldt voor i0 ∈ I: P(B∣Ai0 )P(Ai0 ) P(Ai0 ∣B) = ∑i∈I P(B∣Ai )P(Ai ) Voorbeeld (Betrouwbare medische testen) Een medisch test voor een bepaalde ziekte is positief in 99% van de gevallen waar de pati¨ent deze ziekte heeft. Maar hij geeft ook een vals “positief” resultaat in 1% van de gevallen waar de pati¨ent gezond is. Veronderstel dat 0,5% van de bevolking aan deze ziekte lijdt. Wat is de kans dat een pati¨ent ziek is als de test positief is? Oplossing. Zij B de gebeurtenis dat de test positief is en A de gebeurtenis dat de pati¨ent ziek is. Dan geldt: P(B∣A) = 0, 99, P(B∣Ac ) = 0, 01, P(A) = 0, 005 wat impliceert dat P(A∣B) =
495 99 1 (0, 99) ⋅ (0, 005) = = < . (0, 99) ⋅ (0, 005) + (0, 01) ⋅ (0, 995) 495 + 995 298 3
Dus is in dit geval de kans nog relatief klein dat de pati¨ent aan deze ziekte lijdt, hoewel het natuurlijk een dramatisch verschil in vergelijking met de originele kans van 0,005 is.
HOOFDSTUK 1. KANSRUIMTEN
1.5
9
Onafhankelijke gebeurtenissen
Zij (Ω, F, P) een kansruimte en A, B gebeurtenissen met P(A), P(B) > 0. We zeggen dat A onafhankelijk van B is als de voorwaardelijke kans op A, gegeven B gelijk aan de originele kans op A is. Dus, de informatie dat B gebeurd is vertelt ons niets over de kans op A die wij daarom niet kunnen wijzigen. Als we de definitie van “voorwaardelijke kans” gebruiken, zien we onmiddellijk dat P(A∣B) = P(A) impliceert dat P(A ∩ B) = P(A)P(B). Maar dit betekent ook dat P(B∣A) = P(B). Dus is “A onafhankelijk van B” hetzelfde als “B onafhankelijk van A” en we zeggen gewoon dat de twee gebeurtenissen A en B onafhankelijk zijn. Formeel defini¨eren we ook voor gebeurtenissen waar de kans gelijk aan 0 mag zijn: Definitie 1.5 Twee gebeurtenissen A, B ∈ F heten onafhankelijk indien P(A ∩ B) = P(A)P(B) . Opmerkingen 1. Als A een gebeurtenis met P(A) ∈ {0, 1} en B ∈ F een willekeurige gebeurtenis is, dan zijn A en B onafhankelijk. 2. Zij A, B ∈ F zodanig dat A ⊂ B en 0 < P(A) ≤ P(B) < 1. Dan zijn A en B afhankelijk (= niet onafhankelijk). Dit is evident omdat in dit geval P(B∣A) = 1. 3. Zij A, B ∈ F disjuncte niet-triviale gebeurtenissen (i.e met kans ∈ ]0, 1[). Dan zijn A, B weer afhankelijk. (Als we weten dat A gebeurd is, weten we zeker dat B niet gebeurd is. Dus kunnen deze twee gebeurtenissen niet onafhankelijk zijn.) 4. We concluderen dat als A, B niet-triviale, onafhankelijke gebeurtenissen zijn, ze niet disjunct mogen zijn en geen van de twee mag de andere omvatten. Voorbeeld. Werp twee keer een dobbelsteen en beschouw de gebeurtenissen A = {som van de ogen = 7}, B = {som van de ogen = 6}, C = {een drie de eerste keer}. Als we veronderstellen dat al de uitkomsten (i, j) ∈ {1, . . . , 6}2 even waarschijnlijk zijn, volgt dat P(A) = 1/6, P(B) = 5/36, P(C) = 1/6. Gezien P(A ∩ C) = P{(3, 4)} = 1/36 volgt dat A en C onafhankelijk zijn. Maar B en C zijn afhankelijk. Stelling 1.6 Zij A, B onafhankelijke gebeurtenissen. Dan geldt: (i) A en B c zijn onafhankelijk. (ii) Ac en B zijn onafhankelijk. (iii) Ac en B c zijn onafhankelijk. Bewijs. Het is voldoende (i) te bewijzen. ((ii) is equivalent met (i), en (iii) volgt na twee opeenvolgende toepassingen van (i).) Gezien A de unie van de twee disjuncte gebeurtenissen A∩B en A∩B c is, volgt onmiddellijk: P(A ∩ B c ) = P(A) − P(A ∩ B), hetgeen wegens de onafhankelijkheid van A en B gelijk is aan P(A) − P(A)P(B) = P(A)(1 − P(B)) = P(A)P(B c ), en de stelling is bewezen. ⊔ ⊓
HOOFDSTUK 1. KANSRUIMTEN
10
We bekijken nu gebeurtenissen Ai , i ∈ I, waar de indexverzameling I niet noodzakelijk aftelbaar is. Definitie 1.6 Zij Ai ∈ F, i ∈ I gebeurtenissen, waar I een verzameling is. (i) Ai , i ∈ I heet onafhankelijk indien voor elke eindige deelverzameling {i1 , . . . , ir } ⊂ I, r ≥ 2 geldt: r
r
j=1
j=1
P( ⋂ Aij ) = ∏ P(Aij ). (ii) Ai , i ∈ I heet paarsgewijs onafhankelijk indien P(Ai1 ∩ Ai2 ) = P(Ai1 )P(Ai2 ), i1 =/ i2 , i1 , i2 ∈ I. Opmerking Het is triviaal dat geldt “(i) ⇒ (ii)”. Het volgende elementaire voorbeeld toont aan dat de omgekeerde implicatie in het algemeen niet klopt. Voorbeeld Werp twee keer een dobbelsteen en bekijk de gebeurtenissen A = {som van de ogen = 7}, B = {een drie de eerste keer}, C = {een vier de tweede keer} We hebben al eerder bewezen dat A en B onafhankelijk zijn. Hetzelfde argument toont aan dat A en C onafhankelijk zijn. Het is ook evident dat B en C onafhankelijk zijn. Dus zijn deze gebeurtenissen paarsgewijs onafhankelijk. Ze zijn niet onafhankelijk omdat A ⊃ B ∩ C wat impliceert dat A en B ∩ C afhankelijk zijn. Maar als drie gebeurtenissen A, B, C onafhankelijk zijn, dan moeten ook de twee gebeurtenissen A, B ∩ C onafhankelijk zijn. Stelling 1.7 Zij Ai , i ∈ I onafhankelijke gebeurtenissen en Ij , j ∈ J disjuncte deelverzamelingen van I. Als we voor elke j een gebeurtenis Bj uit de klasse Bj - de gebeurtenissen die uit Ai , i ∈ Ij verkrijgbaar zijn (waar men ten hoogste aftelbaar veel operaties zoals ∩, ∪, △,c gebruikt)- kiest, dan zijn de gebeurtenissen Bj , j ∈ J onafhankelijk. Bewijs via onafhankelijkheid van σ-algebra’s (zie maattheorie, bachelor 3). In 2.1 zullen we reeds de precieze wiskundige definitie van Bj geven. Natuurlijk impliceert stelling 1.7 stelling 1.6. Voorbeelden 1. Als An , n ≥ 1 onafhankelijke gebeurtenissen zijn, dan zijn ook de gebeurtenissen A1 , A2 ∩ A5 , A3 △ A10 , ∪∞ n=5 A2n+1 onafhankelijk. 2. A, B, C onafhankelijk ⇒ A, B ∪ C onafhankelijk. (Oefening: Geef een direct bewijs.) Definitie 1.7 Een experiment met twee mogelijke uitkomsten waarvan men ´e´en “succes”(en de andere “mislukking”) noemt, heet een Bernoulli(p)-experiment als de kans op succes p is. Probleem Veronderstel dat men een bepaald Bernoulli(p)-experiment n keer kan uitvoeren zodat de gebeurtenissen Ai = {i-de experiment succes}, 1 ≤ i ≤ n onafhankelijk zijn. Wat is dan de kans dat er precies k successen zijn (0 ≤ k ≤ n)?
HOOFDSTUK 1. KANSRUIMTEN
11
Oplossing Zij Bk de gebeurtenis dat er precies k successen zijn. Dan is het evident dat n
n
i=1
i=1
P(B0 ) = P(⋂ Aci ) = ∏ P(Aci ) = (1 − p)n . Analoog volgt dat P(Bn ) = pn . Als 1 ≤ k ≤ n − 1, dan geldt Bk =
⊍
( ⋂ Ai ∩ ⋂ Aci ).
K⊂{1,...,n} #K=k
i∈K
i∈K c
Uit stelling 1.7 volgt dat de n gebeurtenissen Ai , i ∈ K, Aci , i ∈/ K onafhankelijk zijn en dus geldt P( ⋂ Ai ∩ ⋂ Aci ) = pk (1 − p)n−k als #K = k. i∈K
i∈K c
Vermits de gebeurtenissen ⋂ Ai ∩ ⋂ Aci , K ⊂ {1, . . . , n} disjunct zijn, volgt dat i∈K
i∈K c
P(Bk ) = #{K ⊂ {1, . . . , n} ∶ #K = k}pk (1 − p)n−k = (
n ) pk (1 − p)n−k , 1 ≤ k ≤ n, k
wat ook juist is als k ∈ {0, n}. Voorbeeld Werp een dobbelsteen 5 keer. Wat is de kans op (a) minstens 2 keer “5”, (b) precies 3 keer een even getal? Oplossing (a) In dit geval gaat het om een Bernoulli(1/6)-experiment. Dus is de kans in (a) gelijk aan 1 − P{geen 5} − P{´e´en 5} = 1 − (5/6)5 − 5(1/6)(5/6)4 = 0, 1962.. (b) Nu is de kans op succes gelijk aan 1/2. Dus: P{3 successen} = (
5 1 ) = 0, 3125. 3 32
Hoofdstuk 2 Toevalsvariabelen en verdelingen 2.1
Meetbare afbeeldingen
Stelling 2.1 Zij Ω een niet-lege verzameling en A een klasse van delen van Ω. Er bestaat een kleinste σ-algebra op Ω die A bevat. We noemen deze de σ-algebra voortgebracht door de klasse A. Notatie: σ(A). Bewijs Zij KA de klasse van al de σ-algebra’s op Ω die A bevatten. (Deze is niet leeg omdat geldt 2Ω ∈ KA .) Stel F0 = ⋂G∈KA G. Het is evident dat F0 als een doorsnede van σ-algebra’s op Ω weer een σ-algebra op Ω is. Verder volgt uit de definitie van KA dat F0 de klasse A bevat. Gezien elke σ-algebra G met deze eigenschap in KA zit, volgt dat F0 ⊂ G en dus is F0 de kleinste σ-algebra die A bevat. ⊔ ⊓ Opmerking. We kunnen nu de klassen Bj in stelling 1.7 formeel defini¨eren als Bj = σ({Ai ∶ i ∈ Ij }), j ∈ J. Definitie 2.1 De k-dimensionale Borel-σ-algebra is de σ-algebra op Rk voortgebracht door de open verzamelingen van Rk . Notatie: Rk en R = R1 . We noemen een koppel (Ω, F), waar Ω een niet-lege verzameling en F een σ-algebra op Ω is, een meetbare ruimte. Definitie 2.2 Veronderstel dat (Ω, F), (Ω′ , F ′ ) meetbare ruimten zijn. (i) Een afbeelding T ∶ Ω → Ω′ heet F, F ′ -meetbaar indien T −1 A′ ∶= {ω ∈ Ω ∶ T (ω) ∈ A′ } ∈ F ∀A′ ∈ F ′ (ii) Een functie f ∶ Ω → R (een afbeelding f = (f1 , . . . , fk ) ∶ Ω → Rk ) heet F-meetbaar indien deze F, R-meetbaar (F, Rk -meetbaar) is. Stelling 2.2 (i) Zij F ′ = σ(A′ ). Dan geldt: T −1 A′ ∈ F ∀A′ ∈ A′ ⇒ T is F, F ′ -meetbaar. (ii) Zij T1 ∶ Ω1 → Ω2 F1 , F2 -meetbaar en T2 ∶ Ω2 → Ω3 F2 , F3 -meetbaar. Dan geldt: T2 ○ T1 ∶ Ω1 → Ω3 is F1 , F3 -meetbaar. 12
HOOFDSTUK 2. TOEVALSVARIABELEN EN VERDELINGEN
13
Bewijs (i) Stel S ′ ∶= {A′ ∈ F ′ ∶ T −1 A′ ∈ F}. Dan is S ′ een σ-algebra (oefening) en S ′ ⊃ A′ , hetgeen impliceert dat S ′ ⊃ F ′ . Dus is T F, F ′ -meetbaar. (ii) (T2 ○ T1 )−1 (A3 ) = T1−1 (T2−1 (A3 )) ∈ F1 , ∀A3 ∈ F3 . ⊔ ⊓ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ ∈F2
Stelling 2.3 (i) f ∶ Rk1 → Rk2 continu ⇒ f Rk1 -meetbaar. (ii) f = (f1 , . . . , fk ) ∶ Ω → Rk F-meetbaar ⇐⇒ fi ∶ Ω → R F-meetbaar, 1 ≤ i ≤ k. (iii) fi ∶ Ω → R F-meetbaar, 1 ≤ i ≤ k, g ∶ Rk → R continu ⇒ ω → g(f1 (ω), . . . , fk (ω)) is F-meetbaar. Bewijs (i) Gezien Rk2 de σ-algebra voortgebracht door de open verzamelingen in Rk2 is, is het voldoende aan te tonen dat f −1 G ∈ Rk1 ∀G ⊂ Rk2 open. Omdat f continu is, is f −1 G open in Rk1 en dus een k1 -dimensionale Borelverzameling is. (ii) ⇒ We hebben fi = πi ○ f, waar de projectie πi (x1 , . . . , xk ) = xi continu en bijgevolg Rk -meetbaar is. Dus is fi als een compositie van meetbare afbeeldingen zelf meetbaar. (i = 1, . . . , k) ⇐ We kunnen elke open verzameling in Rk opschrijven als een aftelbare unie van verzamelingen uit de klasse k
A = {∏]ai , bi [∶ −∞ < ai ≤ bi < ∞, 1 ≤ i ≤ k}, i=1
wat natuurlijk impliceert dat Rk = σ(A).Gezien k
k
f −1 (∏]ai , bi [) = ⋂ fi−1 (]ai , bi [) ∈ F i=1 ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ i=1 ∈F
volgt uit stelling 2.2.i dat f F-meetbaar is. (iii) Volgt onmiddellijk uit (i), (ii) en deel (ii) van stelling 2.2. ⊔ ⊓ Voorbeeld Neem twee F-meetbare functies f1 , f2 ∶ Ω → R F. Dan zijn functies zoals f12 , ∣f1 ∣, f1 + f2 , f1 ⋅ f2 , . . . weer F-meetbaar.
2.2
Toevalsvariabelen
Als (Ω, F, P) een kansruimte is, noemen we de F-meetbare functies toevalsvariabelen en duiden ze meestal door hoofdletters zoals X, Y, Z, . . . aan. We noteren de gebeurtenissen X −1 A met {X ∈ A}, A ∈ R. Stelling 2.4 Zij X ∶ Ω → R een toevalsvariabele. Dan is µ(A) ∶= P{X ∈ A}, A ∈ R een kansmaat. We noemen deze de verdeling van X. Notatie: PX
HOOFDSTUK 2. TOEVALSVARIABELEN EN VERDELINGEN
14
Bewijs. Gezien X F-meetbaar is, is µ(A) altijd gedefinieerd voor A ∈ R. Verder is het evident dat {X ∈ R} = Ω en bijgevolg µ(R) = 1. Als An , n ≥ 1 disjuncte Borel-verzamelingen zijn, dan zijn de verzamelingen {X ∈ An } = X −1 (An ), n ≥ 1 disjuncte gebeurtenissen in F en het volgt dat ∞
∞
∞
∞
∞
n=1
n=1
n=1
n=1
n=1
µ( ⊍ An ) = P(X −1 ( ⊍ An )) = P( ⊍ X −1 (An )) = ∑ P(X ∈ An ) = ∑ µ(An ). Dus is µ ook σ-additief en bijgevolg een kansmaat. ⊔ ⊓ Definitie 2.3 Zij X ∶ Ω → R een toevalsvariabele. Dan heet de functie F (x) ∶= P{X ≤ x} = PX (] − ∞, x]), x ∈ R de verdelingsfunctie van X. Stelling 2.5 Zij F (x), x ∈ R de verdelingsfunctie van een toevalsvariabele X ∶ Ω → R. Dan geldt: (i) x → F (x) is monotoon niet-dalend (ii) F is rechts continu (iii) limx→∞ F (x) = 1, limx→−∞ F (x) = 0. (iv) F is continu in a ⇔ P{X = a} = 0. Bewijs (i) x1 ≤ x2 ⇒ {X ≤ x1 } ⊂ {X ≤ x2 }. Gezien P monotoon is (eigenschap (4) van kansmaten in 1.2) volgt dat F (x1 ) = P{X ≤ x1 } ≤ P{X ≤ x2 } = F (x2 ). (ii) Het is voldoende te bewijzen dat geldt: xn ↘ x ⇒ F (xn ) → F (x). In dit geval is {X ≤ xn } een dalende rij van gebeurtenissen met limiet gelijk aan {X ≤ x}. Gezien P continu van boven is volgt dat F (xn ) = P{X ≤ xn } → P{X ≤ x} = F (x). (iii) Analoog bewijs. (iv) We noteren eerst dat xn < a, xn ↗ a impliceert dat F (xn ) → P{X < a}. (Dit volgt omdat nu {X ≤ xn } een stijgende rij van gebeurtenissen is met limiet {X < a}.) Dus geldt: F (a−) = F (a) − P{X = a}. Gezien F rechts continu is en dus F (a+) = F (a) is het nu evident dat F continu in a is als en slechts als P{X = a} = 0. ⊔ ⊓ Opmerkingen 1. Deel (iv) van stelling 2.5 impliceert dat het aantal discontinu¨ıteitspunten van F ten hoogste aftelbaar is (zie bewijs van stelling 1.4). 2. Uit een van de hoofdstellingen van de maattheorie (de uitbreidingsstelling, zie maattheorie, bachelor 3) volgt dat voor elke functie F die aan de drie voorwaarden (i) - (iii) voldoet, er een kansmaat µ op R bestaat zodat geldt: F (x) = µ(] − ∞, x]), x ∈ R. 3. Bovendien kan men bewijzen dat deze kansmaat uniek is. Dus als we weten dat twee toevalsvariabelen dezelfde verdelingsfunctie hebben, kunnen we concluderen dat hun verdelingen overeenstemmen.
2.3
Discrete toevalsvariabelen
Toevalsvariabelen die ten hoogste aftelbaar veel waarden kunnen aannemen noemen we discrete toevalsvariabelen. Toevalsvariabelen waar maar eindig veel waarden mogelijk zijn heten elementaire toevalsvariabelen.
HOOFDSTUK 2. TOEVALSVARIABELEN EN VERDELINGEN
15
Algemeen is het voldoende voor discrete toevalsvariabelen de kansfunctie te bepalen, i.e. p(x) = P{X = x}, x ∈ R. Per definitie geldt dan P{X ∈ S} = 1, waar S ∶= {x ∶ p(x) > 0} ten hoogste aftelbaar is en we kunnen kansen P{X ∈ A} onmiddellijk via de formule P{X ∈ A} = ∑ p(x) x∈S∩A
berekenen. (De verdelingsfunctie is in dit geval een trapfunctie met discontinu¨ıteitspunten in S en het geldt F (x) − F (x−) = p(x), x ∈ S.) Voorbeelden 1. Zij A ∈ F een gebeurtenis met P(A) = p. Dan heeft de toevalsvariabele(!) IA (ga na dat deze F-meetbaar is) een Bernoulli(p)-verdeling. In dit geval geldt S = {0, 1} en p(0) = (1 − p), p(1) = p. 2. Zij A1 , . . . , An onafhankelijke gebeurtenissen met P(Ai ) = p, 1 ≤ i ≤ n. Stel X = ∑ni=1 IAi . Vermits IAi , 1 ≤ i ≤ n toevalsvariabelen zijn, volgt uit stelling 2.3.iii dat ook X een toevalsvariabele is. Het is evident dat S = {0, . . . , n}. Gezien we Ai als de gebeurtenis “succes”bij het i-de van n onafhankelijke Bernoulli(p)-experimenten kunnen beschouwen, volgt zoals in hoofdstuk 1.5 dat voor de kansfunctie van deze toevalsvariabele geldt: n p(k) = ( ) pk (1 − p)n−k , 0 ≤ k ≤ n. k De verdeling van deze toevalsvariabele heet de binomiaal(n,p)-verdeling. (Natuurlijk is de Bernoulli(p)-verdeling het speciale geval daarvan, waar n = 1.) 3. Werp een muntstuk waar de kans op “kop”gelijk aan p is, totdat je de eerste keer kop krijgt. Stel X = # worpen. Dan zijn natuurlijk de mogelijke waarden: 1, 2, 3, . . . Als we onderstellen dat de worpen onafhankelijk van elkaar zijn, volgt dat p(1) = P{X = 1} = P{de eerste worp: kop} = p en verder geldt er voor k ≥ 2 ∶ p(k) = P{X = k} = P{(k − 1) keer munt en dan kop} = (1 − p)k−1 p. Deze verdeling heet de geometrische verdeling met parameter p. 4. Als we in het vorige voorbeeld het muntstuk werpen totdat we de r-de keer “kop”hebben gekregen, heeft de toevalsvariabele X = # worpen een negatief-binomiaal(r,p)verdeling. We hebben in dit geval: S = {r, r + 1, . . .} en de kansfunctie is gegeven door k−1 p(k) = ( ) pr (1 − p)k−r , k = r, r + 1, . . . r−1 (Als r = 1 verkrijgen we weer de geometrisch(p)-verdeling.)
HOOFDSTUK 2. TOEVALSVARIABELEN EN VERDELINGEN
16
5. In een vaas zitten M blauwe ballen en N gele ballen. Wij trekken n ballen (a) met terugleggen, (b) zonder terugleggen (n ≤ N + M ). Stel X = # getrokken blauwe ballen. In geval (a) heeft X een binomiaal(n,M/(M+N))verdeling. In geval (b) geldt:
P{X = k} =
(
M N )( ) k n−k M +N ( ) n
, max(0, n − N ) ≤ k ≤ min(n, M ).
We noemen deze verdeling de hypergeometrische verdeling. Als min(N, M ) groot is en n in vergelijking relatief klein, kunnen we echter de kansfunctie van de hypergeometrische verdeling door de binomiale kansfunctie benaderen. 6. Zij voor elke n ≥ 1 Xn binomiaal(n, pn )-verdeeld en veronderstel dat npn → λ ∈]0, ∞[ als n → ∞. Dan geldt voor k ≥ 0 en n ≥ k ∶ P{Xn = k} = (
j−1 1 k n )(npn )k (1 − pn )n (1 − pn )−k . ) pkn (1 − pn )n−k = ∏(1 − k k! j=1 n
npn n k k −λ Als n → ∞ (en k vast blijft) volgt dat ∏kj=1 (1 − j−1 n ) → 1, (npn ) → λ , (1 − n ) → e (omdat npn → λ) en natuurlijk (1 − pn )−k → 1 (wegens pn → 0). Dus geldt:
1 k −λ λ e =∶ p(k), k = 0, 1, . . . k! Wegens ∑k≥0 p(k) = 1 volgt dat p(k), k ≥ 0 een kansfunctie is en we noemen de daardoor bepaalde verdeling de Poisson-verdeling met parameter λ. Als we nog een keer het ontmoetingsprobleem (zie hoofdstuk 1.3) bekijken zien we dat de toevalsvariabele X = het aantal paren die samen blijven, in benadering een Poisson(1)-toevalsvariabele is. Maar we kunnen dit niet via het bovenstaande argument bewijzen omdat we wel hebben dat X = ∑i IAi , waar Ai de gebeurtenis is dat het i-de paar samen blijft, 1 ≤ i ≤ N , maar deze gebeurtenissen zijn niet onafhankelijk. Dus is X geen binomiaalverdeelde toevalsvariabele, maar convergeert nog steeds naar een Poissonverdeling als N → ∞. P{Xn = k} →
2.4
Absoluut continue verdelingen
We bekijken nu toevalsvariabelen die meer dan aftelbaar veel waarden aannemen. Velen van deze hebben een absoluut continue verdeling. Definitie 2.4 Een kansmaat µ op R heet absoluut continu als de verdelingsfunctie x → F (x) continu is en er een Borel-meetbare functie f ∶ R → [0, ∞[ bestaat zodanig dat F (x) = ∫ We noemen f de dichtheidsfunctie van µ.
x −∞
f (t)dt, x ∈ R.
HOOFDSTUK 2. TOEVALSVARIABELEN EN VERDELINGEN
17
Opmerkingen 1. De integraal in de definitie van F is de Lebesgue-integraal die voor elke positieve Borel-meetbare functie bestaat (met een waarde in [0, ∞]). Deze wordt formeel in de maattheorie (Bachelor 3) gedefinieerd. In deze cursus bekijken we bijna uitsluitend functies f die ook Riemann-integreerbaar zijn. Men kan tonen dat als f ≥ 0 en de Riemann-integraal bestaat, deze gelijk aan de Lebesgue-integraal is en dus is de Riemann-integraal (nog) voldoende. 2. Vermits verdelingen door hun verdelingsfuncties bepaald zijn, geldt natuurlijk voor elke Borelverzameling A ∈ R: µ(A) = ∫A f (t)dt. Verder volgt als X een toevalsvariabele met een absoluut continue verdeling is: P{X = x} = 0 ∀x ∈ R. Met behulp van de volgende stelling kunnen we vaak aantonen dat een gegeven verdeling absoluut continu is. Het niet-triviale bewijs daarvan wordt hier niet gegeven. Stelling 2.6 Als µ een kansmaat op R met een continue verdelingsfunctie F is, die behoudens in hoogstens aftelbaar veel punten een afgeleide F ′ bezit, dan is µ absoluut continu en we kunnen de dichtheidsfunctie defini¨eren door f (t) = {
F ′ (t) als F differentieerbaar in t is 0 elders
Opmerkingen De voorwaarde “de verdelingsfunctie F is continu” is belangrijk omdat elke verdelingsfunctie van een elementaire toevalsvariabele aan de tweede voorwaarde voldoet. (In dit geval is F ′ (t) = 0 voor alle punten t waar F continu is.) Er bestaan ook kansmaten met continue verdelingsfuncties die niet absoluut continu zijn. Deze spelen echter geen belangrijke rol in de toepassingen van de kanstheorie. Verder bestaan er absoluut continue verdelingen waar de verdelingsfuncties geen afgeleide bezitten voor meer dan aftelbaar veel punten (en stelling 2.6 niet van toepassing is). De volgende stelling toont dat men in dit geval ten minste voor de continu¨ıteitspunten van f deze door differenti¨eren van de verdelingsfunctie kan verkrijgen. Stelling 2.7 Zij X een toevalsvariabele met een absoluut continue verdeling. Dan is de verdelingsfunctie van X differentieerbaar in alle punten waar de dichtheidsfunctie f continu is. Bewijs h1 (F (x + h) − F (x)) = { h → 0 en f continu in x is. ⊔ ⊓
1 h P{x < X ≤ x + h} − h1 P{x + h < X ≤ x}
als h > 0 = als h < 0
1 h
x+h
∫x
f (t)dt → f (x) als
Zoals in het discrete geval bekijken we weer enkele speciale verdelingen. Voorbeelden van absoluut continue verdelingen (1) Zij a < b. Dan is de uniform(a,b)-verdeling de absoluut continue verdeling met dichtheidsfunctie 1 als t ∈]a, b[ f (t) = { b−a 0 als t ∈/]a, b[
HOOFDSTUK 2. TOEVALSVARIABELEN EN VERDELINGEN
18
Deze verdeling is een goed model voor een toevalsvariabele waar men weet dat waarden tussen a en b mogelijk zijn en voor deelintervallen van ]a, b[ die dezelfde lengte hebben de kans dat X in zo’n interval zit identiek is. Random getallen op de computer (hoewel deze een resultaat van een deterministische algoritme zijn) beschouwt men als de waarden van een uniform(0,1)-toevalsvariabele. Deze zijn handig omdat men toevalsvariabelen met een willekeurige andere verdeling door een transformatie van uniform(0,1)-toevalsvariabelen kan verkrijgen. Stelling 2.8 Zij F ∶ R → [0, 1] een verdelingsfunctie. Stel φ(u) ∶= inf{x ∶ F (x) ≥ u}, 0 < u < 1. Als U ∶ Ω →]0, 1[ uniform(0,1)-verdeeld is, heeft de toevalsvariabele X ∶= φ ○ U de door F bepaalde verdeling. Bewijs. We noteren eerst dat φ(u) ∈ R, u ∈]0, 1[. Bovendien geldt: {x ∶ F (x) ≥ u} = [φ(u), ∞[ (”⊂” is triviaal. ”⊃” Zij x ≥ φ(u) Uit de definitie van φ(u) als een infimum volgt dat er een rij xn ↘ φ(u) ≤ x bestaat zodanig dat F (xn ) ≥ u wat impliceert dat F (φ(u)) ≥ u omdat F rechts continu is. Maar F is ook monotoon. Dus F (x) ≥ F (φ(u)) ≥ u.) We concluderen dat {ω ∶ X(ω) ≤ x} = {ω ∶ φ(U (ω) ≤ x} = {ω ∶ U (ω) ≤ F (x)} Dit toont dat X F-meetbaar is (gebruik stelling 2.2.i en het feit dat R = σ({]−∞, x] ∶ x ∈ R}) en verder dat P{X ≤ x} = P{U ≤ F (x)} = F (x), x ∈ R. ⊔ ⊓ Opmerkingen. Als er een open interval I =]a, b[ bestaat (eindig of oneindig) zodat F ∣I ∶ I →]0, 1[ een 1-1 -afbeelding is, dan is φ gelijk aan de inverse afbeelding (F ∣I )−1 ∶]0, 1[→ I. Vandaar dat we φ ook de gegeneraliseerde inverse afbeelding van F noemen. Verder is het niet moeilijk te zien dat φ altijd links continu is (als gevolg van het feit dat F rechts continu is). Oefening Zij F de verdelingsfunctie van een Bernoulli(p)-toevalsvariabele, dus : F (x) = 0, x < 0, F (x) = 1 − p, 0 ≤ x < 1, F (x) = 1, x ≥ 1. Bepaal φ. (Antwoord: φ = I]1−p,1[ .) (2) De gamma-verdelingen. Herinnering (analyse): de gamma-functie is gedefinieerd door: Γ(α) ∶= ∫
∞ 0
e−y y α−1 dy, α > 0.
Verder geldt (parti¨ele integratie): Γ(α) = (α − 1)Γ(α − 1), α > 1, en bijgevolg: Γ(k) = (k − 1)!, k = 1, 2, . . . Als α, β > 0 stellen we fα,β (x) = {
xα−1 e−x/β β −α /Γ(α) als x ≥ 0 0 als x < 0
HOOFDSTUK 2. TOEVALSVARIABELEN EN VERDELINGEN
19
∞
Gezien ∫0 fα,β (x)dx = 1 (narekenen, substitutie), kunnen we een absoluut continue verdeling met fα,β als dichtheidsfunctie defini¨eren. We noemen deze de gamma(α, β)-verdeling. In het speciale geval α = 1 spreken we ook van een exponenti¨ ele verdeling met parameter −x/β β. (in dit geval is de dichtheidsfunctie f1,β (x) = e /β, x > 0.) 3
2,5
2
gamma(.5,1) 1,5
1
gamma(1,1) gamma(3,1)
0,5
-0,5
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
5
(3) Normaalverdelingen. 2 ∞ Stel ϕ(x) = √12π e−x /2 , x ∈ R. Ga na dat ∫−∞ ϕ(x) = 1. 2 2 2 ∞ ∞ ∞ (Hint:(∫−∞ e−x /2 dx)2 = ∫−∞ ∫−∞ e−(x +y )/2 dxdy waar de dubbelintegraal gemakkelijk via een transformatie naar poolco¨ordinaten te berekenen is.) 0,5
normal(0,1)
0,4
0,3
0,2
0,1
-3
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
3
-0,1
Dus is ϕ de dichtheidsfunctie van een absoluut continue verdeling die we de standaardnormaal-verdeling noemen. We noteren de verdelingsfunctie van de standaard-normaal-verdeling met Φ, dus x 1 2 Φ(x) = √ ∫ e−t /2 dt, x ∈ R, 2π −∞
waarvoor geen eenvoudige formule bestaat zodat we meestal een tabel of een computerprogramma moeten gebruiken om Φ(x) te bepalen.
HOOFDSTUK 2. TOEVALSVARIABELEN EN VERDELINGEN
20
Definitie 2.5 Een toevalsvariabele heeft een normaal(µ, σ 2 )-verdeling indien deze absoluut continu met dichtheidsfunctie x → ϕ((x − µ)/σ)/σ is. Lemma 2.1 Zij X een toevalsvariabele met normaal(µ, σ 2 )-verdeling. Dan heeft Z = (X − µ)/σ een standaard-normaalverdeling. Bewijs Via de substitutie z = (t − µ)/σ volgt: µ+xσ x P{Z ≤ x} = P{X ≤ µ + σx} = ∫−∞ σ −1 ϕ((t − µ)/σ)dt = ∫−∞ ϕ(z)dz = Φ(x), x ∈ R.⊔ ⊓ Als we kansen voor algemene normaalverdeelde toevalsvariabelen moeten berekenen, kunnen we deze altijd via lemma 2.1 herschrijven als kansen betreffende standaard-normaalverdeelde toevalsvariabelen. De volgende stelling is belangrijk voor de statistiek. Stelling 2.9 Zij Z een standaard-normaalverdeelde toevalsvariabele. Dan heeft Z 2 een gamma(1/2,2)-verdeling. Bewijs Voor de√verdelingsfunctie F√van Z 2 geldt: √ F (x) = P{∣Z∣ ≤ x} = Φ( x) − Φ(− x), x ≥ 0 en (triviaal) F (x) = 0, x < 0. Dus is F continu en verder bestaat F ′ (x), x =/ 0 en we kunnen via stelling 2.7 concluderen dat Z 2 een dichtheidsfunctie f√ heeft gegeven door √ √ √ f (x) = (Φ′ ( x) − Φ′ (− x)/(2 x) = x−1/2 e−x/2 / 2π, x > 0 en f (x) = 0, x ≤ 0. Dus geldt: f (x) = cf1/2,2 (x), x ∈ R, waar f1/2,2 de gamma(1/2,2)-dichtheidsfunctie en c > 0 een constante is. Gezien het om twee dichtheidsfuncties gaat (waar dus de√integraal over R gelijk aan 1 is) ⊓ volgt dat c = 1. (Dit impliceert trouwens ook dat Γ(1/2) = π.) ⊔ De vorige stelling toont aan dat als X een standaard-normaalverdeelde toevalsvariabele is en g(x) = x2 , x ∈ R, de toevalsvariabele g ○ X een absoluut continue verdeling heeft en specificeert de dichtheidsfunctie. Transformatie van dichtheidsfuncties Een generalisatie daarvan is de volgende stelling waar we ”m-1-afbeeldingen”bekijken. (Natuurlijk kunnen we zo’n stelling niet voor willekeurige afbeeldingen bewijzen omdat als g(R) eindig of aftelbaar is, g ○ X een discrete verdeling heeft.) Stelling 2.10 Zij X ∶ Ω → R een toevalsvariabele met absoluut continue verdeling en dichtheidsfunctie fX , g ∶ R → R Borel-meetbaar en Ii , 1 ≤ i ≤ m disjuncte open intervallen (eindig of oneindig) zodanig dat (i) ∑m i=1 P{X ∈ Ii } = 1 (ii) g(Ii ) =]c, d[, 1 ≤ i ≤ m, waar c, d ∈ [−∞, ∞]. (iii) gi ∶= g∣Ii ∶ Ii →]c, d[ is differentieerbaar met een continue afgeleide gi′ (a) =/ 0, a ∈ Ii . Dan is de verdeling van Y = g ○ X ook absoluut continu met dichtheidsfunctie fY (y) = {
∑i=1 ∣g′ (h1i (y))∣ fX (hi (y)) 0 m
als y ∈]c, d[ als y ∈/]c, d[
waarbij hi = gi−1 ∶]c, d[→ Ii de inverse functie van gi is. (1 ≤ i ≤ m)
HOOFDSTUK 2. TOEVALSVARIABELEN EN VERDELINGEN
21
Bewijs Zij x ∈]c, d[. Dan volgt: m
P{Y ≤ x} = ∑ P{g ○ X ≤ x, X ∈ Ii =]ai , bi [} i=1
= =
∑ P{X ≤ hi (x), X ∈]ai , bi [} + ∑ P{X ≥ hi (x), X ∈]ai , bi [}
i∶gi′ >0
i∶gi′ <0
∑ ∫ a
i∶gi′ >0 m
hi (x)
i
bi
fX (t)dt + ∑ ∫ fX (t)dt h (x) i∶gi′ <0
i
x
= ∑ ∫ ∣h′i (y)∣fX (hi (y))dy (substitutie: x = hi (y) of y = gi (x), 1 ≤ i ≤ m) c i=1
x m 1 = ∫ ∑ ′ fX (hi (y))dy c i=1 ∣g (hi (y))∣
Dus heeft Y dezelfde verdelingsfunctie als de absoluut continue kansmaat met de bovenstaande dichtheidsfunctie. Dit impliceert dat deze dan ook de verdeling van Y moet zijn (zie opmerking (2), hoofdstuk 2.2).⊔ ⊓ Voorbeelden 1. Als X een toevalsvariabele met P{X ∈]a, b[} = 1, g ∶]a, b[→]c, d[ een 1-1-afbeelding met continue afgeleide g ′ (t) =/ 0, t ∈]a, b[ is en h ∶]c, d[→]a, b[ de inverse afbeelding van g is, dan geldt voor de dichtheidsfunctie fY van Y = g ○ X: ⎧ 1 ⎪ fX (h(y)) y ∈]c, d[ ⎪ ∣g′ (h(y))∣ fY (y) = ⎨ ⎪ elders. ⎪ ⎩0 Bijvoorbeeld, als X uniform(0,1)-verdeeld is volgt dat Y = − log(X) een exponenti¨ele verdeling met parameter 1 heeft. (Stel g(x) = − log(x), x ∈]0, 1[.) 2. Zij X een toevalsvariabele met absoluut continue verdeling en dichtheidsfunctie fX . Dan heeft de toevalsvariabele X 2 altijd een absoluut continue verdeling met dichtheidsfunctie g = fX 2 die voldoet aan √ √ 1 g(y) = √ (fX ( y) + fX (− y)), y > 0. 2 y Om dit via stelling 2.11 te bewijzen, stellen we g(x) = x2 , x ∈ R, I1 =]0, ∞[, I2 =] − ∞, 0[ en ]c, d[=]0, ∞[. √ √ Dan is h1 (y) = y, h2 (y) = − y, y > 0 en we verkrijgen onmiddellijk de bovenstaande formule voor g. Als X standaard-normaalverdeeld is, kunnen we ook via bovenstaande formule tonen dat X 2 een gamma(1/2,2)-verdeling heeft. We kunnen verder concluderen dat als X een toevalsvariabele met een uniform(0,1)verdeling is, dwz fX = I]0,1[ , we hebben: als 0 < y < 1 0 elders √ (Hier hebben we het triviale feit gebruikt dat I]0,1[ (− y) = 0, y > 0.) g(y) = {
1 √ 2 y
Hoofdstuk 3 Toevalsvectoren en verdelingen 3.1
Gezamenlijke en marginale verdelingsfuncties
⃗ ∶ Ω → Rk Zij (Ω, F, P) een kansruimte. We noemen dan de F-meetbare afbeeldingen X ⃗ = (X1 , . . . , Xk ) ∶ Ω → Rk de (k-dimensionale) toevalsvectoren. Uit stelling 2.3 volgt dat X toevalsvector is als en slechts als Xi ∶ Ω → R toevalsvariabelen zijn, 1 ≤ i ≤ k. Dus als X1 , X2 toevalsvariabelen zijn en we kansen zoals P{X1 > X2 }, P{X1 +X2 ≤ x} moeten berekenen, kunnen we deze als kansen betreffende een 2-dimensionale toevalsvector beschouwen, dwz als P{(X1 , X2 ) ∈ A} voor een tweedimensionale Borelverzameling. Definitie 3.1 Als X1 , . . . , Xk toevalsvariabelen zijn, noemen we de door P{(X1 , . . . , Xk ) ∈ A}, A ∈ Rk gedefinieerde kansmaat de gezamenlijke verdeling van X1 , . . . , Xk of de verdeling van ⃗ = (X1 , . . . , Xk )t . Notatie: P ⃗ . de toevalsvector X X Dat we op deze manier een kansmaat verkrijgen, volgt precies zoals in stelling 2.4. We noemen dan verder de (1-dimensionale) verdelingen van de toevalsvariabelen X1 , . . . , Xk de marginale verdelingen. Als we de gezamenlijke verdeling kennen, kunnen we de marginale verdeling onmiddellijk bepalen (bijvoorbeeld geldt: P{X1 ∈ B} = P{(X1 , . . . , Xk ) ∈ B ×Rk−1 }), maar in het algemeen kunnen we niet de gezamenlijke verdeling bepalen, als we maar informatie over de marginale verdelingen hebben. Definitie 3.2 Als X1 , . . . , Xk toevalsvariabelen zijn, noemen we de functie ⎡ x1 ⎤ ⎢ ⎥ ⎢ ⎥ FX⃗ (x) ∶= P{X1 ≤ x1 , . . . , Xk ≤ xk }, x = ⎢ ⋮ ⎥ ∈ Rk ⎢ ⎥ ⎢xk ⎥ ⎣ ⎦ de (gezamenlijke) verdelingsfunctie van de toevalsvariabelen X1 , . . . , Xk . Zoals in het 1-dimensionale geval kan men via de maattheorie bewijzen dat er een eenduidig verband tussen k-dimensionale verdelingsfuncties en k-dimensionale verdelingen bestaat. In het bijzonder geldt: Stelling 3.1 Als X1 , . . . , Xk en Y1 , . . . , Yk toevalsvariabelen zijn zodat de twee gezamenlijke verdelingsfuncties overeenstemmen, i.e. FX⃗ (x) = FY⃗ (x), x ∈ Rk , hebben we: PX⃗ = PY⃗ . 22
HOOFDSTUK 3. TOEVALSVECTOREN EN VERDELINGEN
23
In principe kunnen we dus kansen betreffende toevalsvariabelen X1 , . . . , Xk via hun gezamenlijke verdelingsfunctie berekenen. Maar dit kan vrijwel ingewikkeld worden. Voorbeeld Stel X, Y toevalsvariabelen met gezamenlijke verdelingsfunctie F (x, y), x, y ∈ R. Bepaal: (a) p1 = P{1 < X ≤ 2, 3 < Y ≤ 4}, (b) p2 = P{X > 1, Y > 2}. Oplossing (a) F (2, 4) = P{X ≤ 2, Y ≤ 4} = P{1 < X ≤ 2, 3 < Y ≤ 4} +P{X ≤ 1, 3 < Y ≤ 4} +P{X ≤ 2, Y ≤ 3} = p1 + F (1, 4) − F (1, 3) + F (2, 3) Dus geldt: p1 = F (2, 4) − F (1, 4) + F (1, 3) − F (2, 3). (b) p2 = 1 − P({X ≤ 1} ∪ {Y ≤ 2}) = 1 − P{X ≤ 1} − P{Y ≤ 2} + F (1, 2). Gezien P{X ≤ 1} = limy→∞ F (1, y) =∶ F (1, ∞) en analoog P{Y ≤ 2} = limx→∞ F (x, 2) =∶ F (∞, 2) volgt dat p2 = 1 − F (1, ∞) − F (∞, 2) + F (1, 2). In het vorige voorbeeld hebben we de volgende stelling gebruikt. Stelling 3.2 Als X1 , . . . , Xk toevalsvariabelen met gezamenlijke verdelingsfunctie F (x1 , . . . , xk ) zijn, geldt voor de marginale verdelingsfuncties FXi (xi ) = P{Xi ≤ xi } = xlim F (x1 , . . . , xk ), xi ∈ R, 1 ≤ i ≤ k. →∞ j
j= /i
(n)
(n)
Bewijs Zij An = {Xj ≤ xj , j =/ i, Xi ≤ xi }, waar xj ↗ ∞. Dan is het evident dat An ↗ {Xi ≤ xi } en dus geldt P(An ) → FXi (xi ) als n → ∞. ⊔ ⊓
3.2
Discrete verdelingen
We bekijken hoofdzakelijk het geval k = 2. De uitbreiding naar hogere dimensies is meestal evident. Als X, Y discrete toevalsvariabelen zijn, dan bestaan er ten hoogste aftelbaar veel paren (x, y) zodanig dat de gezamenlijke kansfunctie p(x, y) ∶= P{X = x, Y = y} > 0 is en we kunnen de kansen via de volgende formule berekenen: P{(X, Y ) ∈ A} =
∑
(x,y)∈S∩A
p(x, y), A ⊂ R2
waar S ∶ {(x, y) ∈ R2 ∶ p(x, y) > 0}. (De som over de lege verzameling is gedefinieerd als 0.) De marginale kansfuncties van X en Y kunnen we via de volgende stelling bepalen. Stelling 3.3 Als X, Y discrete toevalsvariabelen met kansfunctie p(x, y) zijn, geldt: (a) P{X = x} = ∑y p(x, y), x ∈ R en (b) P{Y = y} = ∑x p(x, y), y ∈ R. Bewijs (a) Zij Sx ∶= {y ∶ p(x, y) > 0}. Dan is Sx ten hoogste aftelbaar en het geldt: P{X = x} = P((X, Y ) ∈ {x} × Sx ) + P((X, Y ) ∈ {x} × Sxc ) = ∑ p(x, y) + 0 = ∑ p(x, y) y∈Sx
Het bewijs van (b) verloopt analoog. ⊔ ⊓
y
HOOFDSTUK 3. TOEVALSVECTOREN EN VERDELINGEN
24
Voorbeelden (1) In een doos zitten 3 ballen waarop de nummers 1,2,3 staan. We trekken 2 ballen (a) met teruglegging en (b) zonder teruglegging. Stel X = het nummer op de eerste bal, Y = het nummer op de tweede bal. Bepaal de gezamenlijke kansfunctie van X en Y en de twee marginale kansfuncties pX , pY . Oplossing In geval (a) geldt p(x, y) = 1/9, (x, y) ∈ {1, 2, 3}2 . Dus pX (x) = 1/3, x = 1, 2, 3 en pY (y) = 1/3, y = 1, 2, 3. In geval (b) geldt p(x, y) = 1/6, x =/ y, maar niettemin zijn pX , pY zoals in (a). Dit toont dat we in het algemeen gezamenlijke verdelingen niet via de marginale verdelingen kunnen bepalen. (2) Beschouw twee discrete toevalsvariabelen X, Y met gezamenlijke kansfunctie p(x, y) =
λy e−2λ , x = 0, 1, 2, . . . , y = x, x + 1, x + 2, . . . x!(y − x)!
Bepaal: (a) de marginale verdelingen, (b) P{X = Y }. Oplossing (a) Een directe toepassing van stelling 3.3 levert: λx ∞ λy−x λx λy = e−2λ ∑ = e−λ , x = 0, 1, . . . x! y=x (y − x)! x! y=x x!(y − x)! ∞
pX (x) = e−2λ ∑
waaruit blijkt dat X Poisson(λ)-verdeeld is. Analoog volgt: y λy λy (2λ)y −2λ y e−2λ = e−2λ ∑ ( ) = e , y = 0, 1, 2, . . . , x y! y! x=0 x!(y − x)! x=0 y
pY (y) = ∑
Dus is Y Poisson-verdeeld met parameter 2λ. −2λ ∞ λx /x! = e−λ . (b) P{X = Y } = ∑∞ ∑x=0 x=0 p(x, x) = e (3) De multinomiale verdeling Veronderstel dat we een experiment dat r mogelijke uitkomsten heeft (r ≥ 2) n keer kunnen uitvoeren zodat de uitkomsten van de n experimenten onafhankelijk van elkaar zijn. Stel Xi = het aantal experimenten met uitkomst i. (i = 1, . . . , r) Dan geldt : X1 + . . . Xr = n en verder P{X1 = n1 , . . . , Xr = nr } = (
n ) pn1 1 ⋅ . . . ⋅ pnr r , n1 , . . . , n r
als n1 , . . . , nr = 0, 1, 2 . . . zodat n1 + . . . + nr = n en pi = kans op uitkomst i, 1 ≤ i ≤ r. ( ⇒ p1 + . . . pr = 1) De marginale verdelingen van de toevalsvariabelen Xi zijn dan binomiaal(n, pi ), i = 1, . . . , r. Als we bijvoorbeeld een dobbelsteen n keer gooien en Xi aangeeft hoe vaak we ”i” verkrijgen, 1 ≤ i ≤ 6, dan heeft (X1 , . . . , X6 ) een multinomiale verdeling, waar pi = 1/6, 1 ≤ i ≤ 6 (onder de voorwaarde dat de n worpen onafhankelijk zijn.)
HOOFDSTUK 3. TOEVALSVECTOREN EN VERDELINGEN
3.3
25
Toevalsvariabelen met een gezamenlijk continue verdeling
Zoals in het vorige hoofdstuk zullen we ons hoofdzakelijk beperken tot het geval k = 2. De uitbreiding tot hogere dimensies is meestal evident. Definitie 3.3 Twee toevalsvariabelen X, Y ∶ Ω → R hebben een gezamenlijk continue verdeling indien er een Borel-meetbare functie f ∶ R2 → [0, ∞[ bestaat zodanig dat P{(X, Y ) ∈ A} = ∬ f (x, y)dxdy A
voor alle Borelverzamelingen A ∈ R2 . We noemen f de dichtheidsfunctie van (X, Y ). Stelling 3.4 Als X, Y toevalsvariabelen met een gezamenlijk continue verdeling zijn, dan zijn de (marginale) verdelingen van X en Y absoluut continu met dichtheidsfuncties fX , fY gegeven door fX (x) = ∫
∞ −∞
f (x, y)dy, x ∈ R en fY (y) = ∫
∞
−∞
f (x, y)dx, y ∈ R.
Bewijs Uit de definitie van “gezamenlijk continu” volgt: P{X ≤ t} = P{(X, Y ) ∈] − ∞, t] × R} = ∫
∞
t
t
∫ f (x, y)dydx = ∫−∞ fX (x)dx, t ∈ R. −∞ −∞
Dus is de verdelingsfunctie van X gelijk aan de verdelingsfunctie van de absoluut continue verdeling met dichtheidsfunctie fX en dit impliceert dat X deze verdeling heeft (zie opmerking (2), hoofdstuk 2.2). Analoog volgt dat Y absoluut continu met dichtheidsfunctie fY is. ⊔ ⊓ Opmerking Als X, Y absoluut continue verdelingen hebben, impliceert dit in het algemeen niet dat X, Y gezamenlijk continu zijn. Om dit in te zien, bekijken we een standaardnormaalverdeelde toevalsvariabele X en we stellen Y = X. Dan hebben X, Y absoluut continue verdelingen, maar ze zien niet gezamenlijk continu omdat P{(X, Y ) ∈ D} = 1, waar D = {(x, x) ∶ x ∈ R}. Anderzijds geldt voor elke Borel-meetbare functie f ∶ R2 → [0, ∞[: ∬ f (x, y)dxdy = 0. D
Voorbeelden 1. Stel X, Y toevalsvariabelen met een gezamenlijk continue verdeling, waar f (x, y) = e−x−y , x, y > 0 en f (x, y) = 0 elders. Bepaal: (a) P{X > 2, Y > 3} en (b) P{X > 2Y }. (c) Toon dat X/Y een absoluut continue verdeling heeft en bepaal de dichtheidsfunctie van X/Y . ∞
∞
Oplossing De kans in (a) is gelijk aan ∫2 ∫3 e−y dye−x dx = e−5 . De kans in (b) is gelijk aan 1 − F (2), waar F de verdelingsfunctie van X/Y is zodat we de oplossing van (b) kunnen verkrijgen via (c).
HOOFDSTUK 3. TOEVALSVECTOREN EN VERDELINGEN
26
Het is evident dat voor t > 0 geldt: F (t) = P{X/Y ≤ t} = P{Y ≥ X/t} = ∫ 0 = ∫ 0
∞ ∞
∞
−y −x ∫x/t e dye dx
e−x(t+1)/t dx =
t t+1
1 1 − t+1 als t > 0 continu is en dat verder de afgeleide overal 0 als t ≤ 0 behalve in t = 0 bestaat. Uit stelling 2.7 volgt dat X/Y een absoluut continue verdeling heeft. (t + 1)−2 als t > 0 Bovendien geldt voor de dichtheidsfunctie f van X/Y : f (t) = { 0 als t ≤ 0 Ten slotte volgt uit de formule voor F dat de kans in (b) gelijk aan 1/3 is.
We zien nu dat F (t) = {
2. Onderstel dat X, Y toevalsvariabelen met een gezamenlijk continue verdeling zijn, waar f (x, y) =
1 −y2 −xy−x2 /2 e , (x, y) ∈ R2 . 2π
Bepaal de marginale dichtheidsfuncties fX en fY . Oplossing Dit is een directe toepassing van stelling 3.4. ∞ 1 2 2 e−y −xy−x /2 dy ∫ 2π −∞ 1 −x2 /2 ∞ −(y+x/2)2 x2 /4 = e e dy ∫−∞ e 2π 1 −x2 /4 ∞ −u2 e = ∫−∞ e du (substitutie) 2π 2 = ce−x /4 , x ∈ R.
fX (x) =
Dus geldt fX (x) = cg(x), x ∈ R waar g de dichtheidsfunctie van een normaal(0,2)√ toevalsvariabele is, en het volgt dat c = 1 (of c = 1/ 8π). Dus heeft X een normaal(0,2)verdeling. Analoog volgt: ∞ 1 2 2 e−y −xy−x /2 dx ∫ 2π −∞ 1 −y2 /2 ∞ −(y+x)2 /2 = e dx ∫−∞ e 2π 1 −y2 /2 ∞ −u2 /2 e = du (substitutie) ∫−∞ e 2π 1 2 = √ e−y /2 , y ∈ R. 2π
fY (y) =
Dus is Y standaard-normaalverdeeld.
HOOFDSTUK 3. TOEVALSVECTOREN EN VERDELINGEN
27
Als het laatste resultaat in 3.3 vermelden we nog een k-dimensionale versie van stelling 2.11. Stelling 3.5 Zij X1 , . . . , Xk ∶ Ω → R toevalsvariabelen met een gezamenlijk continue ver⎡g1 ⎤ ⎢ ⎥ ⎢ ⎥ deling en dichtheidsfunctie f , g = ⎢ ⋮ ⎥ ∶ Rk → Rk een Borel-meetbare afbeelding en zij ⎢ ⎥ ⎢gk ⎥ ⎣ ⎦ Ii , 1 ≤ i ≤ m disjuncte open verzamelingen in Rk zodanig dat (i) (ii) (iii) (iv)
m ∑i=1 P{(X1 , . . . , Xk ) ∈ Ii } = 1 g(Ii ) = I0 , 1 ≤ i ≤ m, waar I0 een open verzameling is. g∣Ii ∶ Ii → I0 is 1-1 met inverse afbeelding hi ∶ I0 → Ii , 1 ≤ i ≤ m. g heeft continue parti¨ele afgeleiden op ⋃m i=1 Ii zodanig dat
RRR RR Jg (a) = RRRRR RRR RR
RRR RRR m RRR =/ 0, a ∈ ⋃ Ii ⋮ ⋮ RRR ∂gk ∂gk i=1 R ∂x1 (a) . . . ∂xk (a) RR ∂g1 ∂x1 (a)
...
∂g1 ∂xk (a)
Dan zijn de toevalsvariabelen Y1 = g1 (X1 , . . . , Xk ), . . . , Yk = gk (X1 , . . . , Xk ) gezamenlijk continu met dichtheidsfunctie ∑i=1 ∣Jg (h1i (y))∣ fX⃗ (hi (y)) fY⃗ (y) = { 0 m
als y ∈ I0 als y ∈/ I0
Voorbeeld Zij A een (k, k)-matrix met det(A) =/ 0. Stel (g1 (x), . . . , gk (x))t = Ax, x ∈ Rk (i.e., g is de door de matrix A bepaalde lineaire afbeelding van Rk naar Rk ). Als X1 , . . . , Xk toevalsvariabelen met een gezamenlijk continue verdeling en dichtheidsfunctie ⎡ Y1 ⎤ ⎡ X1 ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ fX⃗ zijn, volgt dat ook Y⃗ = ⎢ ⋮ ⎥ = A ⎢ ⋮ ⎥ gezamenlijk continu is met dichtheidsfunctie ⎢ ⎥ ⎢ ⎥ ⎢Yk ⎥ ⎢Xk ⎥ ⎣ ⎦ ⎣ ⎦ y → fY⃗ (y) =
1 fX⃗ (A−1 ⋅ y), y ∈ Rk . ∣ det(A)∣
Bijvoorbeeld als X1 , X2 gezamenlijk continu zijn, zijn Y1 = X1 + X2 en Y2 = X1 − X2 ook gezamenlijk continu en het geldt: 1 y1 + y2 y1 − y2 y fY⃗ (y1 , y2 ) = fX⃗ ( , ) , [ 1 ] ∈ R2 . y2 2 2 2
HOOFDSTUK 3. TOEVALSVECTOREN EN VERDELINGEN
3.4
28
Onafhankelijke toevalsvariabelen
Definitie 3.4 Als X1 , . . . , Xk toevalsvariabelen zijn, zeggen we dat deze onafhankelijk zijn indien voor alle Borelverzamelingen A1 , . . . , Ak ∈ R geldt: k
P{X1 ∈ A1 , . . . , Xk ∈ Ak } = ∏ P{Xj ∈ Aj }. j=1
Opmerking Een equivalente definitie is dat voor elke keuze Bi ∈ R, 1 ≤ i ≤ k de gebeurtenissen {X1 ∈ B1 }, . . . , {Xk ∈ Bk } onafhankelijk zijn. (Het is triviaal dat dit onafhankelijkheid zoals in de bovenstaande definitie impliceert. Voor de omgekeerde implicatie moeten we aantonen dat P(⋂i∈I {Xi ∈ Bi }) = ∏i∈I P{Xi ∈ Bi }, I ⊂ {1, . . . , k}. Maar dit volgt onmiddellijk als we in definitie 3.4 Ai = Bi , i ∈ I en Ai = R, i ∈/ I stellen.) De volgende stelling geeft een eenvoudige methode (ten minste in het discrete en continue geval) om na te gaan of toevalsvariabelen onafhankelijk zijn. Daarbij is F (x1 , . . . , xk ) de gezamenlijke verdelingsfunctie van X1 , . . . , Xk en FXj de (marginale) verdelingsfunctie van Xj , 1 ≤ j ≤ k. Analoog is pX1 ,...,Xk (fX1 ,...,Xk ) de gezamenlijke kansfunctie (dichtheidsfunctie) en pXj (fXj ) de kansfunctie (dichtheidsfunctie) van Xj , 1 ≤ j ≤ k in het discrete (continue) geval. Stelling 3.6 Zij X1 , . . . , Xk toevalsvariabelen. Dan zijn equivalent: (i) X1 , . . . , Xk zijn onafhankelijk. (ii) FX1 ,...,Xk (x1 , . . . , xk ) = ∏kj=1 FXj (xj ), ∀x ∈ Rk . p (x , . . . , xk ) = ∏kj=1 pXj (xj ), ∀x ∈ Rk (discreet geval) (iii) { X1 ,...,Xk 1 fX1 ,...,Xk (x1 , . . . , xk ) = ∏kj=1 fXj (xj ), ∀x ∈ Rk (continu geval) Bewijs De implicatie “(i) ⇒ (ii)” is evident. (Stel in definitie 3.4 Aj =] − ∞, xj ], 1 ≤ j ≤ k.) Voor de implicatie“(ii) ⇒ (i)”hebben we de maattheorie nodig. (→ bachelor 3) We bekijken nu het discrete geval. Als we in definitie 3.4 Aj = {xj }, 1 ≤ j ≤ k stellen, zien we dat (i) in dit geval (iii) impliceert. Om de implicatie “(iii) ⇒ (i)”te bewijzen, stellen we Sj = {xj ∈ R ∶ P{Xj = xj } > 0}, 1 ≤ j ≤ k. Dan zijn deze verzamelingen ten hoogste aftelbaar en het volgt voor Aj ⊂ R, 1 ≤ j ≤ k dat P{X1 ∈ A1 , . . . , Xk ∈ Ak } = =
∑
...
∑
...
x1 ∈A1 ∩S1
x1 ∈A1 ∩S1 k
= ∏
∑
pX1 ,...,Xk (x1 , . . . , xk )
∑
∏ pXj (xj )
xk ∈Ak ∩Sk
∑
j=1 xj ∈Aj ∩Sj
k
xk ∈Ak ∩Sk j=1
k
pXj (xj ) = ∏ P{Xj ∈ Aj } j=1
en we zien dat de toevalsvariabelen X1 , . . . , Xk onafhankelijk zijn. In het continue geval is de implicatie “(iii) ⇒ (i)” evident (oef.), terwijl we weer de maattheorie nodig hebben om “(i) ⇒ (iii)” te bewijzen. ⊔ ⊓
HOOFDSTUK 3. TOEVALSVECTOREN EN VERDELINGEN
29
Voorbeelden (1) Als we nog een keer de twee voorbeelden in 3.3 (na stelling 3.4) bekijken, zien we dat de toevalsvariabelen in het eerste voorbeeld onafhankelijk zijn, terwijl de toevalsvariabelen uit het tweede voorbeeld afhankelijk (= niet onafhankelijk) zijn. (2) Onderstel dat X1 , X2 onafhankelijke toevalsvariabelen zijn zodanig dat Xi normaal(0, σi2 )verdeeld is, i = 1, 2. Stel Y1 = X1 + X2 , Y2 = −σ22 X1 + σ12 X2 . We beweren dat dan deze twee toevalsvariabelen ook onafhankelijk zijn. Bewijs Vermits X1 en X2 onafhankelijk zijn, volgt dat ze gezamenlijk continu zijn met dichtheidsfunctie 1 2 2 2 2 e−x1 /(2σ1 )−x2 /(2σ2 ) fX⃗ (x1 , x2 ) = fX1 (x1 )fX2 (x2 ) = 2πσ1 σ2 1 1 Y X Stel A = [ 2 2 ]. Dan geldt [ 1 ] = A [ 1 ] en stelling 3.5 impliceert dat de toevalsvaria−σ2 σ1 Y2 X2 belen Y1 , Y2 gezamenlijk continu zijn met dichtheidsfunctie 1 f ⃗ (A−1 (y1 , y2 )t ) fY⃗ (y1 , y2 ) = ∣ det(A)∣ X Na een beetje rekenwerk kunnen we dit herschrijven als 1 1 2 2 2 2 2 2 2 2 fY⃗ (y1 , y2 ) = √ e−y1 /2(σ1 +σ2 ) √ e−y2 /2(σ1 +σ2 )σ1 σ2 =∶ f1 (y1 )f2 (y2 ) 2π(σ12 + σ22 ) 2π(σ12 + σ22 )σ1 σ2 Gezien zowel f1 als f2 dichtheidsfuncties van normaalverdelingen zijn, volgt onmiddellijk dat de marginale dichtheidsfunctie van Yi gelijk aan fi is, i = 1, 2 en uit stelling 3.6 volgt dat Y1 en Y2 inderdaad onafhankelijk zijn. ⊔ ⊓ We noteren nog dat ons bewijs ook toont dat Y1 = X1 + X2 een normaal(0, σ12 + σ22 )-verdeling heeft. (Dit feit hebben we later in hoofdstuk 5 nodig.) (3) Als X1 , . . . , Xk onafhankelijke standaard-normaalverdeelde toevalsvariabelen zijn, kunnen we hun gezamenlijke dichtheidsfunctie die gelijk aan het product van de marginale dichtheidsfuncties is, opschrijven als √ −k √ −k 2 fX⃗ (x) = 2π e−∥x∥ /2 = 2π e−⟨x,x⟩/2 , waar ⟨x, y⟩ = ∑ki=1 xi yi het scalaire product in Rk is. Zij verder A een (k,k)-matrix met maximaalrang en µ = (µ1 , . . . , µk )t een vector in Rk . Stel (Y1 , . . . , Yk )t = (µ1 , . . . , µk )t + A(X1 , . . . , Xk )t . Dan volgt uit stelling 3.5 dat (Y1 , . . . , Yk ) gezamenlijk continu is met dichtheidsfunctie 1 1 exp (− ⟨y − µ, Σ−1 (y − µ)⟩) , y ∈ Rk , fY⃗ (y) = √ k √ 2 2π det(Σ)
(3.1)
waar Σ = A ⋅ At een positief definiete, symmetrische (k,k)-matrix is. Via de lineaire algebra kan men tonen dat voor elke positief semidefiniete, symmetrische matrix Σ een unieke positief semidefiniete, symmetrische matrix A bestaat zodanig dat A2 = Σ.
HOOFDSTUK 3. TOEVALSVECTOREN EN VERDELINGEN
30
Definitie 3.5 Zij Σ een positief semidefiniete, symmetrische matrix en zij µ een vector in Rk . Neem k onafhankelijke standaard-normaalverdeelde toevalsvariabelen X1 , . . . , Xk . Stel Y⃗ = A(X1 , . . . , Xk )t + µ, waar A de unieke positief semidefiniete, symmetrische matrix is met A2 = Σ. Dan noemen we de verdeling van (Y1 , . . . , Yk ) de k-dimensionale normaalverdeling met verwachting µ en covariantiematrix Σ. De reden voor deze naam wordt in hoofdstuk 4 gegeven. We noteren nog dat Y1 , . . . , Yk alleen gezamenlijk continu is als Σ positief definiet is (dus als Σ en A maximaalrang k hebben.) De dichtheidsfunctie is dan zoals in (3.1) Indien det(Σ) = det(A) = 0, is het beeld W van A een deelruimte van dimensie m < k is en we hebben P{Y⃗ ∈ µ + W } = 1. In dit geval kan er geen k-dimensionale dichtheidsfunctie bestaan omdat ∫…∫ f (y1 , . . . , yk )dy1 . . . dyk = 0 µ+W
als f ∶
Rk
→ [0, ∞[ Borel-meetbaar is en dim(W ) < k.
Er bestaat ook een k-dimensionale versie van lemma 2.1: Lemma 3.1 Zij (Y1 , . . . , Yk ) normaal(µ, Σ)-verdeeld, waar Σ positief definiet is. Stel (Z1 , . . . , Zk )t = A−1 (Y1 − µ1 , . . . , Yk − µk )t , waar A de symmetrische positief definiete (k,k)-matrix is zodanig dat A2 = Σ. Dan zijn de toevalsvariabelen Z1 , . . . , Zk onafhankelijk en standaard-normaalverdeeld. Bewijs Dit is een min of meer triviaal gevolg van de definitie omdat we altijd kunnen ⃗ waar X ⃗ = (X1 , . . . , Xk )t en X1 , . . . , Xk zijn onafhankelijke veronderstellen dat Y⃗ = µ + AX, standaard normaal-verdeelde toevalsvariabelen. Dus geldt er (Z1 , . . . , Zk ) = (X1 , . . . , Xk ). ⊔ ⊓
3.5
Sommen van onafhankelijke toevalsvariabelen
Probleem Gegeven X, Y onafhankelijke toevalsvariabelen waarvan de verdelingen gekend zijn. Vind de verdeling van X + Y . We bekijken eerst het discrete geval. Stelling 3.7 Als X, Y onafhankelijke, discrete toevalsvariabelen zijn, dan is X + Y ook discreet en als pX , pY , pX+Y de kansfuncties van X, Y, X + Y zijn, geldt: pX+Y (z) = ∑ pX (x)pY (z − x) = ∑ pX (z − y)pY (y). x
y
Bewijs Het is triviaal dat X + Y discreet is. Verder is S1 = {x ∶ pX (x) > 0} ten hoogste aftelbaar en het volgt dat pX+Y (z) = P({X + Y = z} ∩ ⋃ {X = x}) x∈S1
= P( ⋃ {X = x, Y = z − x}) = ∑ pX (x)pY (z − x), x∈S1
x∈S1
waar we in de laatste stap de onafhankelijkheid van X en Y hebben gebruikt.
HOOFDSTUK 3. TOEVALSVECTOREN EN VERDELINGEN
31
Een modificatie van het bovenstaande bewijs toont dat ook de tweede formule voor pX+Y correct is. ⊔ ⊓ Voorbeeld Als X, Y onafhankelijke Poisson-variabelen met parameters λ1 en λ2 zijn, is Z = X + Y Poisson-verdeeld met parameter λ1 + λ2 . Bewijs Uit de vorige stelling volgt onmiddellijk voor j = 0, 1, 2, . . . ∞
λi1 λj−i 2 e−λ1 −λ2 , i! (j − i)! i=0 j
pZ (j) = ∑ P{X = i}P{Y = j − i} = ∑ i=0
waar de laatste som wegens de binomiale stelling gelijk aan (λ1 + λ2 )j e−λ1 −λ2 /j! is. ⊔ ⊓ In het continue geval bestaat er een analoog resultaat waar het natuurlijk niet meer volledig triviaal is dat een som van onafhankelijke toevalsvariabelen met absoluut continue verdelingen ook zo’n verdeling heeft. Stelling 3.8 Stel X, Y onafhankelijke toevalsvariabelen met absoluut continue verdelingen. Duid de dichtheidsfuncties van X en Y met fX en fY aan. Als Z = X + Y is, heeft Z een absoluut continue verdeling met dichtheidsfunctie fZ (z) = ∫
∞ −∞
fX (x)fY (z − x)dx = ∫
∞
−∞
fX (z − y)fY (y)dy, z ∈ R
Bewijs We bekijken de verdelingsfunctie van Z. Voor elke t ∈ R geldt: FZ (t) = P{Z ≤ t} = P{(X, Y ) ∈ Mt }, waar Mt = {(x, y) ∈ R2 ∶ x + y ≤ t}.Vermits de gezamenlijke dichtheidsfunctie van X en Y gelijk aan fX (x)fY (y) is, zien we dat FZ (t) = ∫
∞ −∞
∞
t−x
t
∫−∞ fY (y)dyfX (x)dx = ∫−∞ ∫−∞ fY (z − x)dzfX (x)dx,
waar we in de y-integraal y = z − x hebben gesubstitueerd. Verwisselen we nu de volgorde van de twee integralen, volgt dat FZ (t) = ∫
t −∞
∞
∫−∞
fY (z − x)fX (x)dxdz =∶ ∫
t −∞
g(z)dz.
Dus is de verdelingsfunctie van Z gelijk aan deze van de kansmaat met dichtheidsfunctie g wat weer impliceert dat de verdeling PZ van Z gelijk aan deze kansmaat is. De tweede formule voor fZ volgt analoog. ⊔ ⊓ Voorbeelden (1) Als X en Y onafhankelijke toevalsvariabelen zijn zodanig dat PX = gamma(α1 , β) en PY = gamma(α2 , β), heeft Z = X + Y een gamma(α1 + α2 , β)-verdeling. Dit impliceert in verband met stelling 2.10 dat als Y1 , . . . , Yn onafhankelijke toevalsvariabelen met standaard-normaalverdelingen zijn, de toevalsvariabele ∑nj=1 Yj2 een gamma(n/2, 2)verdeling heeft. Men noemt deze verdeling ook de chi-kwadraat-verdeling met n vrijheidsgraden.
HOOFDSTUK 3. TOEVALSVECTOREN EN VERDELINGEN
32
Bewijs Uit stelling 3.8 volgt onmiddellijk dat ∞
fZ (z) = ∫ fX (x)fY (z − x)dx −∞ z
= c1 ∫ xα1 −1 e−x/β (z − x)α2 −1 e−(z−x)/β dx 0 = c1 z α1 +α2 −1 e−z/β ∫
z 0
z −1 (x/z)α1 −1 (1 − x/z)α2 −1 dx
= c2 z α1 +α2 −1 e−z/β , z > 0, 1
waar de constanten c1 en c2 = c1 ∫0 uα1 −1 (1 − u)α2 −1 du afhankelijk van α1 , α2 en β zijn. (We substitueren in de laatste integraal x = zu.) We zien dat fZ = cg waar c > 0 een constante en g de dichtheidsfunctie van de gamma(α1 + α2 , β)-verdeling is. Dit impliceert dat c = 1 en het bewijs is compleet. ⊔ ⊓ (2) Als X, Y onafhankelijke toevalsvariabelen met PX = normaal(µ1 , σ12 ) en PY = normaal(µ2 , σ22 ) zijn, hebben we: PX+Y = normaal(µ1 + µ2 , σ12 + σ22 ). Bewijs Stel X = X − µ1 en Y = Y − µ2 . Dan blijven deze toevalsvariabelen onafhankelijk en het geldt: PX = normaal(0, σ12 ), PY = normaal(0, σ22 ). We hebben al eerder aangetoond dat dan de verdeling van X + Y normaal(0, σ12 + σ22 ) is (zie voorbeeld (2) in 3.4). Maar dit impliceert dat X + Y = X + Y + µ1 + µ2 een normaalverdeling zoals boven heeft. ⊔ ⊓
3.6
Conditionele verdelingen
Het doel van dit laatste gedeelte van hoofdstuk 3 is het de conditionele (of voorwaardelijke) verdeling van een toevalsvector X ∶ Ω → Rd1 gegeven dat een andere d2 -dimensionale toevalsvector Y gelijk aan een bepaalde waarde y ∈ Rd2 is te defini¨eren. Als X en Y discreet zijn, is dit zonder meer mogelijk via voorwaardelijke kansen zoals in hoofdstuk 1. Dus onderstel dat X, Y discrete toevectoren met gezamenlijke kansfunctie p(x, y) zijn en y ∈ Rd2 zo gekozen is dat geldt pY (y) = P{Y = y} > 0. Dan hebben we voor A ⊂ Rd1 : P({X ∈ A}∣{Y = y}) = P{X ∈ A, Y = y}/P{Y = y} = ∑ p(x, y)/pY (y) =∶ ∑ pX∣Y (x∣y) x∈A
x∈A
Het is evident dat x → pX∣Y (x∣y) ook een kansfunctie is. (Het linkerlid is gelijk aan 1 als we A = S stellen waar S = {x ∶ P{X = x} > 0 hoogstens aftelbaar is.) Definitie 3.6 Gegeven twee discrete toevalsvectoren X ∶ Ω → Rd1 en Y ∶ Ω → Rd2 met respectieve kansfuncties pX en pY , defini¨eren we de conditionele kansfunctie van X gegeven Y = y, waar pY (y) > 0, als pX∣Y (x∣y) = P({X = x}∣{Y = y}), x ∈ Rd1 We noemen de door pX∣Y (⋅∣y) bepaalde discrete kansmaat de conditionele verdeling van X gegeven Y = y.
HOOFDSTUK 3. TOEVALSVECTOREN EN VERDELINGEN
33
Voorbeeld Beschouw twee onafhankelijke binomiaalverdeelde toevalsvariabelen X1 , X2 met respectieve parameters n1 , p en n2 , p. Stel X = X1 en Y = X1 + X2 . Vind de conditionele verdeling van X gegeven Y = m. Oplossing We noteren eerst dat Y binomiaal(n1 + n2 , p)-verdeeld is (oef.) Verder geldt voor 0 ≤ m1 ≤ m ≤ n1 + n2 ∶ P{X = m1 , Y = m} = P{X1 = m1 , X2 = m − m1 } n1 n2 = ( )pm1 (1 − p)n1 −m1 ( )pm−m1 (1 − p)n2 −m+m1 m1 m − m1 n1 n2 = ( )( )pm (1 − p)n1 +n2 −m m1 m − m1 +n2 m )p (1 − p)n1 +n2 −m volgt dat Vermits geldt pY (m) = (n1m
pX∣Y (m1 ∣m) =
n2 n1 ) )(m−m (m 1 1 +n2 ) (n1m
, m1 = 0, . . . , m.
Dus is deze conditionele verdeling gelijk aan de hypergeometrische verdeling. Als de verdeling van (X, Y ) ∶ Ω → Rd1 +d2 een dichtheidsfunctie f ∶ Rd1 +d2 → [0, ∞[ heeft, volgt zoals in stelling 3.4 dat ook X en Y dichtheidsfuncties hebben. Als fY de dichtheidsfunctie van Y is, hebben we fY (y) = ∫Rd1 f (x, y)dx (dus een d1 -dimensionale integraal). We defini¨eren dan conditionele verdelingen zoals in het discrete geval, waar we gewoon de kansfuncties door de dichtheidsfuncties vervangen. Definitie 3.7 Als X ∶ Ω → Rd1 en Y ∶ Ω → Rd2 toevalsvectoren zijn met een (gezamenlijke) dichtheidsfunctie (x, y) → f (x, y), en y ∈ Rd2 zodanig is dat fY (y) > 0, is de conditionele dichtheidsfunctie van X gegeven Y = y gedefinieerd door fX∣Y (x∣y) = f (x, y)/fY (y), x ∈ R De door fX∣Y (⋅∣y) bepaalde kansmaat heet de conditionele verdeling van X gegeven Y = y. Voorbeeld Zij (X, Y ) ∶ Ω → R2 een toevalsvector met gezamenlijke dichtheidsfunctie f (x, y) = y −1 e−x/y e−y , x, y > 0 en f (x, y) = 0 elders Bepaal P({X > 1}∣{Y = y}), y > 0. Oplossing We bepalen eerst de conditionele verdeling van X gegeven Y = y. ∞ De marginale dichtheidsfunctie van Y is gelijk aan fY (y) = ∫0 y −1 e−x/y e−y dx = e−y , y > 0. (Dit is de exponenti¨ele verdeling met parameter 1.) Als we de formule voor de conditionele dichtheidsfunctie gebruiken, volgt onmiddellijk dat fX∣Y (x∣y) = y −1 e−x/y , x > 0. Dit is de exponenti¨ele verdeling met parameter y en het volgt dat P({X > 1}∣{Y = y}) = ∫
∞ 1
y −1 e−x/y dx = e−1/y .
Hoofdstuk 4 Verwachtingswaarden 4.1
Definitie en eigenschappen
We defini¨eren eerst verwachtingswaarden voor elementaire toevalsvariabelen, dan voor algemene positieve toevalsvariabelen en ten slotte voor semi-integreerbare toevalsvariabelen. (Verwachtingswaarden bestaan niet voor alle toevalsvariabelen.) Definitie 4.1 Zij X ∶ Ω → R een elementaire toevalsvariabele met de verschillende waarden x1 , . . . , xm . Dan wordt de verwachtingswaarde van X (Notatie: IE[X]) gedefinieerd door m
IE[X] = ∑ xi P{X = xi }. i=1
Voorbeelden 1. Zij A ∈ F een gebeurtenis met P(A) = p en X = IA een Bernoulli(p)-variabele. Dan geldt: IE[X] = 0P{X = 0} + 1P{X = 1} = P(A) = p. 2. Zij nu X een binomiaal(n, p)-variabele. Dan geldt: n
n
n IE[X] = ∑ jP{X = j} = ∑ j( )pj (1 − p)n−j j j=0 j=1 (n − 1)! pj−1 (1 − p)n−j (n − j)!(j − 1)! j=1 n
= np ∑
n−1
= np ∑ ( i=0
n−1 i )p (1 − p)n−1−i = np(p + (1 − p))n−1 = np. i
We kunnen deze verwachtingswaarde echter op een meer effici¨ente manier berekenen. De toevalsvariabele X heeft een representatie X = ∑ni=1 IAi , waar Ai onafhankelijke gebeurtenissen zijn met P(Ai ) = p, 1 ≤ i ≤ n. Uit de lineariteit van de verwachtingswaarde (deel (ii) van de volgende stelling) volgt er dan onmiddellijk dat IE[X] = ∑ni=1 IE[IAi ] = np.
34
HOOFDSTUK 4. VERWACHTINGSWAARDEN
35
Stelling 4.1 (i) Zij Ai ∈ F, 1 ≤ i ≤ n een partitie van Ω. Dan geldt voor de elementaire toevalsvariabele X = ∑ni=1 yi IAi : IE[X] = ∑ni=1 yi P(Ai ). (ii) Als X, Y elementaire toevalsvariabelen zijn, dan hebben we voor α, β ∈ R IE[αX + βY ] = αIE[X] + βIE[Y ]. (iii) Als X elementair is en f ∶ R → R een willekeurige afbeelding is, dan hebben we IE[f (X)] = ∑ f (x)P{X = x}. x
(iv) Als X ≤ Y elementaire toevalsvariabelen zijn, hebben we: IE[X] ≤ IE[Y ]. (v) X1 , . . . , Xn elementaire, onafhankelijke toevalsvariabelen ⇒ IE[∏ni=1 Xi ] = ∏ni=1 IE[Xi ]. Bewijs (i) Duid de de verschillende waarden van X door x1 , . . . , xm aan, waar m ≤ n moet zijn. Dan is het evident dat yi ∈ {x1 , . . . , xm }, 1 ≤ i ≤ n en we kunnen concluderen dat n
m
m
m
∑ yi P(Ai ) = ∑ ∑ yi P(Ai ) = ∑ xj P( ⊍ Ai ) = ∑ xj P{X = xj } = IE[X]. i=1
j=1 i∶yi =xj
j=1
i∶yi =xj
j=1
(ii) Noteer de verschillende waarden van X (Y ) als xi , 1 ≤ i ≤ m (yj , 1 ≤ j ≤ n). Stel Ai = {X = xi }, 1 ≤ i ≤ m en Bj = {Y = yj }, 1 ≤ j ≤ n. Dan is Ai ∩ Bj , 1 ≤ i ≤ m, 1 ≤ j ≤ n een partitie van Ω en we kunnen uit deel (i) concluderen dat m n m n IE[αX + βY ] = IE[∑ ∑(αxi + βyj )IAi ∩Bj ] = ∑ ∑(αxi + βyj )P(Ai ∩ Bj ). i=1 j=1
i=1 j=1
Als we de laatste dubbelsom opsplitsen, zien we dat de bovenstaande verwachtingswaarde gelijk is aan m
n
n
m
i=1
j=1
j=1
i=1
α ∑ xi ∑ P(Ai ∩ Bj ) + β ∑ yj ∑ P(Ai ∩ Bj ), hetgeen we wegens de additiviteit van de kansmaat P kunnen schrijven als m
n
i=1
j=1
α ∑ xi P(Ai ) + β ∑ yj P(Bj ) = αIE[X] + βIE[Y ]. (iii) Als x1 , . . . , xm de verschillende waarden van X zijn, dan volgt: f (X) = ∑m i=1 f (xi )I{X=xi } m en deel (i) impliceert dat IE[f (X)] = ∑i=1 f (xi )P{X = xi }. (iv) Uit de definitie van de verwachtingswaarde volgt onmiddellijk dat voor elke positieve elementaire toevalsvariabele Z ≥ 0 geldt: IE[Z] ≥ 0. Stel nu Z = Y − X. Dan volgt wegens (ii): 0 ≤ IE[Z] = IE[Y ] − IE[X] en dus, IE[X] ≤ IE[Y ].
HOOFDSTUK 4. VERWACHTINGSWAARDEN
36
(v) Schrijf xi,ji , 1 ≤ ji ≤ mi voor de verschillende waarden van Xi , 1 ≤ i ≤ n en beschouw de partitie ⋂ni=1 {Xi = xi,ji }, 1 ≤ ji ≤ mi , 1 ≤ i ≤ n van Ω. Uit (ii) volgt dan weer: n
m1
i=1
j1 =1 m1
mn
n
n
IE[∏ Xi ] = ∑ . . . ∑ (∏ xi,ji )P(⋂{Xi = xi,ji }) jn =1 i=1 mn n
i=1
= ∑ . . . ∑ ∏(xi,ji P{Xi = xi,ji }) (wegens onafhankelijkheid) j1 =1 jn =1 i=1 n mi
n
= ∏( ∑ xi,ji P{Xi = xi,ji }) = ∏ IE[Xi ]. i=1 ji =1
i=1
Daarmee is stelling 4.1 bewezen. ⊔ ⊓ Definitie 4.2 Zij X ≥ 0 een (niet noodzakelijk elementaire) toevalsvariabele. Dan defini¨eren we de verwachtingswaarde van X door IE[X] = sup{IE[Y ] ∶ 0 ≤ Y ≤ X, Y elementair} ∈ [0, ∞]. Opmerkingen 1. Als X elementair is, levert deze definitie dezelfde waarde voor IE[X] als onze eerste definitie. (Dit volgt onmiddellijk uit deel (iv) van stelling 4.1.) 2. Verder volgt direct uit de definitie dat verwachtingswaarden monotoon zijn, dwz als 0 ≤ X1 ≤ X2 algemene toevalsvariabelen zijn, geldt weer IE[X1 ] ≤ IE[X2 ]. Stelling 4.2 (Stelling van de monotone convergentie) Zij 0 ≤ X1 ≤ X2 ≤ . . . een monotone rij toevalsvariabelen. Stel X = limn→∞ Xn . Dan geldt: IE[X] = lim IE[Xn ]. n→∞
Bewijs Het is triviaal (zie opmerking (2)) dat de rij IE[Xn ], n ≥ 1 monotoon niet-dalend is en beneden IE[X] blijft. Dus bestaat limn IE[Xn ] in het interval [0, IE[X]] en het is voldoende aan te tonen dat er geldt: lim IE[Xn ] ≥ IE[X].
n→∞
Om dit te bewijzen, kiezen we een willekeurige elementaire toevalsvariabele 0 ≤ Y ≤ X. Schrijf y1 , . . . , ym voor de verschillende waarden van Y en zij > 0. Stel Ai = {Y = yi }, Ai,n = {Xn ≥ yi, } ∩ Ai , waar yi, = (yi − ) ∨ 0, 1 ≤ i ≤ m. Dan geldt natuurlijk: Xn ≥ ∑m i=1 yi, IAi,n en bijgevolg m
m
i=1
i=1
IE[Xn ] ≥ IE[∑ yi, IAi,n ] ≥ ∑(yi − )P(Ai,n ), n ≥ 1. Wegens de monotonie van de rij Xn , n ≥ 1 is Ai,n , n ≥ 1 een stijgende rij van gebeurtenissen en Y ≤ X impliceert verder dat als n → ∞ geldt: Ai,n ↗ Ai (1 ≤ i ≤ m.) Vermits P continu van beneden is (zie stelling 1.1), volgt dat P(Ai,n ) → P(Ai ) als n → ∞ en we kunnen de conclusie trekken dat m
lim IE[Xn ] ≥ ∑(yi − )P(Ai ) = IE[Y ] − .
n→∞
i=1
HOOFDSTUK 4. VERWACHTINGSWAARDEN
37
Dus geldt: limn IE[Xn ] ≥ IE[Y ] (we kunnen > 0 willekeurig klein kiezen). Gezien deze ongelijkheid voor elke elementaire toevalsvariabele 0 ≤ Y ≤ X bestaat, volgt limn IE[Xn ] ≥ IE[X] en de stelling is bewezen. ⊔ ⊓ Als eerste toepassing van de stelling van de monotone convergentie tonen we nu hoe men de verwachtingswaarde van discrete positieve toevalsvariabelen algemeen via de kansfunctie kan berekenen. Lemma 4.1 Zij X ∶ Ω → [0, ∞[ een discrete toevalsvariabele met kansfunctie pX . Dan geldt er: IE[X] = ∑x≥0 xpX (x). Bewijs. Indien X elementair is, is dit de definitie van IE[X]. Dus veronderstel dat de drager S = {x ∶ pX (x) > 0} oneindig en dus gelijk is aan {xn ∶ n ≥ 1} waar xn een rij in [0, ∞[ is zodanig dat xm ≠ xn als m ≠ n. Stel n Xn = ∑ xi I{X=xi } , n ≥ 1. i=1
Dan geldt Xn ↗ X en bijgevolg n
∞
i=1
i=1
IE[X] = lim IE[Xn ] = lim (∑ xi P{X = xi }) = ∑ xi pX (xi ), n→∞ n→∞ waarmee het lemma bewezen is. ⊔ ⊓ Voorbeelden 1. Zij X Poisson(λ)-verdeeld. Dan geldt: ∞
∞
k=0
k=1
IE[X] = ∑ kP {X = k} = ∑ λk e−λ /(k − 1)! = λ. ∞ k−1 p = pg ′ (1 − p), waar g(x) = 2. X ∼ geometrisch(p) ⇒ IE[X] = ∑∞ ∑k=0 xk = k=1 k(1 − p) (1 − x)−1 , ∣x∣ < 1. Dus: IE[X] = 1/p.
3. X ∼ neg.-binomiaal(r, p) ⇒ IE[X] = r/p. (oef.) [Hint: X = ∑ri=1 Xi , waar Xi ∼ geometrisch(p) ,1 ≤ i ≤ r.] Het volgende lemma is cruciaal voor wat volgt. Het toont dat elke (niet noodzakelijk discrete) positieve toevalsvariabele een representatie heeft als een limiet van een monotone rij elementaire toevalsvariabelen. Lemma 4.2 Zij X ≥ 0 een toevalsvariabele. Dan bestaat er een stijgende rij elementaire toevalsvariabelen 0 ≤ X1 ≤ X2 ≤ . . . zodanig dat Xn → X als n → ∞. Bewijs Stel Xn ∶= 2−n [2n X] ∧ n, n ≥ 1, waar [x] het gehele deel van het positieve getal x is (i.e., [x] = m, m ≤ x < m + 1, m = 0, 1, . . .). n2n Dan geldt Xn = fn ○ X, waar fn = nI[n,∞[ + ∑i=1 (i − 1)2−n I[(i−1)2−n ,i2−n [ een Borel-meetbare afbeelding van R naar R is. (Dit volgt direct uit stelling 2.3.iii in verband met het triviale feit dat indicatorfuncties van intervallen Borel-meetbaar zijn.)
HOOFDSTUK 4. VERWACHTINGSWAARDEN
38
Een toepassing van stelling 2.2.ii levert dan dat Xn F-meetbaar is (omdat X als een toevalsvariabele F-meetbaar is.) Gezien Xn maar de waarden i2−n , 0 ≤ i ≤ n2n kan aannemen, hebben we een rij elementaire toevalsvariabelen. Het is evident dat deze rij niet-dalend is en puntsgewijs naar X convergeert. ⊔ ⊓ Lemma 4.2 in combinatie met de stelling van de monotone convergentie maakt het nu mogelijk de resultaten die we al voor verwachtingswaarden van elementaire toevalsvariabelen hebben verkregen, voor algemene positieve toevalsvariabelen te bewijzen. Lemma 4.3 (i) Als X, Y ≥ 0 toevalsvariabelen zijn en α, β ≥ 0, geldt er: IE[αX + βY ] = αIE[X] + βIE[Y ]. (ii) Als X1 , . . . , Xn ≥ 0 onafhankelijke toevalsvariabelen zijn, hebben we: IE[∏ni=1 Xi ] = ∏ni=1 IE[Xi ], waarbij ∞ ⋅ a = ∞, a > 0, ∞ ⋅ 0 = 0. Bewijs (i) Kies elementaire toevalsvariabelen Xn ↗ X en Yn ↗ Y . Dan geldt natuurlijk: αXn + βYn ↗ αX + βY hetgeen via de stelling van de monotone convergentie en stelling 4.1.ii impliceert IE[αX + βY ] = lim IE[αXn + βYn ] = α lim IE[Xn ] + β lim IE[Yn ] n→∞
n→∞
n→∞
Een tweede toepassing van de stelling van de monotone convergentie toont dan dat het rechterlid gelijk aan αIE[X] + βIE[Y ] is. (m)
(ii) Stel Xi = fm ○ Xi , 1 ≤ i ≤ n, m ≥ 1, waar fm zoals in het bewijs van lemma 4.1 (m) gedefinieerd is. Dan geldt Xi ↗ Xi als m → ∞, 1 ≤ i ≤ n en bijgevolg (m) n n ∏i=1 Xi ↗ ∏i=1 Xi . (m) Verder zijn voor elke vaste m ≥ 1 de elementaire toevalsvariabelen Xi , 1 ≤ i ≤ n als functies van de onafhankelijke toevalsvariabelen Xi , 1 ≤ i ≤ n zelf onafhankelijk zodat we via monotone convergentie en stelling 4.1.v kunnen concluderen dat n
n
(m)
IE[∏ Xi ] = lim IE[∏ Xi m→∞ i=1
i=1
n
(m)
] = ∏( lim IE[Xi i=1
m→∞
])
Een verdere toepassing van de stelling van de monotone convergentie toont dan dat het rechterlid gelijk aan ∏ni=1 IE[Xi ] is en het lemma is bewezen. ⊔ ⊓ We gaan nu een zeer belangrijke representatie van de verwachtingswaarde van algemene positieve toevalsvariabelen als een bepaalde Riemann-integraal bewijzen. Via deze kunnen we dan ook een formule voor IE[X] vinden als X absoluut continu verdeeld is. Stelling 4.3 Zij X ∶ Ω → [0, ∞[ een toevalsvariabele. Dan geldt: IE[X] = ∫
∞ 0
P{X ≥ x}dx.
HOOFDSTUK 4. VERWACHTINGSWAARDEN
39
Opmerking. Wegens de monotonie van x → P{X ≥ x} bestaat voor elke t > 0 de Riemannt ∞ integraal I(t) = ∫0 P{X ≥ x}dx en we defini¨eren ∫0 P{X ≥ x}dx = limt→∞ I(t) ∈ [0, ∞]. Bewijs. Zij de monotone rij Xn , n ≥ 1 zoals in lemma 4.2 gedefinieerd, i.e. Xn = 2−n [2n X]∧n. Dan geldt: IE[X] = lim IE[Xn ] = lim an n→∞
n→∞
waar k−1 k k−1 P{ n ≤ X < n} n 2 2 k=2 2
n2n
an = nP{X ≥ n} + ∑
n2 k−1 k k−1 k−1 = nP{X ≥ n} + ∑ n P {X ≥ n } − ∑ n P {X ≥ n } 2 2 k=2 2 k=1 2 n2n
n
n2n −1
= nP{X ≥ n} + ∑ 2−n P {X ≥ k=1
n2n
n
k } − (n − 2−n )P{X ≥ n} 2n n
n2 k/2 n k = ∑ 2 P {X ≥ n } ≤ ∑ ∫ P{X ≥ t}dt = ∫ P{X ≥ t}dt. n 2 0 k=1 k=1 (k−1)/2 −n
Analoog volgt, n2n
(k+1)/2n
an ≥ ∑ ∫ k/2n k=1
Dus,
P{X ≥ t}dt ≥ ∫
n
0
n
P{X ≥ t}dt − 2−n .
IE[X] = lim an = lim ∫ P{X ≥ t}dt = ∫ n→∞ n→∞ 0 0
∞
P{X ≥ t}dt,
waarmee de stelling bewezen is. ⊔ ⊓ Opmerking. Bovenstaande stelling impliceert onmiddellijk dat als X, Y ∶ Ω → [0.∞[ toevalsvariabelen zijn zodanig dat PX = PY , er geldt: IE[X] = IE[Y ]. Dus de verwachtingswaarde van een niet-negatieve toevalsvariabele X is bepaald door zijn verdeling PX . Gegeven een toevalsvariabele X ∶ Ω → R defini¨eren we X + ∶= X ∨ 0 en X − ∶= (−X) ∨ 0. Dan is X + F-meetbaar omdat geldt X + = g ○ X, waar g(x) = x ∨ 0, x ∈ R continu en bijgevolg Borel-meetbaar is. Dit impliceert dat ook X − = (−X)+ F-meetbaar is. Bijgevolg zijn X + en X − niet-negatieve toevalsvariabelen waarvoor verwachtingswaarden gedefinieerd zijn. We noteren verder dat geldt: X = X + − X − en ∣X∣ = X + + X − . Definitie 4.3 Zij X ∶ Ω → R een toevalsvariabele. (i) Als tenminste ´e´en van de twee verwachtingswaarden IE[X + ], IE[X − ] eindig is, zeggen we dat X semi-integreerbaar is en we stellen IE[X] = IE[X + ] − IE[X − ] ∈ [−∞, ∞], waarbij ∞ − a = ∞, a − ∞ = −∞, a < ∞. (ii) Indien zowel IE[X + ] als IE[X − ] eindig zijn, zeggen we dat X integreerbaar is. In dit geval geldt IE[X] ∈ R.
HOOFDSTUK 4. VERWACHTINGSWAARDEN
40
Opmerkingen. 1. Uit de definitie en lemma 4.3.i volgt onmiddellijk dat een toevalsvariabele X ∶ Ω → R integreerbaar is als en slechts als IE[∣X∣] < ∞. Bovendien hebben we in dit geval ∣IE[X]∣ ≤ IE[∣X∣]. 2. Verder is het evident dat we algemeen hebben als X, Y ∶ Ω → R toevalsvariabelen met identieke verdelingen zijn, X semi-integreerbaar is als en slechts als Y semiintegreerbaar is. In dit geval hebben we: IE[X] = IE[Y ]. 3. Een speciaal geval van de laatste eigenschap is de volgende: We zeggen dat X = Y bijna overal (b.o.) indien P{X ≠ Y } = 0. Dan geldt natuurlijk PX = PY en bijgevolg is X semi-integreerbaar als en slechts als Y semi-integreerbaar is. We hebben dan weer dat IE[X] = IE[Y ]. In het discrete geval geldt verder: Stelling 4.4 Zij X ∶ Ω → R een discrete toevalsvariabele. Deze is integreerbaar als en slechts als ∑x ∣x∣pX (x) < ∞. In dit geval geldt er: IE[X] = ∑ xpX (x). x
Bewijs. Dit volgt onmiddellijk uit lemma 4.1. ⊔ ⊓ Om het analoge resultaat voor toevalsvariabelen met absoluut continue verdelingen te bewijzen, gebruiken we stelling 4.3. Stelling 4.5 Zij X ∶ Ω → R een toevalsvariabele met een absoluut continue verdeling. Deze ∞ is integreerbaar als en slechts als ∫−∞ ∣x∣fX (x)dx < ∞. In dit geval geldt er: IE[X] = ∫
∞ −∞
xfX (x)dx.
Bewijs. We bepalen eerst IE[X + ]. Gezien P{X + ≥ t} = P{X ≥ t}, t > 0 volgt via stelling 4.3, IE[X + ] = ∫ 0 = ∫ 0 = ∫ 0
∞ ∞ ∞
P{X ≥ t}dt ∫t
∞ x
∫0
fX (x)dxdt
1dtfX (x)dx = ∫
0
∞
xfX (x)dx.
Wegens X − = (−X)+ en f−X (x) = fX (−x) zien we na een substitutie dat IE[X − ] = ∫
0
∞
xf−X (x)dx = ∫
0
∞
xfX (−x)dx = − ∫
0 −∞
xfX (x)dx.
Dus hebben we: IE[X] = IE[X + ] − IE[X − ] = ∫
0
waarmee de stelling bewezen is. ⊔ ⊓
∞
xfX (x)dx + ∫
0 −∞
xfX (x)dx = ∫
∞ −∞
xfX (x)dx,
HOOFDSTUK 4. VERWACHTINGSWAARDEN
41
Voorbeelden 1. X ∼ gamma(α, β) ⇒ IE[X] = αβ. (oef.) 2. X ∼ normaal(µ, σ 2 ) ⇒ IE[X] = µ. (oef.) 3. Als X een Cauchy-verdeling heeft, i.e. X absoluut-continu met dichtheidsfunctie fX (x) = (π(1 + x2 )−1 , x ∈ R, bestaat IE[X] niet, omdat IE[X + ] = IE[X − ] = ∫
∞ 0
x/(π(1 + x2 ))dx = ∞.
We bewijzen nu enkele algemene resultaten over verwachtingswaarden. Stelling 4.6 (i) (Lineariteit van de verwachtingswaarde) Indien X, Y integreerbare toevalsvariabelen zijn, is voor elke keuze van α, β ∈ R de toevalsvariabele αX +βY ook integreerbaar en er geldt: IE[αX + βY ] = αIE[X] + βIE[Y ]. (ii) (Monotonie van de verwachtingswaarde) Gegeven twee integreerbare toevalsvariabelen X ≤ Y , hebben we IE[X] ≤ IE[Y ]. (iii) (Onafhankelijkheid) Als X1 , . . . , Xn onafhankelijke integreerbare toevalsvariabelen zijn, is de toevalsvariabele ∏ni=1 Xi integreerbaar en IE[∏ni=1 Xi ] = ∏ni=1 IE[Xi ]. Bewijs (i) Gezien ∣αX + βY ∣ ≤ ∣α∣∣X∣ + ∣β∣∣Y ∣ volgt uit lemma 4.3.i in verband met de monotonie van verwachtingswaarden voor positieve toevalsvariabelen (zie opmerking (2) na de definitie): IE[∣αX + βY ∣] ≤ ∣α∣IE[∣X∣] + ∣β∣IE[∣Y ∣] < ∞. Dus is αX + βY integreerbaar. Om de lineariteit van de verwachtingswaarden te bewijzen, tonen we eerst: (1) X, Y integreerbaar ⇒ IE[X + Y ] = IE[X] + IE[Y ] Om (1) te bewijzen, noteren we dat X + Y = (X + Y )+ − (X + Y )− = X + − X − + Y + − Y − wat natuurlijk impliceert: (X + Y )+ + X − + Y − = (X + Y )− + X + + Y + . Uit lemma 4.3.i volgt dan IE[(X + Y )+ ] + IE[X − ] + IE[Y − ] = IE[(X + Y )− ] + IE[X + ] + IE[Y + ]. Vermits de zes bovenstaande verwachtingswaarden eindig zijn (de drie toevalsvariabelen X, Y, X + Y zijn integreerbaar) kunnen we concluderen dat IE[X + Y ] = IE[(X + Y )+ ] − IE[(X + Y )− ] = IE[X + ] − IE[X − ] + IE[Y + ] − IE[Y − ] = IE[X] + IE[Y ]. We beweren nu dat verder geldt:
HOOFDSTUK 4. VERWACHTINGSWAARDEN
42
(2) X integreerbaar, α ∈ R ⇒ IE[αX] = αIE[X] hetgeen in verband met betrekking (1) de lineariteit van de verwachtingswaarde impliceert. Om (2) te bewijzen, kiezen we eerst α ≥ 0 en noteren dat dan geldt: (αX)+ = αX + , (αX)− = αX − . Dus: IE[αX] = IE[(αX)+ ] − IE[(αX)− ] = αIE[X]. Als α < 0, geldt: (1)
0 = IE[αX + (−α)X] = IE[αX] + IE[(−α)X] = IE[αX] − αIE[X]. Dus is (2) ook juist als α < 0 en deel (i) is bewezen. (ii) Min of meer triviaal. (IE[Y ] = IE[X] + IE[Y − X] ≥ IE[X].) ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ ≥0
(j)
(iii) Stel Zi
={
Xi+ Xi−
als j = 0 , j = 0, 1; 1 ≤ i ≤ n. als j = 1
Dan hebben we n
n
i=1
i=1
(0)
Z ∶= ∏ Xi = ∏(Zi
(1)
− Zi ) =
n
(ji )
∑ (−1)∑i=1 ji ∏ Zi n
j∈{0,1}n
,
i=1
(ji )
waar voor elke j ∈ {0, 1}n de positieve toevalsvariabelen Zi (j) Zi
, 1 ≤ i ≤ n onafhankelijk en
integreerbaar (wegens ≤ ∣Xi ∣) zijn. Dus kunnen we uit lemma 4.3.ii en deel (ii) van onze stelling afleiden dat Z integreerbaar is. Bovendien volgt dat IE[Z] =
n
(ji )
∑ (−1)∑i=1 ji ∏ IE[Zi n
j∈{0,1}n
i=1
n
(0)
(1)
n
] = ∏(IE[Zi ] − IE[Zi ]) = ∏ IE[Xi ] i=1
i=1
en stelling 4.6 is bewezen. ⊔ ⊓ Stelling 4.7 (Gedomineerde convergentie) Zij Xn , n ≥ 1 een rij toevalsvariabelen die naar een toevalsvariabele X convergeert. Veronderstel dat er een integreerbare toevalsvariabele Y ∶ Ω → [0, ∞[ bestaat zodanig dat voor ´e´en n0 ≥ 1 geldt: ∣Xn ∣ ≤ Y, n ≥ n0 . Dan is X integreerbaar en IE[Xn ] → IE[X] als n → ∞. Bewijs Het is evident dat onder de bovenstaande voorwaarde geldt: ∣X∣ = limn ∣Xn ∣ ≤ Y en dus IE[∣X∣] ≤ IE[Y ] < ∞, hetgeen impliceert dat X integreerbaar is. Verder geldt: X = lim inf n Xn = limn Zn , waar Zn = inf k≥n Xk , n ≥ 1 een stijgende rij van toevalsvariabelen is. Stel Zn′ = Zn + Y, n ≥ n0 . Dan is 0 ≤ Zn′ een stijgende rij van toevalsvariabelen met Zn′ ↗ X + Y als n → ∞ en de stelling van de monotone convergentie impliceert dat lim IE[Zn′ ] = IE[X + Y ] = IE[X] + IE[Y ]. n→∞
HOOFDSTUK 4. VERWACHTINGSWAARDEN
43
Wegens ∣Zn ∣ ≤ Y, n ≥ n0 zijn deze toevalsvariabelen integreerbaar en bijgevolg geldt: IE[Zn′ ] = IE[Zn ] + IE[Y ], n ≥ n0 Het is nu evident dat IE[Zn ] → IE[X] als n → ∞. Gezien Xn ≥ Zn , n ≥ 1 volgt verder dat IE[X] = lim inf IE[Zn ] ≤ lim inf IE[Xn ] n→∞
n→∞
(4.1)
Als we in betrekking (4.1) X door −X en Xn door −Xn vervangen, volgt: −IE[X] = IE[−X] ≤ lim inf IE[−Xn ] = − lim sup IE[Xn ]. n→∞
n→∞
Dus IE[X] ≥ lim sup IE[Xn ]
(4.2)
n→∞
Betrekkingen (4.1) en (4.2) impliceren samen dat IE[Xn ] → IE[X] als n → ∞ en de stelling van de gedomineerde convergentie is bewezen. ⊔ ⊓ Opmerking De bovenstaande stelling impliceert in het bijzonder dat als Xn een uniform begrensde rij van toevalsvariabelen is (dwz, ∃ K > 0, ∣Xn ∣ ≤ K, n ≥ 1) die naar een (begrensde) toevalsvariabele X convergeert, geldt: IE[Xn ] → IE[X] als n → ∞. Dit speciale geval van de stelling van de gedomineerde convergentie noemt men ook de stelling van de begrensde convergentie. We vermelden nog de volgende generalisatie van stellingen 4.4 en 4.5 die men analoog als deze resultaten kan bewijzen. Stelling 4.8 Zij X ∶ Ω → R een toevalsvariabele en g ∶ R → R een Borel-meetbare afbeelding zodanig dat IE[∣g(X)∣] < ∞. Dan geldt: IE[g(X)] = {
4.2
∑x g(x)pX (x) ∞ ∫−∞ g(x)fX (x)dx
(discreet geval) (continu geval)
Variantie, covariantie en moment-genererende functies
Definitie 4.4 Zij X ∶ Ω → R een toevalsvariabele zodanig dat voor ´e´en k ∈ {1, 2, . . .} geldt: IE[∣X∣k ] < ∞. Dan bestaat IE[X k ] en we noemen deze grootheid het k-de moment van X. Verder heet IE[∣X∣k ] het k-de absolute moment van X. Opmerking Vermits geldt ∣X∣j ≤ ∣X∣k + 1, 1 ≤ j ≤ k zien we dat als het k-de moment van een toevalsvariabele X bestaat, ook de momenten van de orde j ≤ k bestaan. Definitie 4.5 Zij X ∶ Ω → R een toevalsvariabele met IE[X 2 ] < ∞. Dan defini¨eren we de variantie van X (Notatie: Var(X)) door Var(X) = IE[(X −IE[X])2 ].
HOOFDSTUK 4. VERWACHTINGSWAARDEN
44
Eigenschappen 1. Natuurlijk geldt Var(X) ≥ 0. 2. P{X = IE[X]} = 1 ⇒ Var(X) = 0. 3. Var(aX + b) = a2 Var(X), a, b ∈ R. 4. Var(X) = IE[X 2 ] − IE[X]2 . Dus ook IE[X]2 ≤ IE[X 2 ]. 5. (Ongelijkheid van Chebyshev) P{∣X − IE[X]∣ ≥ } ≤ Var(X)/2 . (Om dit te bewijzen, noteren we dat I{∣X−IE[X]∣≥} ≤ (X − IE[X])2 /2 en de ongelijkheid volgt uit de monotonie van de verwachtingswaarde.) 6. Var(X) = 0 ⇒ P{X = IE[X]} = 1. Dus (zie (1)) is de variantie van een toevalsvariabele gelijk aan 0 als en slechts als X deterministisch is. (5)
(Bewijs: P{X =/ IE[X]} = limn P{∣X − IE[X]∣ ≥ 1/n} ≤ lim supn n2 Var(X) = 0.) Voorbeelden ∞
1. X ∼ normaal(0, 1) ⇒ IE[X] = 0 ⇒ Var(X) = IE[X 2 ] = ∫−∞ x2 e−x (parti¨ele integratie)
2 /2
√ dx/ 2π = 1.
2. Zij nu Y ∼ normaal(µ, σ 2 ). Dan geldt: X = (Y − µ)/σ ∼ normaal(0, 1) en bijgevolg Var(X) = Var(Y )/σ 2 = 1. Dus: Var(Y ) = σ 2 . 3. X ∼ Poisson(λ) ⇒ IE[X] = λ ⇒ Var(X) = IE[X 2 ] − λ2 . Verder geldt: ∞
IE[X 2 ] = IE[X] + IE[X(X − 1)] = λ + ∑ k(k − 1)λk e−λ /k! = λ + λ2 k=2
en het volgt dat Var(X) = λ. De momenten en de variantie laten zich vaak effici¨enter berekenen als de toevalsvariabele X een eindige moment-genererende functie heeft. Definitie 4.6 Als X ∶ Ω → R een toevalsvariabele is die voldoet aan de voorwaarde ∃t0 > 0 ∶ R(t) ∶= IE[etX ] < ∞, ∣t∣ ≤ t0 , zeggen we dat X een eindige moment-genererende functie (=mgf ) heeft. Stelling 4.9 Zij X ∶ Ω → R een toevalsvariabele die een eindige mgf heeft. Dan geldt er: (i) IE[∣X∣n ] < ∞, ∀n ≥ 1. j j (ii) R(t) = ∑∞ j=0 IE[X ]t /j!, ∣t∣ ≤ t0 . j (j) (iii) IE[X ] = R (0), j = 0, 1, 2, . . .
HOOFDSTUK 4. VERWACHTINGSWAARDEN
45
Bewijs (i) Als 0 < s ≤ t0 geldt: IE[es∣X∣ ] ≤ R(−s) + R(s) < ∞. Dit impliceert in verband met de triviale ongelijkheid es∣x∣ ≥ ∣x∣n sn /n!: IE[∣X∣n ] ≤ n!s−n IE[es∣X∣ ] < ∞, n = 1, 2, . . . (ii) Zij t ∈ [−t0 , t0 ] vast. Stel Zn = ∑nj=0 X j tj /j!. Dan geldt natuurlijk: Zn → etX als n → ∞. Vermits we ook hebben: n ∣Zn ∣ ≤ ∑ ∣t∣j ∣X∣j /j! ≤ e∣t∣∣X∣ , j=0
waar de toevalsvariabele e∣t∣∣X∣ integreerbaar is (zie bewijs van (i)), kunnen we via de stelling van de gedomineerde convergentie concluderen dat n
∑ tj IE[X j ]/j! = IE[Zn ] → IE[etX ] = R(t), ∣t∣ ≤ t0 .
j=0
(iii) Gezien we een representatie van R(t), ∣t∣ ≤ t0 als een machtreeks hebben gevonden, volgt uit de analyse dat alle afgeleiden R(k) (t) van R voor ∣t∣ < t0 en k = 1, 2, . . . bestaan. Verder geldt: ∞
R(k) (t) = ∑ IE[X j ]tj−k /(j − k)! j=k
wat natuurlijk (iii) impliceert. ⊔ ⊓ Opmerking Stel L(t) ∶= log R(t), ∣t∣ < t0 , waar log s de natuurlijke logaritme van s > 0 betekent. Dan volgt onmiddellijk uit (iii) (en het triviale feit dat R(0) = 1): IE[X] = L′ (0), Var(X) = L′′ (0). Dus kunnen we als L(t) bestaat de verwachtingswaarde en de variantie door differenti¨eren van de functie L verkrijgen. Voorbeelden tk k −λ λ(e −1) , t ∈ R. Dus L(t) = 1. Als X ∼ Poisson(λ), geldt IE[etX ] = ∑∞ k=0 e λ e /k! = e λ(et − 1) en L′ (t) = L′′ (t) = λet ⇒ L′ (0) = IE[X] = Var(X) = L′′ (0) = λ, wat we boven al via de definities van verwachtingswaarde en variantie hebben bewezen. t
∞
2. Als X ∼ exponentieel(λ), geldt: IE[etX ] = ∫0 etx e−x/λ λ−1 dx = (1 − λt)−1 , ∣t∣ < 1/λ. Dus: ∞ k k k k R(t) = ∑∞ effici¨enten k=0 IE[X ]t /k! = ∑k=0 λ t , t < 1/λ, wat natuurlijk impliceert (de co¨ van een machtreeks zijn uniek): IE[X k ] = k!λk , k = 1, 2, . . . en Var(X) = IE[X 2 ] − IE[X]2 = λ2 . 3. Als X ∼ normaal(0, 1), geldt (oef.) IE[etX ] = et /2 , t ∈ R en als we deze functie als een machtreeks opschrijven volgt dat IE[X 2k ] = 2−k (2k)!/k!, k = 1, 2, . . . 2
Onderstel dat X, Y toevalsvariabelen met eindige tweede momenten zijn, i.e. IE[X 2 ], IE[Y 2 ] < ∞. Dan is ook het product XY van deze toevalsvariabelen (wegens ∣XY ∣ ≤ (X 2 + Y 2 )/2) integreerbaar en we kunnen de covariantie van X, Y defini¨eren als cov(X, Y ) = IE[XY ] − IE[X]IE[Y ]. De volgende eigenschappen van de covariantie zijn evident.
HOOFDSTUK 4. VERWACHTINGSWAARDEN
46
Lemma 4.4 Onderstel dat X, Y, Z toevalsvariabelen zijn zodanig dat IE[X 2 + Y 2 + Z 2 ] < ∞. Dan geldt: (i) X, Y onafhankelijk ⇒ cov(X, Y ) = 0. (ii) cov(X, X) = Var(X). (iii) cov(X, Y ) = cov(Y, X). (iv) cov(aX + b, Y ) = a cov(X, Y ). (v) cov(X + Y, Z) = cov(X, Z) + cov(Y, Z). We kunnen nu de volgende belangrijke formule voor de variantie van de som van n toevalsvariabelen bewijzen. Stelling 4.10 Onderstel dat X1 , . . . , Xn toevalsvariabelen zijn met eindige tweede momenten. Dan geldt: n
n
i=1
i=1
Var(∑ Xi ) = ∑ Var(Xi ) + 2 ∑ cov(Xi , Xj ). 1≤i<j≤n
Opmerking Stelling 4.10 impliceert natuurlijk via lemma 4.4.i dat als de toevalsvariabelen X1 , . . . , Xn paarsgewijs onafhankelijk zijn, geldt: Var(∑ni=1 Xi ) = ∑ni=1 Var(Xi ). Bewijs van stelling 4.10 Met behulp van lemma 4.4 volgt: n
Var(∑ Xi )
(ii)
=
i=1
n
n
i=1
(iii)
=
(ii),(iii)
=
n
(v)
n
cov(∑ Xi , ∑ Xi ) = ∑ cov(Xi , ∑ Xi ) i=1
n
n
i=1 n
j=1
(v)
i=1 n n
i=1
∑ cov(∑ Xj , Xi ) = ∑ ∑ cov(Xj , Xi ) i=1 j=1
⊓ ∑ Var(Xi ) + 2 ∑ cov(Xi , Xj ). ⊔ i=1
1≤i<j≤n
Voorbeelden 1. Als X = ∑ni=1 IAi , waar Ai onafhankelijke gebeurtenissen zijn met P(Ai ) = p, 1 ≤ i ≤ n en dus X ∼ binomiaal(n, p), volgt dat Var(X) = ∑ni=1 Var(IAi ) = np(1 − p). 2. Als we uit een vaas met M blauwe en N gele ballen n ballen (n ≤ N + M ) zonder teruglegging trekken, dan heeft de toevalsvariabele X = # getrokken blauwe ballen een hypergeometrische verdeling (zie voorbeeld (5) in 2.2). In principe, kunnen we dan de variantie met behulp van de kansfunctie van X berekenen. Maar we weten ook dat X = ∑ni=1 IAi , als Ai de gebeurtenis is dat de i-de getrokken bal blauw is, 1 ≤ i ≤ n. Zoals in het voorbeeld na stelling 1.3 kan men bewijzen dat P(Ai ) = p ∶= M /(N + M ), 1 ≤ i ≤ n. Deze gebeurtenissen zijn niet onafhankelijk, zodat we nu in tegenstelling tot het eerste voorbeeld ook met het tweede gedeelte van de formule uit stelling 4.10 moeten rekening houden. We noteren eerst dat cov(IAi , IAj ) = cov(IA1 , IA2 ), i =/ j. Verder geldt: cov(IA1 , IA2 ) = P(A1 ∩ A2 ) − P(A1 )P(A2 ) = P(A1 )(P(A2 ∣A1 ) − P(A2 )) M p(1 − p) M −1 − )=− , = p( N +M −1 N +M N +M −1
HOOFDSTUK 4. VERWACHTINGSWAARDEN
47
hetgeen in verband met stelling 4.10 impliceert dat Var(X) = np(1 − p) + n(n − 1)cov(IA1 , IA2 ) = np(1 − p)
N +M −n . N +M −1
Definitie 4.7 (correlatieco¨ effici¨ ent) 2 Als X, Y toevalsvariabelen zijn met σX ∶= Var(X) ∈]0, ∞[ en σY2 ∶= Var(Y ) ∈]0, ∞[ defini¨eren we de correlatieco¨effici¨ent van X en Y als ρX,Y ∶=
cov(X, Y ) σX σY
Stelling 4.11 Zij X, Y zoals in definitie 4.7. Dan geldt voor de correlatieco¨effici¨ent: (i) ρX,Y ∈ [−1, 1] (ii) ρX,Y = 1 ⇔ ∃a > 0, b ∈ R ∶ P{Y = aX + b} = 1. (iii) ρX,Y = −1 ⇔ ∃a < 0, b ∈ R ∶ P{Y = aX + b} = 1. Bewijs (i) Stelling 4.10 in verband met lemma 4.4 impliceert onmiddellijk dat 0 ≤ Var(X/σX − Y /σY ) = 2 − 2cov(X/σX , Y /σY ) = 2(1 − ρX,Y ). Dus : ρX,Y ≤ 1. Wegens 1 ≥ ρ−X,Y = −ρX,Y , volgt dan ook ρX,Y ≥ −1. (ii) Als ρX,Y = 1 impliceert de formule in het bewijs van (i) dat Var(X/σX − Y /σY ) = 0. Dus (eigenschap (6) van de variantie) bestaat er een c ∈ R (c = IE[X/σX − Y /σY ]) zodanig dat 1 = P{X/σX − Y /σY = c} = P{Y = (σY /σX )X − cσY }. Omgekeerd volgt uit P{Y = aX + b} = 1: 2 2 cov(X, Y )= cov(aX + b, X)=aσX en σY2 =Var(aX + b)=a2 σX , hetgeen wegens a > 0 impliceert dat ρX,Y = 1. (iii) Gebruik (ii) en het feit dat ρ−X,Y = −ρX,Y . ⊔ ⊓ Opmerking Als ρX,Y > 0 ( ρX,Y < 0) zeggen we dat er een positieve (negatieve) correlatie tussen X en Y bestaat. Als X, Y onafhankelijk zijn, geldt ρX,Y = 0, maar het omgekeerde geldt niet. ⃗ = (X1 , . . . , Xk )t ∶ Ω → Rk . Deze heten We bekijken nog k-dimensionale toevalsvectoren X integreerbaar indien de toevalsvariabelen X1 , . . . , Xk allemaal integreerbaar zijn en we de⃗ = (IE[X1 ], . . . , IE[Xk ])t . fini¨eren in dit geval de verwachtingswaarde door IE[X] 2 Als IE[Xi ] < ∞, 1 ≤ i ≤ k defini¨eren we verder een (k,k)-matrix Σ = (Σi,j )1≤i,j≤k door Σi,j ∶= cov(Xi , Xj ), 1 ≤ i, j ≤ k. ⃗ We noemen deze matrix de covariantiematrix van X. (Notatie: Cov(X).) ⃗ ∶ Ω → Rk een toevalsvector met covariantiematrix Σ. Dan is Σ symmeStelling 4.12 Zij X trisch en positief semi-definiet. Bewijs Σ is symmetrisch omdat geldt cov(Xi , Xj ) = cov(Xj , Xi ), i, j ∈ {1, . . . , k}. (lemma 4.4.iii)
HOOFDSTUK 4. VERWACHTINGSWAARDEN
48
Om te tonen dat Σ positief semi-definiet is, kiezen we een vector z = (z1 , . . . , zk )t ∈ Rk . Dan geldt wegens lemma 4.4.: k
k
k
k
k
z t Σ z = ∑ ∑ zi Σi,j zj = ∑ ∑ zi cov(Xi , Xj )zj = Var(∑ zi Xi ) ≥ 0 i=1 j=1
i=1 j=1
i=1
en de stelling is bewezen. ⊔ ⊓ Opmerking Men kan bewijzen dat als Σ niet positief-definiet is en dus geldt rang(Σ)= m < k, er een deelruimte V van Rk met dim(V )=m en een vector a ∈ Rk bestaan zodanig dat ⃗ ∈ a + V } = 1. P{X ⃗ = (X1 , . . . , Xk )t ∼ normaal(µ, Σ), waar Σ een symmetrische, positief defiVoorbeeld Zij X niete (k,k)-matrix is. Dan geldt: ⎡ µ1 ⎤ ⎢ ⎥ ⃗ = ⎢⎢ ⋮ ⎥⎥ en Cov(X) = Σ. IE[X] ⎢ ⎥ ⎢µk ⎥ ⎣ ⎦ ⃗ een representatie als Om dit te bewijzen, gebruiken we het feit dat X ⎡ X 1 ⎤ ⎡ µ1 ⎤ ⎡Z1 ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⋮ ⎥ = ⎢ ⋮ ⎥ + A⎢ ⋮ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢Xk ⎥ ⎢µk ⎥ ⎢Zk ⎥ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦ heeft, waar A een symmetrische (k,k)-matrix is met A2 = Σ en Z1 , . . . , Zk onafhankelijke standaard-normaalverdeelde toevalsvariabelen zijn (zie lemma 3.1). Dit impliceert dat ⎡ µ1 ⎤ ⎡ µ1 ⎤ ⎢ ⎥ ⎢ ⎥ ⎥ ⎢ ⃗ = ⎢ ⋮ ⎥ + IE[A ⋅ Z] ⃗ = ⎢⎢ ⋮ ⎥⎥ + A ⋅ IE[Z] ⃗ IE[X] ⎢ ⎥ ⎢ ⎥ ⎢µk ⎥ ⎢µk ⎥ ⎣ ⎦ ⎣ ⎦ ⃗ ⃗ t (waar de formule voor IE[X] ⃗ direct uit de lineariteit van en ook dat Cov(X)=A⋅Cov( Z)⋅A ⃗ uit lemma 4.3). de (1-dimensionale) verwachtingswaarde volgt en de formule voor Cov(X) ⎡0⎤ ⎢ ⎥ ⎢ ⎥ ⃗ ⃗ I (= Het is evident dat IE[Z] = ⎢ ⋮ ⎥ en verder geldt (wegens de onafhankelijkheid) Cov(Z)= ⎢ ⎥ ⎢0⎥ ⎣ ⎦ ⎡ µ1 ⎤ ⎢ ⎥ ⃗ = ⎢⎢ ⋮ ⎥⎥ en Cov(X)= ⃗ A ⋅ At = A2 = Σ. de k-dimensionale identiteitsmatrix). Dus geldt IE[X] ⎢ ⎥ ⎢µk ⎥ ⎣ ⎦ Alternatief kunnen we dit ook via de volgende k-dimensionale versie van stelling 4.8 bewijzen. Stelling 4.13 Zij X1 , . . . , Xk toevalsvariabelen met een discrete of een gezamenlijk continue verdeling. Zij h ∶ Rk → R en Borel-meetbare afbeelding zodanig dat IE[∣h(X1 , . . . , Xk )∣] < ∞. Dan geldt: IE[h(X1 , . . . , Xk )] = {
∑x1 . . . ∑xk h(x1 , . . . , xk )pX1 ,...,Xk (x1 , . . . , xk ) ∞ ∞ ∫−∞ . . . ∫−∞ h(x1 , . . . , xk )fX1 ,...,Xk (x1 , . . . , xk )dx1 . . . dxk
(discreet geval) (continu geval)
HOOFDSTUK 4. VERWACHTINGSWAARDEN
4.3
49
Conditionele verwachtingswaarden
We defini¨eren in dit gedeelte van hoofdstuk 4 de conditionele verwachtingswaarde van een toevalsvariabele X gegeven dat een toevalsvector Y ∶ Ω → Rd gelijk aan een bepaalde waarde y ∈ Rd is. We moeten ons hier beperken tot de twee gevallen waar X en Y discreet of gezamenlijk continu zijn. Later kunnen we dan met behulp van de maattheorie (→ bachelor 3) conditionele verwachtingswaarden algemeen defini¨eren. Definitie 4.8 Zij X ∶ Ω → R een toevalsvariabele en zij Y ∶ Ω → Rd een toevalsvector die discreet of gezamenlijk continu zijn. Als IE[∣X∣] < ∞ en y ∈ Rd zodanig is dat pY (y) > 0 (in het discrete geval) of fY (y) > 0 (in het continue geval), defini¨eren we de conditionele verwachtingswaarde van X gegeven Y = y door IE[X∥Y = y] = {
∑x xpX∣Y (x∣y) ∞ ∫−∞ xfX∣Y (x∣y)dx
(discreet geval) (continu geval)
Voorbeeld Neem twee gezamenlijk continue toevalsvariabelen X, Y met dichtheidsfunctie f (x, y) = { Dan geldt: fY (y) = ∫
y 0
β −2 e−y/β 0 < x < y < ∞ 0 elders
β −2 e−y/β dx = β −2 ye−y/β , y > 0,
waaruit blijkt dat fX∣Y (x∣y) = 1/y, 0 < x < y Dus is de conditionele verdeling van X gegeven Y = y uniform op het interval (0, y) en de conclusie is dat IE[X∥Y = y] = y/2, y > 0. Als we g(y) = IE[X∥Y = y] stellen indien pY (y) > 0 (discreet geval) of fY (y) > 0 (continu geval) en g(y) = 0 elders, verkrijgen we een Borel-meetbare afbeelding g ∶ Rd → R. We defini¨eren dan de conditionele verwachtingswaarde van X, gegeven Y door IE[X∥Y ] = g ○ Y Dus IE[X∥Y ] ∶ Ω → R is een toevalsvariabele en als Y (ω) = y geldt er IE[X∥Y ](ω) = IE[X∥Y = y]. Stelling 4.14 Zij X ∶ Ω → R een toevalsvariabele en zij Y ∶ Ω → Rd een toevalsvector die discreet of gezamenlijk continu zijn. Voor elke Borel-verzameling C ∈ Rd geldt: IE[XI{Y ∈C} ] = IE[IE[X∥Y ]I{Y ∈C} ]. In het bijzonder: IE[X] = IE[IE[X∥Y ]].
HOOFDSTUK 4. VERWACHTINGSWAARDEN
50
Bewijs We bewijzen de stelling in het continue geval. Stel N = {fY = 0}. Dan is N ∈ Rd (omdat fY Borel-meetbaar is) en P{Y ∈ N } = 0. Dit impliceert dat XI{Y ∈C} = XI{Y ∈C∩N c } b.o. en dus IE[XI{Y ∈C} ] = IE[XI{Y ∈C∩N c } ]. De tweede verwachtingswaarde kunnen we wegens stelling 4.13 ook opschrijven als ∞
∫−∞ ∫C∩N c
xf (x, y)dydx = ∫
∞
C∩N c
∫−∞ xfX∣Y (x∣y)dxfY (y)dy
Het rechterlid is gelijk aan ∫C∩N c IE[X∥Y = y]fY (y)dy = ∫Rd IC (y)g(y)fY (y)dy, waar g(y) = IE[X∥Y = y] als fY (y) > 0 en g(y) = 0 elders. Dus IE[X∥Y ] = g ○ Y . Een toepassing van stelling 4.13 toont ten slotte dat de laatste term gelijk is aan IE[(IC ○ Y )IE[X∥Y ]] = IE[I{Y ∈C} IE[X∥Y ]], waarmee de stelling (in het continue geval) bewezen is. ⊔ ⊓ Voorbeelden 1. Als X, Y toevalsvariabelen zijn met een gezamenlijk continue verdeling bepaald door de dichtheidsfunctie fX,Y (x, y) = β −2 e−y/β , 0 < x < y < ∞ en fX,Y (x, y) = 0 elders, dan hebben we al aangetoond dat IE[X∥Y = y] = y/2, y > 0. Bijgevolg is IE[X∥Y ] = Y /2 De toevalsvariabele Y heeft een gamma(2, β)-verdeling zodat IE[Y ] = 2β. Het volgt nu dat IE[X] = IE[Y /2] = β. 2. We bekijken nog een keer de geometrische verdeling met parameter p. Zij X een toevalsvariabele met deze verdeling en stel Y = IA , waar A de gebeurtenis is dat het eerste experiment een succes is. (X is het aantal experimenten totdat we de eerste keer succes hebben.) Dan geldt natuurlijk: IE[X∥Y = 1] = 1 en IE[X∥Y = 0] = IE[X] + 1. Dus kunnen we via stelling 4.14 concluderen dat IE[X] = IE[IE[X∥Y ]] = P{Y = 1}IE[X∥Y = 1] + P{Y = 0}IE[X∥Y = 0] = p + (1 − p)(IE[X] + 1), hetgeen impliceert dat IE[X] = 1/p of IE[X] = ∞. Het is niet te moeilijk te zien dat IE[X] eindig moet zijn en we kunnen dus op deze manier de verwachtingswaarde van X bepalen zonder resultaten over machtreeksen te gebruiken.
HOOFDSTUK 4. VERWACHTINGSWAARDEN
4.4
51
Verwachtingswaarden en integralen
We hebben gezien hoe men de verwachtingswaarde van een toevalsvariabele X ∶ Ω → R op een kansruimte (Ω, F, P) kan defini¨eren. Deze is natuurlijk afhankelijk van de kansmaat P. Soms bekijken we ook meetbare ruimten (Ω, F), waarop verschillende kansmaten gedefinieerd zijn. In dit geval duiden we de verwachtingswaarde van een toevalsvariabele X t.o.v. een kansmaat P aan door EP [X]. Men gebruikt ook een notatie als een integraal: EP [X] = ∫ XdP = ∫ X(ω)P (dω). Ω (In de maattheorie zullen we zien dat er een algemeen begrip van integraal bestaat waarvan verwachtingswaarden en de Lebesgue-integraal speciale gevallen zijn.) We bekijken nu verwachtingswaarden op de meetbare ruimte (Rd , Rd ). Als g ∶ Rd → R Borel-meetbaar is, is dit een toevalsvariabele op de kansruimte (Rd , Rd , µ), waar µ ∶ Rd → [0, 1] een willekeurige kansmaat kan zijn. We kunnen dan altijd Eµ [g + ] = ∫Rd g + (x)µ(dx) en Eµ [g − ] = ∫Rd g − (x)µ(dx) berekenen. Als minstens ´e´en van deze twee verwachtingswaarden eindig is, dan is g µ-semi-integreerbaar en we hebben dat Eµ [g] = ∫
Rd
g(x)µ(dx) = ∫
Rd
g + (x)µ(dx) − ∫
Rd
g − (x)µ(dx).
∞
Indien d = 1, schrijven we meestal ∫−∞ g(x)µ(dx) in plaats van ∫R g(x)µ(dx). De volgende stelling toont dat gegeven een toevalsvector X ∶ Ω → Rd , we verwachtingswaarden van toevalsvariabelen van de gedaante g ○ X ∶ Ω → R als µ-integralen kunnen berekenen, waar µ = PX de verdeling van X is. Stelling 4.15 Zij X ∶ Ω → Rd een toevalsvector met verdeling µ en g ∶ Rd → R Borelmeetbaar. Dan bestaat IE[g ○ X] als en slechts als g µ-semi-integreerbaar is. In dit geval hebben we, IE[g ○ X] = ∫ g(X(ω))P(dω) = ∫ g(x)µ(dx). Rd
Ω
Bewijs. Het is voldoende de stelling voor niet-negatieve Borel-meetbare functies te bewijzen. Dus zij g ≥ 0. Dan is g ○ X een niet-negatieve toevalsvariabele en dus geldt er wegens stelling 4.3, ∞ ∞ IE[g ○ X] = ∫ P{g ○ X ≥ t}dt = ∫ P{X ∈ g −1 [t, ∞[}dt. 0
0
Aangezien µ(B) = PX (B) = P{X ∈ B}, B ∈ R, kunnen we de laatste integraal ook schrijven als ∞ ∞ −1 ∫ µ(g ([t, ∞[))dt = ∫ µ{g ≥ t}dt = Eµ [g] = ∫ g(x)µ(dx), 0
0
Rd
waarmee de stelling bewezen is. ◻ Als X ∶ Ω → R een toevalsvariabele is waarvoor IE[X] bestaat, krijgen we als speciaal ∞ geval van de bovenstaande stelling dat IE[X] = ∫−∞ xµ(dx), hetgeen weer toont dat de verwachtingswaarde van een toevalsvariabele bepaald is door de verdeling van deze toevalsvariabele.
Hoofdstuk 5 Enkele belangrijke limietstellingen 5.1
De zwakke wet van de grote getallen
Zij Xn , n ≥ 1 een rij onafhankelijke, identiek verdeelde toevalsvariabelen (waar de laatste voorwaarde betekent dat geldt PX1 = PXk , k ≥ 1). Stel Sn = ∑nk=1 Xk , n ≥ 1 en bekijk het gemiddelde Sn /n van de eerste n toevalsvariabelen. Uit onze ervaring in het dagelijkse leven (bv, als we lotto spelen of naar casino’s gaan), weten we dat als n groot wordt, deze gemiddelden zich beginnen te stabiliseren, dwz deze toevalsvariabelen convergeren. Zoals in de meeste andere richtingen van de wiskunde, bestaan er in de kanstheorie verschillende soorten van convergentie. We bekijken eerst convergentie in kans. Definitie 5.1 (Convergentie in kans) Zij Zn , n ≥ 1 een rij toevalsvariabelen. Dan zeggen P we dat Zn in kans naar een toevalsvariabele Z convergeert (Notatie: Zn → Z) indien geldt: P{∣Zn − Z∣ ≥ } → 0 als n → ∞, ∀ > 0. Voorbeeld Zij Xn , n ≥ 1 zoals boven, i.e. onafhankelijk en identiek verdeeld. Onderstel dat IE[X12 ] < ∞. Dan geldt: Sn /n → IE[X1 ]. Om dit te tonen, noteren we eerst dat IE[Sn /n] = ∑ni=1 IE[Xi ]/n = IE[X1 ]. Dus volgt uit Chebyshevs ongelijkheid en stelling 4.10 dat P
P{∣Sn /n − IE[X1 ]∣ ≥ } ≤ Var(Sn /n)/2 = Var(X1 )/(n2 ) → 0. Opmerkingen 1. In het bovenstaande voorbeeld hebben we formeel niet nodig dat het tweede moment van X1 eindig is. Dit was wel nodig om Chebyshevs ongelijkheid te kunnen gebruiken. Dus is het voor de hand liggend te vragen of er een ander bewijs bestaat, zodat we de bovenstaande convergentie in kans onder de voorwaarde IE[∣X1 ∣] < ∞ kunnen verkrijgen. 2. Verder is het bovenstaande argument nog goed als we in plaats van “onafhankelijk” veronderstellen dat de toevalsvariabelen paarsgewijs onafhankelijk zijn. 52
HOOFDSTUK 5. ENKELE BELANGRIJKE LIMIETSTELLINGEN
53
3. Algemener kan men zich ook afvragen wanneer Sn /n → a geldt, waar a een constante is (die niet noodzakelijk een verwachtingswaarde is). P
Om deze problemen op te lossen, bewijzen we eerst een resultaat dat aantoont wanneer voor paarsgewijs onafhankelijke (niet noodzakelijk identiek verdeelde) toevalsvariabelen Xn P geldt Sn /an → 0, waar an ↗ ∞. Met meer gevorderde technieken uit de kanstheorie kan men ook tonen dat de voorwaarden van onze stelling nodig zijn als de toevalsvariabelen Xn onafhankelijk zijn. Stelling 5.1 Zij Xn , n ≥ 1 een rij paarsgewijs onafhankelijke toevalsvariabelen en zij Sn = ∑nj=1 Xj . Veronderstel dat voor een rij an ↗ ∞ geldt: (i) limn→∞ ∑nj=1 P{∣Xj ∣ ≥ an } = 0 n (ii) limn→∞ a−1 n ∑j=1 IE[Xj I{∣Xj ∣
Bewijs Stel Xn,j ∶= Xj I{∣Xj ∣
P{∣Sn ∣ ≥ an } ≤ P{∣Sn,n ∣ ≥ an } + P( ⋃ {Xn,j ≠ Xj }) j=1
n
≤ P{∣Sn,n ∣ ≥ an } + ∑ P{∣Xj ∣ ≥ an }, j=1
waar de laatste term wegens (i) naar nul convergeert. Verder impliceert (ii) voor grote n, P{∣Sn,n ∣ ≥ an } ≤ P{∣Sn,n − IE[Sn,n ]∣ ≥ an /2}. Als we nu zoals boven de ongelijkheid van Chebyshev en stelling 4.10 gebruiken waar we rekening houden met het feit dat de toevalsvariabelen Xn,j , 1 ≤ j ≤ n paarsgewijs onafhankelijk zijn als functies van de variabelen Xj , 1 ≤ j ≤ n, volgt uit (iii), P{∣Sn,n − IE[Sn,n ]∣ ≥ an /2} ≤ 4−2 Var(Sn,n )/a2n n
= 4−2 a−2 n ∑ Var(Xj I{∣Xj ∣
en de stelling is bewezen. ⊔ ⊓ Als we de bovenstaande stelling met an = n toepassen, verkrijgen we de zwakke wet van de grote getallen (= weak law of large numbers, WLLN). Stelling 5.2 (WLLN) Zij Xn , n ≥ 1 een rij paarsgewijs onafhankelijke toevalsvariabelen met identieke verdelingen. Veronderstel dat (i) nP{∣X1 ∣ ≥ n} → 0 als n → ∞. (ii) IE[X1 I{∣X1 ∣
HOOFDSTUK 5. ENKELE BELANGRIJKE LIMIETSTELLINGEN
54
Bewijs (i) en (ii) stemmen met de voorwaarden (i) en (ii) van stelling 5.1 (voor het speciale geval waar de toevalsvariabelen identieke verdelingen hebben en an = n) overeen. Voorwaarde (iii) betekent in dit geval dat Var(X1 I{∣X1 ∣≤n} )/n → 0 als n → ∞. Om dit te bewijzen noteren we dat n
Var(X1 I{∣X1 ∣
n
n
m
≤ ∑ m2 P{m − 1 ≤ ∣X1 ∣ < m} ≤ 2 ∑ ( ∑ k)P{m − 1 ≤ ∣X1 ∣ < m} m=1 n
m=1 k=1 n
n
= 2 ∑ k ∑ P{m − 1 ≤ ∣X1 ∣ < m} = 2 ∑ kP{k − 1 ≤ ∣X1 ∣ < n} k=1
m=k n
k=1
n−1
≤ 2 + 4 ∑ (k − 1)P{∣X1 ∣ ≥ k − 1} = 2 + 4 ∑ mP{∣X1 ∣ ≥ m}. m=1
k=2
Wegens (i) geldt:
1 n
n ∑m=1 mP{∣X1 ∣
≥ m} → 0 als n → ∞ en de WLLN is bewezen.⊔ ⊓
Gevolg 5.1 Zij Xn , n ≥ 1 een rij paarsgewijs onafhankelijke, identiek verdeelde toevalsvariP abelen. Veronderstel dat IE[∣X1 ∣] < ∞. Dan geldt: Sn /n → IE[X1 ]. Bewijs Het is voldoende het gevolg voor het geval IE[X1 ] = 0 te bewijzen. (Vervang indien nodig de toevalsvariabelen Xn door Xn − IE[X1 ], n ≥ 1.) Wegens de monotonie van de verwachtingswaarde geldt: nP{∣X1 ∣ ≥ n} = IE[nI{∣X1 ∣≥n} ] ≤ IE[∣X1 ∣I{∣X1 ∣≥n} ] Vermits geldt ∣X1 ∣I{∣X1 ∣≥n} → 0 en ∣X1 ∣I{∣X1 ∣≥n} ≤ ∣X1 ∣ kunnen we via de stelling van de gedomineerde convergentie concluderen dat IE[∣X1 ∣I{∣X1 ∣≥n} ] → 0 en bijgevolg is aan (i) voldaan. Gezien IE[X1 ] = 0 hebben we ∣IE[X1 I{∣X1 ∣
Opmerking Er bestaan paarsgewijs onafhankelijke en identiek verdeelde toevalsvariabelen P Xn , n ≥ 1 zodanig dat IE[∣X1 ∣] = ∞ en Sn /n → 0. 1 Voorbeeld: Stel c = ∑∞ n=2 n2 log n en zij µ de discrete kansmaat gegeven door
µ{n} = µ{−n} =
1 2cn2 log n
, n = 2, 3, . . .
Als Xn , n ≥ 1 een rij onafhankelijke toevalsvariabelen met deze verdeling is, geldt voor n ≥ 2, ∞
∞ n 1 ≤ ∑ m−2 2 log m cm c log n m=n m=n ∞ 2 n ≤ x−2 dx ≤ →0 c log n ∫n−1 c log n
nP{∣X1 ∣ ≥ n} = n ∑
Gezien µ symmetrisch is (i.e. µ(A) = µ(−A), A ∈ R) en bijgevolg PX1 = P−X1 volgt onmiddellijk dat IE[X1 I{∣X1 ∣
1 2c
∞ 1 ∑n=2 n log n = ∞.
HOOFDSTUK 5. ENKELE BELANGRIJKE LIMIETSTELLINGEN
5.2
55
De sterke wet van de grote getallen
Definitie 5.2 (Convergentie bijna overal) Zij Zn , n ≥ 1 een rij toevalsvariabelen. Dan zeggen we dat Zn bijna overal (of met kans 1) naar een toevalsvariabele Z convergeert indien geldt: P{ω ∶ Zn (ω) → Z(ω)} = 1. (Notatie: Zn → Z b.o.) Het volgende lemma geeft een karakterisering van deze convergentie. Lemma 5.1 Als Z, Zn , n ≥ 1 toevalsvariabelen zijn, dan zijn equivalent: (A) Zn → Z b.o. (B) limn→∞ P(⋃∞ m=n {∣Zm − Z∣ ≥ }) = 0 ∀ > 0. Bewijs Stel ∆∞ ∶= lim supn→∞ ∣Zn − Z∣. Dan hebben we natuurlijk: (A) ⇐⇒ P{∆∞ = 0} = 1 ⇐⇒ P{∆∞ ≥ } = 0 ∀ > 0. De niet-triviale implicatie “⇐” in de laatste equivalentie volgt wegens ∞
∞
n=1
n=1
P{∆∞ ≠ 0} = P ( ⋃ {∆∞ ≥ 1/n}) ≤ ∑ P{∆∞ ≥ 1/n}. Verder geldt er ∆n ↘ ∆∞ , waar ∆n ∶= supm≥n ∣Zm − Z∣, n ≥ 1. Bijgevolg, hebben we: {∆n ≥ } ↘ {∆∞ ≥ } en dus P{∆∞ ≥ } = limn→∞ P{∆n ≥ }. Dit betekent dat (A) ⇐⇒ P{∆n ≥ } → 0 als n → ∞ ∀ > 0. Aangezien ∞
∞
m=n
m=n
P( ⋃ {∣Zm − Z∣ ≥ }) ≤ P{∆n ≥ } ≤ P( ⋃ {∣Zm − Z∣ ≥ /2}) ∀ > 0, volgt onmiddellijk dat (A) en (B) equivalent zijn. ⊔ ⊓ Gevolg 5.2 Als Z, Zn , n ≥ 1 toevalsvariabelen zijn zodanig dat Zn → Z b.o., hebben we: P Zn → Z. Bewijs Als Zn → Z b.o., volgt via lemma 5.1 en de monotonie van de kansmaat P: ∞
P{∣Zn − Z∣ ≥ } ≤ P( ⋃ {∣Zm − Z∣ ≥ }) → 0, ∀ > 0. m=n
Dus bestaat ook convergentie in kans en het lemma is bewezen. ⊔ ⊓ We geven nu een voorbeeld waar convergentie in kans bestaat, maar niet bijna overal. Voorbeeld. Zij U een uniform(0,1)-verdeelde toevalsvariabele en stel X1 = I]0,1] ○ U, X2k +j−1 = I](j−1)/2k ,j/2k ] ○ U, 1 ≤ j ≤ 2k , k = 1, 2 . . . Dan geldt: P{Xn ≠ 0} → 0 en dus Xn → 0. Maar lim supn→∞ Xn = I]0,1] , waaruit blijkt dat de convergentie niet bijna overal kan bestaan. P
HOOFDSTUK 5. ENKELE BELANGRIJKE LIMIETSTELLINGEN
56
Stelling 5.3 (De sterke wet van de grote getallen (= SLLN)) Zij Xn , n ≥ 1 een rij paarsgewijs onafhankelijke, identiek verdeelde toevalsvariabelen zodanig dat IE[∣X1 ∣] < ∞. Stel Sn = ∑nj=1 Xj , n ≥ 1. Dan geldt: Sn /n → IE[X1 ] b.o. Opmerking Men kan tonen dat Sn /n niet bijna overal kan convergeren als IE[∣X1 ∣] = ∞. Dus weten we dat als Sn /n bijna overal convergent is, het eerste moment van X1 moet bestaan en de limiet is dan gelijk aan IE[X1 ]. In bepaalde gevallen is het wel nog mogelijk dat Sn /n in kans convergeert hoewel IE[∣X1 ∣] = ∞ (zie voorbeeld in 5.1). Bewijs (Als IE[X12 ] < ∞.) We bekijken eerst niet-negatieve toevalsvariabelen. Dus, veronderstel dat Xn ≥ 0, n ≥ 1. Merk op dat dan Sn monotoon niet-dalend is. (STAP 1) Stel nk = k 2 . Gezien de toevalsvariabelen Xj paarsgewijs onafhankelijk zijn, hebben we Var(Snk ) = nk Var(X1 ) ≤ nk IEX12 . Als we de ongelijkheid van Chebyshev toepassen volgt er voor > 0, P{∣Snk /nk − IEX1 ∣ > } ≤ −2 IEX12 /nk , hetgeen natuurlijk impliceert dat ∑∞ k=1 P{∣Snk /nk − IEX1 ∣ > } < ∞, > 0. Dan volgt er voor > 0, ∞
∞
k=N
k=N
P( ⋃ {∣Snk /nk − IEX1 ∣ > } ≤ ∑ P{∣Snk /nk − IEX1 ∣ > } → 0 als N → ∞, en dus (Lemma 5.1) Snk /nk → IEX1 b.o. (STAP 2) Wegens de monotonie van Sn kunnen we voor nk−1 ≤ n ≤ nk concluderen: nk Snk nk−1 Snk−1 Sn ≤ ≤ nk nk−1 n nk−1 nk Merk op dat nk /nk−1 → 1 als k → ∞. Dus kunnen we onmiddellijk uit de convergentie van de deelrij Snk /nk concluderen dat Sn /n → IEX1 b.o. als n → ∞. Daarmee is de sterke wet van de grote getallen bewezen voor niet-negatieve toevalsvariabelen. (STAP 3) Stel Xn+ = Xn ∨ 0 en Xn− = (−Xn ) ∨ 0, n ≥ 1. De twee rijen Xn+ , n ≥ 1 en Xn− , n ≥ 1 zijn paarsgewijs onafhankelijk en we hebben natuurlijk: n
n
j=1
j=1
Sn /n = ∑ Xj+ /n − ∑ Xj− /n. Als we de sterke wet van de grote getallen voor niet-negatieve toevalsvariabelen toepassen, zien we dat met kans 1, Sn /n → IEX1+ − IEX1− = IEX1 als n → ∞ en de stelling is bewezen. ◻ Opmerking Het speciale geval van de sterke wet van de grote getallen wat we pas hebben bewezen, impliceert dat relatieve frequenties (zie 1.1) bijna overal convergeren. Om dit in te zien, bekijken we een rij onafhankelijke gebeurtenissen An met P(An ) = p en stellen Xn = IAn . Dan zijn de Xn onafhankelijke Bernoulli(p)-variabelen met IE[Xn2 ] = IE[Xn ] = p < ∞. Het volgt dat nA /n = ∑ni=1 Xi /n bijna overal naar p = P(A1 ) convergeert.
HOOFDSTUK 5. ENKELE BELANGRIJKE LIMIETSTELLINGEN
5.3
57
De centrale limietstelling
Het volgende resultaat is misschien het belangrijkste resultaat uit de kanstheorie. Het toont dat bepaalde kansen betreffende sommen van onafhankelijke toevalsvariabelen Xn naar kansen ten opzichte van de normaalverdeling convergeren. Dus als Sn = ∑ni=1 Xi en n groot genoeg is, kunnen we zowel in het discrete geval als in het absoluut continue geval kansen van het type P{Sn ∈ A} benaderen door “normale” kansen P{Tn ∈ A}, waar Tn een normaalverdeelde variabele is. Formeel gaat het hier over “convergentie in distributie” die we nu gaan defini¨eren. Definitie 5.3 (Convergentie in distributie) Zij Zn , n ≥ 1 een rij toevalsvariabelen. Dan zeggen we dat Zn naar een toevalsvariabele Z in distributie (of in verdeling) convergeert indien er voor de verdelingsfuncties Fn van Zn en F van Z geldt: Fn (x) → F (x), ∀ x ∈/ D(F ), waar D(F ) = {x ∈ R ∶ F is niet continu in x}. We hebben al in hoofdstuk 2 getoond (zie stelling 2.5) dat D(F ) = {x ∈ R ∶ P{Z = x} > 0} en het is evident dat deze verzameling hoogstens aftelbaar is (zie bewijs van stelling 1.4). De volgende stelling geeft een karakterisatie van convergentie in distributie die we in het d vervolg altijd door → gaan aanduiden. Stelling 5.4 De volgende twee uitspraken zijn equivalent: d
(a) Zn → Z als n → ∞. (b) Als g ∶ R → R continu en begrensd is, geldt er IE[g ○ Zn ] → IE[g ○ Z] als n → ∞. Bewijs (a) ⇒ (b) Zij 0 < < 1/3. Gezien F (x) → 1 als x → ∞ en F (x) → 0 als x → −∞ (zie stelling 2.5) en D(F ) hoogstens aftelbaar is, kunnen we een K > 0 vinden zodanig dat −K, K ∈/ D(F ) en F (K) = P{Z ≤ K} ≥ 1 − , F (−K) = P{Z ≤ −K} ≤ , hetgeen natuurlijk impliceert dat P{−K < Z ≤ K} = F (K) − F (−K) ≥ 1 − 2. (5.1) Aangezien Fn (K) → F (K) en Fn (−K) → F (−K) als n → ∞, volgt er ook dat vanaf een bepaalde n0 = n0 (K) ≥ 1 geldt, P{−K < Zn ≤ K} = Fn (K) − Fn (−K) ≥ 1 − 3.
(5.2)
De restrictie van de continue functie g tot het compacte interval [−K, K] is uniform continu. Dus bestaat er een δ = δ > 0 zodanig dat ∣g(x1 ) − g(x2 )∣ ≤ als ∣x1 − x2 ∣ ≤ δ en x1 , x2 ∈ [−K, K]. Stel m = max{j ≥ 0 ∶ jδ < 2K}. Beschouw de volgende partitie Ij , −m ≤ j ≤ m + 1 van [−K, K], I−m = [−K, −mδ/2[, Ij = [(j − 1)δ/2, jδ/2[, −m + 1 ≤ j ≤ m, Im+1 = [mδ/2, K].
(5.3)
HOOFDSTUK 5. ENKELE BELANGRIJKE LIMIETSTELLINGEN
58
Kies in elk interval Ij (j ≠ −m, m + 1) een getal tj ∈/ D(F ) (wat mogelijk is omdat D(F ) hoogstens aftelbaar is). Stel verder tm+1 = K, t−m = −K. Merk op dat dan geldt 0 < tj+1 − tj ≤ δ, −m ≤ j ≤ m en tj ∈/ D(F ), −m ≤ j ≤ m + 1. Stel h(x) = ∑m j=−m g(tj )I]tj ,tj+1 ] (x), x ∈ R. Wegens (5.3) geldt dan sup ∣g(x) − h(x)∣ ≤
(5.4)
x∈]−K,K]
Aangezien h(x) = 0 als x ∈/] − K, K] kunnen we nu concluderen dat ∣IE[g ○ Zn ] − IE[g ○ Z]∣ ≤ ∣IE[h ○ Zn ] − IE[h ○ Z]∣ + ∣IE[g ○ Zn ] − IE[h ○ Zn ]∣ +∣IE[g ○ Z] − IE[h ○ Z]∣ ≤ ∣IE[h ○ Zn ] − IE[h ○ Z]∣ + 2 + IE[∣g ○ Zn ∣I{Zn ∈/]−K,K]} ] +IE[∣g ○ Z∣I{Z/∈]−K,K]} ] Kies een M > 0 zodanig dat ∣g(x)∣ ≤ M, x ∈ R (de functie g is begrensd). Dan volgt wegens (5.1), (5.2) en (5.4) dat voor n ≥ n0 geldt, ∣IE[g ○ Zn ] − IE[g ○ Z]∣ ≤ ∣IE[h ○ Zn ] − IE[h ○ Z]∣ + (2 + 5M ). We kunnen willekeurig klein kiezen en dus is het voldoende te tonen dat IE[h ○ Zn ] → IE[h ○ Z] als n → ∞. h is een elementaire functie en dus hebben we m
IE[h ○ Zn ] = ∑ g(tj )(Fn (tj+1 ) − Fn (tj )), j=−m
waar Fn (tj ) → F (tj ), −m ≤ j ≤ m + 1 (omdat tj ∈/ D(F )). We zien nu dat m IE[h ○ Zn ] → ∑ g(tj )(F (tj+1 ) − F (tj )) = IE[h ○ Z], j=−m
en daarmee is (b) bewezen. (b) ⇒ (a) Neem x ∈/ D(F ). We moeten tonen dat P{Zn ≤ x} → P{Z ≤ x} als n → ∞. Zij > 0. Kies een continue functie gx, ∶ R → R zodanig dat I]−∞,x] ≤ gx, ≤ I]−∞,x+] . Dan geldt wegens monotonie van de verwachtingswaarde en (b) dat lim sup P{Zn ≤ x} ≤ lim sup IE[gx, ○ Zn ] = IE[gx, ○ Z] ≤ P{Z ≤ x + }. n→∞
n→∞
(5.5)
HOOFDSTUK 5. ENKELE BELANGRIJKE LIMIETSTELLINGEN
59
Dit geldt voor elke > 0. Aangezien P{Z ≤ x + } → P{Z ≤ x} als ↘ 0, kunnen we concluderen dat lim sup P{Zn ≤ x} ≤ P{Z ≤ x}. n→∞
Analoog volgt: lim inf P{Zn ≤ x} ≥ lim inf IE[gx−, ○ Zn ] = IE[gx−, ○ Z] ≥ P{Z ≤ x − }, > 0. n→∞
n→∞
Aangezien lim↘0 P{Z ≤ x − } = P{Z < x} = P{Z ≤ x} als x ∈/ D(F ), geldt er ook lim inf P{Zn ≤ x} ≥ P{Z ≤ x}, n→∞
waarmee (a) bewezen is. ⊔ ⊓ Opmerking Het is gekend dat er een C ∞ -functie 0 ≤ f ≤ 1 bestaat zodat f (x) = 1, x ≤ 0 en f (x) = 0, x ≥ 1. We kunnen in het bewijs “(b) ⇒ (a)” ook de functie gx, (z) = f ((z − x)/), z ∈ R nemen. ′ ≠ 0 alleen op Deze is een C ∞ -functie waarvoor ook alle afgeleiden begrensd zijn (omdat gx, het compact interval [x, x + ] mogelijk is). Dit betekent dat we convergentie in distributie hebben indien IE[g ○ Zn ] → IE[g ○ Z] voor alle begrensde functies g ∶ R → R waarvoor alle afgeleiden bestaan en begrensd zijn. Als Z een continue verdelingsfunctie heeft, volgt uit de definitie van convergentie in distributie dat de verdelingsfuncties Fn van Zn puntsgewijs naar deze van Z convergeren. In dit geval kan men nog meer bewijzen, namelijk dat de convergentie uniform is. Stelling 5.5 Zij Zn , n ≥ 1 een rij toevalsvariabelen die in distributie naar een toevalsvariabele Z convergeert. Als F (x) = P{Z ≤ x}, x ∈ R continu is, hebben we voor de verdelingsfuncties Fn (x) = P{Zn ≤ x}, x ∈ R van Zn , sup ∣Fn (x) − F (x)∣ → 0 als n → ∞. x∈R
Bewijs Zij 0 < < 1/2 en zij m = m ≥ 1 het unieke natuurlijke getal zodanig dat m < 1 ≤ (m + 1). Kies x1 < . . . < xm zodanig dat F (xi ) = i, 1 ≤ i ≤ m. (Deze bestaan omdat F continu is.) Stel x0 = −∞, xm+1 = ∞. Dan hebben we natuurlijk, sup ∣Fn (x) − F (x)∣ = max x∈R
sup ∣Fn (x) − F (x)∣ =∶ max ∆n,i ,
1≤i≤m+1 xi−1 ≤x≤xi
1≤i≤m+1
waar we Fn (−∞) = F (−∞) = 0 en Fn (∞) = F (∞) = 1 stellen. Wegens de monotonie van F en Fn hebben we voor 1 ≤ i ≤ m + 1, ∆n,i ≤ (Fn (xi ) − F (xi−1 )) ∨ (F (xi ) − Fn (xi−1 )) ≤ [(Fn (xi ) − F (xi )) ∨ (F (xi−1 ) − Fn (xi−1 ))] + ,
HOOFDSTUK 5. ENKELE BELANGRIJKE LIMIETSTELLINGEN
60
en bijgevolg geldt er, sup ∣Fn (x) − F (x)∣ ≤ max ∣Fn (xi ) − F (xi )∣ + = max ∣Fn (xi ) − F (xi )∣ + . x∈R
0≤i≤m+1
1≤i≤m
Aangezien Fn (xi ) → F (xi ) als n → ∞ (1 ≤ i ≤ m), zien we dat lim sup ∥Fn − F ∥∞ ≤ . n→∞
Dit impliceert dat de convergentie uniform is omdat we willekeurig klein kunnen kiezen. ⊔ ⊓ Stelling 5.6 (De centrale limietstelling (= CLT)) Zij Xn , n ≥ 1 een rij onafhankelijke identiek verdeelde toevalsvariabelen met eindige tweede momenten. Stel Sn ∶= ∑ni=1 Xi en µ = IE[X1 ], σ 2 = Var(X1 ). Zij verder Y een standaardnormaalverdeelde toevalsvariabele. Als σ 2 > 0, hebben we, Sn − nµ d √ Ð→ Y. nσ Opmerking De CLT in verband met stelling 5.5 impliceert onmiddellijk dat als I ⊂ R een interval is, Tn normaalverdeeld is met IETn = nµ en Var(Tn )= nσ 2 , n ≥ 1 er geldt: ∣P{Sn ∈ I} − P{Tn ∈ I}∣ → 0. Bovendien is deze convergentie ook uniform over de klasse van de intervallen in R. In het algemeen kunnen we echter niet concluderen dat P{Sn ∈ A} − P{Tn ∈ A} → 0 voor elke Borelverzameling A ∈ R. Een eenvoudig tegenvoorbeeld is de binomiaalverdeling, die we ook door de normaalverdeling kunnen benaderen, omdat binomiaal(n, p)-variabelen een representatie hebben als een som ∑ni=1 Xi , n ≥ 1, waar X1 , . . . , Xn onafhankelijke Bernoulli(p)variabelen zijn. Als Tn ∼ normaal(np, np(1 − p)) dan geldt voor A = {0, 1, 2, . . .}: P{Sn ∈ A} ≡ 1 en P{Tn ∈ A} ≡ 0, omdat de normaalverdeling absoluut continu is. Om de CLT te bewijzen hebben we nog een lemma nodig. Lemma 5.2 Laat X, Y, Z onafhankelijke toevalsvariabelen zijn en g ∶ R → R een begrensde functie waarvoor de afgeleiden g ′ , g ′′ , g ′′′ bestaan en begrensd zijn. Als IE[∣X∣3 ], IE[∣Y ∣3 ] < ∞, IE[X] = IE[Y ] en IE[X 2 ] = IE[Y 2 ], geldt: 1 IE[g(Z + X)] − IE[g(Z + Y )] ≤ ∥g ′′′ ∥∞ (IE[∣X∣3 ] + IE[∣Y ∣3 ]). 6 Bewijs We noteren eerst dat de afbeelding g continu en bijgevolg Borel-meetbaar is. Dus zijn g(Z + X) en g(Z + Y ) begrensde toevalsvariabelen waarvoor verwachtingswaarden bestaan. Uit Taylors stelling volgt dat ∣g(z + t) − (g(z) + tg ′ (z) + t2 g ′′ (z)/2)∣ ≤ ∥g ′′′ ∥∞ ∣t∣3 /6, t, z ∈ R. Uit de monotonie van de verwachtingswaarde in verband met stelling 4.6.iii volgt verder dat IE[g(X + Z)] ≤ IE[g(Z)] + IE[X]IE[g ′ (Z)] + IE[X 2 ]IE[g ′′ (Z)]/2 + ∥g ′′′ ∥∞ IE[∣X∣3 ]/6 en IE[g(Y + Z)] ≥ IE[g(Z)] + IE[Y ]IE[g ′ (Z)] + IE[Y 2 ]IE[g ′′ (Z)]/2 − ∥g ′′′ ∥∞ IE[∣Y ∣3 ]/6. Gezien IE[X] = IE[Y ] en IE[X 2 ] = IE[Y 2 ], is de bovenstaande ongelijkheid nu evident. ⊔ ⊓
HOOFDSTUK 5. ENKELE BELANGRIJKE LIMIETSTELLINGEN
61
Bewijs van de CLT (onder de extra-voorwaarde IE[∣X1 ∣3 ] < ∞) Zonder beperking van de algemeenheid kunnen we veronderstellen dat µ = 0 en σ = 1. (Vervang de toevalsvariabelen Xj door (Xj − µ)/σ indien nodig.) √ d In dit geval moeten we tonen dat Sn / n → Y , waar Y standaard normaal is. Daarvoor is het voldoende te bewijzen (zie opmerking na stelling 5.4) dat √ IE[g(Sn / n] → IE[g(Y )] voor elke begrensde functie waarvoor alle afgeleiden bestaan en begrensd zijn. Neem een rij onafhankelijke standaard-normaalverdeelde toevalsvariabelen Yn , n ≥ 1 die on√ afhankelijk is van de rij Xn , n ≥ 1. Dan is ook Tn = ∑nj=1 Yj / n standaard-normaalverdeeld (zie voorbeeld (2) in 3.5) en we hebben √ IE[g(Y )] = IE[g(Tn / n)] zodat het voldoende is te tonen √ Stel Xn,j = Xj / n, Yn,j
√ √ IE[g(Sn / n] − IE[g(Tn / n)] → 0 √ = Yj / n, 1 ≤ j ≤ n. Dan geldt er
n n √ √ ∣IE[g(Sn / n] − IE[g(Tn / n)]∣ = ∣IE[g(∑ Xn,j )] − IE[g(∑ Yn,j )]∣ j=1
j=1
n
n
j−1
j=1 n
i=j
i=1
n
j
i=j+1
i=1
= ∣ ∑{IE[g(∑ Xn,i + ∑ Yn,i )] − IE[g( ∑ Xn,i + ∑ Yn,i )]}∣ ≤ ∑ ∣IE[g(Zn,j + Xn,j )] − IE[g(Zn,j + Yn,j )]∣, j=1
waar Zn,j ∶= ∑ni=j+1 Xn,i + ∑j−1 i=1 Yn,i , 1 ≤ j ≤ n. Lemma 5.2 impliceert dat de laatste som begrensd is door ∥g ′′′ ∥∞ n ∥g ′′′ ∥∞ IE[∣X1 ∣3 ] + IE[∣Y1 ∣3 ] √ , ∑(IE[∣Xn,j ∣3 ] + IE[∣Yn,j ∣3 ]) = 6 j=1 6 n hetgeen natuurlijk de CLT onder de extra-voorwaarde IE[∣X1 ∣3 ] < ∞ impliceert. ⊔ ⊓ Toepassing (Roulette) Een gokker in Las Vegas zet altijd 1$ op “rood”. Wat is (in benadering) de kans dat hij/zij na (a) 100 (b) 1000 spelletjes niets verloren heeft? Oplossing Zij Sn = # successen ∼ binomiaal(n, 9/19), waar n het aantal spelletjes is. Dan geldt voor de toevalsvariabele Sn∗ = winst/verlies: Sn∗ = Sn − (n − Sn ) = 2Sn − n.Gezien Sn een representatie heeft als een som van n onafhankelijke Bernoulli(9/19)-variabelen, kunnen we via de CLT concluderen dat √ ⎛ n/2 − 9n/19 ⎞ P{Sn∗ ≥ 0} = P{Sn ≥ n/2} ≈ 1 − Φ √ = 1 − Φ( n/360) ⎝ n(9/19)(10/19) ⎠ Dus als n = 100 is de kans nog rond 0,2981 terwijl als n = 1000 de kans ongeveer gelijk aan 0,0918 is.