Overzicht
Statistiek voor Informatica Hoofdstuk 2: Voorwaardelijke kansen
Voorwaardelijke kans
Cursusjaar 2009
Rekenregels Onafhankelijkheid
Peter de Waal Voorwaardelijke Onafhankelijkheid Departement Informatica
Voorbeelden
Hfdstk 2:
1 / 42
Voorbeeld: Probabilistisch redeneren
Hfdstk 2: Inleiding
Voorwaardelijke kans Voorbeeld 1
Een pati¨ent heeft mogelijk last van griep, verkoudheid of beide.
Zuivere dobbelsteen
Een verkouden pati¨ent heeft met kans 60% last van hoestbuien
D = uitslag van worp met dobbelsteen
Een verkouden pati¨ent heeft kans 10% op hoofdpijnklachten. Een pati¨ent met griep heeft kans 20% op hoestbuien.
P(D = i) = 16 , voor i = 1, ..., 6,
Een pati¨ent met griep heeft kans 70% op hoofdpijn.
P(D = even) = P(D = oneven) = 12 .
Vragen
Wat is de kans op (D = 4) als gegeven is (D = even)? Antwoord
De pati¨ent verteld dat hij last heeft van hoestbuien. Hoe groot is de kans dat hij griep heeft?
# uitkomsten (D = even) = 3
Hij zegt dat hij ook last heeft van hoofdpijn. Hoe groot is de kans nu dat hij griep heeft?
Hfdstk 2: Inleiding
2 / 42
3 / 42
# uitkomsten (D = 4) binnen gebeurtenis (D = even) = 1 Kans (D = 4) gegeven (D = even) = 13
Hfdstk 2: Inleiding
4 / 42
Voorwaardelijke kans
Voorwaardelijke Kans
Voorbeeld 2
Een voorwaardelijke kans is een kans op een gebeurtenis, zeg A, waarbij bekend is dat gebeurtenis B optreedt.
In een klinische studie zijn 10000 mannen boven de 40 jaar onderzocht op hypertensie en obesitas.
obesitas geen obesitas
hypertensie 1498 504 2002
geen hypertensie 1513 6485 7998
We noteren dit als P(A | B). Het is de kans dat A optreedt, als we de uitkomsten beperken tot B.
3011 6989 10000
In een symmetrische kansruimte kunnen de voorwaardelijke kans uitrekenen door aantallen te delen: P(A | B) =
Wat is de kans dat een patient obesitas heeft als je weet dat hij hypertensie heeft? Aantal mannen met hypertensie = 2002
P(A | B) =
Aantal obesitas binnen groep hypertensie = 1498 1498 2002
Hfdstk 2: Inleiding
Notatie: AB betekent A ∩ B!
Als we teller en noemen delen door het aantal elementen van de uitkomstenruimte S, dan krijgen we:
Antwoord
Kans (obesitas gegeven hypertensie) is
#(AB) #(B)
P(AB) P(B)
= 0.75. 5 / 42
Hfdstk 2: Inleiding Definitie
6 / 42
Venn diagram In een Venn diagram zijn de onvoorwaardelijke kansen:
Definitie (Voorwaardelijke kans)) Als A en B twee mogelijke gebeurtenissen zijn met P(B) > 0, dan is de voorwaardelijke (of conditionele) kans op A gegeven B gedefini¨eerd als P(A | B) =
P(A ∩ B) P(AB) = P(B) P(B)
S
B
A AB
en de voorwaardelijke kansen gegeven B:
Als P(B) = 0, dan is P(A|B) niet gedefinieerd. B AB
Hfdstk 2: Inleiding Definitie
7 / 42
Hfdstk 2: Inleiding Definitie
8 / 42
Eigenschappen
Speciaal geval De “gewone” kans die we al eerder gedefini¨eerd hadden, is eigenlijk een speciaal geval van een voorwaardelijke kans, n.l. P(A) = P(A ∩ S) =
P(A ∩ S) = P(A | S) P(S)
Voor voorwaardelijke kansen gelden dezelfde soort eigenschappen als voor gewone kansen.
Eigenschappen Voor voorwaardelijke kansen gelden de kansaxioma’s. Als P(B) > 0, dan geldt namelijk:
P(∅ | B) = 0 P(AC | B) = 1 − P(A | B)
P(A | B) ≥ 0; P(A ∪ C | B) = P(A | B) + P(C | B) − P(A ∩ C | B) P(S | B) = 1; [ X ∞ ∞ P Ai | B = P(Ai | B) voor disjuncte Ai ; i=1
mits P(B) > 0.
i=1
De voorwaardelijke kans gegeven B is dus ook weer een kansmaat. Hfdstk 2: Inleiding Eigenschappen
9 / 42
Voorbeeld
Hfdstk 2: Inleiding Eigenschappen
10 / 42
Rekenregel 1: Vermenigvuldigingsregel Er geldt P(A | B) =
P(AB) en dus ook P(B)
P(AB) = P(A | B)P(B)
Vraag: Wat is de kans op P(A\B)? Vraag: Wat is de kans op P (A\B) | B ?
Er geldt natuurlijk ook P(B | A) =
P(AB) en dus P(A)
P(AB) = P(B | A)P(A)
Hfdstk 2: Inleiding Eigenschappen
11 / 42
Hfdstk 2: Rekenregels Vermenigvuldigingsregel
12 / 42
Vermenigvuldigingsregel (vervolg)
Voorbeeld 3 Vaas met r rode ballen en b blauwe ballen: trek twee willekeurige ballen zonder terugleggen. Wat is de kans dat de eerste bal rood is en de tweede blauw? Oplossing: I noem gebeurtenis R = (eerste bal is rood) 1 I
Rekenregel 1: Vermenigvuldigingsregel (Algemeen) Als A, B, . . . , Z gebeurtenissen zijn waarvoor geldt P(ABC · · · Z) > 0, dan is
noem gebeurtenis B2 = (tweede bal is blauw) r P(R1 ) = r+b
P(B2 | R1 ) = P(R1 B2 ) =
Er geldt P(AB) = P(B | A)P(A) en dus ook P(ABC) = P (AB)C = P(C | AB)P(AB) = P(C | AB)P(B | A)P(A)
P(ABC · · · Z) = P(Z | AB · · · Y) · · · P(C | AB)P(B | A)P(A)
b r+b−1 Voorbeeld 3 (vervolg) Vraag: Wat is
b r × r+b r+b−1
P(eerste bal rood, tweede bal blauw en derde bal rood)? Hfdstk 2: Rekenregels Vermenigvuldigingsregel
Hfdstk 2: Rekenregels Vermenigvuldigingsregel
13 / 42
14 / 42
Voorbeeld 3 (vervolg) Rekenregel 2: Regel van Totale Kans (Conditionering)
Vaas met r rode ballen, b blauwe ballen.
Als
Wat is de kans dat de tweede bal blauw is?
de uitkomsten A1 , A2 , . . . , AN elkaar uitsluiten,
Oplossing
P(Ai ) > 0, voor elke i = 1, . . . , N, en PN i=1 P(Ai ) = 1,
noem gebeurtenis R1 = (eerste bal is rood) noem gebeurtenis B2 = (tweede bal is blauw) P(B2 ) = P R1 ∪ RC 1 B2
dan geldt voor elke gebeurtenis B:
= P(R1 B2 ) + P(RC 1 B2 ) = P(R1 )P(B2 | R1 ) + =
P(B) =
N X
P(B | Ai )P(Ai )
i=1
C P(RC 1 )P(B2 | R1 )
b r+b
Hfdstk 2: Rekenregels Totale kans
15 / 42
Hfdstk 2: Rekenregels Totale kans
16 / 42
Voorbeeld 4
Voorbeeld 4 (vervolg)
Drie machines M1 , M2 , M3 produceren items: percentage productie percentage defect
M1 20 1
M2 30 2
M3 50 3
Drie machines M1 , M2 , M3 produceren items: percentage productie percentage defect
We kiezen willekeurig 1 item uit de totale productie. Wat is de kans dat dit item kapot is?
M1 20 1
M2 30 2
M3 50 3
We kiezen willekeurig 1 item uit de totale productie, en dit blijkt kapot te zijn.
Benoem de uitkomsten:
Wat is de kans dat dit item door M2 gemaakt is?
Mi = (het geselecteerde item komt uit machine Mi ). D = (het geselecteerde item is defect). We kennen P(D | M1 ), P(D | M2 ), P(D | M3 ). Vraag: Hoe berekenen we P(D)? Hfdstk 2: Rekenregels Totale kans
17 / 42
Voorbeeld 4 (Uitwerking)
goed defect totaal
M2 0,294 6 300
M3 0,485 15 500
=
De Regel van Bayes Als
totaal 0,977 23 1000
De gevraagde kans is P(M2 | D) =
18 / 42
Rekenregel 3 (Regel van Bayes)
Bekijk een “gemiddelde” productierun van 1000 items: M1 0,198 2 200
Hfdstk 2: Rekenregels Regel van Bayes
P(B) > 0 en de uitkomsten A1 , A2 , . . . , AN elkaar uitsluiten, P(Ai ) > 0, voor elke i = 1, . . . , N, en PN i=1 P(Ai ) = 1,
P(M2 D) P(D | M2 )P(M2 ) = P(D) P(D)
P(D | M2 )P(M2 ) P(D | M1 )P(M1 ) + P(D | M2 )P(M2 ) + P(D | M3 )P(M3 )
dan geldt voor elke i: P(B | Ai )P(Ai ) P(Ai | B) = PN j=1 P(B | Aj )P(Aj )
Hfdstk 2: Rekenregels Regel van Bayes
19 / 42
Hfdstk 2: Rekenregels Regel van Bayes
20 / 42
A priori en a posteriori kans
Voorbeeld 5
De kansen uit de stelling van Bayes hebben een naam: De kansen P(Ai ) zijn gegeven voor het uitvoeren van het experiment (voordat een item geselecteerd is, en voordat bekend is of het defect is) en heten a priori kansen. De kans P(Ai | B) is een kans op de gebeurtenis Ai (item gemaakt door machine i) als gegeven is dat gebeurtenis B optreedt (item defect). Dit heet een a posteriori kans.
Uit bestanden met medische gegevens blijkt dat in een bepaalde groep pati¨enten tussen 35 en 40 jaar 1% kans hebben om longontsteking te ¨ krijgen. Longontsteking kan gedetecteerd worden op rontgenfoto’s. We beschouwen een willekeurige pati¨ent uit de groep tussen 35 en 40 jaar. Benoem nu: K: de gebeurtenis dat deze pati¨ent longontsteking heeft ¨ R: de gebeurtenis dat een rontgenfoto een ontsteking aantoont. Uit de medische gegevens weten we: P(K) = 0.01, ¨ Uit gegevens over de rontgenapparatuur weten we P(R | K) = 0.9, P(¬R | ¬K) = 0.95. ¨ Er wordt een rontgenfoto gemaakt en op die foto wordt een ontsteking waargenomen. Hoe groot is de kans dat de pati¨ent longontstekling heeft?
Hfdstk 2: Rekenregels Regel van Bayes
22 / 42
Hfdstk 2: Rekenregels Regel van Bayes
23 / 42
Antwoord P(K | R) =
=
Voorbeeld 5
P(K ∩ R) P(R)
Als je een willekeurige kaart trekt uit een kaartspel van 52 kaarten, wat is de kans dat je een aas trekt?
P(R | K)P(K) P(R | K)P(K) + P(R | ¬K)P(¬K)
Wat is de kans dat je een aas trekt, als je weet dat de kaart rood is? Voorbeeld 6
= ...
Als je tweemaal met een dobbelsteen gooit, wat is de kans dat de tweede worp 6 is? Wat is die kans als je weet dat je de eerste keer een 6 geworpen hebt?
= ...
Hfdstk 2: Rekenregels Regel van Bayes
24 / 42
Hfdstk 2: Onafhankelijkheid
25 / 42
Soms heeft het optreden van gebeurtenis B geen invloed op het optreden van gebeurtenis A. Dan geldt
Definitie (Onafhankelijkheid) Twee gebeurtenissen A en B heten onafhankelijk (ook wel: onderling onafhankelijk, afgekort tot o.o.) als
P(A | B) = P(A). Als dit geldt dan spreken we van de onafhankelijkheid van de twee gebeurtenissen A en B. Er geldt dan P(A) = P(A | B) e´ n P(A | B) =
P(AB) = P(A)P(B)
P(AB) P(B)
We kunnen onafhankelijkheid ook defini¨eren met behulp van voorwaardelijk kansen:
Definitie (Onafhankelijkheid)
oftewel
Twee gebeurtenissen A en B met P(A) > 0 en P(B) > 0 heten o.o. als
P(AB) = P(A)P(B) In het algemeen gebruiken we de laatste formulering als definitie van onafhankelijkheid.
Hfdstk 2: Onafhankelijkheid
26 / 42
P(A | B) = P(A) en P(B | A) = P(B).
Hfdstk 2: Onafhankelijkheid Definities
27 / 42
Voorbeeld Definitie (Paarsgewijze onafhankelijkheid) De gebeurtenissen A1 , A2 , . . . , An , heten paarsgewijs onafhankelijk als elk tweetal gebeurtenissen onafhankelijk is.
Definitie (Onafhankelijkheid van verzameling gebeurtenissen) Een verzameling van gebeurtenissen A1 , A2 , . . . , An , heet onafhankelijk als voor elke deelverzameling van gebeurtenissen Ai1 , Ai2 , . . . , Aik , (k ≤ n), geldt
P(AB) P(AC) P(BC) P(ABC)
= = = =
P(A)P(B) P(A)P(C) P(B)P(C) P(A)P(B)P(C)
Bij 20 keer werpen met een dobbelsteen zijn de uitkomsten van afzonderlijke worpen onafhankelijk.
P(Ai1 Ai2 · · · Aik ) = P(Ai1 )P(Ai2 ) · · · P(Aik )
Hfdstk 2: Onafhankelijkheid Definities
Drie gebeurtenissen A, B en C zijn o.o. als
28 / 42
Hfdstk 2: Onafhankelijkheid Definities
29 / 42
Voorbeeld 7
1
2
3
4
Definitie (Conditionele onafhankelijkheid) Voor een gebeurtenis B met P(B) > 0 heten A1 en A2 onafhankelijk gegeven B, als P(A1 A2 | B) = P(A1 | B)P(A2 | B)
A = {1, 2}, B = {1, 3}, C = {1, 4} A, B en C paarsgewijs onafhankelijk, immers: I I I
P(AB) =
1 4
= P(A)P(B)
P(AC) =
1 4
= P(A)P(C)
P(BC) =
1 4
= P(B)P(C)
Een equivalente definitie is: Voor drie gebeurtenissen A1 , A2 en B met P(A1 B) > 0 en P(A2 B) > 0 noemen we A1 en A2 onafhankelijk gegeven B als P(A1 | A2 B) = P(A1 | B)
en
P(A2 | A1 B) = P(A2 | B).
A, B, C niet onafhankelijk, want: I
P(ABC) =
1 4
6= P(A)P(B)P(C) =
1 8
Hfdstk 2: Onafhankelijkheid Definities
Hfdstk 2: Onafhankelijkheid Conditionele onafhankelijkheid
30 / 42
31 / 42
Voorbeeld 8
Interpretatie Conditionele onafhankelijkheid (equivalente definitie) P(A1 | A2 B) = P(A1 | B)
We hebben twee flippo’s, waarvan flippo no. 1 een rode en een blauwe kant heeft, en flippo no. 2 een groene en een gele kant. We nemen willekeurig e´ e´ n van de flippo’s en werpen twee keer met deze flippo. We noemen de gebeurtenissen:
en P(A2 | A1 B) = P(A2 | B)
Als A1 en A2 onafhankelijk zijn gegeven B, dan kunnen we dit interpreteren als:
F2 = flippo no. 2 is gekozen;
Als we weten dat gebeurtenis B optreedt, dan is alle informatie over het eventuele optreden van A2 irrelevant met betrekking tot het eventuele optreden van A1 .
G1 = de eerste worp is geel; G2 = de tweede worp is geel;
en
Vraag Zijn G1 en G2 onafhankelijk?
Als we weten dat gebeurtenis B optreedt, dan is alle informatie over het eventuele optreden van A1 irrelevant met betrekking tot het eventuele optreden van A2 .
Hfdstk 2: Onafhankelijkheid Conditionele onafhankelijkheid
Zijn G1 en G2 onafhankelijk gegeven F2 ?
32 / 42
Hfdstk 2: Onafhankelijkheid Conditionele onafhankelijkheid
33 / 42
Voorbeeld 9
Voorbeeld 10
Een onderzoek bij 1000 pati¨enten levert de volgende data op griep verkoudheid hoofdpijn aantal 380 x 280 x 60 x x 10 x 20 x x 120 x x 40 x x x 90 1000
We hebben twee munten: een zuivere munt A met Kop en Munt, en een “zuivere” munt B met tweemaal Kop. We trekken aselect e´ e´ n munt en gooien hiermee Benoem de gebeurtenissen: A B K1 M1
munt A getrokken munt B getrokken eerste worp is Kop eerste worp is Munt
De eerste worp blijkt Kop. Wat is de kans dat we munt A getrokken hebben?
Vraag: Is verkoudheid onafhankelijk van hoofdpijn?
P(A | K1 ) =
Vraag: Is verkoudheid onafhankelijk van hoofdpijn, gegeven griep? Hfdstk 2: Onafhankelijkheid Conditionele onafhankelijkheid
: : : :
34 / 42
Voorbeeld 10 (Vervolg)
P(K1 | A)P(A) = P(K1 | A)P(A) + P(K1 | B)P(B)
1 2
∗
1 2 1 2
1 2 + 21
∗
∗1
=
Hfdstk 2: Onafhankelijkheid Recursieve berekening
1 3
35 / 42
Voorbeeld 10 (Vervolg) Manier 2: Gebruik een conditionele versie van de Regel van Bayes:
We werpen dezelfde munt voor de tweede keer en weer krijgen we Kop. Wat is nu de kans dat we munt A getrokken hebben? Manier 1:
P(A | K2 ) =
P(A | K1 K2 ) =
=
=
P(K1 K2 | A)P(A) P(K1 K2 | A)P(A) + P(K1 K2 | B)P(B)
P(A | K1 K2 ) =
P(K1 | A)P(K2 | A)P(A) P(K1 | A)P(K2 | A)P(A) + P(K1 | B)P(K2 | B)P(B)
1 2
∗
1 2
1 2
∗
∗
1 2
1 2
∗
1 2
+1∗1∗
1 2
=
=
1 5
Hfdstk 2: Onafhankelijkheid Recursieve berekening
= 36 / 42
P(K2 | A)P(A) P(K2 | A)P(A) + P(K2 | B)P(B) P(K2 | AK1 )P(A | K1 ) P(K2 | AK1 )P(A | K1 ) + P(K2 | BK1 )P(B | K1 ) P(K2 | A)P(A | K1 ) P(K2 | A)P(A | K1 ) + P(K2 | B)P(B | K1 )
1 2
∗
1 2 1 3
∗
1 3
+1∗
Hfdstk 2: Onafhankelijkheid Recursieve berekening
2 3
=
1 5 37 / 42
Toepassing: Spamfiltering
P(SPAM | w1 ∧ w2 ∧ . . . ∧ wn ) voldoende groot is, P(HAM | w1 ∧ w2 ∧ . . . ∧ wn ) dan besluit het filter dat het email bericht SPAM is.
Als de verhouding Een spamfilter besluit op grond van het voorkomen van bepaalde woorden in een email bericht of het spam of ham. Een Bayesian spamfilter gebruikt hiervoor voorwaardelijke kansen en de regel van Bayes. Het werkt als volgt: Geef de verschillende woorden in een email bericht aan met w1 , w2 , . . . , wn . Het filter berekent P(SPAM | w1 ∧ w2 ∧ . . . ∧ wn )
P(SPAM | w1 ∧ . . . ∧ wn ) =
P(w1 ∧ . . . ∧ wn | SPAM)P(SPAM) P(w1 ∧ . . . ∧ wn )
P(HAM | w1 ∧ . . . ∧ wn ) =
P(w1 ∧ . . . ∧ wn | HAM)P(HAM) P(w1 ∧ . . . ∧ wn )
en dus ook P(SPAM | w1 ∧ . . . ∧ wn ) P(w1 ∧ . . . ∧ wn | SPAM)P(SPAM) = P(HAM | w1 ∧ . . . ∧ wn ) P(w1 ∧ . . . ∧ wn | HAM)P(HAM)
en P(HAM | w1 ∧ w2 ∧ . . . ∧ wn ).
Hfdstk 2: Onafhankelijkheid Toepassing Spamfiltering
38 / 42
Bij benadering geldt P(w1 ∧ . . . ∧ wn | SPAM) ≈
Hoe berekenen we P(SPAM | ·) en P(HAM | ·)? Met de Regel van Bayes!
Hfdstk 2: Onafhankelijkheid Toepassing Spamfiltering
39 / 42
De kansen n Y
P(SPAM) P(wi | SPAM)
P(HAM) = 1 − P(SPAM)
i=1
P(wi | SPAM)
en
P(wi | HAM) P(w1 ∧ . . . ∧ wn | HAM) ≈
n Y
worden bepaald door te leren uit data. Dit gebeurt P(wi | HAM).
initi¨eel met een trainingsset van berichten;
i=1
adaptief aan de hand van nieuwe berichten.
P(SPAM | ·) wordt nu gelijk aan P(HAM | ·) Q P(SPAM) ni=1 P(wi | SPAM) P(SPAM | w1 ∧ . . . ∧ wn ) Q = P(HAM | w1 ∧ . . . ∧ wn ) P(HAM) ni=1 P(wi | HAM)
Deze methode van filtering waarbij de benadering Y P(w1 ∧ . . . ∧ wn | SPAM) ≈ P(wi | SPAM),
De verhouding
Hfdstk 2: Onafhankelijkheid Toepassing Spamfiltering
i
gebruikt wordt, heet na¨ıef Bayes filtering.
40 / 42
Hfdstk 2: Onafhankelijkheid Toepassing Spamfiltering
41 / 42
Met de stof van Hoofdstuk 2 moet je kunnen
Voorwaardelijke kansen herkennen (“als gegeven is. . . ”, “als je weet dat. . . ”) e´ n uitrekenen. De rekenregels voor voorwaardelijke kansen toepassen om kansen uit te rekenen die rechtstreeks in de probleemomschrijving staan. (On)afhankelijkheid van gebeurtenissen afleiden Voorwaardelijke (on)afhankelijkheid afleiden Begrijpen hoe een Bayes spamfilter werkt.
Hfdstk 2: Onafhankelijkheid Toepassing Spamfiltering
42 / 42