Kansrekening en Statistiek College 10 Donderdag 14 Oktober
1 / 71
1 Kansrekening
Indeling: • Bayesiaans leren
2 / 71
Bayesiaans leren
3 / 71
Bayesiaans leren: spelletje Vb. Twee enveloppen met kralen, waarvan 1 tevens e100 bevat:
•
•
•
•
•
•
•
e100 Iemand kiest willekeurig een envelop en biedt die te koop aan. • Hoeveel zou je moeten betalen? e50. Stel dat je eerst een willekeurige kraal uit de gekozen envelop mag nemen. • Als die kraal rose is, hoevel zou je dan moeten betalen? e60. • Als die kraal grijs is, hoevel zou je dan moeten betalen? e 300 ≈ 43. 7 De kans dat het de i e envelop is gegeven dat de kraal rose (r ) is: P(i | r ) =
P(r | i) . P(r | 1) + P(r | 2)
4 / 71
Bayesiaans leren Def. Bayesiaans leren heeft (in essentie) de volgende vorm: Er zijn een aantal hypotheses H1 , . . . , Hn die samen de uitkomstenruimte vormen. De hypotheses zijn meer of minder waarschijnlijk: de (initi¨ ele) bijbehorende verdeling is de a-priori verdeling, de kansen P(Hi ) zijn de a-priori kansen. Na het verkrijgen van nieuwe informatie/data/gebeurtenis E worden de kansen van de hypotheses aangepast volgens de stelling van Bayes: P(E | Hi )P(Hi ) . P(Hi | E ) = Pn j=1 P(E | Hj )P(Hj ) De kansen P(Hi | E ) zijn de a-posteriori kansen. De kansen P(E | Hi ) zijn de likelihoods van E . Leren: Op grond van telkens nieuwe data E1 , E2 , . . . wordt de verdeling van de hypotheses voortdurend aangepast, P0 , P1 , P2 , . . . : • P0 is de a-priori verdeling, waarbij P0 (Hi ) = P(Hi ). • Na het verkrijgen van data E1 wordt de nieuwe verdeling P1 , waarbij P1 (Hi ) = P0 (Hi | E1 ). • Na het verkrijgen van data E2 wordt de nieuwe verdeling P2 , waarbij P2 (Hi ) = P1 (Hi | E2 ). • Etc. 5 / 71
Bayesiaans leren: bias
Om de a-posteriori kansen P(Hi | E ) te berekenen moeten de a-priori kansen P(Hi ) en de likelihoods P(E | Hi ) bekend zijn. Def. De a-priori kansen geven de bias bij aanvang weer: Bij P(Hi ) > P(Hj ) wordt Hi waarschijnlijker geacht dan Hj . Bij P(Hi ) = P(Hj ) worden beide hypotheses even waarschijnlijk geacht. Na een update op grond van informatie E is de werkhypothese doorgaans een hypothese die op dat moment de hoogste waarschijnlijkheid heeft, dat wil zeggen een hypothese Hi waarvoor P(Hi | E ) het grootste is. Een hypothese wordt verworpen als de a-posteriori kans op de hypothese 0 is.
6 / 71
Bayesiaans leren
Vb. Een vaas bevat 3 ballen: 1 rode en 1 witte en van de derde bal is alleen bekend dat die wit of rood is. X is het aantal rode ballen. Beide waardes van X worden even waarschijnlijk geacht: P(X = 1) = P(X = 2) = 21 . Er wordt een bal uit de vaas getrokken, die rood blijkt te zijn. Wat is de waarschijnlijkheid dat X = 2? En dat X = 1? In de notatie van de Stelling van Bayes: Gebeurtenis E : de getrokken bal is rood. Gebeurtenis H: X = 1. Gebeurtenis H: X = 2. Omdat P(X = 1) = P(X = 2): P(X = 2 | E ) =
P(E | X = 2)P(X = 2) = P(E | X = 2)P(X = 2) + P(E | X = 1)P(X = 1)
P(E | X = 2) = P(E | X = 2) + P(E | X = 1) Dus P(X = 1 | E ) = 1 −
2 3
2 3 2 3
+
1 3
=
2 . 3
= 13 .
Op grond van gebeurtenis E is X = 2 dus waarschijnlijker.
7 / 71
Bayesiaans leren
Vb. Gegeven is een valse munt waarvan bekend is dat de kans p op K 0.42 of 0.43 is. Beide mogelijkheden worden even waarschijnlijk geacht: P(p = 0.42) = P(p = 0.43) = 0.5. De munt wordt 7 maal geworpen, X is het aantal maal K . Stel dat X = 3. Welke hypothese is op grond van deze informatie het waarschijnlijkste? P(X = 3 | p = 0.42) = P(X = 3 | p = 0.42) + P(X = 3 | p = 0.43) `7´ (0.42)3 (0.58)4 3 = 0.4997. `7´ `´ 3 (0.42) (0.58)4 + 73 (0.43)3 (0.57)4 3
P(p = 0.42 | X = 3) =
Dus P(p = 0.43 | X = 3) = 1 − 0.4997 = 0.5003 > 0.4997, en daarmee is p = 0.43 de meest waarschijnlijke hypothese op grond van de data “3 maal K bij 7 worpen”.
8 / 71
Bayesiaans leren Vb. Gegeven is een valse munt waarvan bekend is dat de kans p op K 0.42 of 0.43 is. Op grond van de verkregen informatie dat er bij het 7 maal werpen van de munt 3 maal K is gegooid (zie vorige slide), is de (nieuwe) verdeling van p: P(p = 0.42) = 0.4997 en P(p = 0.43) = 0.5003. De munt wordt nog eens 11 maal gegooid, Y is het aantal maal K . Stel dat Y = 4. Welke hypothese is op grond van deze informatie het waarschijnlijkste?
P(p = 0.42 | Y = 4) =
P(Y = 4 | p = 0.42)P(p = 0.42) P(Y = 4 | p = 0.42)P(p = 0.42) + P(Y = 4 | p = 0.43)P(p = 0.43)
`11´ (0.42)4 (0.58)7 (0.4997) 4 = `11´ = 0.51. ` ´ 4 7 (0.42) (0.58) (0.4997) + 11 (0.43)4 (0.57)7 (0.5003) 4 4 Dus P(p = 0.43 | X = 3) = 1 − 0.51 = 0.49 < 0.51, en daarmee is p = 0.42 de meest waarschijnlijke hypothese op grond van de laatste data “4 maal K bij 11 worpen”. Merk op: Hoewel de bias voor p = 0.42 (P(p = 0.42) = 0.4997) lager is dan die voor p = 0.43 (P(p = 0.43) = 0.5003) is de nieuwe informatie “4 maal K bij 11 worpen” zodanig dat daarna p = 0.42 toch het meest waarschijnijk is.
9 / 71
Bayesiaans leren
Vb. Voor een spamfilter is c het percentage spam van alle emails die het woord VIAGRA bevatten. Stel dat het filter aanneemt dat c 80% of 90% is, en aanvankelijk beide waardes voor even waarschijnlijk houdt: P(c = 80%) = P(C = 90%) = 0.5. Hierbij wordt aangenomen dat de verdeling van spam/niet-spam binomiaal is: als de ` ´ kans op spam p is, dan is de kans dat van n emails er k spam zijn kn p k (1 − p)n−k . Jij bent het spamfilter aan het trainen en van de 100 emails die het woord VIAGRA bevatten geef je aan dat er 98 spam zijn. Noem deze data/gebeurtenis E . Welke hypothese, c = 80% of c = 90%, is op grond van deze data de waarschijnlijkste? P(c = 90% | E ) =
P(E | c = 90%) = P(E | c = 90%) + P(E | c = 80%)
`100´ (0.9)98 (0.1)2 98 = 0.9999612. `100´ ` ´ 98 (0.8) (0.2)2 + 100 (0.9)98 (0.1)2 98 98 Daarmee is P(c = 80% | E ) = 1 − 0.9999612 < P(c = 90% | E ), en zoals verwacht is P(c = 90% | E ) de meest waarschijnlijke hypothese.
10 / 71
Bayesiaans leren
St. Als H1 , . . . , Hn een partitie van de uitkomstenruimte is en de a-priori kansen van de hypotheses zijn uniform verdeld, dan geldt voor elke gebeurtenis E : P(E | Hi ) P(Hi | E ) = . P(Hj | E ) P(E | Hj ) Bew. Bij een uniforme verdeling van de a-priori kansen (P(Hi ) = P(Hj ) voor alle i, j ≤ n) wordt de Stelling van Bayes (zie College 9): P(E | Hi ) P(Hi | E ) = Pn . h=1 P(E | Hh ) Dus P(Hi | E ) = P(Hj | E )
PnP(E | Hi ) P(E | Hh ) h=1 P(E | Hj ) Pn P(E | Hh ) h=1
=
P(E | Hi ) . P(E | Hj )
11 / 71
2 Statistiek
12 / 71
Statistiek?
• Bevordert luieren de fantasie? Psychologie • Werkt paracetamol? Geneeskunde • Welk van de twee betekenissen van bank komt het meeste voor? Lingu¨ıstiek
13 / 71
Statistiek
Doel: Op grond van data verkregen uit een steekproef een uitspraak doen over de populatie. Beschrijvende statistiek: data verkrijgen en classificeren. Deductieve statistiek: uit data conclusies trekken.
14 / 71
Vragen: peilingen
In hoeverre komt de verkiezingsuitslag overeen met de peilingen?
15 / 71
Vragen: lengte
Van 1000 Nederlanders wordt de lengte opgemeten. Het gemiddelde is 1.70m. Wat is de kans dat de gemiddelde lengte van Nederlanders 1.70m is?
16 / 71
Vragen: meten
Uit:
Hoe kan het vermoeden dat makelaars voor hun klanten niet altijd de beste prijs voor hun huis krijgen gemeten worden? Door de prijzen waarvoor makelaars hun eigen huis verkopen te vergelijken met die waarvoor ze de huizen van klanten verkopen: 3% hoger.
17 / 71
Vragen: suggestie
Zelfde informatie? y
y
4
4
3
3
2
2
1
1
0
1
2
3
4
x
0
2
4
6
8
x
18 / 71
Vragen:suggestie Zelfde informatie?
19 / 71
Vragen: steekproef
Op initiatief van onderzoeksbureau Trendbox, Miss Etam en communicatiebureau BSUR werd er onderzoek gedaan naar de Nederlandse vrouw en haar zelfbeeld. Zij vindt zichzelf (in %): • Betrouwbaar 62 • Eerlijk 50 • Sociaal 46 • Vriendelijk 46 • Trouw 46 • Vrolijk 32 • Serieus 25 • Onzeker 15 • Impulsief 14 • Sterk 12 Wat voor steekproef werd voor dit onderzoek gebruikt?
20 / 71
2 Statistiek
Vandaag: • Populatie en steekproef • Schaal • Score en frequentie • Grafieken
21 / 71
Populatie en steekproef
22 / 71
Populatie en steekproef
Def. Een populatie bevat alle elementen van een bepaalde groep. Een parameter is een eigenschap van de populatie. Een steekproef is een deelverzameling van de groep. Een statistiek is een eigenschap van de steekproef. Een constante is een eigenschap die hetzelfde is voor alle elementen van de populatie. Een variabele is een eigenschap die verschillende waardes kan aannemen voor verschillende elementen van de populatie.
23 / 71
Populatie en steekproef
Vb. • Populatie: Nederlanders. • Steekproef: een groep Nederlanders. • Parameter: de gemiddelde lengte van alle Nederlanders. • Statistiek: de gemiddelde lengte van een groep Nederlanders. • Constante: de eigenschap Nederlander. • Variabele: de eigenschap vrouw. • Populatie: alle moleculen is een gegeven glas water. • Steekproef: alle moleculen in een slok water uit dat glas. • Parameter: het gemiddelde aantal waterstofmoleculen in het glas. • Statistiek: het gemiddelde aantal waterstofmoleculen in de slok. • Constante: de eigenschap molecuul. • Variabele: de eigenschap zuurstofmolecuul.
24 / 71
Schaal
25 / 71
Schaal
Def. Data kunnen op de volgende wijze geclassificeerd worden: • nominale schaal: classiferen zonder ordening. • ordinale schaal: classiferen in geordende categori¨ en. • intervalschaal: een ordinale schaal waarbij elke schaal uit evenveel eenheden bestaat. • ratioschaal: een intervalschaal waarbij er een werkelijk nulpunt is.
26 / 71
Nominale schaal
Vb. Het aantal verkochte ijsjes in een ijskraam per smaak per dag: vanille
pistache
straciatelle
100
180
110
De categorie¨ en zijn ongeordend.
27 / 71
Ordinale schaal
Vb. De indeling van ziekenhuizen in de provincie Utrecht naar hygi¨ ene: onvoldoende
voldoende
goed
zeer goed
3
6
7
4
De categorie¨ en zijn geordend: onvoldoende < voldoende < goed < zeer goed.
28 / 71
Intervalschaal
Vb. De verdeling van de cijfers bij een wiskunde tentamen zijn: 1 0
2 1
3 2
4 7
5 1
6 5
7 8
8 4
9 2
10 2
De categorie¨ en zijn geordend en bestaan elk uit evenveel eenheden. Bijvoorbeeld, het verschil tussen een categorie en de eerstvolgende categorie is voor elke categorie 1.
29 / 71
Ratioschaal
Vb. De aanwezigheid van een giftige stof (in mg.) in laboranten: 0 5
1 10
2 8
3 4
4 3
5 2
6 0
De categorie¨ en zijn geordend, bestaan elk uit evenveel eenheden en er is een werkelijk nulpunt. Dit is de enige schaal waarin de ratio van twee categorie¨ en bestaat. Bijvoorbeeld, een laborant uit categorie 2 bevat half zoveel gif als een laborant uit categorie 4: mg. gif in categorie 2 = 0.5. mg. gif in categorie 4
30 / 71
Score en frequentie
31 / 71
Score en frequentie
Def. De score of waarde is de waarde van een waarneming. Vb. Het aantal biertjes dat verkocht wordt per avond in de cafe’s X , Y , Z : X 100
Y 70
Z 180
De scores zijn 70, 100 en 180. Vb. Het aantal kinderen per persoon van 5 personen A, B, C , D, E : A 0
B 2
C 1
D 0
E 3
De scores zijn 0, 0, 1, 2 en 3.
32 / 71
Score en frequentie
Vb. Armoede in Zuid-Afrika:
Er zijn 9 scores: 2%, 4%, 4%, 9%, 9%, 11%, 16%, 22%, 23%. De frequentie van score 4 is 2, van score 9 ook, en de frequentie van de overige scores is 1.
33 / 71
Score en frequentie
Def. Een frequentie distributie geeft per categorie het aantal scores in die categorie weer. Def. Een cumulatieve frequentie distributie geeft per categorie het aantal scores in die categorie en in de categorie¨ en beneden die categorie weer.
34 / 71
Score en frequentie
Vb. Het aantal computers per gezin in een bepaald dorp: aantal computers frequentie
0 4
1 3
2 7
3 10
4 15
5 20
6 11
7 9
8 10
9 6
10 4
11 1
35 / 71
Score en frequentie
De representatie van data kan op twee manieren: De categorie¨ en zijn de elementen waaraan waargenomen wordt, en elk bevat de waarde van die waarneming (de score). De categorie¨ en zijn de waardes van de waarnemingen (de scores), en elk bevat het aantal voorkomens van die score (de frequentie). Uit de eerste representatie kan de tweede afgelezen worden, maar niet vice versa.
36 / 71
Score en frequentie
Vb. Het aantal computers per huis in een dorp met 9 huizen, waarbij de categorie¨ en de scores bevatten: huizen aantal computers
H1 2
H2 3
H3 0
H4 2
H5 5
H6 2
H7 3
H8 1
H9 7
Het aantal computers per huis in hetzelfde dorp, waarbij de categorie¨ en de scores zijn en hun inhoud de frequentie van het voorkomen van die score: aantal computers aantal huizen
0 1
1 1
2 3
3 2
4 0
5 1
6 0
7 1
37 / 71
Score en frequentie: klassenintervallen
Def. Verschillende categorie¨ en kunnen samen een klasse vormen en de frequentie distributie geeft dan het aantal voorkomens in de verschillende klassen weer. Het aantal categorie¨ en in een klasse is de klassenbreedte van een groep. Het is het beste om de klassenbreedte oneven te kiezen, zodat het middelpunt geen breuk is.
38 / 71
Score en frequentie: klassenintervallen
Vb. Het aantal computers per gezin in een bepaald dorp geclassificeerd met klassenbreedte 3: aantal computers
0-2
3-5
6-8
9-11
frequentie
14
45
30
11
39 / 71
Score en frequentie: klassenintervallen
Def. Wanneer de categorie¨ en als continu beschouwd kunnen worden vallen de elementen van een categorie eigenlijk alleen binnen zekere grenzen, de exacte klassengrenzen. Meestal zijn de exacte klassengrenzen een halve eenheid onder en boven de klassengrenzen. Er wordt aangenomen dat de scores in een klasseninterval uniform verdeeld zijn over het interval en adequaat gerepresenteerd worden door het middelpunt.
40 / 71
Score en frequentie: klassenintervallen
Vb. De lengtes van een groep studenten in centimers: klassenintervallen
frequentie
exacte grenzen
middelpunt
151-160 161-170 171-180 181-190 191-200
4 10 9 8 2
150.5-160.5 160.5-170.5 170.5-180.5 180.5-190.5 190.5-200.5
155 165 175 185 195
41 / 71
Grafieken
Huiswerk: pagina’s 26-37.
42 / 71
Finis
43 / 71